韦德国际娱乐,韦德娱乐官网,韦德国际欢迎您

学术快讯???News
联系我们???Contact
搜索???Search
你的位置:首页 > 学术快讯 > 最新资讯

知网检测系统相似度计算的规则原理

2017-3-21 3:18:48??????点击:
分享到:

知网检测系统相似度计算的规则原理

  摘要:对知网检测系统的句子相似度计算方法进行了改进,对句子进行分词处理后,利用句子的结构信息,对每个已经切分的词语进行功能语块的标注,对不同语块词语进行比较处理,以确定其权值。实验表明,考虑句子的功能成分从而计算句子相似度的方法是可行的,并且能够取得较好的效果。

  关键词: 知网检测;相似度;知网检测系统;功能语块
  对词语的语义相似度计算在非常多的领域中有着广泛的应用,例如信息检索、文本分类、词义排歧、信息抽取、基于实例的机器翻译等等。其中在词语语义相似的基础上进行句子相似度计算又有着非常广泛的应用背景,例如自动问答系统中问题与答案的最佳匹配、自动文摘系统中通过计算句子相似度抽取文摘句,信息过滤技术中的句子匹配、基于实例的机器翻译中通过计算句子相似度来以该句子的译文为模板生成最佳的翻译结果等。目前计算句子相似度的方法主要有以下两种方法:基于词语共现的统计方法和基于词语的语义信息的分析方法,前一种方法主要是采用字符串匹配,在两个待比较的句子中,计算相同的词语个数与两个句子总词数的比例,如北京大学计算语言所提出的一种句子相似度计算公式:
  其中m,n 分别表示两个句子的词数。而c 是两个句子中相同词的数目,这种方法虽然非常简单高效,但是忽视了词汇的词法和语义信息,句子的相似停留在词形的匹配上,不能区别在语义上相似的句子,缺乏对语义的理解和支持,因此在计算句子相似度上不够准确。后一种种方法虽然考虑到了词语的语义信息,能够区别在语义上相似的句子,但是没有充分利用句子的结构信息,即各个词语在句中的成分。笔者在综合考虑了这两种方法的优缺点之后,提出了一种基于知网检测系统的句子相似度的计算方法。该方法在对句子进行功能语块标注的基础上,对处于相同功能语块的词语赋予较大的权值,对处于不相同功能语块的词语赋予较小的权值,然后利用利用《知网检测》【1】对经过分词的语句的词语集进行加权平均来计算句子的相似度。这样不仅考虑了句子中词语的语义信息,而且通过分析词语在句中充当的组成成分,充分利用了句子的结构信息,从而对语义且句型结构相似的句子的相似性有了更加准确地描述。
  1 基于《知网检测》的词语语义相似度计算
  词语的语义相似度计算主要有两种方法:一种是基于世界知识或分类体系的方法,这种方法需要借助某种领域知识,例如本体库的建立,或比较完备的大型语义词典,现在比较成熟的词典有根据其概念间的上下位关系和同位关系计算词语相似度的WordNet和《同义词词林》[2],以及根据义原的上下位关系计算词语相似度的《知网检测》,另一种是应用也比较广泛的基于统计的上下文向量空间模型方法[3](VSM),该方法需要借助于大规模语料,能够对词语的语义相似性进行比较精确的度量,但是计算量比较大, 而且计算方法复杂。这里我们采用了语义知识描述得比较详尽的《知网检测》作为词语语义相似度计算的词典。
  《知网检测》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[1]。《知网检测》中对词语语义的描述是通过“概念”阐述的,每一个词语可以表达为几个概念,即同一个词语在不同的上下文会有不同含义。本文为了便于讨论没有对词义进行排歧,概念的选取见下文。概念又是由“义原”来描述的。“义原”是描述一个“概念”的最小意义单位。“义原”之间存在着多种关系,其中非常重要是上下位关系,根据义原间的这种关系,所有的“基本义原”组成了一个义原层次体系(如图1 )。这个义原层次体系是一个树状结构,这是我们进行词语语义相似度计算的基础。
  2 句子相似度计算
  目前,基于《知网检测》的句子相似度计算主要方法是通过计算两个句子包含的词语集的相似度来得到句子的相似度,例如对于两个句子S1和S2,先通过分词处理,排除那些对句子相似度计算作用不大的虚词、数词、介词等词语,只对一些对句子语义有重要影响的的名词,形容词等进行处理,分别得到各自的词语集,句子S1有n个词语:W11,W12,…W1n。句子S2有m个词语:W21,W22,…W2m。词语集的相似度的计算参考了刘群【5】关于集合的相似度计算,计算过程如下:
  1) 首先计算两个词语集合的所有词语两两之间的相似度;
  2) 从所有的相似度值中选择最大的一个,将这个相似度值对应的两个词语对应起来组成词语对;
  3) 从所有的相似度值中删去那些已经建立对应关系的词语的相似度值;
  4) 重复上面的第2 步和第3 步,直到所有的词语对都被删除;
  虽然这种方法能够区别在语义上相似的句子,但是没有充分利用句子的结构信息,即各个词语在句中的成分。本文提出了一种基于《知网检测》的句子相似度计算的改进方法,具体做法是:通过对句子进行分词处理后,还需对每个已经切分的词语进行功能语块的标注,句子层面上的主要功能语块有主语、述语、宾语、定语、状语和补语等,标注完句子的结构骨架后,我们考察每对词语其所处的功能语块,对不同语块词语进行比较处理,以确定其权值。
  3 实验及评价
  句子前面的数字是句子的序号,而其它符号,像vp, dj, v 等是词类标记或者是短语类型标记。符号“[”是边界标记,每个语块只用左中括号‘[ ’标注其起点,S表示主语语块,P表示述语语块,O表示宾语语块,J表示兼语语块,D表示状语语,C表示补语语块等等【7】。
  从上面的结果可以得出以下分析,对于知网检测系统在语义上很接近且词语集大致相同的两组句子,如1和2,3和4,5和6,7和8,通过公式(5)计算的相似度区分并不大,但是通过改进的方法计算后,虽然其相似度没有公式(5)计算的高,但对于语义相似的句子在考虑了句子中词语所处的功能语块后,其相似度得到了明显改善,不同句子间有了更好的区分,例如组1中因为句子的成分更为接近,因此其相似度相比组2而言获得了提高。后面的几组句子相似度也有类似改善,因此本文提出的知网检测系统将句子组成成分纳入句子相似度计算的方法是可行的,并且取得了一定的效果。