韦德国际娱乐,韦德娱乐官网,韦德国际欢迎您

你的位置:首页 > 降重技巧

知网论文检测原理的研究

2017-12-4 0:13:04??????点击:
分享到:

知网论文检测原理的研究

摘要:针对知网论文检测的问题,根据信息论中两个事物相似度计算的思想,提出一种基于中国知网义原信息量和义原及其角色关系的中文词语相似度计算方法,利用知网分类体系计算出词语义原信息量,根据义原信息量计算出词语概念间主类义原的相似度,结合词语概念中义原及其角色关系相似度及义原结点相似度来综合计算词语的相似度,知网在线的方法及人工判断的相似度值进行了知网论文检测原理的比较研究,实验结果显示该方法与人的判断更接近。上一文《揭秘:知网论文查重的规则及检测原理》已经大致介绍了知网论文检测的规则原理,下面我们更深度的来比较研究知网论文检测的原理: 

  关键词:相似度,知网论文检测,论文检测
  0 引 言 
  知网论文检测在信息检索、文本分类、信息抽取、机器翻译等领域有广泛的应用[1]。词语相似度的计算主要有两类方法:一类是世界知识(Ontology)或者分类体系(Taxonomy)的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[2],基于知网(HowNet)义原间的距离或者深度等信息来计算中文词语的语义相似度[3-4]。另一类是基于语料统计的方法[5-8],这类方法假设凡是语义相近的词,其上下文也应该相似,利用上下文中词语概率的分布来计算词语相似度。 
  知网(HowNet)是国内外自然语言处理中使用较为广泛的中文语义资源平台,自1999年发布以来受到越来越多研究人员的关注[9]。基于知网计算中文词语的相似度研究也陆续推出了很多方法。王小林等采用变系数对各类义原加权计算,并认为不同词性对词语相似度的贡献度不同,引入词性相似度来综合计算词语相似度[10-11];林丽等将部分义原划为弱义原,这类义原在参与相似度计算时赋予较低权重值[12];张敏等考虑词性的作用,并减少了抽象义原在词语相似度计算中贡献[13],范弘屹等在相似度计算中综合考虑义原的距离、深度、密度等信息[14];张亮等利用知网构建语义树,将词语相似分析计算转化为语义树的相似分析[15]。这些方法通常根据意义分解的思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度,计算结果依赖于公式的设计和参数的选取,不能充分反应出词语语义的相似性。刘青磊等通过词语义原集合的共有信息和差异信息来综合计算词语相似度[16];游彬等将知网作为统计语料库计算词语所包含的义原信息量,然后来估计两个词语的语义相似度[17],基于语料统计的方法比较依赖于统计所用的语料库,计算过程复杂,语料库建设存在较多的困难。 
  本文给出一种基于知网义原特征的中文词语相似度的计算方法,利用知网的分类体系(Taxonomy),将义原及其角色关系作为词语相似度计算的基本单位,保留描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想,从概念的主类义原相似度、义原及其角色关系的相似度以及义原结点相似度来综合计算词语的相似度。 
  1 义原信息量 
  1.1义原信息量 
  Philip Resnik在文献[5]中提出基于信息量来计算词语语义相似度,在WordNet中,对于概念c,其信息量(Information Content)表示为在某给定语料库中c出现的概率p(c)的负对数函数[5]。根据Resnik的思想,对知网中的一个义原A,其信息量大小 为: 
  (1) 
  其中, 表示义原A在某个语料库样本空间中出现的概率。 
  计算语料库样本空间中某个义原出现的概率是很困难的。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,仅依赖知网分类体系本身而不需其他语料库,作为计算义原出现概率的样本空间也是合理的。研究认为,分支结点义原包含的子孙结点越多,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。
  设 是某类义原树上的一个义原结点,将义原 及其包含的子孙义原的数量作为该义原在样本空间中出现的次数,根据知网的分类体系,义原 的信息量 计算方法为: 
  (2) 
  其中, 是义原 包含的子孙义原的数量, 是样本空间中所有义原的数量,研究取知网中实体类、事件类、属性类、属性值类、次要特征所包含的2 216个义原作为计算某颗义原树上义原出现概率的样本空间。 
  1.2义原相似度 
  Dekang Lin 在文献[6]中提出,任何两个事物的相似度取决于其共性(Commonality)和个性(Differences),从信息论的角度给出任意两个事物间相似度计算的通用公式[6]: 
  (3) 
  其中,分子表示描述事物A和B的共性所需要的信息量,分母表示完整描述出事物A和B所需要的信息量。 
  在一棵义原树上,假设义原 是义原 和义原 最近的祖先结点,那么义原 就是包含义原 和义原 的最小分类,该最小分类 就是义原 和 的最具体的通用抽象(the Most Specific Common Abstraction)[6],也就是义原 和 的共性,设义原 的信息量为 ,根据公式(3),给出义原 和 的相似度计算公式: 
  (4) 
  以“entity|实体”为根结点的义原树上的叶子义原“牲畜|livestock”和“走兽|beast”间的相似度计算为例,两者最近的祖先结点义原是“兽|animal”,其子孙结点个数为5,根据公式(2)和公式(4)计算得到二者的相似度为0.384。研究规定,不在同一棵义原树上的两个义原间相似度为0,两个相同义原的相似度为1。 
  2义原及其角色关系 
  2.1 概念描述 
  在知网的知识词典中,每个词语由DEF来描述其概念,在此将DEF分为两部分:主类义原和特性描述部分。 
  定义1:主类义原 
  把描述词语概念的DEF中的最左边的第一个义原称为主类义原。 
  定义2:义原及其角色关系 
  在词语DEF的特性描述部分中,把义原及动态角色与特征(Event Role and Features)[18]的层次结构的组合称为义原及其角色关系。 
  定义3:义原及其角色关系的层次 
  DEF中为了进一步解释或说明词语概念采用了“{}”这种形式的结构,研究将这种结构按照包含关系分为不同的层次,义原及其角色关系的层次即为这种包含关系在“{}”结构中所处层次。 
  定义4:最小不可分割的义原及其角色关系 
  本层义原及其动态角色称为最小不可分割的义原及其角色关系。 
  例如:例如词语“病菌”的一个概念:DEF={bacteria|微生物:domain={medical|医},modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}}。“bacteria|微生物”是主类义原,其它部分是特性描述部分。把“domain={medical|医}”、“modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}”称为DEF的第一层义原及其角色关系,包含两个本层义原“medical|医”和“able|能”,把“scope={ResultIn|导致:result={disease|疾病}}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn|导致”。“domain={medical|医}”、“scope={ResultIn|导致}”、“result={disease|疾病}”都是最小不可分割的义原及其角色关系,在DEF中所处层次分别定义为1、2、3。 
  2.2 义原及其角色关系的信息量 
  在计算义原及其角色关系的信息量时,用本层义原的信息量与下一层义原及其角色关系的信息量来加权计算。研究规定,最小不可分割的义原及其角色关系的信息量就等于其所包含的义原信息量,设定第一层义原及其角色关系中本层义原的权重为 ,第二层义原及其角色关系中本层义原的权重为 ,依次类推,第 层义原及其角色关系中本层义原的权重为 。用 表示DEF中特性描述部分的义原及其角色关系, 表示 的信息量,其计算公式为: 
  (5) 
  其中, 表示 包含的最大层次, 表示 中第 层义原及其角色关中本层义原的信息量, 表示 中第 层义原及其角色关系中本层义原的总个数, 表示第i个义原, 表示义原 的信息量。研究规定,一个没有概念描述的具体词,设定信息量为一个常数,大小等于叶子结点义原的信息量3.346。 
  3 词语相似度 
  3.1 概念相似度 
  词语概念间相似度基于概念的DEF来进行计算,每个概念的DEF是由主类义原及若干个义原及其角色关系组成,文中通过概念的主类义原间相似度 、义原及其角色关系相似度 以及义原结点相似度 来综合计算两个概念的相似度,两个概念 和 的相似度计算公式为: 
  (6) 
  其中, , , 分别为 , , 的权重系数,有 。 
  两个概念的主类义原 和 的相似度 计算与公式(4)计算义原相似度方法相同,这里不再赘述。 
  3.2义原及其角色关系相似度 
  基于Dekang Lin计算两个事物相似度的思想,研究把两个概念的义原及其角色关系的相似度 表示为:两个概念共有的义原及其角色关系的信息量与两个概念所有的义原及其角色关系的信息量的比值。共有义原及其角色关系为两个概念中完全相同的义原及其角色关系,在此用 表示两个概念 和 共有的义原及其角色关系集合, 表示该集合的信息量, 计算公式为:
  (7)  其中, 为概念 特性描述部分的义原及其角色关系信息量, 为概念 特性描述部分的义原及其角色关系信息量。如果共有义原及其角色关系在两个DEF中的层次不同,以其所处的最深层次的信息量作为共有的信息量。 
  3.3 结点相似度 
  研究通过两个概念中共有义原结点数和总的义原结点数的比值来综合计算义原结点相似度 ,计算公式为: 
  (8) 
  其中, 表示两个概念中共有义原结点数 , 表示两个概念总的结点数, 和 分别表示概念 和 各自的义原结点数。 
  3.4 词语相似度 
  在知网中,有的词语有多个概念,每一个概念表示一种语义,如果两个词语各自只有一个概念,那么词语语义的相似度计算实质上就是两个概念间的相似度计算,对于具有多个概念的词语,通常根据词语出现的语境进行词义消歧后再计算概念间的相似度,效果更好。刘群在文献 [1]提出的词语相似度计算中,认为两个孤立词语(不在一定的上下文背景中)的语义相似度是其所有概念之间相似度的最大值,本文采用刘群的做法,将两个词语概念间的最大相似度值作为词语的整体相似度。两个词语 和 的相似度计算公式为: 
  (9) 
  其中, 表示词语 的一个概念, 表示词语 的一个概念, 表示概念 和 的相似度。研究规定,如果两个词语为同义词,相似度为1。如果两个词语为同类词,相似度为0.95,如果两个词语为反义或对义词,相似度为0。