Title | 基于文档结构的文档相似性度量方法 |
Authors | 万小军 彭宇新 杨建武 吴於茜 陈晓鸥 |
Affiliation | 北大方正集团有限公司 北京北大方正技术研究院有限公司 北京大学 |
Issue Date | 2005 |
Citation | 北京. |
Abstract | 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。 |
URI | http://hdl.handle.net/20.500.11897/197106 |
Appears in Collections: | 方正集团 专利 |