Title基于文档结构的文档相似性度量方法
Authors万小军
彭宇新
杨建武
吴於茜
陈晓鸥
Affiliation北大方正集团有限公司
北京北大方正技术研究院有限公司
北京大学
Issue Date2005
Citation北京.
Abstract本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。
URIhttp://hdl.handle.net/20.500.11897/197106
Appears in Collections:方正集团
专利

Files in This Work
Adobe PDF

Web of Science®



Checked on Last Week

百度学术™



Checked on Current Time




License: See PKU IR operational policies.