Title基于网页的信息系统的一种预处理过程
Authors张志刚
Affiliation北京大学
Keywords万维网
数据预处理
数据净化
近似网页识别
元数据提取
Issue Date2004
Citation北京大学.
Abstract随着Web的迅速发展,Web上的信息越来越丰富.Web使用方便、信息丰富,人们越来越多的使用Web来寻找需要的信息.为了更好的使用Web上的信息,人们也不断的追求能够有效组织和利用网上信息的技术和系统.然而,Web上的信息存在很多问题:网页内的噪音内容多、Web上近似网页量大以及缺乏必要的元数据信息,这些问题严重影响了Web信息系统的服务质量.针对Web信息系统的共性需求,该文提出了一个预处理框架及相应的方法.该预处理框架包括了三个预处理工作:网页净化、近似网页删除和网页元数据提取.通过预处理过程,原始网页集中的近似网页被删除,而保留下来的网页被净化并转化为一个统一的结构化模型(称之为DocView模型).该模型中提供了各个领域需求较多的元数据和内容数据,它包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等元素.该文提出的预处理方法的一个重要优点是它不需要除原始网页以外的其他信息,而这些额外信息是该领域中其他方法所必须的;另一个优点是将Web信息系统的共性需求放到一个过程中一次性提取出来,可以避免相同中间过程的重复执行,从而提高信息提取效率.该文中提出的预处理框架和方法已经应用到了"天网"搜索引擎和网页自动分类系统中.通过使用预处理后应用系统质量的提高,验证了该预处理方法的有效性.不难看出,通过这样一个预处理过程,可以在任何一个网页集上(包括World Wide Web)搭建一个组织良好的、净化的、更易使用的信息层.
URIhttp://hdl.handle.net/20.500.11897/379032
Appears in Collections:未确定

Files in This Work
There are no files associated with this item.


License: See PKU IR operational policies.