Title"天网"目录导航服务研究
Other TitlesOn the Directory Navigation Service in Tianwang
Authors冯是聪
单松巍
龚笔宏
张志刚
李晓明
Affiliation北京大学计算机科学技术系,北京,100871
Keywords搜索引擎 目录导航 Web挖掘 中文网页分类
Issue Date2004
Publisher计算机研究与发展
Citation计算机研究与发展.2004,41,(4),653-659.
Abstract为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,研究了如何在Spider式搜索引擎"天网"系统中提供目录导航服务 .基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 .主要贡献有两点:①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集,这是实现中文网页自动分类的前提和基础;②针对中文网页信息的自身特性以及CHI方法的固有缺陷,提出一种自动清除"噪音"的特征选取算法,并实现了一个能够处理海量中文网页的分类器 .实验结果表明该分类器有较高的分类质量,满足了搜索引擎目录导航服务的要求 .
URIhttp://hdl.handle.net/20.500.11897/237563
ISSN1000-1239
Appears in Collections:未确定

Files in This Work
Adobe PDF


License: See PKU IR operational policies.