基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法.针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制.尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能.相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表.
推荐文章
基于主题的智能Web信息采集系统的研究与实现
基于主题的信息采集
全信息
扩展元数据
概念向量空间模型
Web智能信息服务系统的设计与实现
信息服务
关键词提取
信息分类
信息检索
面向Web的信息收集工具的设计与开发
页面收集
信息处理
网络爬虫
万维网(WWW)
中文WEB文档自动分类系统的设计与实现
网络蜘蛛
中文分词
文档频度
NaIve
贝叶斯分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 智能Web中文主题信息收集系统IRobot的设计
来源期刊 中文信息学报 学科 工学
关键词 信息检索 主题信息收集 相关度预测 相关度评价 中文信息处理
年,卷(期) 2002,(5) 所属期刊栏目
研究方向 页码范围 23-29
页数 7页 分类号 TP391.3
字数 5894字 语种 中文
DOI 10.3969/j.issn.1003-0077.2002.05.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马亮 清华大学计算机系智能技术与系统国家重点实验室 7 162 5.0 7.0
2 陈群秀 清华大学计算机系智能技术与系统国家重点实验室 8 148 7.0 8.0
3 王俊 1 33 1.0 1.0
4 徐国伟 1 33 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (6)
参考文献  (1)
节点文献
引证文献  (33)
同被引文献  (13)
二级引证文献  (70)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2005(3)
  • 引证文献(3)
  • 二级引证文献(0)
2006(4)
  • 引证文献(4)
  • 二级引证文献(0)
2007(6)
  • 引证文献(5)
  • 二级引证文献(1)
2008(12)
  • 引证文献(6)
  • 二级引证文献(6)
2009(8)
  • 引证文献(2)
  • 二级引证文献(6)
2010(14)
  • 引证文献(4)
  • 二级引证文献(10)
2011(8)
  • 引证文献(1)
  • 二级引证文献(7)
2012(10)
  • 引证文献(4)
  • 二级引证文献(6)
2013(9)
  • 引证文献(0)
  • 二级引证文献(9)
2014(7)
  • 引证文献(1)
  • 二级引证文献(6)
2015(10)
  • 引证文献(2)
  • 二级引证文献(8)
2016(3)
  • 引证文献(0)
  • 二级引证文献(3)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
信息检索
主题信息收集
相关度预测
相关度评价
中文信息处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导