基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统.该系统针对目标网站,抓取主题及回复网页.获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化.同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取.系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上.
推荐文章
温室无线测控网络信息采集分系统设计研究
无线传感器网络
温室无线测控
温室数据采集
节点定位
基于无线传感器网络的交通信息采集系统研究
无线传感器网络
交通信息
数据管理
B/S结构
基于网络窄告的定向投放系统
窄告
定向投放
Web Service
Flash
重点学科信息采集系统研究
重点学科
互联网
数据库
信息采集系统
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 定向网络信息采集系统的研究
来源期刊 电脑与电信 学科 工学
关键词 信息采集 定向爬虫 面向主题 主题重要性
年,卷(期) 2008,(9) 所属期刊栏目 基金项目
研究方向 页码范围 24-26
页数 3页 分类号 TP3
字数 3307字 语种 中文
DOI 10.3969/j.issn.1008-6609.2008.09.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李勇 北京交通大学通信与信息系统北京市重点实验室 15 33 4.0 5.0
2 刘云 北京交通大学通信与信息系统北京市重点实验室 183 1843 21.0 36.0
3 熊菲 北京交通大学通信与信息系统北京市重点实验室 11 447 6.0 11.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (112)
参考文献  (1)
节点文献
引证文献  (5)
同被引文献  (3)
二级引证文献  (0)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
信息采集
定向爬虫
面向主题
主题重要性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑与电信
月刊
1008-6609
44-1606/TN
大16开
广州市连新路171号国际科技中心B108室
1995
chi
出版文献量(篇)
8962
总下载数(次)
13
总被引数(次)
9565
论文1v1指导