基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术.实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度.
推荐文章
一个基于Web的信息获取系统的框架与实现
信息采集
信息获取
信息处理
基于特定领域的Web文本信息获取系统的研究
Web文本信息
特定领域
分类系统
中文分词
面向主题的网络蜘蛛技术研究及系统实现
信息收集
主题蜘蛛
相关度计算
搜索策略
网络拓扑信息获取技术研究
网络拓扑信息
ICMP
Whois
DNS
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向Web论坛的网络信息获取技术及系统实现
来源期刊 计算机工程与科学 学科 工学
关键词 网络爬虫 Web论坛 正文提取 主题相关度
年,卷(期) 2011,(1) 所属期刊栏目
研究方向 页码范围 157-160
页数 4页 分类号 TP393
字数 2855字 语种 中文
DOI 10.3969/j.issn.1007-130X.2011.01.030
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 蔡皖东 西北工业大学计算机学院 157 1423 21.0 28.0
2 彭冬 西北工业大学计算机学院 5 27 2.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (33)
共引文献  (170)
参考文献  (9)
节点文献
引证文献  (17)
同被引文献  (23)
二级引证文献  (10)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(9)
  • 参考文献(1)
  • 二级参考文献(8)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(6)
  • 参考文献(2)
  • 二级参考文献(4)
2007(3)
  • 参考文献(2)
  • 二级参考文献(1)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(6)
  • 引证文献(4)
  • 二级引证文献(2)
2016(4)
  • 引证文献(1)
  • 二级引证文献(3)
2017(3)
  • 引证文献(2)
  • 二级引证文献(1)
2018(7)
  • 引证文献(4)
  • 二级引证文献(3)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网络爬虫
Web论坛
正文提取
主题相关度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导