基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着网络和信息技术的迅猛发展,互联网中蕴藏着丰富的海量数据,如何有效地从这些数据中过滤出特定主题或领域的信息,是广大研究人员面对的一大问题。本文研究基于向量空间模型的TF-IDF文本相关度分析方法的主题聚焦爬虫,通过种子URL作为采集入口快速采集网络信息,利用网页内容抽取、主要内容和页面链接解析技术分析页面主要文本,使用基于VSM的TF-IDF技术分析文本与领域主题的相似性,以此来达到聚焦领域相关网页的目的。
推荐文章
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
基于贝叶斯分类器的主题爬虫研究
贝叶斯
分类器
主题爬虫
主题相关度
主题爬虫技术研究综述
网络爬虫
主题爬虫
相似度
网页内容
链接分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于相关度分析的主题聚焦爬虫研究
来源期刊 自动化博览 学科
关键词 聚焦爬虫 相关度分析 向量空间模型 TF-IDF
年,卷(期) 2013,(z2) 所属期刊栏目
研究方向 页码范围 190-194
页数 5页 分类号
字数 5052字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦秋莉 北京交通大学经济管理学院 5 12 2.0 3.0
2 彭鑫 北京交通大学经济管理学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (51)
共引文献  (266)
参考文献  (10)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1998(5)
  • 参考文献(0)
  • 二级参考文献(5)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(7)
  • 参考文献(0)
  • 二级参考文献(7)
2004(7)
  • 参考文献(2)
  • 二级参考文献(5)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(8)
  • 参考文献(0)
  • 二级参考文献(8)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(3)
  • 参考文献(2)
  • 二级参考文献(1)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
聚焦爬虫
相关度分析
向量空间模型
TF-IDF
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
自动化博览
月刊
1003-0492
11-2516/TP
大16开
北京市海淀区上地十街辉煌国际中心2号楼1504室
82-466
1983
chi
出版文献量(篇)
7279
总下载数(次)
19
论文1v1指导