作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出一种新的基于概念树的主题网络爬行方法.与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念.在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度.这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息.为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法.
推荐文章
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
一种新的网络爬虫带宽控制策略
网络爬虫
限定带宽
礼貌爬行
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
基于网络日志分析的混合策略主题爬虫
主题爬虫
网络日志
主题群落
用户兴趣
混合策略
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新的基于概念树的主题网络爬虫方法
来源期刊 计算机与现代化 学科 工学
关键词 概念树 主题网络爬行 锚文本 主题相关度
年,卷(期) 2010,(4) 所属期刊栏目 网络与通信
研究方向 页码范围 103-106,110
页数 5页 分类号 TP393
字数 5281字 语种 中文
DOI 10.3969/j.issn.1006-2475.2010.04.028
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 谢志妮 20 26 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (54)
共引文献  (203)
参考文献  (16)
节点文献
引证文献  (12)
同被引文献  (15)
二级引证文献  (129)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(10)
  • 参考文献(0)
  • 二级参考文献(10)
2003(11)
  • 参考文献(1)
  • 二级参考文献(10)
2004(9)
  • 参考文献(1)
  • 二级参考文献(8)
2005(10)
  • 参考文献(3)
  • 二级参考文献(7)
2006(8)
  • 参考文献(2)
  • 二级参考文献(6)
2007(6)
  • 参考文献(5)
  • 二级参考文献(1)
2008(3)
  • 参考文献(3)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(5)
  • 引证文献(3)
  • 二级引证文献(2)
2016(19)
  • 引证文献(2)
  • 二级引证文献(17)
2017(33)
  • 引证文献(1)
  • 二级引证文献(32)
2018(42)
  • 引证文献(0)
  • 二级引证文献(42)
2019(28)
  • 引证文献(1)
  • 二级引证文献(27)
2020(10)
  • 引证文献(1)
  • 二级引证文献(9)
研究主题发展历程
节点文献
概念树
主题网络爬行
锚文本
主题相关度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导