基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义 URL 的信息搜索方法。该方法将种子 URL 映射到主题树的主题结点上,以主题路径上的主题文本扩充种子 URL 的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的 URL 优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。
推荐文章
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
基于Term-Query-URL异构信息网络的查询推荐
信息检索
查询推荐
点击日志
重启动随机游走
基于元数据的语义搜索技术研究
语义搜索
智能设备
RDF/RDFS
Web服务
基于网络资源本体的语义搜索和排位方法
自信息
语义搜索方法
激活扩散算法
网络搜索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于主题语义 URL 的信息搜索方法研究
来源期刊 计算机应用与软件 学科 工学
关键词 主题树 URL 语义 搜索引擎 主题-URL 映射
年,卷(期) 2015,(6) 所属期刊栏目 数据工程
研究方向 页码范围 42-45
页数 4页 分类号 TP391
字数 4354字 语种 中文
DOI 10.3969/j.issn.1000-386x.2015.06.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 彭小宁 怀化学院计算机工程系 68 349 8.0 15.0
2 林晶 怀化学院计算机工程系 18 32 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (16)
参考文献  (5)
节点文献
引证文献  (3)
同被引文献  (12)
二级引证文献  (3)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
主题树
URL
语义
搜索引擎
主题-URL
映射
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导