基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来,主题搜索引擎由于其在主题上的高相关性,使搜索结果的查准率得到了极大的提高,然而由于受到主题爬虫的限制,可选的种子站点的有效数量较少,使得搜索反馈的结果的数量不够多,直接影响到了搜索引擎的查全率.本文为解决这个问题,结合元搜索引擎的优势,提出一种通过多搜索引擎来为主题爬虫提供种子站点的方法,并通过计算相关度,更有效地去除噪音链接,使得种子站点的相关性得到保障,最后通过Nutch1.2的主题爬虫功能,验证了本种子站点提取器能够高效地获得大量相关度较高的种子站点.
推荐文章
基于主题网络爬虫思想的Web数据挖掘算法探讨
主题网络爬虫
数据挖掘
算法
基于大数据挖掘的城市公交站点生活服务评价方法研究
智慧城市
公共交通
数据挖掘
地理兴趣点
生活服务水平
小世界效应
基于数据仓库的数据挖掘研究
数据仓库
数据挖掘
知识发现
基于数据挖掘方法的多传感器数据融合系统
数据挖掘
数据融合
粗糙集
模糊神经网络
模糊聚类
曲线拟合
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于数据挖掘的主题种子站点提取器的研究
来源期刊 软件 学科 工学
关键词 Web信息检索 数据挖掘 主题搜索
年,卷(期) 2013,(2) 所属期刊栏目 理论计算机科学
研究方向 页码范围 56-57,64
页数 3页 分类号 TP311
字数 2826字 语种 中文
DOI 10.3969/j.issn.1003-6970.2013.02.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程晓荣 华北电力大学控制与计算机工程学院 86 480 12.0 19.0
2 季志远 华北电力大学控制与计算机工程学院 5 13 2.0 3.0
3 胡晟 华北电力大学控制与计算机工程学院 5 43 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (23)
共引文献  (57)
参考文献  (6)
节点文献
引证文献  (7)
同被引文献  (63)
二级引证文献  (105)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(4)
  • 引证文献(2)
  • 二级引证文献(2)
2015(6)
  • 引证文献(2)
  • 二级引证文献(4)
2016(18)
  • 引证文献(0)
  • 二级引证文献(18)
2017(26)
  • 引证文献(2)
  • 二级引证文献(24)
2018(30)
  • 引证文献(0)
  • 二级引证文献(30)
2019(20)
  • 引证文献(0)
  • 二级引证文献(20)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
Web信息检索
数据挖掘
主题搜索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
总被引数(次)
23629
论文1v1指导