基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系。在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数。针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法。设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较。结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能。
推荐文章
一种基于抵消的WCDMA系统多小区搜索方法
多小区搜索
检测概率
捕获时间
一种基于搜索策略的新算法
运动估计
块匹配
搜索策略
十字形
一种基于舆情敏感新信息的发现和搜索方法
敏感新信息
敏感新信息搜索
新信息时间特征
新信息排序模型
一种基于多主题的网络模型构建算法
多主题
网络模型
超级节点
对等网络
社区
信息检索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于搜索策略的多主题信息采集方法
来源期刊 电子学报 学科 工学
关键词 多主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
年,卷(期) 2014,(12) 所属期刊栏目 学术论文
研究方向 页码范围 2352-2358
页数 7页 分类号 TP311
字数 7968字 语种 中文
DOI 10.3969/j.issn.0372-2112.2014.12.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘宗田 上海大学计算机学院 155 2834 28.0 47.0
2 李存华 淮海工学院计算机工程学院 95 723 15.0 22.0
3 仲兆满 淮海工学院计算机工程学院 30 190 8.0 12.0
4 管燕 淮海工学院计算机工程学院 12 74 4.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (17)
参考文献  (19)
节点文献
引证文献  (3)
同被引文献  (11)
二级引证文献  (3)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(3)
  • 参考文献(3)
  • 二级参考文献(0)
1999(2)
  • 参考文献(2)
  • 二级参考文献(0)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(5)
  • 参考文献(1)
  • 二级参考文献(4)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(8)
  • 参考文献(4)
  • 二级参考文献(4)
2013(4)
  • 参考文献(4)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
多主题信息采集
原子规则
内置搜索
通用搜索
相关性计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导