基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
农业专业搜索引擎对特定主题的农业信息进行检索,其信息量多、精确度低。针对此现状,以开源搜索引擎Nutch 为技术框架,对大豆主题网页资源采集系统进行了研究与设计。以大豆信息为主题,研究了主题相关度判别技术,借鉴 BM 25 F模型的分域思想、基于向量空间模型,提出了大豆主题相关度判别算法。在 Nutch 中引入IKAnalyzer 中文分词工具包,实现了大豆主题相关度的判别。实验结果表明,该算法能够显著地提高大豆主题网页资源采集的准确率。
推荐文章
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
面向主题的网页采集系统的设计与研究
面向主题
混合向量空间模型
相似性
基于VSM的网页主题相关性算法的研究
向量空间模型
主题相关
特征项生成
面向分类的网页主题特征提取
网页分类
主题特征
主题相关性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大豆主题网页资源采集系统的研究
来源期刊 农机化研究 学科 农学
关键词 网页抓取 大豆主题 主题相关度 农业 搜索引擎
年,卷(期) 2014,(3) 所属期刊栏目 新技术应用
研究方向 页码范围 182-185
页数 4页 分类号 S126
字数 1795字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张喜海 22 233 8.0 15.0
2 孟繁疆 27 225 7.0 14.0
3 郭俊军 2 7 2.0 2.0
4 魏紫京 2 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (38)
共引文献  (21)
参考文献  (6)
节点文献
引证文献  (2)
同被引文献  (61)
二级引证文献  (113)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(12)
  • 参考文献(1)
  • 二级参考文献(11)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(4)
  • 参考文献(2)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(41)
  • 引证文献(1)
  • 二级引证文献(40)
2019(50)
  • 引证文献(0)
  • 二级引证文献(50)
2020(23)
  • 引证文献(0)
  • 二级引证文献(23)
研究主题发展历程
节点文献
网页抓取
大豆主题
主题相关度
农业
搜索引擎
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
农机化研究
月刊
1003-188X
23-1233/S
大16开
黑龙江哈尔滨市哈平路156号
14-324
1979
chi
出版文献量(篇)
14318
总下载数(次)
39
总被引数(次)
94283
论文1v1指导