基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
[目的]目前,科技文献大数据中存在着主题词不规范、 不统一的情况,因此在构建检索式时很难既满足查全要求,又满足查准要求.针对这一问题,本文提出了一种基于词向量的检索扩展方法,并在"基于多组学大数据的功能基因挖掘与辅助育种技术"领域进行了实验验证.[方法]首先清洗数据集,并将文本映射成词向量,一篇文章可以用其所有词向量的平均向量表示;然后用训练集中文章的平均词向量训练随机森林分类器;最后在测试集中对文本进行分类,从而得到正例数据即检索数据集.[结果]针对"基于多组学大数据的功能基因挖掘与辅助育种技术"领域构建检索式,通过对比检索式所提取的小数据集、 扩展检索式数据集和该方法提取的检索数据集的主题词云并对其进行主题共现聚类,结果发现相比小数据集和扩展检索式数据集,检索数据集能够表现另外两个数据集所体现的主题词和主题聚类,同时能够展现更多属于该主题领域的主题词和主题聚类.[结论]结果表明该方法具有较好的查全性和查准性,构建了满足分析的"基于多组学大数据的功能基因挖掘与辅助育种技术"领域数据集,同时在构建其他领域数据集时具有可扩展性,在未来研究中可以被应用到其他目标领域的数据集构建中.
推荐文章
基于词向量与TextRank的关键词提取方法
抽取
语义差异性
TextRank
词向量
隐含主题分布
一种基于农业领域本体的语义检索模型
本体
语义扩展
语义检索模型
农业领域
基于中心化相似度矩阵的词向量方法
词向量
中心化
相似度矩阵
基于扩展规则与统计特征的未登录词识别
未登录词
扩展规则
词频
互信息
邻接熵
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词向量的检索扩展方法与农业领域实证
来源期刊 农业大数据学报 学科 社会科学
关键词 大数据 检索扩展 词向量 随机森林 数据挖掘 自然语言处理 机器学习 深度学习
年,卷(期) 2019,(2) 所属期刊栏目 应用研究
研究方向 页码范围 114-120
页数 7页 分类号 G354.2
字数 5104字 语种 中文
DOI 10.19788/j.issn.2096-6369.190210
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王瑞 中国铁道科学研究院集团有限公司电子计算技术研究所 21 94 7.0 8.0
2 吴蕾 中国农业科学院农业信息研究所 13 49 5.0 6.0
3 梁晓贺 中国农业科学院农业信息研究所 14 33 4.0 5.0
4 乌吉斯古楞 中国农业科学院农业信息研究所 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (11)
共引文献  (74)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1958(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
检索扩展
词向量
随机森林
数据挖掘
自然语言处理
机器学习
深度学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
农业大数据学报
季刊
2096-6369
10-1555/G2
16开
北京市海淀区中关村南大街12号
2019
chi
出版文献量(篇)
101
总下载数(次)
0
总被引数(次)
65
论文1v1指导