基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难.为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以“关键词+信息类型”两部分表示文本关键信息.首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注.对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息.基于2 000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0.9680,间隔度为0.057 2,综合评价指标为0.8871;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF-IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势.
推荐文章
一种基于TextRank的单文本关键字提取算法
TextRank
单文本关键字
提取算法
有向带权图
马尔可夫状态转移模型
基于加权TextRank的中文自动文本摘要
文本摘要
TextRank
词向量
句子相似度
一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现
关键短语抽取
LDA模型
主题挖掘
TextRank
主题影响力
基于Ontology的文本信息抽取
信息抽取
Ontology
概念模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于TextRank和簇过滤的林业文本关键信息抽取研究
来源期刊 农业机械学报 学科 工学
关键词 林业文本 关键词抽取 TextRank 簇过滤 信息类型
年,卷(期) 2020,(5) 所属期刊栏目 农业信息化工程
研究方向 页码范围 207-214,172
页数 9页 分类号 TP391.1
字数 8018字 语种 中文
DOI 10.6041/j.issn.1000-1298.2020.05.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈志泊 北京林业大学信息学院 74 503 11.0 18.0
2 许福 北京林业大学信息学院 13 26 3.0 4.0
3 崔晓晖 北京林业大学信息学院 12 35 4.0 5.0
4 李钰曼 北京林业大学信息学院 2 1 1.0 1.0
5 冯国明 1 0 0.0 0.0
6 师栋瑜 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (284)
共引文献  (117)
参考文献  (30)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1948(1)
  • 参考文献(0)
  • 二级参考文献(1)
1957(2)
  • 参考文献(0)
  • 二级参考文献(2)
1958(1)
  • 参考文献(0)
  • 二级参考文献(1)
1966(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(4)
  • 参考文献(0)
  • 二级参考文献(4)
1991(2)
  • 参考文献(0)
  • 二级参考文献(2)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(8)
  • 参考文献(0)
  • 二级参考文献(8)
2004(7)
  • 参考文献(0)
  • 二级参考文献(7)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(7)
  • 参考文献(0)
  • 二级参考文献(7)
2009(11)
  • 参考文献(0)
  • 二级参考文献(11)
2010(9)
  • 参考文献(0)
  • 二级参考文献(9)
2011(17)
  • 参考文献(1)
  • 二级参考文献(16)
2012(20)
  • 参考文献(0)
  • 二级参考文献(20)
2013(20)
  • 参考文献(0)
  • 二级参考文献(20)
2014(32)
  • 参考文献(0)
  • 二级参考文献(32)
2015(36)
  • 参考文献(2)
  • 二级参考文献(34)
2016(29)
  • 参考文献(3)
  • 二级参考文献(26)
2017(32)
  • 参考文献(7)
  • 二级参考文献(25)
2018(24)
  • 参考文献(5)
  • 二级参考文献(19)
2019(12)
  • 参考文献(12)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
林业文本
关键词抽取
TextRank
簇过滤
信息类型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
农业机械学报
月刊
1000-1298
11-1964/S
大16开
北京德外北沙滩1号6信箱
2-363
1957
chi
出版文献量(篇)
11867
总下载数(次)
31
总被引数(次)
174483
论文1v1指导