基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了获取工业互联网领域中文资讯的关键词,提出一种基于特征的中文关键词抽取算法.该算法主要从分词、候选词选取和特征选取三个方面做改进.首先,在分词阶段,通过从大量工业互联网资讯中抽取的特定词语和利用搜狗输入法的领域词库的词典创建了两个用户自定义词典,解决工业互联网领域文本中存在大量未登录词的问题,提高分词的准确率,进而提高关键词抽取的准确率;然后通过实验仿真选取合适数量的候选词,提高算法的效果和效率;其次,在特征的选择方面不仅考虑词频类、位置类和长度类等特征,还考虑了语义方面的特征,共选取6大类21种特征.最终通过随机森林将21种特征相结合,训练出一个关键词分类器,经实验测评,在精确率、召回率和F值三个评价指标中,该算法的效果都获得提升.
推荐文章
基于贝叶斯推理和TFIDF算法的中文关键词智能抽取
TFIDF
文本挖掘
贝叶斯统计
关键词提取
关键词抽取策略研究
关键词抽取
词频
间距
词性
重要度
基于主题特征的关键词抽取
关键词抽取
主题特征
主题模型
装袋决策树
中文时间关键词识别研究
时间关键词
时间关键词识别
谱聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向工业互联网资讯的中文关键词抽取
来源期刊 现代计算机 学科
关键词 抽取 特征选取 工业互联网 随机森林
年,卷(期) 2020,(3) 所属期刊栏目 研究与开发
研究方向 页码范围 22-26
页数 5页 分类号
字数 3843字 语种 中文
DOI 10.3969/j.issn.1007-1423.2020.03.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 殷锋 西南民族大学计算机科学与技术学院 69 434 12.0 18.0
2 袁平 重庆第二师范学院数学与信息工程学院 14 22 2.0 4.0
3 陈硕 四川大学计算机学院 4 27 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (14)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(1)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(5)
  • 参考文献(0)
  • 二级参考文献(5)
2018(4)
  • 参考文献(2)
  • 二级参考文献(2)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
抽取
特征选取
工业互联网
随机森林
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代计算机
旬刊
1007-1423
44-1415/TP
16开
广东省广州市
46-121
1984
chi
出版文献量(篇)
11312
总下载数(次)
39
总被引数(次)
33178
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导