原文服务方: 计算机应用研究       
摘要:
关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能.以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KE C.该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词.在真实的专利数据集上进行了实验验证,结果表明KE C在精确率、召回率、综合指标F1等指标项上优于现有的其他基于词聚类的关键词提取方法.
推荐文章
基于语义的文档关键词提取方法
语义距离
密度聚类
关键词提取
中文文本同频词统计规律及在关键词提取中的应用
同频词
齐普夫定律
布茨定律
提取
TF-IDF算法
基于词向量与TextRank的关键词提取方法
抽取
语义差异性
TextRank
词向量
隐含主题分布
中文时间关键词识别研究
时间关键词
时间关键词识别
谱聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 KEC:基于cw2vec的中文专利关键词提取方法
来源期刊 计算机应用研究 学科
关键词 中文专利 词向量 关键词提取 词聚类
年,卷(期) 2020,(10) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2907-2911,2916
页数 6页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2019.06.0203
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐建 62 241 8.0 12.0
2 谭婷婷 1 0 0.0 0.0
3 陈高荣 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (86)
共引文献  (52)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(6)
  • 参考文献(1)
  • 二级参考文献(5)
2012(8)
  • 参考文献(0)
  • 二级参考文献(8)
2013(9)
  • 参考文献(0)
  • 二级参考文献(9)
2014(7)
  • 参考文献(0)
  • 二级参考文献(7)
2015(7)
  • 参考文献(0)
  • 二级参考文献(7)
2016(11)
  • 参考文献(1)
  • 二级参考文献(10)
2017(8)
  • 参考文献(1)
  • 二级参考文献(7)
2018(4)
  • 参考文献(2)
  • 二级参考文献(2)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文专利
词向量
关键词提取
词聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导