基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率.但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷.为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对SegPhrase算法进行了改进.在短语产生阶段,通过利用词串之间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短语进行综合评估,选择更符合实际应用语境的短语.最后,为了验证提取的关键短语的质量,将提取的关键短语应用于文档主题分析.通过实验证明,改进的SegPhrase算法比原方法具有更高的召回率和准确率,该方法提取的关键短语的主题分析比基于关键词的主题分析更能够清晰准确地表达文档主题信息.
推荐文章
基于TF*PDF的热点关键短语提取
TF*PDF
TDT
提取
脉冲值
关键词短语
基于TAKE的中文关键短语提取算法研究
文本挖掘
分词
词语过滤
特征计算
关键短语提取
基于加权复杂网络的中文文档关键短语抽取
关键短语抽取
加权复杂网络
网络分离
加权点度中心度
边界节点
介数
中文复杂名词短语依存句法分析
中文复杂名词短语
依存句法分析
决策式算法
支持向量机
特征
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文关键短语自动提取方法研究
来源期刊 计算机科学与探索 学科 工学
关键词 关键短语提取 文本特征 互信息 主题分析
年,卷(期) 2019,(9) 所属期刊栏目 数据库技术
研究方向 页码范围 1481-1492
页数 12页 分类号 TP311
字数 3652字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 荣垂田 天津工业大学计算机科学与技术学院 7 23 3.0 4.0
2 王琰 厦门理工学院计算机与信息工程学院 10 15 2.0 3.0
3 李银银 天津工业大学计算机科学与技术学院 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (86)
共引文献  (350)
参考文献  (22)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1956(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(2)
  • 参考文献(0)
  • 二级参考文献(2)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(12)
  • 参考文献(0)
  • 二级参考文献(12)
2000(6)
  • 参考文献(0)
  • 二级参考文献(6)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(10)
  • 参考文献(2)
  • 二级参考文献(8)
2004(9)
  • 参考文献(1)
  • 二级参考文献(8)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(9)
  • 参考文献(2)
  • 二级参考文献(7)
2008(8)
  • 参考文献(1)
  • 二级参考文献(7)
2009(4)
  • 参考文献(1)
  • 二级参考文献(3)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(3)
  • 参考文献(3)
  • 二级参考文献(0)
2012(3)
  • 参考文献(3)
  • 二级参考文献(0)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(4)
  • 参考文献(4)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
关键短语提取
文本特征
互信息
主题分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导