基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K-means和基于主题模型的LDA。在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置与跨度特征,减少了由局部关键词作为全局关键词带来的误差。实验结果表明,改进后的算法在聚类效果上要优于传统的VSM聚类和基于主题模型的LDA算法。
推荐文章
基于改进TextRank算法的中文文本摘要提取
Doc2Vec模型
K-means算法
TextRank算法
摘要提取
权重影响因子
基于网格结构的二次CLARANS聚类算法
CLARANS算法
聚类
网格
数据空间
基于信息熵的二次聚类推荐算法
最邻近熵差阈值
平均熵值逼近
二次聚类
对数拟合
推荐区域
推荐算法
一种提高文本聚类算法质量的方法
文本聚类
语义距离
最近邻聚类
相似度
聚类算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于TextRank的文本二次聚类算法
来源期刊 计算机技术与发展 学科 工学
关键词 文本聚类 TextRank 提取 向量空间模型 LDA
年,卷(期) 2016,(8) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 7-11
页数 5页 分类号 TP391.9
字数 5040字 语种 中文
DOI 10.3969/j.issn.1673-629X.2016.08.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 潘晓英 西安邮电大学计算机学院 40 149 7.0 11.0
2 胡开开 西安邮电大学计算机学院 1 7 1.0 1.0
3 朱静 西安邮电大学计算机学院 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (75)
共引文献  (1635)
参考文献  (15)
节点文献
引证文献  (7)
同被引文献  (14)
二级引证文献  (4)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(2)
  • 参考文献(0)
  • 二级参考文献(2)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(3)
  • 参考文献(0)
  • 二级参考文献(3)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(7)
  • 参考文献(0)
  • 二级参考文献(7)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(9)
  • 参考文献(0)
  • 二级参考文献(9)
2004(9)
  • 参考文献(0)
  • 二级参考文献(9)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(5)
  • 参考文献(4)
  • 二级参考文献(1)
2009(5)
  • 参考文献(2)
  • 二级参考文献(3)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(4)
  • 参考文献(0)
  • 二级参考文献(4)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(4)
  • 引证文献(2)
  • 二级引证文献(2)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本聚类
TextRank
提取
向量空间模型
LDA
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导