作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统的向量空间模型表示文本的缺点是向量维数高,向量空间模型中一个文本是一个大的稀疏矩阵,计算文本之间的距离或者相似度时,算法的效率低,聚类效果不理想.在主题模型(Latent Dirichlet Allocation,LDA)中,将文本表示成主题(Topic)的概率分布,主题表示为词的概率分布.主题模型下,指定主题数目为T时,所有待聚类的文本都被表示成维数为T的向量.K-均值算法作为本文的聚类算法,并通过实验验证了主题模型的聚类效果要好于向量空间模型的聚类.
推荐文章
基于层次的K-均值聚类
聚类
代价函数
层次
K-均值聚类
基于核聚类的K-均值聚类
核聚类
K-均值聚类
径向基函数(RBF)
支持向量机(SVM)
基于差分演化的K-均值聚类算法
聚类
差分演化算法
K-均值
基于PCA和K-均值聚类的有监督分裂层次聚类方法
数据挖掘
机器学习
有监督聚类
分裂层次聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于主题模型的K-均值文本聚类
来源期刊 计算机与现代化 学科 工学
关键词 主题模型 向量空间模型 文本聚类 K-均值算法
年,卷(期) 2013,(8) 所属期刊栏目 算法设计与分析
研究方向 页码范围 78-80,84
页数 4页 分类号 TP311.5
字数 3390字 语种 中文
DOI 10.3969/j.issn.1006-2475.2013.08.020
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郑诚 安徽大学计算机科学与技术学院 103 1013 15.0 28.0
2 李鸿 安徽大学计算机科学与技术学院 1 9 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (358)
参考文献  (9)
节点文献
引证文献  (9)
同被引文献  (18)
二级引证文献  (25)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(5)
  • 参考文献(2)
  • 二级参考文献(3)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(4)
  • 参考文献(3)
  • 二级参考文献(1)
2008(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(3)
  • 引证文献(1)
  • 二级引证文献(2)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2016(5)
  • 引证文献(2)
  • 二级引证文献(3)
2017(8)
  • 引证文献(2)
  • 二级引证文献(6)
2018(7)
  • 引证文献(1)
  • 二级引证文献(6)
2019(7)
  • 引证文献(1)
  • 二级引证文献(6)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
主题模型
向量空间模型
文本聚类
K-均值算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导