基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法.由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用“或运算”合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合“最小最大”原则从候选集中选取最优的初始中心.在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果.
推荐文章
K-means聚类算法初始中心选择研究
K-means聚类算法
K个聚类中心
密度参数
K-means算法改进
基于密度的K-means聚类中心选取的优化算法
K-均值
数据挖掘
聚类中心
垂直中点
密度
基于聚类中心优化的k-means最佳聚类数确定方法
k-means聚类
初始聚类中心
样本密度
聚类数
基于变异的k-means聚类算法
聚类
mk-means算法
变异
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于特征关联度的K-means初始聚类中心优化算法
来源期刊 四川大学学报(工程科学版) 学科 工学
关键词 K-means 特征关联度 初始聚类中心 文本聚类
年,卷(期) 2015,(1) 所属期刊栏目 第八届中国可信计算与信息安全学术会议(CTCIS 2014)推
研究方向 页码范围 13-19
页数 7页 分类号 TP181
字数 6004字 语种 中文
DOI 10.15961/j.jsuese.2015.01.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈兴蜀 四川大学计算机学院网络与可信计算研究所 117 695 14.0 21.0
2 王文贤 四川大学计算机学院网络与可信计算研究所 60 732 13.0 25.0
3 王海舟 四川大学计算机学院网络与可信计算研究所 30 137 6.0 10.0
4 吴小松 四川大学计算机学院网络与可信计算研究所 3 56 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (46)
共引文献  (230)
参考文献  (14)
节点文献
引证文献  (35)
同被引文献  (177)
二级引证文献  (84)
1953(1)
  • 参考文献(0)
  • 二级参考文献(1)
1963(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(3)
  • 参考文献(1)
  • 二级参考文献(2)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(7)
  • 参考文献(1)
  • 二级参考文献(6)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(5)
  • 参考文献(3)
  • 二级参考文献(2)
2010(3)
  • 参考文献(3)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(5)
  • 引证文献(5)
  • 二级引证文献(0)
2017(14)
  • 引证文献(11)
  • 二级引证文献(3)
2018(24)
  • 引证文献(9)
  • 二级引证文献(15)
2019(42)
  • 引证文献(8)
  • 二级引证文献(34)
2020(32)
  • 引证文献(0)
  • 二级引证文献(32)
研究主题发展历程
节点文献
K-means
特征关联度
初始聚类中心
文本聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
工程科学与技术
双月刊
1009-3087
51-1773/TB
大16开
成都市一环路南一段24号
62-55
1957
chi
出版文献量(篇)
4421
总下载数(次)
4
论文1v1指导