基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对谱聚类存在计算瓶颈的问题,提出了一种快速的集成算法,称为间接谱聚类.它首先运用K-Means算法对数据集进行过分聚类,然后把每个过分簇看成一个基本对象,最后在过分簇的级别上利用标准谱聚类来完成总体的聚类.将该思想应用于大文本数据集的聚类问题后,过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法.在20-Newgroups文本数据上的实验结果表明:间接谱聚类算法在聚类准确性上比K-Means算法平均高出14.72%;比规范割谱聚类仅低0.88%,但算法所需的计算时间平均不到规范割谱聚类的1/16,且随着数据集的增大当规范割谱聚类遭遇计算瓶颈时,提出的算法却能快速地给出次优解.
推荐文章
面向大数据集的递增聚类方法研究
大数据集
递增聚类方法
高斯概率密度函数
证据理论
面向政务文本数据的事件级时空模型研究
时空信息模型
政务文本挖掘
非结构化数据
事件信息抽取
基于改进的聚类平均信息量文本数据挖掘算法研究
文本分类
层次聚类
信息量
仿真
高维数据集中局部离散文本数据挖掘方法研究
高维数据
数据特征聚类
数据挖掘
关联规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向大文本数据集的间接谱聚类
来源期刊 计算机应用 学科 工学
关键词 谱聚类 文本聚类 大数据集
年,卷(期) 2012,(12) 所属期刊栏目 先进计算
研究方向 页码范围 3274-3277
页数 4页 分类号 TP301.6
字数 4552字 语种 中文
DOI 10.3724/SP.J.1087.2012.03274
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘春霞 太原科技大学计算机科学与技术学院 23 30 4.0 4.0
2 原民民 山西水利职业技术学院信息工程系 8 15 2.0 3.0
3 侯海霞 太原大学计算机工程系 6 13 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (9)
节点文献
引证文献  (5)
同被引文献  (6)
二级引证文献  (15)
1977(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(3)
  • 引证文献(1)
  • 二级引证文献(2)
2018(8)
  • 引证文献(1)
  • 二级引证文献(7)
2019(5)
  • 引证文献(0)
  • 二级引证文献(5)
研究主题发展历程
节点文献
谱聚类
文本聚类
大数据集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导