基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
聚类是将数据进行划分,并从中发现有用信息的一种有效手段,它在很多领域都有着非常重要的应用.K均值方法是聚类方法中较常用的一种,但对于大规模的数据,而且有计算资源和时间约束的情况下,K均值方法已不能满足要求.该文提出的CFK-means方法是一种适合于大规模数据的、快速高效的递增聚类方法,它采用了聚类特性(Clus-tering Features,CF)结构来表示聚类,能更有效地保留和利用聚类信息.它只需扫描数据一次即可得到聚类划分,所需的计算时间和文件交换时间数倍少于K均值方法,而且聚类的准确度和K均值方法相当.通过对仿真数据和实际文本集数据进行的对比实验证明了CFK-means方法的有效性.
推荐文章
一种面向大规模二维点集数据的密度聚类算法
密度聚类
网格
算法
大规模数据集
大规模数据集的多层聚类算法
谱聚类
聚类
图像分割
一种基于SOM和K-means的文档聚类算法
自组织特征映射
K-means
聚类
组合方法
文档聚类
一种快速有效的Web文档聚类方法
Web挖掘
文档聚类
矢量空间模型VSM
关联规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种大规模的递增聚类算法及其在文档聚类中的应用
来源期刊 计算机工程与应用 学科 工学
关键词 聚类特性(CF) CFK-means算法 k-means算法 文档聚类
年,卷(期) 2002,(11) 所属期刊栏目 数据库与信息处理
研究方向 页码范围 187-190,195
页数 5页 分类号 TP311
字数 4148字 语种 中文
DOI 10.3321/j.issn:1002-8331.2002.11.065
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 金以慧 清华大学自动化系 93 3280 28.0 55.0
2 唐春生 清华大学自动化系 5 133 5.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (13)
同被引文献  (2)
二级引证文献  (14)
1991(2)
  • 参考文献(2)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2002(1)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(2)
  • 引证文献(2)
  • 二级引证文献(0)
2007(1)
  • 引证文献(1)
  • 二级引证文献(0)
2009(3)
  • 引证文献(2)
  • 二级引证文献(1)
2010(4)
  • 引证文献(2)
  • 二级引证文献(2)
2011(4)
  • 引证文献(1)
  • 二级引证文献(3)
2012(4)
  • 引证文献(0)
  • 二级引证文献(4)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
聚类特性(CF) CFK-means算法 k-means算法 文档聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导