基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性.针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC.该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释.topHDC避免了已有算法中聚类结果受文档长度干扰的问题.在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法.
推荐文章
结合双粒子群和K-means的混合文本聚类算法
双粒子群
自调整惯性权值
信息交流
K-means算法
文本聚类
基于增强蜂群优化与 K-means 的文本聚类算法
蜂群算法
公平操作
克隆操作
多样性
局部提炼
文本聚类
基于变异的k-means聚类算法
聚类
mk-means算法
变异
类关联词约束的K-Means半监督文本聚类方法
文本聚类
文本分类
类关联词
K-Means
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于频繁词集和k-Means的Web文本聚类混合算法
来源期刊 计算机工程与科学 学科 工学
关键词 文本挖掘 聚类 频繁词集 k-means
年,卷(期) 2008,(8) 所属期刊栏目 数据库与网格
研究方向 页码范围 92-96,119
页数 6页 分类号 TP311
字数 6255字 语种 中文
DOI 10.3969/j.issn.1007-130X.2008.08.027
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 贾焰 国防科技大学计算机学院 118 926 16.0 24.0
2 韩伟红 国防科技大学计算机学院 41 267 9.0 15.0
3 王乐 国防科技大学计算机学院 2 26 2.0 2.0
4 田李 国防科技大学计算机学院 5 55 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (3)
参考文献  (3)
节点文献
引证文献  (9)
同被引文献  (37)
二级引证文献  (46)
1980(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(7)
  • 引证文献(4)
  • 二级引证文献(3)
2013(8)
  • 引证文献(1)
  • 二级引证文献(7)
2014(12)
  • 引证文献(0)
  • 二级引证文献(12)
2015(2)
  • 引证文献(0)
  • 二级引证文献(2)
2016(7)
  • 引证文献(0)
  • 二级引证文献(7)
2017(7)
  • 引证文献(1)
  • 二级引证文献(6)
2018(4)
  • 引证文献(0)
  • 二级引证文献(4)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
文本挖掘
聚类
频繁词集
k-means
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导