基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在文本聚类中,相似性度量是影响聚类效果的重要因素.常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想.一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类.针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量.为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数.实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好.
推荐文章
一种基于主题的Web文本聚类算法
HTBC算法
Web文本聚类
主题
搜索引擎
互信息
一种基于Web文本聚类的用户兴趣发现模型的研究
文本聚类
用户兴趣
Web
用户行为
VSM
一种文本聚类方法及BBS浏览机制研究
文本聚类
kmeans聚类
分层聚类
BBS
一种基于模糊聚类的文本挖掘新方法
文本聚类
动态自组织神经网络
模糊聚类
动态模糊自组织神经网络模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于MapReduce的文本聚类方法研究
来源期刊 计算机科学 学科 工学
关键词 文本聚类 MapReduce K-means 信息损失
年,卷(期) 2016,(1) 所属期刊栏目 人工智能
研究方向 页码范围 246-250,269
页数 6页 分类号 TP311
字数 5704字 语种 中文
DOI 10.11896/j.issn.1002-137X.2016.1.053
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (91)
参考文献  (11)
节点文献
引证文献  (12)
同被引文献  (36)
二级引证文献  (18)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(2)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(3)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(10)
  • 引证文献(8)
  • 二级引证文献(2)
2019(10)
  • 引证文献(1)
  • 二级引证文献(9)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
文本聚类
MapReduce
K-means
信息损失
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导