基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本聚类是聚类算法的一种具体应用,随着互联网的发展,文本聚类应用越来越广泛,譬如在信息检索、智能搜索引擎等方面都有较为广泛的应用.文本聚类算法主要涉及文本预处理和文本聚类算法,故对文本聚类进行改进可以从这两方面入手.传统文本聚类的文本预处理采用VSM模型,该模型不考虑词与词的语义相似度和词与词的相关性,导致文本聚类精确度非常低.针对该问题,提出了基于特征空间文本聚类的方法.该方法根据文档集合的特征空间构造一个替代词库,并根据这个替代词库得到文档的主题,依据主题配合其对应的领域词典对文档词进行相应的替换.传统的文本聚类使用K-means算法,但该算法需要人工指定K值.为此,提出了基于K值优化的K-means改进算法.实验结果表明,所提出的文本聚类方法和K-means改进算法显著提高了文本聚类的智能性和精确性.
推荐文章
基于优化密度的耦合空间LDA文本聚类算法研究
文本聚类
耦合空间模型
LDA主题模型
密度
阈值
基于词条属性聚类的文本特征选择算法
文本特征选择
词条属性
词位置
词间关联性
关联规则算法
K-均值算法
基于主题概念聚类的中文文本聚类
中文文本聚类
HowNet
主题概念
Chmeleon算法
一种基于聚类加权的文本特征生成算法
文本分类
特征生成
权值计算
特征聚类
信息熵
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于特征空间的文本聚类
来源期刊 计算机技术与发展 学科 工学
关键词 知网 领域词典 主题 义原 聚类 K值优化
年,卷(期) 2017,(9) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 75-77,81
页数 4页 分类号 TP301.6
字数 3038字 语种 中文
DOI 10.3969/j.issn.1673-629X.2017.09.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周爱武 安徽大学计算机科学与技术学院 34 615 11.0 24.0
2 肖云 安徽大学计算机科学与技术学院 11 61 4.0 7.0
3 黄建宇 安徽大学计算机科学与技术学院 1 11 1.0 1.0
4 谭天诚 安徽大学计算机科学与技术学院 1 11 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (97)
共引文献  (969)
参考文献  (14)
节点文献
引证文献  (11)
同被引文献  (42)
二级引证文献  (12)
1953(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(1)
  • 参考文献(1)
  • 二级参考文献(0)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(9)
  • 参考文献(0)
  • 二级参考文献(9)
2000(9)
  • 参考文献(0)
  • 二级参考文献(9)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(7)
  • 参考文献(1)
  • 二级参考文献(6)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(9)
  • 参考文献(2)
  • 二级参考文献(7)
2006(8)
  • 参考文献(1)
  • 二级参考文献(7)
2007(9)
  • 参考文献(0)
  • 二级参考文献(9)
2008(6)
  • 参考文献(2)
  • 二级参考文献(4)
2009(12)
  • 参考文献(2)
  • 二级参考文献(10)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(8)
  • 参考文献(2)
  • 二级参考文献(6)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(5)
  • 引证文献(5)
  • 二级引证文献(0)
2019(13)
  • 引证文献(5)
  • 二级引证文献(8)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
知网
领域词典
主题
义原
聚类
K值优化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导