基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之间的关联性.针对以上问题,提出一种基于后缀树文档模型的半监督自适应多密度文本聚类算法.该算法基于后缀树文档模型表征文档间的相似度,使用K最近邻思想传播扩展簇标签,并在传播扩展过程中不断更新扩展阈值,以适应多密度不平衡的文本数据集.经实验验证,算法具有较高质量的聚类结果且能够适应多密度数据集.
推荐文章
基于密度自适应邻域相似图的半监督谱聚类
谱聚类
密度自适应邻域
相似图
半监督学习
一种改进的基于广义后缀树的文本聚类算法
文本聚类
web挖掘
广义后缀树
后缀树聚类(STC)
基于相对密度的多耦合文本聚类算法
文本聚类
空间向量模型
相对密度
文本相似度
核心对象
基于主动数据选取的半监督聚类算法
数据挖掘
半监督聚类
主动学习
标签数据
数据选取
最小生成树
多密度数据集
不平衡数据集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于后缀树的半监督自适应多密度文本聚类算法
来源期刊 小型微型计算机系统 学科 工学
关键词 后缀树 半监督 多密度 文本聚类
年,卷(期) 2016,(1) 所属期刊栏目 计算机网络与信息安全
研究方向 页码范围 100-103
页数 4页 分类号 TP301
字数 3550字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张春瑞 中国工程物理研究院计算机应用研究所 24 181 7.0 12.0
2 刘渊 中国工程物理研究院计算机应用研究所 31 188 8.0 12.0
3 文平 中国工程物理研究院计算机应用研究所 2 5 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (23)
参考文献  (6)
节点文献
引证文献  (4)
同被引文献  (3)
二级引证文献  (4)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(9)
  • 参考文献(3)
  • 二级参考文献(6)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(4)
  • 引证文献(1)
  • 二级引证文献(3)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
后缀树
半监督
多密度
文本聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
小型微型计算机系统
月刊
1000-1220
21-1106/TP
大16开
辽宁省沈阳市东陵区南屏东路16号
8-108
1980
chi
出版文献量(篇)
11026
总下载数(次)
17
总被引数(次)
83133
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导