原文服务方: 信息与控制       
摘要:
分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法.针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出了基于信息增益的类别标识提取算法.为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点.实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识.
推荐文章
广义后缀树的概念生成算法
形式概念分析
概念格
广义后缀树
数据挖掘
一种基于主题的Web文本聚类算法
HTBC算法
Web文本聚类
主题
搜索引擎
互信息
一种增量式文本软聚类算法
语义序列
增量式聚类
软聚类
文本聚类
一种基于CF树的k-medoids聚类算法
聚类
k-中心点
CF树
微簇
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种改进的基于广义后缀树的文本聚类算法
来源期刊 信息与控制 学科
关键词 文本聚类 web挖掘 广义后缀树 后缀树聚类(STC)
年,卷(期) 2009,(3) 所属期刊栏目 论文报告
研究方向 页码范围 331-336
页数 6页 分类号 TP18
字数 语种 中文
DOI 10.3969/j.issn.1002-0411.2009.03.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘南平 河北工业大学信息工程学院 4 18 2.0 4.0
2 吴涛 河北工业大学信息工程学院 11 49 4.0 7.0
3 夏克文 河北工业大学信息工程学院 82 512 14.0 20.0
4 杜红斌 河北工业大学信息工程学院 4 64 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (14)
同被引文献  (19)
二级引证文献  (21)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
2011(4)
  • 引证文献(4)
  • 二级引证文献(0)
2012(7)
  • 引证文献(3)
  • 二级引证文献(4)
2013(2)
  • 引证文献(1)
  • 二级引证文献(1)
2014(6)
  • 引证文献(2)
  • 二级引证文献(4)
2015(3)
  • 引证文献(2)
  • 二级引证文献(1)
2016(3)
  • 引证文献(0)
  • 二级引证文献(3)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本聚类
web挖掘
广义后缀树
后缀树聚类(STC)
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息与控制
双月刊
1002-0411
21-1138/TP
大16开
1972-01-01
chi
出版文献量(篇)
2891
总下载数(次)
0
总被引数(次)
41289
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导