原文服务方: 计算机应用研究       
摘要:
为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入"代"的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量.实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性.
推荐文章
面向新闻评论的短文本增量聚类算法
舆情分析
短文本
增量聚类算法
向量空间模型
神经网络
增量式聚类的新闻热点话题发现研究
新闻热点话题
文本聚类
Single-Pass算法
热度公式
基于藏文新闻文本话题检测的聚类算法研究
聚类算法
种子话题
藏文新闻文本
话题检测
多特征融合文本聚类的新闻话题发现模型
新闻话题
多特征融合
潜在狄利克雷分配
向量空间模型
主题空间模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向网络话题发现的增量文本聚类算法
来源期刊 计算机应用研究 学科
关键词 话题发现 文本聚类 增量聚类 准确度 ICIT算法
年,卷(期) 2011,(1) 所属期刊栏目
研究方向 页码范围 54-57
页数 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2011.01.013
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (34)
共引文献  (176)
参考文献  (7)
节点文献
引证文献  (42)
同被引文献  (90)
二级引证文献  (108)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(9)
  • 参考文献(2)
  • 二级参考文献(7)
2007(12)
  • 参考文献(3)
  • 二级参考文献(9)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(3)
  • 引证文献(3)
  • 二级引证文献(0)
2013(9)
  • 引证文献(5)
  • 二级引证文献(4)
2014(20)
  • 引证文献(8)
  • 二级引证文献(12)
2015(16)
  • 引证文献(8)
  • 二级引证文献(8)
2016(30)
  • 引证文献(10)
  • 二级引证文献(20)
2017(21)
  • 引证文献(3)
  • 二级引证文献(18)
2018(24)
  • 引证文献(3)
  • 二级引证文献(21)
2019(20)
  • 引证文献(1)
  • 二级引证文献(19)
2020(6)
  • 引证文献(0)
  • 二级引证文献(6)
研究主题发展历程
节点文献
话题发现
文本聚类
增量聚类
准确度
ICIT算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导