基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着大数据时代的到来,用户短文本数据呈爆炸性增长,充分利用聚类分析技术获取短文本中的有用信息显得十分重要.聚类分析作为一种重要的知识发现手段,是将对象按其特征的相似程度进行归类的过程.为此,提出了一种可增量面向用户短文本聚类方法.该方法包括离线聚类和在线聚类两大类,前者在短文本预处理的基础上,利用无关语词典对短文本中的无关语进行识别和清理,再利用词类词典对短文本进行语义归一化;同时还提出了基于多特征融合的相似度计算方法,以实现对文本的相关性聚类.后者则以离线聚类结果为特征,对在线文本进行在线聚类操作,将离线聚类结果和在线聚类结果进行合并,以生成最终的聚类结果.为验证该方法的有效性与可行性,与基于特征向量的相似度方法进行了对比实验.实验结果表明,该方法的聚类召回率可达73%,聚类精度达到87.7%,F值为79.6%,均优于基于特征向量的方法.
推荐文章
基于LSTM自动编码机的短文本聚类方法
自然语言处理
短文本
聚类
长短期记忆网络
自动编码机
一种增量式文本软聚类算法
语义序列
增量式聚类
软聚类
文本聚类
基于蚁群聚类模型的增量式Web用户聚类
用户聚类
蚁群聚类
方向相似性
增量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 可增量的用户短文本聚类方法研究
来源期刊 计算机技术与发展 学科 工学
关键词 短文本 语义归一化 离线聚类 在线聚类
年,卷(期) 2017,(11) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 83-87
页数 5页 分类号 TP301
字数 5082字 语种 中文
DOI 10.3969/j.issn.1673-629X.2017.11.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张再跃 江苏科技大学计算机科学与工程学院 40 154 7.0 11.0
2 张仪 江苏科技大学计算机科学与工程学院 1 0 0.0 0.0
3 陈国 江苏科技大学计算机科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (26)
参考文献  (12)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1989(2)
  • 参考文献(1)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(3)
  • 参考文献(2)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
短文本
语义归一化
离线聚类
在线聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导