基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差.提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip-gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类.在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%.
推荐文章
结合语义改进的K-means短文本聚类算法
文本挖掘
短文本聚类
K-means算法
最大频繁词集
知网
语义相似度
基于特征词向量的短文本聚类算法
短文本
特征词
词向量
相似度计算
聚类
基于改进相似度与类中心向量的半监督短文本聚类算法
强类别区分度
相似度
类中心向量
半监督聚类
短文本
一种高效的分布式相似短文本聚类算法
文本聚类
最小哈希
局部敏感哈希
shingling
Spark
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种改进的短文本层次聚类算法
来源期刊 信息工程大学学报 学科 工学
关键词 短文本 聚类 词向量 关键词提取
年,卷(期) 2015,(6) 所属期刊栏目 计算机技术及应用
研究方向 页码范围 743-748,752
页数 7页 分类号 TP391.4
字数 4440字 语种 中文
DOI 10.3969/j.issn.1671-0673.2015.06.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王波 21 524 6.0 21.0
2 席耀一 14 50 3.0 6.0
3 李天彩 2 3 1.0 1.0
4 张佳明 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (50)
共引文献  (88)
参考文献  (15)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (2)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(8)
  • 参考文献(0)
  • 二级参考文献(8)
2007(3)
  • 参考文献(2)
  • 二级参考文献(1)
2008(5)
  • 参考文献(1)
  • 二级参考文献(4)
2009(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(5)
  • 参考文献(1)
  • 二级参考文献(4)
2011(6)
  • 参考文献(3)
  • 二级参考文献(3)
2012(5)
  • 参考文献(1)
  • 二级参考文献(4)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
短文本
聚类
词向量
关键词提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息工程大学学报
双月刊
1671-0673
41-1196/N
大16开
郑州市科学大道62号
2000
chi
出版文献量(篇)
2792
总下载数(次)
2
总被引数(次)
9088
论文1v1指导