基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法.首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover's distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类.在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%.
推荐文章
基于CBC-LIKE算法的产品特征词聚类的研究
产品特征
语义相似度
聚类算法
观点挖掘
基于LSTM自动编码机的短文本聚类方法
自然语言处理
短文本
聚类
长短期记忆网络
自动编码机
基于特征词匹配的政策文本分类算法研究与实现
字符串匹配算法
阈值计算
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于特征词向量的短文本聚类算法
来源期刊 数据采集与处理 学科 工学
关键词 短文本 特征词 词向量 相似度计算 聚类
年,卷(期) 2017,(5) 所属期刊栏目
研究方向 页码范围 1052-1060
页数 9页 分类号 TP391.1
字数 6555字 语种 中文
DOI 10.16337/j.1004-9037.2017.05.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王波 解放军信息工程大学信息系统工程学院 19 157 7.0 12.0
2 唐永旺 解放军信息工程大学信息系统工程学院 6 30 4.0 5.0
3 刘欣 解放军信息工程大学信息系统工程学院 3 27 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (62)
参考文献  (8)
节点文献
引证文献  (7)
同被引文献  (24)
二级引证文献  (7)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(5)
  • 参考文献(1)
  • 二级参考文献(4)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2014(3)
  • 参考文献(3)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(6)
  • 引证文献(2)
  • 二级引证文献(4)
2020(4)
  • 引证文献(1)
  • 二级引证文献(3)
研究主题发展历程
节点文献
短文本
特征词
词向量
相似度计算
聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据采集与处理
双月刊
1004-9037
32-1367/TN
大16开
南京市御道街29号1016信箱
28-235
1986
chi
出版文献量(篇)
3235
总下载数(次)
7
总被引数(次)
25271
相关基金
国家社会科学基金
英文译名:Philosophy and Social Science Foundation of China
官方网址:http://www.npopss-cn.gov.cn/
项目类型:重点项目
学科类型:马列·科社
论文1v1指导