作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题.信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一.针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关键.为了解决这一问题,基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量.该方法可以区分出扩展后的短文本中词的重要程度,以便获得更准确的语义相关性.短文本分类研究采用KNN算法分类,实验结果表明,通过在外部语料集上学习得到的语义相关性扩展来处理短文本特征,可以有效提高短文本的分类效果.
推荐文章
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
基于词向量特征扩展的中文短文本分类研究
短文本
维基百科
特征扩展
词向量
文本分类
基于关键词相似度的短文本分类方法研究
词向量
特征选择
短文本分类
特征权重
结合情感词网的中文短文本情感分类
同义词
情感词网
情感分类
短文本
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于扩展短文本词特征向量的分类研究
来源期刊 计算机技术与发展 学科 工学
关键词 短文本 Word2vec模型 词嵌入 改进后的特征权重算法 语义相关度
年,卷(期) 2019,(4) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 57-62
页数 6页 分类号 TP301
字数 4936字 语种 中文
DOI 10.3969/j.issn.1673-629X.2019.04.12
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王诚 南京邮电大学通信与信息工程学院 34 123 6.0 9.0
2 孟涛 南京邮电大学通信与信息工程学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (32)
共引文献  (46)
参考文献  (11)
节点文献
引证文献  (6)
同被引文献  (15)
二级引证文献  (9)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(6)
  • 参考文献(2)
  • 二级参考文献(4)
2012(5)
  • 参考文献(2)
  • 二级参考文献(3)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(6)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(5)
  • 二级引证文献(1)
2019(6)
  • 引证文献(5)
  • 二级引证文献(1)
2020(9)
  • 引证文献(1)
  • 二级引证文献(8)
研究主题发展历程
节点文献
短文本
Word2vec模型
词嵌入
改进后的特征权重算法
语义相关度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导