原文服务方: 计算机应用研究       
摘要:
在传统的文本分类中,文本向量空间矩阵存在维数灾难和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题.针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架.该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合.对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重.最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法.实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性.
推荐文章
基于新的关键词提取方法的快速文本分类系统
计算机应用
中文信息处理
关键词提取
Web文档分类
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
基于词共现的文本分类算法
词共现
TF-IDF
向量空间模型
特征选择
采用类别相似度聚合的关联文本分类方法
文本分类
关联规则
类别相似度
聚合
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于关键词相似度的短文本分类方法研究
来源期刊 计算机应用研究 学科
关键词 词向量 特征选择 短文本分类 特征权重
年,卷(期) 2020,(1) 所属期刊栏目 算法研究探讨
研究方向 页码范围 26-29
页数 4页 分类号 TP391.1
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.04.0440
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张振豪 华东理工大学信息科学与工程学院 2 12 1.0 2.0
2 韩美琪 华东理工大学信息科学与工程学院 2 12 1.0 2.0
3 王吉祥 华东理工大学信息科学与工程学院 3 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (9)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(4)
  • 参考文献(0)
  • 二级参考文献(4)
2015(4)
  • 参考文献(2)
  • 二级参考文献(2)
2016(5)
  • 参考文献(4)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词向量
特征选择
短文本分类
特征权重
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导