基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
海量文本信息导致文本情感分类准确率低以及实时性差.针对这一问题,提出一种基于混合特征选择的向量空间模型聚类算法.首先将信息增益(Information Gain,IG)和互信息(Mutual Information,MI)与文档的不同词性特征相结合,生成文档的混合特征向量;然后计算文档向量空间模型之间的差异度,根据该差异度对向量空间模型进行聚类,得到聚类中心向量,采用聚类中心向量重新构造文档集的向量空间模型;最终采用支持向量机(Support Vector Machine,SVM)进行文档情感的判定.仿真实验结果表明:该混合特征向量空间模型聚类算法可以有效地降低文档样本特征的维数和数量,加快SVM的训练速度,同时实验结果也表明不同的词性特征和提取算法组合对系统的分类准确率有较大的影响.
推荐文章
基于聚类改进的 KN N文本分类算法
文本分类
KNN
聚类化
训练集
一种基于改进K-means聚类的文本特征选择模型
特征选择
特征降维
特征聚类
文本分类
Mixed-Fisher特征云模型聚类在文本情感分类中的应用
文本情感分类
Fisher判别比
词性特征
云向量模型
核Fisher判别
基于词条属性聚类的文本特征选择算法
文本特征选择
词条属性
词位置
词间关联性
关联规则算法
K-均值算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 改进混合特征模型聚类的文本情感分类算法研究
来源期刊 中北大学学报(自然科学版) 学科 工学
关键词 文本情感分类 向量空间模型 K均值聚类算法 支持向量机 信息增益 互信息
年,卷(期) 2014,(1) 所属期刊栏目 自动化与计算机
研究方向 页码范围 41-45
页数 5页 分类号 TP181
字数 4179字 语种 中文
DOI 10.3969/j.issn.1673-3193.2014.01.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王万军 甘肃联合大学电子信息工程学院 47 310 9.0 15.0
2 邢玉娟 甘肃联合大学电子信息工程学院 35 107 6.0 7.0
3 胡建军 甘肃联合大学电子信息工程学院 31 107 5.0 8.0
4 李恒杰 甘肃联合大学电子信息工程学院 46 207 6.0 12.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (377)
参考文献  (13)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(4)
  • 参考文献(3)
  • 二级参考文献(1)
2011(3)
  • 参考文献(3)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本情感分类
向量空间模型
K均值聚类算法
支持向量机
信息增益
互信息
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中北大学学报(自然科学版)
双月刊
1673-3193
14-1332/TH
大16开
太原13号信箱
1979
chi
出版文献量(篇)
2903
总下载数(次)
7
总被引数(次)
15437
论文1v1指导