基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性.对于传统CHI统计方法对低频词敏感、TF-IDF权重计算方法忽略特征项在类别间和类别内分布情况,通过引入类词因子来改进传统CHI统计方法和TF-IDF权重计算方法,并将两者结合使用,减少低频词带来的干扰.同时考虑类内和类间特征词分布的特殊情况,使用XG-Boost分类算法将提出方法用在数据量少且文本短的话题文本分类实验中,实验结果表明,与传统的CHI和TF-IDF方法相比,加入类词因子的特征选择方法提高了在平衡和非平衡语料集上的分类准确性,大幅度降低了对内存的占用.
推荐文章
结合改进的CHI统计方法的TF-IDF算法优化
文本分类
CHI统计
TF-IDF算法
特征选择
基于改进的TF-IDF权重的短文本分类算法
短文本
TF-IDF权重
特征扩展
文本分类TF-IDF算法的改进研究
新词
词频-逆文档频率(TF-IDF)
向量空间模型
文本分类
一种改进TF-IDF的中文邮件识别算法研究
TF-IDF算法
邮件识别
卡方统计量
权重分配
邮件分类
仿真分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进CHI和TF-IDF的短文本分类的研究
来源期刊 计算机与现代化 学科
关键词 文本分类 特征选择 XGBoost 卡方统计量 TF-IDF
年,卷(期) 2021,(6) 所属期刊栏目 算法设计与分析|DESIGN AND ANALYSIS OF ALGORITHM
研究方向 页码范围 6-11
页数 6页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1006-2475.2021.06.002
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (59)
共引文献  (132)
参考文献  (20)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(2)
  • 参考文献(0)
  • 二级参考文献(2)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(5)
  • 参考文献(1)
  • 二级参考文献(4)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(7)
  • 参考文献(1)
  • 二级参考文献(6)
2008(9)
  • 参考文献(1)
  • 二级参考文献(8)
2009(7)
  • 参考文献(1)
  • 二级参考文献(6)
2010(4)
  • 参考文献(2)
  • 二级参考文献(2)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(4)
  • 参考文献(1)
  • 二级参考文献(3)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(7)
  • 参考文献(3)
  • 二级参考文献(4)
2016(3)
  • 参考文献(1)
  • 二级参考文献(2)
2018(3)
  • 参考文献(3)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
特征选择
XGBoost
卡方统计量
TF-IDF
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导