原文服务方: 计算机应用研究       
摘要:
针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词.因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集.通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果.
推荐文章
文本分类中一种基于核的最大散度差特征抽取方法
文本分类
特征抽取
特征降维
散度差准则
核变换
文本分类中的特征选择方法
文本分类
特征选择
评估函数
一种基于语义标注特征的金融文本分类方法
文本分类
金融文本
语义标注
词汇—语义模式
有限状态机
一种面向文本分类的特征向量优化方法
机器学习
Mahout
特征向量
向量优化
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本分类中一种特征选择方法研究
来源期刊 计算机应用研究 学科
关键词 文本分类 特征选择 分散度 集中度 频度
年,卷(期) 2019,(8) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2261-2265
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.01.0078
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王春枝 湖北工业大学计算机学院 85 410 11.0 15.0
2 邵雄凯 湖北工业大学计算机学院 39 123 7.0 9.0
3 刘建舟 湖北工业大学计算机学院 14 102 6.0 9.0
4 赵婧 湖北工业大学计算机学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (43)
共引文献  (43)
参考文献  (13)
节点文献
引证文献  (8)
同被引文献  (24)
二级引证文献  (16)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(7)
  • 参考文献(0)
  • 二级参考文献(7)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(9)
  • 参考文献(3)
  • 二级参考文献(6)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(6)
  • 参考文献(2)
  • 二级参考文献(4)
2015(9)
  • 参考文献(2)
  • 二级参考文献(7)
2016(3)
  • 参考文献(2)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(9)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(7)
  • 二级引证文献(2)
2019(9)
  • 引证文献(7)
  • 二级引证文献(2)
2020(15)
  • 引证文献(1)
  • 二级引证文献(14)
研究主题发展历程
节点文献
文本分类
特征选择
分散度
集中度
频度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导