基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。
推荐文章
基于支持向量机的不均衡文本分类方法
混合算法
支持向量机
不均衡数据集
插值样本
文本分类
迭代进化
不均衡数据集文本分类中少数类样本生成方法研究
不均衡数据集
分类
聚类
遗传算法
样本生成
基于大数据挖掘技术的文本分类研究
大规模文本数据
高维特征
大数据挖掘技术
文本分类器
分类精度
分类时间
基于支持向量机的不均衡文本分类方法
混合算法
支持向量机
不均衡数据集
插值样本
文本分类
迭代进化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 不均衡数据集上文本分类方法研究
来源期刊 计算机工程与应用 学科 工学
关键词 特征选择 CHI统计 文本分类 不均衡数据集 重取样
年,卷(期) 2013,(20) 所属期刊栏目 数据库、数据挖掘、机器学习
研究方向 页码范围 118-121
页数 4页 分类号 TP391.41
字数 4675字 语种 中文
DOI 10.3778/j.issn.1002-8331.1201-0299
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 房斌 重庆大学计算机学院 41 270 11.0 13.0
2 吴磊 重庆大学计算机学院 16 174 7.0 13.0
3 谢娜娜 重庆大学计算机学院 2 39 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (36)
共引文献  (357)
参考文献  (5)
节点文献
引证文献  (18)
同被引文献  (49)
二级引证文献  (59)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(9)
  • 参考文献(0)
  • 二级参考文献(9)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(8)
  • 参考文献(0)
  • 二级参考文献(8)
2006(3)
  • 参考文献(1)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(5)
  • 引证文献(4)
  • 二级引证文献(1)
2016(5)
  • 引证文献(3)
  • 二级引证文献(2)
2017(16)
  • 引证文献(4)
  • 二级引证文献(12)
2018(20)
  • 引证文献(5)
  • 二级引证文献(15)
2019(23)
  • 引证文献(1)
  • 二级引证文献(22)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
特征选择
CHI统计
文本分类
不均衡数据集
重取样
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导