原文服务方: 计算机应用研究       
摘要:
针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数和类别数时是不同的,分类性能受训练集的这三项指标的交互影响,通过对训练集的这三项指标进行优化,提出了从分类算法、特征项选择法以外提高分类性能的途径。在真实数据上的实验结果表明,该方法可有效提高分类性能。
推荐文章
不均衡数据集上文本分类方法研究
特征选择
CHI统计
文本分类
不均衡数据集
重取样
文本分类的性能评估指标
文本分类
查准率
查全率
测试集
EM_kNN算法在文本分类中的应用
本分类
kNN算法
EM算法
模糊kNN在文本分类中的应用研究
文本分类
模糊kNN
特征选择
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本分类中训练集相关数量指标的影响研究
来源期刊 计算机应用研究 学科
关键词 训练集优化 文本分类 多因素方差分析 语料库 相关数量指标
年,卷(期) 2014,(11) 所属期刊栏目
研究方向 页码范围 3324-3327,3332
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2014.11.028
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李湘东 武汉大学信息管理学院 37 187 8.0 13.0
5 曹环 武汉大学信息管理学院 4 10 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (128)
参考文献  (10)
节点文献
引证文献  (7)
同被引文献  (36)
二级引证文献  (25)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(5)
  • 参考文献(1)
  • 二级参考文献(4)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(5)
  • 引证文献(1)
  • 二级引证文献(4)
2018(3)
  • 引证文献(2)
  • 二级引证文献(1)
2019(18)
  • 引证文献(1)
  • 二级引证文献(17)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
训练集优化
文本分类
多因素方差分析
语料库
相关数量指标
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导