原文服务方: 计算机应用研究       
摘要:
针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数和类别数时是不同的,分类性能受训练集的这三项指标的交互影响,通过对训练集的这三项指标进行优化,提出了从分类算法、特征项选择法以外提高分类性能的途径。在真实数据上的实验结果表明,该方法可有效提高分类性能。
推荐文章
基于免疫算法的文本分类研究
文本分类
免疫
克隆选择
抗体浓度
基于Rough集的web文本分类研究
web文本分类
Rough集
属性约简
决策表
文本分类技术研究
文本分类
文本模型
数据挖掘
文本分类技术研究
文本挖掘
文本分类
特征表示
特征抽取
模型评估
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本分类中训练集相关数量指标的影响研究
来源期刊 计算机应用研究 学科
关键词 训练集优化 文本分类 多因素方差分析 语料库 相关数量指标
年,卷(期) 2014,(11) 所属期刊栏目
研究方向 页码范围 3324-3327,3332
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2014.11.028
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李湘东 武汉大学信息管理学院 37 187 8.0 13.0
5 曹环 武汉大学信息管理学院 4 10 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (128)
参考文献  (10)
节点文献
引证文献  (7)
同被引文献  (36)
二级引证文献  (25)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(5)
  • 参考文献(1)
  • 二级参考文献(4)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(5)
  • 引证文献(1)
  • 二级引证文献(4)
2018(3)
  • 引证文献(2)
  • 二级引证文献(1)
2019(18)
  • 引证文献(1)
  • 二级引证文献(17)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
训练集优化
文本分类
多因素方差分析
语料库
相关数量指标
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导