原文服务方: 计算机应用研究       
摘要:
连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术.针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multi-interval discretization based on term presence and information gain,MTPIG).并将MTPIG算法应用到了分类算法AdaBoost.MH中,给出实验结果及分析.实验结果表明,使用MTPIG算法处理文本分类中的数据,其过程简单高效,预测精度高,可理解性强.采用该算法离散化数据集后,分类算法的分类性能有所提高.
推荐文章
基于信息增益的多连续属性离散化算法改进
离散化
多连续属性
信息增益
基于信息熵理论的连续属性离散化方法
离散化
数据挖掘
信息熵
基于数据分区的连续属性整体离散化方法研究
归纳学习
离散化
数据分区
整体离散化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词出现和信息增益的连续属性离散化方法
来源期刊 计算机应用研究 学科
关键词 连续属性的离散化 信息增益 文本分类
年,卷(期) 2009,(2) 所属期刊栏目 算法研究探讨
研究方向 页码范围 485-487,499
页数 4页 分类号 TP31
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2009.02.024
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 耿国华 西北大学可视化研究所 497 5986 35.0 55.0
2 周明全 北京师范大学信息科学与技术学院 270 2127 22.0 27.0
3 孙挺 西北大学可视化研究所 22 117 6.0 10.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (6)
参考文献  (6)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1986(1)
  • 参考文献(1)
  • 二级参考文献(0)
1993(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
连续属性的离散化
信息增益
文本分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导