基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(information gain,简称IG)和互信息(mutual information,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和NewsGroup这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准.
推荐文章
基于高性能特征选择函数的Web文档聚类算法
文档聚类
Web挖掘
特征选择
降维
基于类别和改进的CHI相结合的特征选择方法
卡方检验
特征选择
情感分析
随机森林
用于中文文本分类的基于类别区分词的特征选择方法
文本分类
特征选择
类别区分词
信息增益
互信息
期望交叉熵
基于类别分布差异和特征熵的维吾尔语文本特征选择
特征选择
文本分类
特征熵
支持向量机
维吾尔语
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于区分类别能力的高性能特征选择方法
来源期刊 软件学报 学科 工学
关键词 特征选择 文本分类 信息检索
年,卷(期) 2008,(1) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 82-89
页数 8页 分类号 TP181
字数 5802字 语种 中文
DOI 10.3724/SP.J.1001.2008.00082
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王斌 中国科学院计算技术研究所 325 6645 42.0 69.0
2 李锦涛 中国科学院计算技术研究所 115 2894 31.0 50.0
3 徐燕 中国科学院计算技术研究所 20 776 10.0 20.0
5 孙春明 中国科学院计算技术研究所 3 276 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (28)
共引文献  (358)
参考文献  (3)
节点文献
引证文献  (172)
同被引文献  (158)
二级引证文献  (804)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(10)
  • 参考文献(1)
  • 二级参考文献(9)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(8)
  • 参考文献(1)
  • 二级参考文献(7)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(7)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(7)
  • 二级引证文献(0)
2008(7)
  • 引证文献(7)
  • 二级引证文献(0)
2009(14)
  • 引证文献(13)
  • 二级引证文献(1)
2010(27)
  • 引证文献(22)
  • 二级引证文献(5)
2011(38)
  • 引证文献(14)
  • 二级引证文献(24)
2012(73)
  • 引证文献(17)
  • 二级引证文献(56)
2013(69)
  • 引证文献(15)
  • 二级引证文献(54)
2014(103)
  • 引证文献(15)
  • 二级引证文献(88)
2015(121)
  • 引证文献(14)
  • 二级引证文献(107)
2016(121)
  • 引证文献(12)
  • 二级引证文献(109)
2017(135)
  • 引证文献(16)
  • 二级引证文献(119)
2018(120)
  • 引证文献(13)
  • 二级引证文献(107)
2019(129)
  • 引证文献(13)
  • 二级引证文献(116)
2020(19)
  • 引证文献(1)
  • 二级引证文献(18)
研究主题发展历程
节点文献
特征选择
文本分类
信息检索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
北京市自然科学基金
英文译名:Natural Science Foundation of Beijing Province
官方网址:http://210.76.125.39/zrjjh/zrjj/
项目类型:重大项目
学科类型:
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导