基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.本文介绍了一种基于类别特征域的特征选择方法.该方法首先利用"组合特征抽取"[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征.这里,"组合特征抽取"是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征.接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题.实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能.
推荐文章
文本分类中的特征选择方法
文本分类
特征选择
评估函数
文本分类中一种特征选择方法研究
文本分类
特征选择
分散度
集中度
频度
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
基于假设检验的文本分类特征选择
特征选择
假设检验
文本分类
T-C双向四格表
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于类别特征域的文本分类特征选择方法
来源期刊 中文信息学报 学科 工学
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别特征域
年,卷(期) 2005,(6) 所属期刊栏目
研究方向 页码范围 21-27
页数 7页 分类号 TP391
字数 5950字 语种 中文
DOI 10.3969/j.issn.1003-0077.2005.06.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张宇 哈尔滨工业大学信息检索研究室 197 1689 20.0 36.0
2 李生 哈尔滨工业大学信息检索研究室 118 3318 28.0 56.0
3 刘挺 哈尔滨工业大学信息检索研究室 142 4348 34.0 63.0
4 赵世奇 哈尔滨工业大学信息检索研究室 9 293 7.0 9.0
5 陈毅恒 哈尔滨工业大学信息检索研究室 8 243 6.0 8.0
6 黄永光 哈尔滨工业大学信息检索研究室 2 126 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (604)
参考文献  (6)
节点文献
引证文献  (61)
同被引文献  (78)
二级引证文献  (472)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(6)
  • 参考文献(0)
  • 二级参考文献(6)
2000(7)
  • 参考文献(0)
  • 二级参考文献(7)
2001(8)
  • 参考文献(2)
  • 二级参考文献(6)
2002(5)
  • 参考文献(1)
  • 二级参考文献(4)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2006(3)
  • 引证文献(3)
  • 二级引证文献(0)
2007(5)
  • 引证文献(5)
  • 二级引证文献(0)
2008(15)
  • 引证文献(5)
  • 二级引证文献(10)
2009(27)
  • 引证文献(6)
  • 二级引证文献(21)
2010(32)
  • 引证文献(5)
  • 二级引证文献(27)
2011(31)
  • 引证文献(8)
  • 二级引证文献(23)
2012(40)
  • 引证文献(8)
  • 二级引证文献(32)
2013(27)
  • 引证文献(2)
  • 二级引证文献(25)
2014(43)
  • 引证文献(6)
  • 二级引证文献(37)
2015(37)
  • 引证文献(0)
  • 二级引证文献(37)
2016(68)
  • 引证文献(5)
  • 二级引证文献(63)
2017(65)
  • 引证文献(5)
  • 二级引证文献(60)
2018(66)
  • 引证文献(3)
  • 二级引证文献(63)
2019(61)
  • 引证文献(0)
  • 二级引证文献(61)
2020(13)
  • 引证文献(0)
  • 二级引证文献(13)
研究主题发展历程
节点文献
计算机应用
中文信息处理
文本分类
特征选择
类别特征域
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导