基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能.
推荐文章
基于TFIDF的文本特征选择方法
文本分类
特征选择
术语频率
逆文档频率
基于词条属性聚类的文本特征选择算法
文本特征选择
词条属性
词位置
词间关联性
关联规则算法
K-均值算法
基于线性组合文本特征选择方法
文本分类
特征选择
模糊相关
冗余性
基于假设检验的文本分类特征选择
特征选择
假设检验
文本分类
T-C双向四格表
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于特征选择及Condensing技术的文本取样
来源期刊 模式识别与人工智能 学科 工学
关键词 文本分类 k-近邻(kNN) 取样 特征选择 Condensing算法
年,卷(期) 2009,(5) 所属期刊栏目 论文与报告
研究方向 页码范围 709-717
页数 9页 分类号 TP391
字数 7943字 语种 中文
DOI 10.3969/j.issn.1003-6059.2009.05.006
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡运发 复旦大学计算机科学与技术学院 150 3430 27.0 54.0
2 陶晓鹏 复旦大学计算机科学与技术学院 19 564 7.0 19.0
3 王述云 复旦大学计算机科学与技术学院 6 56 3.0 6.0
4 郝秀兰 复旦大学计算机科学与技术学院 7 33 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (298)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1972(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(2)
  • 二级参考文献(0)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(10)
  • 参考文献(0)
  • 二级参考文献(10)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(7)
  • 参考文献(0)
  • 二级参考文献(7)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
k-近邻(kNN)
取样
特征选择
Condensing算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导