基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别.为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法.多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布.基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题.实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题.实验系统证明了新方法的有效性.
推荐文章
一种基于语义标注特征的金融文本分类方法
文本分类
金融文本
语义标注
词汇—语义模式
有限状态机
文本分类中一种特征选择方法研究
文本分类
特征选择
分散度
集中度
频度
一种基于文本分类的知识树自动构建方法
概率潜在语义分析
潜在语义空间
知识管理
知识树
一种基于PCA的组合特征提取文本分类方法
基于PCA的组合特征提取算法(PCA-CFEA)
主成分分析
特征提取
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新的基于统计的自动文本分类方法
来源期刊 中文信息学报 学科 工学
关键词 自动文本分类 多层次特征提取 基于核的距离加权KNN算法 样本重要性分析
年,卷(期) 2002,(6) 所属期刊栏目
研究方向 页码范围 18-24
页数 7页 分类号 TP391
字数 5723字 语种 中文
DOI 10.3969/j.issn.1003-0077.2002.06.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 高文 中国科学院计算技术研究所 150 5863 39.0 72.0
2 刘斌 中国科学院计算技术研究所 230 3876 32.0 56.0
3 黄铁军 28 369 8.0 19.0
4 程军 中国科学院文献情报中心 21 273 5.0 16.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (152)
同被引文献  (73)
二级引证文献  (1314)
1995(2)
  • 参考文献(2)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2003(1)
  • 引证文献(1)
  • 二级引证文献(0)
2004(9)
  • 引证文献(9)
  • 二级引证文献(0)
2005(26)
  • 引证文献(16)
  • 二级引证文献(10)
2006(84)
  • 引证文献(21)
  • 二级引证文献(63)
2007(143)
  • 引证文献(21)
  • 二级引证文献(122)
2008(122)
  • 引证文献(14)
  • 二级引证文献(108)
2009(128)
  • 引证文献(13)
  • 二级引证文献(115)
2010(146)
  • 引证文献(5)
  • 二级引证文献(141)
2011(113)
  • 引证文献(13)
  • 二级引证文献(100)
2012(113)
  • 引证文献(7)
  • 二级引证文献(106)
2013(106)
  • 引证文献(5)
  • 二级引证文献(101)
2014(96)
  • 引证文献(0)
  • 二级引证文献(96)
2015(67)
  • 引证文献(6)
  • 二级引证文献(61)
2016(93)
  • 引证文献(5)
  • 二级引证文献(88)
2017(60)
  • 引证文献(6)
  • 二级引证文献(54)
2018(77)
  • 引证文献(6)
  • 二级引证文献(71)
2019(70)
  • 引证文献(2)
  • 二级引证文献(68)
2020(10)
  • 引证文献(1)
  • 二级引证文献(9)
研究主题发展历程
节点文献
自动文本分类
多层次特征提取
基于核的距离加权KNN算法
样本重要性分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
论文1v1指导