基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文章研究并改进了文本自动分类中的特征权重算法.传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息.该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系.实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果.
推荐文章
动态自适应特征权重的多类文本分类算法研究
文本分类
特征权重
TF-IDF
分散度
梯度差
信噪比优化算法文档分类及特征权重公式改进研究
文档分类
信噪比算法
权重公式
特征词
一种可靠信任推荐文本分类特征权重算法
文本分类
特征权重
可信计算
概率确定性密度
自然语言处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本自动分类中特征权重算法的改进研究
来源期刊 计算机工程与应用 学科 工学
关键词 特征项 权重算法 分布信息 低频高权特征 文本分类
年,卷(期) 2005,(1) 所属期刊栏目 数据库与信息处理
研究方向 页码范围 181-184,220
页数 5页 分类号 TP301.6
字数 5651字 语种 中文
DOI 10.3321/j.issn:1002-8331.2005.01.056
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 罗振声 清华大学计算语言学研究室 13 454 12.0 13.0
2 徐凤亚 清华大学计算语言学研究室 1 131 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (11)
共引文献  (168)
参考文献  (7)
节点文献
引证文献  (131)
同被引文献  (163)
二级引证文献  (709)
1968(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(3)
  • 参考文献(1)
  • 二级参考文献(2)
1994(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(4)
  • 参考文献(2)
  • 二级参考文献(2)
2002(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(8)
  • 引证文献(8)
  • 二级引证文献(0)
2007(14)
  • 引证文献(12)
  • 二级引证文献(2)
2008(16)
  • 引证文献(8)
  • 二级引证文献(8)
2009(41)
  • 引证文献(17)
  • 二级引证文献(24)
2010(46)
  • 引证文献(19)
  • 二级引证文献(27)
2011(60)
  • 引证文献(14)
  • 二级引证文献(46)
2012(68)
  • 引证文献(11)
  • 二级引证文献(57)
2013(73)
  • 引证文献(11)
  • 二级引证文献(62)
2014(83)
  • 引证文献(7)
  • 二级引证文献(76)
2015(83)
  • 引证文献(5)
  • 二级引证文献(78)
2016(101)
  • 引证文献(7)
  • 二级引证文献(94)
2017(73)
  • 引证文献(6)
  • 二级引证文献(67)
2018(85)
  • 引证文献(2)
  • 二级引证文献(83)
2019(67)
  • 引证文献(2)
  • 二级引证文献(65)
2020(21)
  • 引证文献(1)
  • 二级引证文献(20)
研究主题发展历程
节点文献
特征项
权重算法
分布信息
低频高权特征
文本分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导