原文服务方: 计算机应用研究       
摘要:
文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题, 提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况, 而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验, 并与一些传统的特征选择方法进行了比较。从结果来看, 本方法在所选特征数更少的情况下, 达到了比其他方法更高的分类MacroF1值853%, 比传统的IG和CHI等方法在MacroF1值上分别高出了43%和61%。
推荐文章
基于类别信息和特征熵的文本特征权重计算
文本分类
文本特征
权重计算
类别频率
利用N-gram和语义分析的维吾尔语文本相似性检测方法
维吾尔语
文本相似性检测
N-gram统计模型
潜在语义分析
基于类别信息和特征熵的文本特征权重计算
文本分类
文本特征
权重计算
类别频率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于类别分布差异和特征熵的维吾尔语文本特征选择
来源期刊 计算机应用研究 学科
关键词 特征选择 文本分类 特征熵 支持向量机 维吾尔语
年,卷(期) 2013,(10) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2958-2961
页数 4页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2013.10.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吐尔根·依布拉音 新疆大学信息科学与工程学院 116 771 14.0 22.0
2 艾山·吾买尔 新疆大学信息科学与工程学院 66 292 10.0 14.0
3 库尔班·吾布力 新疆大学信息科学与工程学院 31 115 6.0 9.0
4 瓦依提·阿不力孜 新疆大学信息科学与工程学院 8 14 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (74)
共引文献  (756)
参考文献  (10)
节点文献
引证文献  (5)
同被引文献  (23)
二级引证文献  (10)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(3)
  • 参考文献(0)
  • 二级参考文献(3)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(15)
  • 参考文献(0)
  • 二级参考文献(15)
2004(7)
  • 参考文献(2)
  • 二级参考文献(5)
2005(13)
  • 参考文献(0)
  • 二级参考文献(13)
2006(9)
  • 参考文献(1)
  • 二级参考文献(8)
2007(5)
  • 参考文献(1)
  • 二级参考文献(4)
2008(5)
  • 参考文献(2)
  • 二级参考文献(3)
2009(4)
  • 参考文献(1)
  • 二级参考文献(3)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(4)
  • 引证文献(0)
  • 二级引证文献(4)
2017(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(6)
  • 引证文献(2)
  • 二级引证文献(4)
研究主题发展历程
节点文献
特征选择
文本分类
特征熵
支持向量机
维吾尔语
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导