基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
特征选择是文本分类过程中解决数据高维问题的重要步骤.现有特征选择方法主要是基于特征词的词频或文档频率.虽然这些信息在一定程度上度量了特征词的重要程度,但它们不能刻画特征词在文档中的分布情况.针对这一问题,将文档的自然段落作为统计单元,提出了特征词的段落频率,该度量标准能够描述特征词在文档中的均匀分布程度.然后,将特征词的段落频率与特征词在类内和类间的分布信息相结合提出一种新的特征选择方法FSPC.为了验证方法的有效性,采用支持向量机和朴素贝叶斯作为分类器,在复旦语料库和搜狐新闻语料库上将FSPC与CHI Square,DF,IG和CMFS四种特征选择方法进行对比实验.实验结果表明,就评价指标F1值而言,FSPC方法的性能优于所对比的方法.
推荐文章
基于类别分布差异和特征熵的维吾尔语文本特征选择
特征选择
文本分类
特征熵
支持向量机
维吾尔语
基于类别和改进的CHI相结合的特征选择方法
卡方检验
特征选择
情感分析
随机森林
基于改进的类别分布特征选择方法
非平衡数据集
特征选择
文本分类
类别分布
机器学习
基于类别相关的新文本特征提取方法
正相关
强相关
文本分类
特征降维
特征提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 段落及类别分布的特征选择方法
来源期刊 小型微型计算机系统 学科 工学
关键词 文本分类 特征选择 段落分布 类别分布
年,卷(期) 2018,(1) 所属期刊栏目 人工智能与算法研究
研究方向 页码范围 17-22
页数 6页 分类号 TP391
字数 5425字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙铁利 东北师范大学计算机科学与信息技术学院 42 479 8.0 21.0
3 孙红光 东北师范大学计算机科学与信息技术学院 18 109 6.0 9.0
7 杨凤芹 东北师范大学计算机科学与信息技术学院 11 147 5.0 11.0
13 彭杨 东北师范大学计算机科学与信息技术学院 2 12 2.0 2.0
14 樊娜 东北师范大学计算机科学与信息技术学院 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (21)
共引文献  (5)
参考文献  (18)
节点文献
引证文献  (4)
同被引文献  (9)
二级引证文献  (4)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(3)
  • 参考文献(3)
  • 二级参考文献(0)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(6)
  • 参考文献(3)
  • 二级参考文献(3)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(8)
  • 参考文献(1)
  • 二级参考文献(7)
2015(5)
  • 参考文献(4)
  • 二级参考文献(1)
2016(6)
  • 参考文献(6)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(7)
  • 引证文献(3)
  • 二级引证文献(4)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
特征选择
段落分布
类别分布
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
小型微型计算机系统
月刊
1000-1220
21-1106/TP
大16开
辽宁省沈阳市东陵区南屏东路16号
8-108
1980
chi
出版文献量(篇)
11026
总下载数(次)
17
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导