基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在文本分类问题中,有多种评价特征优劣的指标,其中主要有特征与类别的相关性、特征自身的冗余度和特征在语料中的稀疏程度.由于文本特征的优劣直接影响分类效果,全方位考虑特征的各个因素很有必要.特征选择常分为三步骤分别对相关性、冗余度和稀疏程度进行衡量,而在每一步的加权和筛选过程中都要耗费大量时间,在面对实时性和准确性要求较高的情况时,这种分步评价特征的方法很难适用.针对上述问题,首先建立坐标模型,将相关性、冗余度和稀疏程度映射到坐标系中,根据空间内的点和原点构成的向量与坐标面或坐标轴的夹角对文本特征进行加权和筛选,从而将多个评价指标整合为一个评价指标,大幅节省了多次加权和筛选所耗费的时间,提高了特征选择效率.在复旦大学中文文本语料库和网易文本语料库中的实验结果表明,相比于分步法,基于多指标融合的文本特征评价及选择算法能够更快、更准地筛选词汇和n-grams特征,并在支持向量机(Support Vector Machine,SVM)中验证了特征在分类时的有效性.
推荐文章
多特征融合文本聚类的新闻话题发现模型
新闻话题
多特征融合
潜在狄利克雷分配
向量空间模型
主题空间模型
融合特征排序的多标记特征选择算法
特征选择
多标记分类
聚类融合
互信息
基于树修剪和多特征融合的场景文本检测
MSER树修剪
多特征融合
场景文本
最大稳定极值区
贝叶斯多特征融合分类器
基于词间关系分析的文本特征选择算法
词间关系
特征选择
关联规则
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多指标融合的文本特征评价及选择算法
来源期刊 计算机工程与应用 学科 工学
关键词 相关性 冗余度 稀疏程度 坐标系
年,卷(期) 2016,(24) 所属期刊栏目 大数据与云计算
研究方向 页码范围 95-101
页数 7页 分类号 TP391.1
字数 6308字 语种 中文
DOI 10.3778/j.issn.1002-8331.1505-0250
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王璐 辽宁工程技术大学软件学院 10 22 3.0 4.0
2 邱云飞 辽宁工程技术大学软件学院 70 620 13.0 22.0
3 刘世兴 辽宁工程技术大学软件学院 5 16 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (29)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (2)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
相关性
冗余度
稀疏程度
坐标系
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导