基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的.这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果.另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理.为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对n-grams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权结果.通过支持向量机中的实验结果表明,经过基尼系数约简和加权后的n-grams特征在分类结果上要优于TF(Term Frequency)等加权方法,验证了算法的有效性.
推荐文章
基于字矩阵交运算的n-grams特征选择加权算法
汉语单双字识别
字矩阵
交运算
特征选择
特征加权
新疆基尼系数动态分析
基尼系数
收入
分配
两极分化
洛伦茨曲线
基于基尼系数的中国水生态分区研究
水生态系统
水生态区划
指标体系
基尼系数
洛伦茨曲线
基于粗糙集的属性约简算法
数据挖掘
粗糙集
属性约简
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于基尼系数的n-grams特征约简加权算法
来源期刊 淮阴工学院学报 学科 工学
关键词 n-grams特征 基尼指数 洛伦茨曲线 支持向量机
年,卷(期) 2016,(1) 所属期刊栏目 计算机应用
研究方向 页码范围 25-28
页数 4页 分类号 TP391
字数 2372字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 舒希勇 淮安信息职业技术学院机电工程系 22 43 4.0 5.0
2 张金美 淮安信息职业技术学院江苏省电子产品装备制造工程技术研究开发中心 21 35 4.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (37)
参考文献  (5)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(8)
  • 参考文献(1)
  • 二级参考文献(7)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
n-grams特征
基尼指数
洛伦茨曲线
支持向量机
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
淮阴工学院学报
双月刊
1009-7961
32-1605/T
大16开
淮安市枚乘东路1号
1988
chi
出版文献量(篇)
2741
总下载数(次)
3
总被引数(次)
7697
论文1v1指导