基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能.该文提出了一种文本特征基因提取方法.首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法.实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法.
推荐文章
基于支持向量机的不均衡文本分类方法
混合算法
支持向量机
不均衡数据集
插值样本
文本分类
迭代进化
不均衡数据集文本分类中少数类样本生成方法研究
不均衡数据集
分类
聚类
遗传算法
样本生成
大数据环境下的文本信息挖掘方法
大数据
文本信息
信息挖掘
查准率
不均衡数据集上文本分类方法研究
特征选择
CHI统计
文本分类
不均衡数据集
重取样
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 不均衡大数据集下的文本特征基因提取方法
来源期刊 电子科技大学学报 学科 工学
关键词 CHI统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取
年,卷(期) 2018,(1) 所属期刊栏目 计算机工程与应用
研究方向 页码范围 125-131
页数 7页 分类号 TN393.098
字数 6521字 语种 中文
DOI 10.3969/j.issn.1001-0548.2018.01.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张秋余 兰州理工大学计算机与通信学院 177 1882 24.0 34.0
2 孙晶涛 西安邮电大学计算机学院 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (51)
共引文献  (44)
参考文献  (17)
节点文献
引证文献  (4)
同被引文献  (39)
二级引证文献  (0)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(7)
  • 参考文献(1)
  • 二级参考文献(6)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(6)
  • 参考文献(0)
  • 二级参考文献(6)
2013(6)
  • 参考文献(1)
  • 二级参考文献(5)
2014(7)
  • 参考文献(6)
  • 二级参考文献(1)
2015(4)
  • 参考文献(4)
  • 二级参考文献(0)
2016(4)
  • 参考文献(4)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
CHI统计选择方法
不均衡大数据集
独立成分分析
信息熵
文本特征基因提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子科技大学学报
双月刊
1001-0548
51-1207/T
大16开
成都市成华区建设北路二段四号
62-34
1959
chi
出版文献量(篇)
4185
总下载数(次)
13
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导