基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈.结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法.该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与 5%.
推荐文章
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
CNN-ELM混合短文本分类模型
文本分类
卷积神经网络
极速学习机
基于扩展短文本词特征向量的分类研究
短文本
Word2vec模型
词嵌入
改进后的特征权重算法
语义相关度
结合情感词网的中文短文本情感分类
同义词
情感词网
情感分类
短文本
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark平台下的短文本特征扩展与分类研究
来源期刊 计算机科学与探索 学科 工学
关键词 短文本分类 特征扩展 关联规则 Spark平台
年,卷(期) 2017,(5) 所属期刊栏目 数据库技术
研究方向 页码范围 732-741
页数 10页 分类号 TP391
字数 7979字 语种 中文
DOI 10.3778/j.issn.1673-9418.1608041
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈红 中国人民大学数据工程与知识工程教育部重点实验室 86 978 16.0 29.0
5 李翠平 中国人民大学数据工程与知识工程教育部重点实验室 20 297 8.0 17.0
9 王雯 中国人民大学数据工程与知识工程教育部重点实验室 27 128 7.0 10.0
13 赵衎衎 中国人民大学数据工程与知识工程教育部重点实验室 2 12 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (109)
参考文献  (9)
节点文献
引证文献  (12)
同被引文献  (73)
二级引证文献  (27)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(4)
  • 参考文献(1)
  • 二级参考文献(3)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(4)
  • 参考文献(1)
  • 二级参考文献(3)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(6)
  • 引证文献(6)
  • 二级引证文献(0)
2019(19)
  • 引证文献(3)
  • 二级引证文献(16)
2020(13)
  • 引证文献(2)
  • 二级引证文献(11)
研究主题发展历程
节点文献
短文本分类
特征扩展
关联规则
Spark平台
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导