基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战.已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高.基于此,提出一种基于Spark的分布式快速短文本数据流分类方法.一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率.在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗.
推荐文章
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
短文本数据的自动分类
文本分类
短文本
朴素贝页斯K
近邻
基于堆叠集成的数据流分类
堆叠集成
数据流分类
概念漂移
基于支持向量机的中文极短文本分类模型
支持向量机
jieba分词
极短文本分类
TF-IDF
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的快速短文本数据流分类方法
来源期刊 计算机工程与应用 学科 工学
关键词 短文本数据流分类 分布式处理 Spark环境 概念漂移
年,卷(期) 2020,(14) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 138-147
页数 10页 分类号 TP181
字数 8783字 语种 中文
DOI 10.3778/j.issn.1002-8331.1905-0031
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡学钢 合肥工业大学计算机与信息学院 314 3156 27.0 39.0
3 李培培 合肥工业大学计算机与信息学院 24 142 6.0 11.0
4 胡阳 合肥工业大学计算机与信息学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (12)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(5)
  • 参考文献(5)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
短文本数据流分类
分布式处理
Spark环境
概念漂移
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
安徽省自然科学基金
英文译名:Anhui Provincial Natural Science Foundation
官方网址:http://www.ahinfo.gov.cn/zrkxjj/index.htm
项目类型:安徽省优秀青年科技基金
学科类型:
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导