作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对 KNN 分类算法在面对海量 Web 文本处理情况时在单机上训练和测试效率低下的问题,提出基于 Hadoop 分布式平台以及 Spark 并行计算模型的无中间结果输出的改进型 Web 文本分类系统。同时为了充分利用 Spark 的迭代计算能力,在文本向量化阶段,在传统 TFIDF 文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布,提出一种改进的特征加权算法。实验结果表明,该文本分类系统结合 Spark 计算模型在提高文本预处理、文本向量化以及 KNN 文本分类算法的性能上有着优异的表现。
推荐文章
基于Rough集的web文本分类研究
web文本分类
Rough集
属性约简
决策表
基于支持向量机的Web文本分类方法
支持向量机
特征提取
Web文本
文本分类
Spark平台下的短文本特征扩展与分类研究
短文本分类
特征扩展
关联规则
Spark平台
Spark框架下利用分布式NBC的大数据文本分类方法
文本分类
MapReduce
Spark框架
分布式
朴素贝叶斯分类器
机器学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark平台下的高效Web文本分类系统的研究
来源期刊 计算机应用与软件 学科 工学
关键词 KNN TFIDF 文本分类 Hadoop Spark
年,卷(期) 2016,(11) 所属期刊栏目 数据工程
研究方向 页码范围 33-36
页数 4页 分类号 TP391.1
字数 4381字 语种 中文
DOI 10.3969/j.issn.1000-386x.2016.11.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘斌 南京工业大学计算机科学与技术学院 28 203 7.0 13.0
2 李涛 南京工业大学计算机科学与技术学院 29 95 7.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (46)
共引文献  (412)
参考文献  (12)
节点文献
引证文献  (10)
同被引文献  (14)
二级引证文献  (17)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(3)
  • 参考文献(1)
  • 二级参考文献(2)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(3)
  • 参考文献(0)
  • 二级参考文献(3)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(1)
  • 二级参考文献(2)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2006(5)
  • 参考文献(2)
  • 二级参考文献(3)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(8)
  • 引证文献(6)
  • 二级引证文献(2)
2019(11)
  • 引证文献(1)
  • 二级引证文献(10)
2020(5)
  • 引证文献(0)
  • 二级引证文献(5)
研究主题发展历程
节点文献
KNN
TFIDF
文本分类
Hadoop
Spark
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导