基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
排行榜作为现代社会很受关注的一项事物深入大家的生活,但对于海量数据的排行,即使在分布式环境下,依然需要耗费大量硬件资源和很长的时间,有时甚至无法产出榜单.首先对贝叶斯方法进行了改进,提出了一种基于hadoop分布式环境下的行榜海量数据过滤算法,该方法利用熵值理论对缺损数据进行填补得到完整数据;再利用改进的贝叶斯方法计算某商品当日销量进榜单的概率,并对概率低于概率阈值的商品数据进行过滤使其不参与排行计算,从而在确保排行榜精确度的前提下大大缩短榜单的产出时间.对淘宝网中400万条销售记录数据进行实验仿真,结果验证了上述方法的有效性和优越性能.
推荐文章
Hadoop云平台下的基于用户协同过滤算法研究
推荐系统
大数据
并行计算
协同过滤
云平台下海量数据冲击中的可视化调度平台设计
云平台
海量数据
可视化调度平台
Hadoop
美国三大医院排行榜比较分析及启示
美国
医院排行榜
指标体系
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Hadoop平台下海量数据排行榜过滤算法
来源期刊 计算机系统应用 学科 工学
关键词 排行榜 Hadoop 海量数据 贝叶斯
年,卷(期) 2012,(3) 所属期刊栏目 研究开发
研究方向 页码范围 111-115,124
页数 分类号 TP391.3
字数 4102字 语种 中文
DOI 10.3969/j.issn.1003-3254.2012.03.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄德才 浙江工业大学计算机科学与技术学院 127 1618 20.0 35.0
2 陈欢 浙江工业大学计算机科学与技术学院 5 26 2.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (31)
参考文献  (10)
节点文献
引证文献  (6)
同被引文献  (3)
二级引证文献  (5)
1992(4)
  • 参考文献(1)
  • 二级参考文献(3)
1994(2)
  • 参考文献(1)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(2)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(3)
  • 引证文献(3)
  • 二级引证文献(0)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
排行榜
Hadoop
海量数据
贝叶斯
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
论文1v1指导