基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以 TB 甚至 PB 量级的数据,单机模式下的PageRank 算法由于 CPU、I/O 和内存的开销过大导致效率低下。为此,提出一种基于 MapReduce 框架的并行 PageRank 算法。在算法的一次迭代过程中,利用 Map 函数对网页拓扑信息文件进行解析,使用 Reduce 函数计算网页得分,从而并行化 PageRank 算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank 算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
推荐文章
Hadoop-MapReduce下的PageRank矩阵分块算法
PageRank
MapReduce
Hadoop
矩阵分块
基于MapReduce的PageRank算法的研究
云计算
MapReduce模型
PageRank算法
Hadoop
并行计算
基于用户的协同过滤推荐算法MapReduce并行化实现
MapReduce
Hadoop
分布式计算
推荐算法
基于MapReduce模型的并行量子进化算法
量子进化算法
MapReduce模型
云计算平台
Hadoop平台
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapReduce的并行PageRank算法实现
来源期刊 计算机工程 学科 工学
关键词 搜索引擎 PageRank 算法 MapReduce 框架 并行计算 Hadoop 平台
年,卷(期) 2014,(2) 所属期刊栏目 先进计算与数据处理
研究方向 页码范围 31-34,38
页数 5页 分类号 TP391.3
字数 3510字 语种 中文
DOI 10.3969/j.issn.1000-3428.2014.02.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 向阳 同济大学计算机科学与技术系 88 1316 16.0 34.0
2 黄寅飞 7 44 3.0 6.0
3 张波 上海师范大学信息与机电工程学院 28 148 7.0 11.0
4 平宇 同济大学计算机科学与技术系 2 36 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (25)
同被引文献  (55)
二级引证文献  (52)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(8)
  • 引证文献(6)
  • 二级引证文献(2)
2016(12)
  • 引证文献(6)
  • 二级引证文献(6)
2017(20)
  • 引证文献(8)
  • 二级引证文献(12)
2018(16)
  • 引证文献(2)
  • 二级引证文献(14)
2019(19)
  • 引证文献(2)
  • 二级引证文献(17)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
搜索引擎
PageRank 算法
MapReduce 框架
并行计算
Hadoop 平台
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导