基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大.如何存储、处理大规模数据就成了新的挑战.云计算技术的出现,为这类问题的解决提供了一种思路.云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算.Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理.但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序.这种程序处于比较低的层次,用户不容易掌握,而且难于维护.Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发.利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的.
推荐文章
基于Hive的海量搜索日志分析系统研究
Hadoop
MapReduce
HQL语言
Web日志
搜索引擎
用户行为分析
基于Hive的支付SDK日志分析系统的设计研究
Hive
SDK日志
应用分析
用户行为
基于Hadoop的Web日志挖掘
云计算
Hadoop架构
Map/Reduce编程模式
Web日志挖掘
遗传算法
偏爱访问路径
基于Hive的海量搜索日志分析系统研究
Hadoop
MapReduce
HQL语言
Web日志
搜索引擎
用户行为分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop/Hive的web日志分析系统的设计
来源期刊 广西大学学报(自然科学版) 学科 工学
关键词 web日志 云计算 Hadoop Hive
年,卷(期) 2011,(z1) 所属期刊栏目 教育信息化新应用
研究方向 页码范围 314-317
页数 分类号 TP391
字数 2513字 语种 中文
DOI 10.3969/j.issn.1001-7445.2011.z1.062
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李先毅 大连理工大学网络与信息化中心 20 240 8.0 15.0
2 张晓景 大连理工大学网络与信息化中心 5 74 4.0 5.0
3 刘永增 大连理工大学网络与信息化中心 1 58 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (48)
参考文献  (2)
节点文献
引证文献  (58)
同被引文献  (32)
二级引证文献  (94)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(3)
  • 引证文献(3)
  • 二级引证文献(0)
2013(9)
  • 引证文献(9)
  • 二级引证文献(0)
2014(14)
  • 引证文献(7)
  • 二级引证文献(7)
2015(23)
  • 引证文献(10)
  • 二级引证文献(13)
2016(23)
  • 引证文献(10)
  • 二级引证文献(13)
2017(31)
  • 引证文献(12)
  • 二级引证文献(19)
2018(32)
  • 引证文献(3)
  • 二级引证文献(29)
2019(14)
  • 引证文献(4)
  • 二级引证文献(10)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
web日志
云计算
Hadoop
Hive
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广西大学学报(自然科学版)
双月刊
1001-7445
45-1071/N
大16开
广西南宁市大学路100号广西大学西校园学报编辑部
28832转3
1976
chi
出版文献量(篇)
4586
总下载数(次)
8
总被引数(次)
23980
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导