作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
该文首先研究并使用了Flume集群将Web应用集群所产生的日志进行汇总,使用Flume内部组员Source来关联Web应用所产生的原始日志文件,并通过设计Channel管道供其进行数据传输,使用Sink来绑定其输出目的地;其次,搭建Ha?doop集群并使用其内部组件HDFS来持久化Flume集群所汇总的日志数据,最后设计并搭建了基于Hive的数据仓库,依据Web应用所产生日志的数据格式,将HDFS中的原始日志数据灌入到原始数据表中,使用HiveQL对其进行分析.对网站的多维度PageView、访客的来源统计、用户关键路径转化进行了多维度且详细的数据分析.通过该文所设计并实现的数据分析实例,证明了大数据日志分析平台的可用性,解决了一般Web应用集群数据分析所难以克服的问题.
推荐文章
基于多代理技术的分布式Web日志挖掘系统
分布式Web日志挖掘
多代理技术
基于大数据技术的网络日志分析系统研究
大数据
日志采集
MapReduce
日志分析
IP统计
基于Web服务的分布式隐私保护数据挖掘框架研究
Web服务
分布式数据挖掘
隐私保护
大数据环境下Hadoop分布式系统的研究与设计
大数据
高并发
高存储
高扩展性和可用性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分布式Web应用的大数据日志分析方法研究
来源期刊 电脑知识与技术 学科 工学
关键词 Flume Hadoop Hive 数据分析
年,卷(期) 2019,(3) 所属期刊栏目 数据库与信息管理
研究方向 页码范围 16-19
页数 4页 分类号 TP311
字数 3420字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙鲁淼 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (15)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (19)
二级引证文献  (2)
2003(4)
  • 参考文献(2)
  • 二级参考文献(2)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(4)
  • 引证文献(2)
  • 二级引证文献(2)
研究主题发展历程
节点文献
Flume
Hadoop
Hive
数据分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑知识与技术
旬刊
1009-3044
34-1205/TP
大16开
安徽省合肥市
26-188
1994
chi
出版文献量(篇)
58241
总下载数(次)
228
总被引数(次)
132128
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导