原文服务方: 广东通信技术       
摘要:
随着大数据技术的广泛应用和示范效应,企业越来越重视数据的价值挖掘,尤其是结合企业内外部数据进行客户行为、偏好的分析与识别.而电商数据,对一些企业来讲无疑是宝贵的外部数据资源.但电商数据的获取,会受到电商网站的一些反爬技术限制,使其采集变得越来越困难.针对电商领域的数据采集以及在采集电商网站数据过程遇到的数据大,速度慢,访问校验,IP访问限制等问题,结合实际需求,研究、提出一种基于Nutch的分布式电商数据采集方案.
推荐文章
分布式无线地震数据采集同步技术研究
分布式地震数据采集
GPS时钟授时
压控晶振
采集同步
精确时间戳
分布式大数据采集关键技术研究与实现
大数据
数据采集
正文提取
IP代理池
基于Arduino的AIS数据分布式采集研究
船舶
自动识别系统
解码
分布式采集
Arduino
分布式数据采集系统时间同步研究
分布式系统
数据采集
IEEE1588
时间同步
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Nutch的分布式电商数据采集技术研究
来源期刊 广东通信技术 学科
关键词 电商数据 反爬 Nutch 分布式 采集
年,卷(期) 2015,(10) 所属期刊栏目 运营与应用
研究方向 页码范围 2-6,15
页数 6页 分类号
字数 语种 中文
DOI 10.3969/j.issn.1006-6403.2015.10.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 向勇 中国电信股份有限公司广州研究院 8 112 4.0 8.0
2 陈雪梅 3 2 1.0 1.0
3 朱应坚 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (106)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (4)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(3)
  • 参考文献(3)
  • 二级参考文献(0)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(3)
  • 参考文献(2)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
电商数据
反爬
Nutch
分布式
采集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广东通信技术
月刊
1006-6403
44-1221/TN
大16开
1981-01-01
chi
出版文献量(篇)
4289
总下载数(次)
0
论文1v1指导