原文服务方: 广东通信技术       
摘要:
随着大数据时代的到来,针对大数据的挖掘与分析已经成为当今的研究热点.而数据集是大数据挖掘和分析的基础.因此一个有效的数据采集方案对大数据挖掘研究具有重要意义.提出了高效的分布式大数据采集系统.在该系统的解析模块中提出了一种通用有效的基于标签树节点权重的正文提取算法.同时引入IP代理池技术来保证系统的持续性.实验证明,本系统能够高效快速地获取大量的网络数据,且具有强的鲁棒性、可行性和灵活性.
推荐文章
分布式网络测量探针关键技术研究
网络性能测量
DNMAI
探针
GPS
网络吞吐量
分布式网络雷达及关键技术研究
分布式网络雷达
信息融合
数字化通信
时间配准
分布式网络环境下海洋大数据服务技术研究
分布式网络
海洋大数据
服务技术
数字海洋
分布式控制系统关键技术研究
分布式控制系统
数据采集
设备管理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 分布式大数据采集关键技术研究与实现
来源期刊 广东通信技术 学科
关键词 大数据 数据采集 正文提取 IP代理池
年,卷(期) 2015,(10) 所属期刊栏目 运营与应用
研究方向 页码范围 7-10,79
页数 5页 分类号
字数 语种 中文
DOI 10.3969/j.issn.1006-6403.2015.10.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 向勇 中国电信股份有限公司广东研究院 8 112 4.0 8.0
2 刘春 中国电信股份有限公司广东研究院 11 105 5.0 10.0
3 付华峥 中国电信股份有限公司广东研究院 3 20 3.0 3.0
4 陈翀 中国电信股份有限公司广东研究院 9 86 5.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (76)
参考文献  (4)
节点文献
引证文献  (13)
同被引文献  (31)
二级引证文献  (19)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(2)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(4)
  • 引证文献(4)
  • 二级引证文献(0)
2018(9)
  • 引证文献(4)
  • 二级引证文献(5)
2019(13)
  • 引证文献(3)
  • 二级引证文献(10)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
大数据
数据采集
正文提取
IP代理池
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广东通信技术
月刊
1006-6403
44-1221/TN
大16开
1981-01-01
chi
出版文献量(篇)
4474
总下载数(次)
0
总被引数(次)
11090
论文1v1指导