基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
推荐文章
众筹项目的社交网络影响力预测与分析
社交网络
众筹项目
社会影响力
影响力预测
基于信息技术的网络众包平台开发与研究
众包
项目管理
遗传算法
众包平台
EtherCAT网络数据采集系统的设计与实现
EtherCAT
数据采集
PIC单片机
从站控制器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于众包的社交网络数据采集模型设计与实现
来源期刊 计算机工程 学科 工学
关键词 社交网络 众包模式 分布式计算 信息采集 Web爬虫 Hadoop分布式文件系统
年,卷(期) 2015,(4) 所属期刊栏目 ?先进计算与数据处理?
研究方向 页码范围 36-40
页数 5页 分类号 TP311
字数 4170字 语种 中文
DOI 10.3969/j.issn.1000-3428.2015.04.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李海波 中国科学院高能物理研究所计算中心 201 4673 35.0 59.0
2 周旭 中国科学院声学研究所 62 377 11.0 16.0
3 程耀东 中国科学院高能物理研究所计算中心 52 322 10.0 14.0
4 高梦超 四川大学计算机学院 4 77 3.0 4.0
6 杜然 中国科学院高能物理研究所计算中心 11 55 5.0 7.0
7 胡庆宝 中国科学院高能物理研究所计算中心 7 55 4.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (1166)
参考文献  (7)
节点文献
引证文献  (14)
同被引文献  (61)
二级引证文献  (26)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(5)
  • 参考文献(2)
  • 二级参考文献(3)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(4)
  • 参考文献(2)
  • 二级参考文献(2)
2015(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(6)
  • 引证文献(2)
  • 二级引证文献(4)
2018(7)
  • 引证文献(4)
  • 二级引证文献(3)
2019(14)
  • 引证文献(2)
  • 二级引证文献(12)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
社交网络
众包模式
分布式计算
信息采集
Web爬虫
Hadoop分布式文件系统
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
论文1v1指导