基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。
推荐文章
一种动态网页加速技术中的机制探讨
动态网页
数据库
网页静态化
动态网页加速技术
一种新的动态网页程序的防篡改系统
动态网页
数字水印
哈希函数
主成份分析
入侵检测
基于JSP的动态网页开发技术
JSP技术
动态网页
WEB技术
网页开发
基于片段缓存的动态网页传送模型
动态网页
片段缓存
共享片段
Web缓存
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于动态网页解析的微博数据抓取方法
来源期刊 舰船电子工程 学科
关键词 新浪微博 数据挖掘 动态网页 爬虫
年,卷(期) 2015,(10) 所属期刊栏目 计算机与网络安全
研究方向 页码范围 95-99
页数 5页 分类号
字数 5218字 语种 中文
DOI 10.3969/j.issn.1672-9730.2015.10.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王挺 国防科学技术大学计算机学院 34 445 12.0 20.0
2 唐晋韬 国防科学技术大学计算机学院 10 134 6.0 10.0
3 钟明翔 国防科学技术大学计算机学院 1 4 1.0 1.0
4 谢松县 国防科学技术大学计算机学院 2 11 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (42)
共引文献  (159)
参考文献  (8)
节点文献
引证文献  (4)
同被引文献  (29)
二级引证文献  (9)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(8)
  • 参考文献(0)
  • 二级参考文献(8)
2011(7)
  • 参考文献(1)
  • 二级参考文献(6)
2012(9)
  • 参考文献(2)
  • 二级参考文献(7)
2013(6)
  • 参考文献(2)
  • 二级参考文献(4)
2014(4)
  • 参考文献(2)
  • 二级参考文献(2)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(3)
  • 引证文献(2)
  • 二级引证文献(1)
2018(5)
  • 引证文献(1)
  • 二级引证文献(4)
2019(4)
  • 引证文献(1)
  • 二级引证文献(3)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
新浪微博
数据挖掘
动态网页
爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
舰船电子工程
月刊
1672-9730
42-1427/U
大16开
湖北省武汉市
1981
chi
出版文献量(篇)
9053
总下载数(次)
18
总被引数(次)
27655
论文1v1指导