基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试.以浏览器内核作为数据采集系统的网页解析引擎,来执行网页中的各种客户端脚本以及完成复杂的数据交互,从而完整地将隐藏在深层网中的URL等有用数据提取出来.随着网络应用的发展,未来的网页结构会越来越复杂化,因此传统网络爬虫的采集难度会逐步增加,而基于浏览器内核的网络爬虫则可以很好地适应这些变化.
推荐文章
一种光纤数据采集系统的设计
光纤数据
采集系统
FC 协议栈
PCI 接口电路
一种支持USB和以太网端口的数据采集器设计
数据采集
以太网
USB
C8051F340
GUI
LabVIEW
一种基于实时数据采集系统的数据处理方法
实时数据采集
数据处理
数据存储
一种隔离型数据采集方法
信号隔离
数据采集
FPGA
ADS8508
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种深层网的数据采集方法
来源期刊 北京信息科技大学学报(自然科学版) 学科 工学
关键词 浏览器内核 脚本解析 网络爬虫 深层网
年,卷(期) 2018,(5) 所属期刊栏目
研究方向 页码范围 60-64
页数 5页 分类号 TP391
字数 4536字 语种 中文
DOI 10.16508/j.cnki.11-5866/n.2018.05.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 肖诗斌 13 253 4.0 13.0
2 都云程 8 28 2.0 5.0
3 陈新 北京信息科技大学计算机学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (101)
共引文献  (102)
参考文献  (12)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(11)
  • 参考文献(0)
  • 二级参考文献(11)
2009(11)
  • 参考文献(0)
  • 二级参考文献(11)
2010(8)
  • 参考文献(0)
  • 二级参考文献(8)
2011(9)
  • 参考文献(0)
  • 二级参考文献(9)
2012(5)
  • 参考文献(1)
  • 二级参考文献(4)
2013(15)
  • 参考文献(1)
  • 二级参考文献(14)
2014(6)
  • 参考文献(2)
  • 二级参考文献(4)
2015(7)
  • 参考文献(4)
  • 二级参考文献(3)
2016(4)
  • 参考文献(1)
  • 二级参考文献(3)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
浏览器内核
脚本解析
网络爬虫
深层网
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京信息科技大学学报(自然科学版)
双月刊
1674-6864
11-5866/N
大16开
北京市
1986
chi
出版文献量(篇)
2043
总下载数(次)
10
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导