基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
科学数据库作为典型的深层网,其数据爬取存在诸多难点。本文在分析科学数据获取方法基础上,讨论了科学数据采集系统的功能模块、采集流程和数据库设计,并以Scrapy为基础框架,通过改进爬虫规则、构造检索式、优化网页结构化提取,设计并实现了一种科学数据采集方案。
推荐文章
针对微博的免登录分布式网络爬虫的研究
免登录网络爬虫
分布式网络爬虫
Hadoop
MapReduce
基于GNP算法的分布式爬虫调度策略
分布式爬虫
任务调度
负载均衡
网络测量
全局网络定位
基于协程模型的分布式爬虫框架
协程
分布式
高性能
爬虫
科学数据网格中分布式查询处理体系结构的研究
科学数据网格
分布式查询处理
移动代理
经济模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 针对科学数据的分布式爬虫研究
来源期刊 图书情报 学科 工学
关键词 科学数据 分布式爬虫 元数据
年,卷(期) 2020,(1) 所属期刊栏目
研究方向 页码范围 00059-00062
页数 4页 分类号 TP393.092
字数 语种
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王显斌 深圳技术大学图书馆 2 0 0.0 0.0
2 李田甜 深圳技术大学图书馆 1 0 0.0 0.0
3 李红艳 深圳技术大学图书馆 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
科学数据
分布式爬虫
元数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文科技期刊数据库(全文版)图书情报
月刊
1671-556X
50-9208/G
重庆市渝北区洪湖西路18号上丁企业公园
出版文献量(篇)
3001
总下载数(次)
11
总被引数(次)
0
论文1v1指导