基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在分析网站结构的基础上,采用Python语言,设计正则表达式,分析获取网站具体数据页面的链接,进而对其中的资源进行数据抓取.正则表达式能有效地抓取需要的数据,是大数据采集的一种较好的解决方案.
推荐文章
网页清洗系统基于静态正则表达式的实现
网页清洗
,静态正则表达式
Xpressive
基于正则表达式的协议行为审计技术研究
协议行为审计
正则表达式
协议解析
安全审计
信息安全
基于Bloom filter的高效正则表达式匹配算法
正则表达式
确定有限自动机
布鲁姆过滤器
比特向量
确定字符串
匹配概率
匹配速率
面向网络流的自适应正则表达式分组匹配算法
深度包检测
正则表达式
分组
有限自动机
伸展树
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 正则表达式在数据抓取中的应用研究
来源期刊 佳木斯职业学院学报 学科 工学
关键词 Python 正则表达式 数据抓取
年,卷(期) 2017,(4) 所属期刊栏目 生物科学与计算机研究
研究方向 页码范围 408
页数 1页 分类号 TP391
字数 1593字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 龚思思 阳光学院空间数据挖掘研究所 2 2 1.0 1.0
2 欧阳林艳 阳光学院空间数据挖掘研究所 8 7 2.0 2.0
3 杨煜彬 阳光学院空间数据挖掘研究所 2 2 1.0 1.0
4 陈增鑫 阳光学院空间数据挖掘研究所 2 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (2)
同被引文献  (9)
二级引证文献  (4)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
Python
正则表达式
数据抓取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
佳木斯职业学院学报
月刊
2095-9052
23-1590/G4
16开
黑龙江省佳木斯市
14-215
1984
chi
出版文献量(篇)
32579
总下载数(次)
102
论文1v1指导