作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据是新一轮技术革命最重要的生产资料,爬虫是获取数据最直接的方式,但爬出来的数据代码夹杂文字,面对大量杂乱的代码夹杂信息,通过正则表达式检索匹配出有用的信息,过滤无用的数据.本文介绍正则表达式在python爬虫中的应用,总结python爬虫中正则表达式的应用技巧.
推荐文章
网页清洗系统基于静态正则表达式的实现
网页清洗
,静态正则表达式
Xpressive
基于Bloom filter的高效正则表达式匹配算法
正则表达式
确定有限自动机
布鲁姆过滤器
比特向量
确定字符串
匹配概率
匹配速率
基于正则表达式的协议行为审计技术研究
协议行为审计
正则表达式
协议解析
安全审计
信息安全
面向网络流的自适应正则表达式分组匹配算法
深度包检测
正则表达式
分组
有限自动机
伸展树
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 正则表达式在python爬虫中的应用
来源期刊 电脑知识与技术 学科 工学
关键词 爬虫 python 正则表达式 数据
年,卷(期) 2019,(25) 所属期刊栏目 计算机工程应用技术
研究方向 页码范围 253-254
页数 2页 分类号 TP311
字数 1356字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 苻玲美 8 6 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (28)
参考文献  (3)
节点文献
引证文献  (4)
同被引文献  (8)
二级引证文献  (2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(4)
  • 参考文献(0)
  • 二级参考文献(4)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(2)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(5)
  • 引证文献(3)
  • 二级引证文献(2)
研究主题发展历程
节点文献
爬虫
python
正则表达式
数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑知识与技术
旬刊
1009-3044
34-1205/TP
大16开
安徽省合肥市
26-188
1994
chi
出版文献量(篇)
58241
总下载数(次)
228
总被引数(次)
132128
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导