作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在信息和数据过载的时代下,为了更准确地获得满足需求的数据,网络爬虫是个比较好的选择.本文设计和实现了一个基于Python的的网络爬虫,使用Requests库实现HTTP的请求,基于信息路径XPath,使用正则表过式re和lxml对网页进行解析和提取,以实现提取某BBS网站版面列表、主题列表和回帖等信息,使用MySQL数据库对爬取的数据进行存储,最后对数据进行初步的统计,提取出当前网站访问量和主题数排行Top 5的信息.
推荐文章
基于Web的网络爬虫的设计与实现
搜索引擎
网络爬虫
信息检索
页面索引
一种新型网络爬虫的设计与实现
Socket
Http
网络爬虫
客户端/服务器
基于Python的健康数据爬虫设计与实现
爬虫
多数据源
Python
网页解析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基本python的网络爬虫的设计与实现
来源期刊 电脑迷 学科
关键词 Python BBS网站 网络爬虫
年,卷(期) 2018,(35) 所属期刊栏目 网络天地
研究方向 页码范围 23
页数 1页 分类号
字数 997字 语种 中文
DOI 10.3969/j.issn.1672-528X.2018.35.024
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 谭康裕 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Python
BBS网站
网络爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑迷
旬刊
1672-528X
50-1163/TP
16开
重庆市渝中区双钢路3号科协大厦1202(武汉市洪山区珞狮北路2号樱花大厦A座15楼 430070)
78-230
2003
chi
出版文献量(篇)
29651
总下载数(次)
121
论文1v1指导