基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增.从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用.对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用.提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略.案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取.结果表明,Python在数据采集方面具有较高的有效性和可扩展性.
推荐文章
基于启发式信息的Deep Web结果模式获取方法
Deep Web
结果模式
网页数据特征矩阵
启发式信息
基于云模型的Web信息获取研究
互联网
信息检索
云模型
相联规则
基于特定领域的Web文本信息获取系统的研究
Web文本信息
特定领域
分类系统
中文分词
一个基于Web的信息获取系统的框架与实现
信息采集
信息获取
信息处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Python的Web信息获取方法研究
来源期刊 软件导刊 学科 工学
关键词 Python 信息获取 网络爬虫 正则表达式
年,卷(期) 2018,(1) 所属期刊栏目 软件理论与方法
研究方向 页码范围 41-43
页数 3页 分类号 TP301
字数 2612字 语种 中文
DOI 10.11907/rjdk.172302
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 魏冬梅 西华大学计算机与软件工程学院 14 65 5.0 8.0
2 何忠秀 西华大学计算机与软件工程学院 15 121 5.0 11.0
3 唐建梅 西华大学计算机与软件工程学院 1 27 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (43)
共引文献  (117)
参考文献  (5)
节点文献
引证文献  (27)
同被引文献  (103)
二级引证文献  (33)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(7)
  • 参考文献(0)
  • 二级参考文献(7)
2014(7)
  • 参考文献(1)
  • 二级参考文献(6)
2015(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(7)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(7)
  • 二级引证文献(0)
2018(7)
  • 引证文献(7)
  • 二级引证文献(0)
2019(38)
  • 引证文献(19)
  • 二级引证文献(19)
2020(15)
  • 引证文献(1)
  • 二级引证文献(14)
研究主题发展历程
节点文献
Python
信息获取
网络爬虫
正则表达式
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
论文1v1指导