基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着“互联网+”概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.
推荐文章
基于WebKit的网络爬虫
网络爬虫
浏览器引擎
WebKit
JavaScript
基于量子行为进化算法的聚焦爬虫搜索策略
聚焦爬虫
主题相关度
立即价值
未来价值
量子进化算法
基于改进网络爬虫技术的SQL注入漏洞检测
搜索引擎
网络爬虫
正则表达式
SQL注入
统一资源定位符
基于网络爬虫技术的数字资源检测软件的设计与实现
数字资源
自动监测
网络爬虫
日志文件
正则解析
检测软件
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于聚焦型网络爬虫的影评获取技术
来源期刊 中国计量大学学报 学科 工学
关键词 搜索引擎 网络爬虫 Jieba分词 正则表达式 词云
年,卷(期) 2018,(3) 所属期刊栏目 信息科学
研究方向 页码范围 299-303
页数 5页 分类号 TP391
字数 3480字 语种 中文
DOI 10.3969/j.issn.2096-2835.2018.03.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨小兵 中国计量大学信息工程学院 17 99 4.0 9.0
2 高宇 中国计量大学信息工程学院 3 14 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (45)
共引文献  (108)
参考文献  (9)
节点文献
引证文献  (5)
同被引文献  (7)
二级引证文献  (1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(8)
  • 参考文献(2)
  • 二级参考文献(6)
2014(8)
  • 参考文献(2)
  • 二级参考文献(6)
2015(3)
  • 参考文献(2)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(3)
  • 引证文献(2)
  • 二级引证文献(1)
研究主题发展历程
节点文献
搜索引擎
网络爬虫
Jieba分词
正则表达式
词云
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国计量大学学报
季刊
2096-2835
33-1401/C
大16开
杭州市下沙高教园
1990
chi
出版文献量(篇)
1770
总下载数(次)
1
总被引数(次)
9715
论文1v1指导