网页文本数据自动采集方法综述

王益强; 赵静

文献导航

搜索文章

搜索思路

网页文本数据自动采集方法综述

作者：

王益强赵静

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

深层网页

数据采集

DEEPWEB

网络爬虫

摘要：

随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。

内容分析

关键词云

关键词热度

相关文献

推荐文献

根据相关规定，获取原文需跳转至原文服务方进行注册认证身份信息

完成下面三个步骤操作后即可获取文献，阅读后请点击下方页面【继续获取】按钮

钛学术文献服务平台

学术出版新技术应用与公共服务实验室出品

原文合作方

获取文献流程

1.访问原文合作方请等待几秒系统会自动跳转至登录页，首次访问请先注册账号，填写基本信息后，点击【注册】

2.注册后进行实名认证，实名认证成功后点击【返回】

3.检查邮箱地址是否正确，若错误或未填写请填写正确邮箱地址，点击【确认支付】完成获取，文献将在1小时内发送至您的邮箱

*若已注册过原文合作方账号的用户，可跳过上述操作，直接登录后获取原文即可

点击【获取原文】按钮，跳转至合作网站。

首次获取需要在合作网站进行注册。

注册并实名认证，认证后点击【返回】按钮。

确认邮箱信息，点击【确认支付】，订单将在一小时内发送至您的邮箱。

* 若已经注册过合作网站账号，请忽略第二、三步，直接登录即可。

期刊分类
期刊（年）
期刊（期）
期刊推荐

互联网技术出版图书情报与数字图书馆新闻与传媒无线电电子学档案及博物馆电信技术电子信息科学综合自动化技术计算机硬件技术计算机软件及计算机应用

信息与电脑(理论版)2015 信息与电脑(理论版)2014 信息与电脑(理论版)2013 信息与电脑(理论版)2012 信息与电脑(理论版)2011 信息与电脑(理论版)2010 信息与电脑(理论版)2009

信息与电脑(理论版)2012年第9期信息与电脑(理论版)2012年第8期信息与电脑(理论版)2012年第7期信息与电脑(理论版)2012年第6期信息与电脑(理论版)2012年第5期信息与电脑(理论版)2012年第4期信息与电脑(理论版)2012年第3期信息与电脑(理论版)2012年第2期信息与电脑(理论版)2012年第12期信息与电脑(理论版)2012年第11期信息与电脑(理论版)2012年第10期信息与电脑(理论版)2012年第1期

按字母查找期刊：

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他

联系合作广告推广: shenyukuan@paperpass.com

篇名	网页文本数据自动采集方法综述
来源期刊	信息与电脑：理论版	学科	工学
关键词	深层网页数据采集 DEEPWEB 网络爬虫
年，卷（期）	xxydnllb_2012,（9）	所属期刊栏目
研究方向		页码范围	81-82
页数	2页	分类号	TP393.092
字数		语种
DOI

序号	姓名	单位	发文数	被引次数	H指数	G指数
1	王益强	山西省电力公司检修公司	2	5	1.0	2.0
2	赵静		1	0	0.0	0.0