基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
推荐文章
网页文本信息自动提取技术综述
信息提取
机器学习
网页
面向文本数字化的自动纠错方法
自动纠错
文本数字化
频率统计树
切分信息
表形码
高维数据集中局部离散文本数据挖掘方法研究
高维数据
数据特征聚类
数据挖掘
关联规则
面向政务文本数据的事件级时空模型研究
时空信息模型
政务文本挖掘
非结构化数据
事件信息抽取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 网页文本数据自动采集方法综述
来源期刊 信息与电脑:理论版 学科 工学
关键词 深层网页 数据采集 DEEPWEB 网络爬虫
年,卷(期) xxydnllb_2012,(9) 所属期刊栏目
研究方向 页码范围 81-82
页数 2页 分类号 TP393.092
字数 语种
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王益强 山西省电力公司检修公司 2 5 1.0 2.0
2 赵静 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深层网页
数据采集
DEEPWEB
网络爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息与电脑(理论版)
月刊
1003-9767
11-2697/TP
大16开
82-454
2007
chi
出版文献量(篇)
11272
总下载数(次)
57
论文1v1指导