基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术和步骤,设计和实现了该系统原型,并指出的相关问题及其解决办法.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
一种用于Web信息抽取的页面信息本体自动学习方法
本体学习
信息抽取
PAT-tree
关联规则
一种基于自动WEB数据抽取生成黄页的方法
行业黄页
WEB信息抽取
模式匹配
抽取规则
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种批量抽取动态Web信息系
来源期刊 计算机系统应用 学科 工学
关键词 Web页面 HtmlParse Google地图 信息抽取 系统
年,卷(期) 2011,(3) 所属期刊栏目 系统建设
研究方向 页码范围 41-44
页数 分类号 TP3
字数 2271字 语种 中文
DOI 10.3969/j.issn.1003-3254.2011.03.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨德仁 宁夏医科大学理学院 28 51 4.0 5.0
2 马龙 1 2 1.0 1.0
3 张春涛 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (2)
同被引文献  (4)
二级引证文献  (2)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web页面
HtmlParse
Google地图
信息抽取
系统
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导