基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着Web数据库的不断增长,大量网络信息通过普通搜索引擎难以满足用户的需求,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到想要的信息,称为Deep Web.因此如何有效地抽取这些实体信息成为一个值得研究的问题.论文通过分析Deep Web结果页面的特点,结合人的视觉特征,提出了一种基于视觉特征的Deep Web信息抽取方法.该方法充分利用了人的视觉特征,在解析器将Web文档解析成语法树之前,将Web页面一些与主题无关的信息(例如导航栏、广告)等去除,并对优化后的DOM树利用VIPS算法对其进行语义分块,分块后根据位置特征首先寻找到基准视觉块,以该基准视觉块作为中心位置逆序和顺序遍历DOM树寻找所有相似的视觉块并对其进行抽取.从实验效果来看,该方法从提取信息速度和提取信息的准确率和完整率方面与传统方法相比都有一定的提高.
推荐文章
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
基于启发式信息的Deep Web结果模式获取方法
Deep Web
结果模式
网页数据特征矩阵
启发式信息
一种基于自动WEB数据抽取生成黄页的方法
行业黄页
WEB信息抽取
模式匹配
抽取规则
一种基于特征符号的网页主题信息抽取方法
生成树模型
特征符号
相关度
主题提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于视觉特征的Deep Web信息抽取方法
来源期刊 计算机与数字工程 学科 文学
关键词 Deep Web 视觉特征 DOM树 语义分块 信息抽取
年,卷(期) 2016,(6) 所属期刊栏目 信息处理与网络安全
研究方向 页码范围 1107-1111,1126
页数 6页 分类号 J653
字数 3875字 语种 中文
DOI 10.3969/j.issn.1672-9722.2016.06.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈军华 20 48 5.0 6.0
2 孙璐 2 8 1.0 2.0
3 廉德胜 2 8 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (57)
共引文献  (50)
参考文献  (10)
节点文献
引证文献  (7)
同被引文献  (30)
二级引证文献  (4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(13)
  • 参考文献(0)
  • 二级参考文献(13)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(11)
  • 参考文献(0)
  • 二级参考文献(11)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(5)
  • 参考文献(1)
  • 二级参考文献(4)
2010(10)
  • 参考文献(3)
  • 二级参考文献(7)
2011(4)
  • 参考文献(2)
  • 二级参考文献(2)
2012(4)
  • 参考文献(1)
  • 二级参考文献(3)
2014(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
Deep Web
视觉特征
DOM树
语义分块
信息抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与数字工程
月刊
1672-9722
42-1372/TP
大16开
武汉市东湖新技术开发区凤凰产业园藏龙北路1号
1973
chi
出版文献量(篇)
9945
总下载数(次)
28
总被引数(次)
47579
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导