基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题.通过视觉块与整个网页的面积比定位数据区域.根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点.根据xpath属性将各条数据记录的数据项对齐.对整个抽取过程生成模板,可以使抽取效率得到很大提高.对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的.
推荐文章
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于伪标签置信选择的半监督医疗事件抽取
医疗事件抽取
知识图谱
注意力机制
联合抽取
伪标签
电子病历
多数投票
基于多标签CRF的疾病名称抽取
命名实体识别
条件随机场
多标签
医疗文本
复合实体
基于标签路径聚类的文本信息抽取算法
标签路径
网页分割
信息抽取
聚类
阈值
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于视觉信息和标签路径的数据抽取
来源期刊 中国海洋大学学报(自然科学版) 学科 工学
关键词 Deep Web 数据抽取 视觉信息 标签路径
年,卷(期) 2015,(5) 所属期刊栏目 研究论文
研究方向 页码范围 114-119
页数 6页 分类号 TV149.2
字数 7029字 语种 中文
DOI 10.16441/j.cnki.hdxb.20130395
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张巍 中国海洋大学信息科学与工程学院 16 62 5.0 7.0
2 邹晓明 中国海洋大学信息科学与工程学院 1 0 0.0 0.0
3 谈凤真 中国海洋大学信息科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (94)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Deep Web
数据抽取
视觉信息
标签路径
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国海洋大学学报(自然科学版)
月刊
1672-5174
37-1414/P
大16开
青岛市松岭路238号
24-31
1959
chi
出版文献量(篇)
4553
总下载数(次)
21
总被引数(次)
47584
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导