基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于树形结构的Web信息抽取
来源期刊 福建师范大学学报(自然科学版) 学科 工学
关键词 Web数据抽取 Web挖掘 信息抽取
年,卷(期) 2009,(3) 所属期刊栏目
研究方向 页码范围 39-46
页数 8页 分类号 TP311.131
字数 4773字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 薛永生 厦门大学计算机科学系 61 490 13.0 18.0
2 任仲晟 福建师范大学数学与计算机科学学院 17 58 2.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (1)
参考文献  (4)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1989(1)
  • 参考文献(1)
  • 二级参考文献(0)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web数据抽取
Web挖掘
信息抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
福建师范大学学报(自然科学版)
双月刊
1000-5277
35-1074/N
大16开
福建省福州市福建师范大学旗山校区
34-43
1956
chi
出版文献量(篇)
2742
总下载数(次)
2
总被引数(次)
14898
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
福建省自然科学基金
英文译名:Natural Science Foundation of Fujian Province of China
官方网址:http://www.fjinfo.gov.cn/fz/zrjj.htm
项目类型:重大项目
学科类型:
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导