基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析.文中提出了一种先将HTML转化为XML形式,再提取信息的方法.XML是用于描述在Intemet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离.数据可被XML唯一标识,从而有利于用户对数据的组织和检索.这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度.
推荐文章
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于树结构的Web信息抽取
来源期刊 计算机技术与发展 学科 工学
关键词 Web 信息提取 XML数据文档 树结构
年,卷(期) 2009,(9) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 38-41
页数 4页 分类号 TP311
字数 3327字 语种 中文
DOI 10.3969/j.issn.1673-629X.2009.09.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周登 西北民族大学中国民族信息技术研究院 4 8 2.0 2.0
2 付涛 西北民族大学中国民族信息技术研究院 4 8 2.0 2.0
3 戴玉刚 西北民族大学中国民族信息技术研究院 32 97 5.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (100)
参考文献  (5)
节点文献
引证文献  (5)
同被引文献  (8)
二级引证文献  (23)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(0)
  • 二级引证文献(1)
2013(5)
  • 引证文献(1)
  • 二级引证文献(4)
2014(5)
  • 引证文献(0)
  • 二级引证文献(5)
2015(3)
  • 引证文献(1)
  • 二级引证文献(2)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(6)
  • 引证文献(0)
  • 二级引证文献(6)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web
信息提取
XML数据文档
树结构
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导