基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统.该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取.通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取.
推荐文章
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
多信息块Web页面的信息抽取
Web
信息抽取
包装器
抽取规则
信息集成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Web信息抽取系统的设计
来源期刊 微型电脑应用 学科 工学
关键词 Web信息抽取 主题精选 DOM树 XPath XSLT
年,卷(期) 2013,(3) 所属期刊栏目 研究与设计
研究方向 页码范围 8-10
页数 3页 分类号 TP311
字数 2777字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘斌 陕西科技大学电气与信息工程学院 53 113 5.0 9.0
2 张晓婧 陕西科技大学电气与信息工程学院 4 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (38)
参考文献  (6)
节点文献
引证文献  (3)
同被引文献  (4)
二级引证文献  (4)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(6)
  • 参考文献(0)
  • 二级参考文献(6)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(2)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web信息抽取
主题精选
DOM树
XPath
XSLT
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
微型电脑应用
月刊
1007-757X
31-1634/TP
16开
上海市华山路1954号上海交通大学铸锻楼314室
4-506
1984
chi
出版文献量(篇)
6963
总下载数(次)
20
论文1v1指导