基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题,提出并实现了一种基于模板流程配置的Web信息抽取框架.将用户请求、访问和获取Web页面的动作进行分解,抽取其中的动作模式,并映射到流程配置模板中的节点.通过流程解析器对用户创建的流程配置XML描述文档进行解析,抽取感兴趣的信息.试验结果表明,系统可快速、准确地实现抽取.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于模板的Web信息自动提取方法
信息提取
模板化
自动识别
分隔标记
结构化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于模板流程配置的Web信息抽取
来源期刊 计算机工程 学科 工学
关键词 Web信息抽取 模板流程配置 包装器 框架
年,卷(期) 2008,(20) 所属期刊栏目 软件技术与数据库
研究方向 页码范围 55-57
页数 3页 分类号 TP3931
字数 3803字 语种 中文
DOI 10.3969/j.issn.1000-3428.2008.20.020
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐学洲 西安电子科技大学软件工程研究所 44 227 8.0 12.0
2 刘辉 西安电子科技大学软件工程研究所 24 111 6.0 9.0
3 陈静玉 西安电子科技大学软件工程研究所 3 28 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (17)
参考文献  (3)
节点文献
引证文献  (13)
同被引文献  (20)
二级引证文献  (36)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(3)
  • 引证文献(2)
  • 二级引证文献(1)
2012(6)
  • 引证文献(2)
  • 二级引证文献(4)
2013(12)
  • 引证文献(4)
  • 二级引证文献(8)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(7)
  • 引证文献(0)
  • 二级引证文献(7)
2016(5)
  • 引证文献(0)
  • 二级引证文献(5)
2017(8)
  • 引证文献(2)
  • 二级引证文献(6)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web信息抽取
模板流程配置
包装器
框架
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导