原文服务方: 计算机应用研究       
摘要:
为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法.该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储.实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要.
推荐文章
基于HTML树和模板的文献信息提取方法研究
网页信息提取
文档对象模型树
模板
文献信息搜集
面向Deep Web数据自动抽取的模板生成方法
Deep,Web
数据抽取
模板生成
文法推断
基于随机森林算法的CAM模板自动提取研究
CAM模板
随机森林
聚类分析
相似性计算
基于多特征空间的遥感信息自动提取方法
遥感影像
专题信息
多特征空间
自动提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于模板的Web信息自动提取方法
来源期刊 计算机应用研究 学科
关键词 信息提取 模板化 自动识别 分隔标记 结构化
年,卷(期) 2009,(2) 所属期刊栏目 软件技术研究
研究方向 页码范围 570-572,582
页数 4页 分类号 TP393.04
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2009.02.051
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郑长松 1 39 1.0 1.0
2 傅彦 1 39 1.0 1.0
3 佘莉 1 39 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (69)
参考文献  (5)
节点文献
引证文献  (39)
同被引文献  (36)
二级引证文献  (106)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(7)
  • 参考文献(0)
  • 二级参考文献(7)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(4)
  • 参考文献(3)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2009(3)
  • 引证文献(3)
  • 二级引证文献(0)
2010(3)
  • 引证文献(3)
  • 二级引证文献(0)
2011(9)
  • 引证文献(2)
  • 二级引证文献(7)
2012(26)
  • 引证文献(12)
  • 二级引证文献(14)
2013(27)
  • 引证文献(8)
  • 二级引证文献(19)
2014(12)
  • 引证文献(4)
  • 二级引证文献(8)
2015(20)
  • 引证文献(4)
  • 二级引证文献(16)
2016(12)
  • 引证文献(0)
  • 二级引证文献(12)
2017(12)
  • 引证文献(0)
  • 二级引证文献(12)
2018(13)
  • 引证文献(2)
  • 二级引证文献(11)
2019(5)
  • 引证文献(1)
  • 二级引证文献(4)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
信息提取
模板化
自动识别
分隔标记
结构化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导