基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源.但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上.提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术.初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率.该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果.
推荐文章
基于模式发现的在线招聘信息抽取
Web抽取
模式发现
半结构化数据
PAT数组
XML
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
基于Web Service的数据抽取研究与设计
Web Service数据抽取
抽取线程
数据库
源代码中设计模式实例的抽取及验证方法研究
设计模式
逆向工程
多重性分析
动态分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 模式发现在Web抽取中的应用及设计
来源期刊 控制工程 学科 工学
关键词 Web抽取 包装器 半结构化数据 模式发现
年,卷(期) 2003,(3) 所属期刊栏目 计算机网络与数据库
研究方向 页码范围 227-229,269
页数 4页 分类号 TP311
字数 2803字 语种 中文
DOI 10.3969/j.issn.1671-7848.2003.03.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张森 浙江大学计算机系 16 322 8.0 16.0
2 周宇 浙江工业大学软件开发环境重点实验室 7 100 5.0 7.0
3 蔡霞 浙江工业大学软件开发环境重点实验室 5 57 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (25)
同被引文献  (4)
二级引证文献  (8)
2003(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2004(4)
  • 引证文献(4)
  • 二级引证文献(0)
2005(3)
  • 引证文献(3)
  • 二级引证文献(0)
2006(7)
  • 引证文献(6)
  • 二级引证文献(1)
2007(5)
  • 引证文献(5)
  • 二级引证文献(0)
2008(1)
  • 引证文献(0)
  • 二级引证文献(1)
2009(4)
  • 引证文献(3)
  • 二级引证文献(1)
2010(3)
  • 引证文献(1)
  • 二级引证文献(2)
2012(3)
  • 引证文献(2)
  • 二级引证文献(1)
2014(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web抽取
包装器
半结构化数据
模式发现
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
控制工程
月刊
1671-7848
21-1476/TP
大16开
沈阳东北大学310信箱
8-216
1994
chi
出版文献量(篇)
5468
总下载数(次)
9
总被引数(次)
44239
论文1v1指导