基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
通过对现有 Web 信息抽取方法和当前 Web 网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的 Web 信息抽取方法,此方法能够完成对互联网上主流信息的提取.通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题.文中设计了一个完整的 Web 信息抽取模型,并给出了各功能模块的实现方法.该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性.最后用实验证实了文中方法的有效性与正确性.
推荐文章
多信息块Web页面的信息抽取
Web
信息抽取
包装器
抽取规则
信息集成
一种用于Web信息抽取的页面信息本体自动学习方法
本体学习
信息抽取
PAT-tree
关联规则
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于BP神经网络的Web页面分类算法
分类技术
信息检索
Web页面
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于页面分类的 Web 信息抽取方法研究
来源期刊 计算机技术与发展 学科 工学
关键词 Web 信息抽取 正则表达式 页面分类 HTMLParser 结点树
年,卷(期) 2013,(1) 所属期刊栏目
研究方向 页码范围 54-58
页数 分类号 TP31
字数 5069字 语种 中文
DOI 10.3969/j.issn.1673-629X.2013.01.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨龙 南京邮电大学计算机学院 3 38 3.0 3.0
2 成卫青 南京邮电大学计算机学院 31 301 11.0 16.0
3 于静 南京邮电大学计算机学院 1 13 1.0 1.0
4 杨晶 南京邮电大学计算机学院 2 26 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (109)
参考文献  (7)
节点文献
引证文献  (13)
同被引文献  (24)
二级引证文献  (13)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(1)
  • 二级参考文献(3)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(5)
  • 参考文献(2)
  • 二级参考文献(3)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(5)
  • 参考文献(2)
  • 二级参考文献(3)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2013(3)
  • 引证文献(3)
  • 二级引证文献(0)
2014(3)
  • 引证文献(3)
  • 二级引证文献(0)
2015(5)
  • 引证文献(2)
  • 二级引证文献(3)
2016(5)
  • 引证文献(1)
  • 二级引证文献(4)
2017(5)
  • 引证文献(2)
  • 二级引证文献(3)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web 信息抽取
正则表达式
页面分类
HTMLParser
结点树
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导