基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务.该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预.对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于重复模式的论坛信息抽取研究
重复模式
论坛抽取
信息抽取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于重复模式的自动Web信息抽取
来源期刊 计算机工程 学科 工学
关键词 Web信息抽取 DOM树 重复模式
年,卷(期) 2008,(22) 所属期刊栏目 软件技术与数据库
研究方向 页码范围 73-76
页数 4页 分类号 TP311
字数 4894字 语种 中文
DOI 10.3969/j.issn.1000-3428.2008.22.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 武港山 南京大学计算机软件新技术国家重点实验室 66 1172 20.0 31.0
2 袁春风 南京大学计算机软件新技术国家重点实验室 51 926 18.0 29.0
3 濮小佳 南京大学计算机软件新技术国家重点实验室 3 48 3.0 3.0
4 胡仁龙 南京大学计算机软件新技术国家重点实验室 1 18 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (18)
同被引文献  (15)
二级引证文献  (37)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(5)
  • 引证文献(5)
  • 二级引证文献(0)
2011(8)
  • 引证文献(4)
  • 二级引证文献(4)
2012(10)
  • 引证文献(4)
  • 二级引证文献(6)
2013(8)
  • 引证文献(4)
  • 二级引证文献(4)
2014(5)
  • 引证文献(0)
  • 二级引证文献(5)
2015(6)
  • 引证文献(0)
  • 二级引证文献(6)
2016(5)
  • 引证文献(0)
  • 二级引证文献(5)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(5)
  • 引证文献(1)
  • 二级引证文献(4)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web信息抽取
DOM树
重复模式
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导