基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法.研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型.实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%,0.2%;准确率相比ViNTs方法和ViPER方法分别提升了5.2%,0.2%.基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升,使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进.
推荐文章
一种基于模板的快速网页文本自动抽取算法
噪声
非结构化
文本抽取
模板
阈值
信息抽取技术的发展现状及构建方法的研究
自然语言处理
信息抽取
构建信息抽取系统方法
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
面向Deep Web数据自动抽取的模板生成方法
Deep,Web
数据抽取
模板生成
文法推断
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于快速构建模板的购物信息抽取方法
来源期刊 计算机应用 学科 工学
关键词 模板 电子商务 信息抽取 购物信息 商品
年,卷(期) 2014,(3) 所属期刊栏目 人工智能
研究方向 页码范围 733-737,753
页数 6页 分类号 TP391.3|TP18
字数 6081字 语种 中文
DOI 10.11772/j.issn.1001-9081.2014.03.0733
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李萍 北京大学软件与微电子学院 25 207 7.0 13.0
2 周立新 北京大学软件与微电子学院 7 63 3.0 7.0
3 廖彬 新疆大学信息科学与工程学院 18 381 9.0 18.0
4 朱建波 新疆大学信息科学与工程学院 4 29 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (37)
共引文献  (339)
参考文献  (13)
节点文献
引证文献  (9)
同被引文献  (13)
二级引证文献  (9)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(2)
  • 参考文献(0)
  • 二级参考文献(2)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(3)
  • 参考文献(0)
  • 二级参考文献(3)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(6)
  • 参考文献(0)
  • 二级参考文献(6)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(4)
  • 参考文献(3)
  • 二级参考文献(1)
2004(4)
  • 参考文献(2)
  • 二级参考文献(2)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(6)
  • 参考文献(2)
  • 二级参考文献(4)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(3)
  • 引证文献(2)
  • 二级引证文献(1)
2016(2)
  • 引证文献(1)
  • 二级引证文献(1)
2017(4)
  • 引证文献(4)
  • 二级引证文献(0)
2018(7)
  • 引证文献(2)
  • 二级引证文献(5)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
模板
电子商务
信息抽取
购物信息
商品
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导