基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.
推荐文章
面向Deep Web数据自动抽取的模板生成方法
Deep,Web
数据抽取
模板生成
文法推断
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于模板的Web信息自动提取方法
信息提取
模板化
自动识别
分隔标记
结构化
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于自动生成模板的Web信息抽取技术
来源期刊 北京交通大学学报 学科 工学
关键词 信息抽取 模板 文档对象模型 XPath 网络舆情
年,卷(期) 2009,(5) 所属期刊栏目 电子信息通信工程
研究方向 页码范围 40-45
页数 6页 分类号 TP391
字数 5471字 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (259)
参考文献  (6)
节点文献
引证文献  (43)
同被引文献  (48)
二级引证文献  (148)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(6)
  • 参考文献(1)
  • 二级参考文献(5)
2005(5)
  • 参考文献(1)
  • 二级参考文献(4)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
2011(14)
  • 引证文献(5)
  • 二级引证文献(9)
2012(18)
  • 引证文献(2)
  • 二级引证文献(16)
2013(33)
  • 引证文献(11)
  • 二级引证文献(22)
2014(15)
  • 引证文献(5)
  • 二级引证文献(10)
2015(29)
  • 引证文献(6)
  • 二级引证文献(23)
2016(22)
  • 引证文献(3)
  • 二级引证文献(19)
2017(26)
  • 引证文献(2)
  • 二级引证文献(24)
2018(19)
  • 引证文献(4)
  • 二级引证文献(15)
2019(10)
  • 引证文献(2)
  • 二级引证文献(8)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
信息抽取
模板
文档对象模型
XPath
网络舆情
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京交通大学学报
双月刊
1673-0291
11-5258/U
大16开
北京西直门外上园村3号
1975
chi
出版文献量(篇)
3626
总下载数(次)
7
总被引数(次)
38401
论文1v1指导