基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源.从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题.该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息.最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Web的新闻信息抽取
来源期刊 计算机工程 学科 工学
关键词 信息抽取 包装器 DOM 抽取规则
年,卷(期) 2006,(10) 所属期刊栏目 软件技术与数据库
研究方向 页码范围 74-76
页数 3页 分类号 TP393.09
字数 4628字 语种 中文
DOI 10.3969/j.issn.1000-3428.2006.10.027
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 武港山 南京大学计算机科学与技术系 66 1172 20.0 31.0
2 朱永盛 南京大学计算机软件新技术国家重点实验室 2 51 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (89)
参考文献  (1)
节点文献
引证文献  (46)
同被引文献  (29)
二级引证文献  (148)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(6)
  • 引证文献(6)
  • 二级引证文献(0)
2008(18)
  • 引证文献(10)
  • 二级引证文献(8)
2009(11)
  • 引证文献(5)
  • 二级引证文献(6)
2010(26)
  • 引证文献(7)
  • 二级引证文献(19)
2011(34)
  • 引证文献(9)
  • 二级引证文献(25)
2012(14)
  • 引证文献(2)
  • 二级引证文献(12)
2013(22)
  • 引证文献(2)
  • 二级引证文献(20)
2014(16)
  • 引证文献(2)
  • 二级引证文献(14)
2015(15)
  • 引证文献(1)
  • 二级引证文献(14)
2016(9)
  • 引证文献(1)
  • 二级引证文献(8)
2017(11)
  • 引证文献(1)
  • 二级引证文献(10)
2018(9)
  • 引证文献(0)
  • 二级引证文献(9)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
信息抽取
包装器
DOM
抽取规则
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导