基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低.提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文.方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求.
推荐文章
基于Zope平台的Web办公自动化系统
办公自动化
Zope
Web开发工具
ZODB
基于Web的新闻信息抽取
信息抽取
包装器
DOM
抽取规则
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于Web技术的办公自动化软件的开发
浏览器
服务器
功能
安全
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于统计的自动化Web新闻正文抽取
来源期刊 计算机应用与软件 学科 工学
关键词 Web新闻 正文抽取 自动化标签检测
年,卷(期) 2010,(12) 所属期刊栏目
研究方向 页码范围 232-235
页数 分类号 TP2
字数 4794字 语种 中文
DOI 10.3969/j.issn.1000-386X.2010.12.074
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 沈备军 上海交通大学软件学院 36 269 9.0 15.0
2 林子熠 上海交通大学软件学院 2 16 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (82)
参考文献  (1)
节点文献
引证文献  (16)
同被引文献  (24)
二级引证文献  (10)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(4)
  • 引证文献(4)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(4)
  • 引证文献(2)
  • 二级引证文献(2)
2017(4)
  • 引证文献(2)
  • 二级引证文献(2)
2018(7)
  • 引证文献(3)
  • 二级引证文献(4)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web新闻
正文抽取
自动化标签检测
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导