基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容.为此,提出基于通配符节点话题权重的抽取方法.将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的话题权重,将高权重话题的通配符节点所覆盖的文本节点识别为正文节点.实验结果表明,与传统新闻抽取方法相比,该方法能降低Web新闻内容边缘噪音文本的错误识别率,抽取的新闻内容准确率更高.
推荐文章
基于Web的新闻信息抽取
信息抽取
包装器
DOM
抽取规则
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于权重评估的主干光节点选址方法
权重评估
光节点
数值加权计算
一种基于噪音过滤包装器的Web新闻抽取方法
信息抽取
包装器
新闻网页
ACME算法
字符串标签路径比
朴素贝叶斯分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于通配符节点话题权重的Web新闻抽取方法
来源期刊 计算机工程 学科 工学
关键词 内容抽取 通配符节点 最大相容类 Otsu算法 话题生成
年,卷(期) 2019,(4) 所属期刊栏目 开发研究与工程应用
研究方向 页码范围 275-280
页数 6页 分类号 TP391.1
字数 5125字 语种 中文
DOI 10.19678/j.issn.1000-3428.0050057
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张闯 中国科学院信息工程研究所 34 95 6.0 9.0
2 张恺航 中国科学院信息工程研究所 4 3 1.0 1.0
6 徐克付 广州大学网络空间先进技术研究院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (105)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(6)
  • 参考文献(0)
  • 二级参考文献(6)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
内容抽取
通配符节点
最大相容类
Otsu算法
话题生成
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导