基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPE.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.
推荐文章
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于Web的新闻信息抽取
信息抽取
包装器
DOM
抽取规则
一种基于噪音过滤包装器的Web新闻抽取方法
信息抽取
包装器
新闻网页
ACME算法
字符串标签路径比
朴素贝叶斯分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于标签路径特征融合的在线Web新闻内容抽取
来源期刊 软件学报 学科 工学
关键词 内容抽取 Web新闻 标签路径特征 组合特征选择 特征融合
年,卷(期) 2016,(3) 所属期刊栏目 数据库技术
研究方向 页码范围 714-735
页数 22页 分类号 TP311
字数 22431字 语种 中文
DOI 10.13328/j.cnki.jos.004868
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡学钢 合肥工业大学计算机与信息学院 314 3156 27.0 39.0
2 李莉 合肥工业大学计算机与信息学院 32 322 9.0 17.0
3 吴共庆 合肥工业大学计算机与信息学院 24 251 6.0 15.0
4 徐喆昊 合肥工业大学计算机与信息学院 2 36 2.0 2.0
5 胡骏 合肥工业大学计算机与信息学院 4 36 2.0 4.0
6 刘鹏程 合肥工业大学计算机与信息学院 2 35 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (14)
节点文献
引证文献  (31)
同被引文献  (64)
二级引证文献  (16)
1993(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(2)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(4)
  • 参考文献(4)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(12)
  • 引证文献(11)
  • 二级引证文献(1)
2018(16)
  • 引证文献(12)
  • 二级引证文献(4)
2019(13)
  • 引证文献(5)
  • 二级引证文献(8)
2020(4)
  • 引证文献(1)
  • 二级引证文献(3)
研究主题发展历程
节点文献
内容抽取
Web新闻
标签路径特征
组合特征选择
特征融合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导