基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.
推荐文章
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
使用特征文本密度的网页正文提取
文本密度
文本特征
信息抽取
网页
结合网页结构与文本特征的正文提取方法
正文提取
网页去噪
网页分块
主题爬行
信息检索
Web挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文本块密度与标签路径等特征的正文提取
来源期刊 广东工业大学学报 学科 工学
关键词 正文抽取 文本块 标签路径 文本密度
年,卷(期) 2018,(2) 所属期刊栏目
研究方向 页码范围 51-56
页数 6页 分类号 TP391
字数 3589字 语种 中文
DOI 10.12052/gdutxb.170152
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 唐超兰 广东工业大学艺术与设计学院 29 126 7.0 9.0
2 李航 广东工业大学计算机学院 3 22 2.0 3.0
3 杨贤 广东工业大学艺术与设计学院 14 50 4.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (48)
共引文献  (18)
参考文献  (6)
节点文献
引证文献  (3)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(7)
  • 参考文献(0)
  • 二级参考文献(7)
2014(10)
  • 参考文献(1)
  • 二级参考文献(9)
2015(5)
  • 参考文献(0)
  • 二级参考文献(5)
2016(5)
  • 参考文献(3)
  • 二级参考文献(2)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
正文抽取
文本块
标签路径
文本密度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广东工业大学学报
双月刊
1007-7162
44-1428/T
16开
广东省广州市东风东路729号
1974
chi
出版文献量(篇)
2262
总下载数(次)
2
总被引数(次)
11966
论文1v1指导