原文服务方: 计算机应用研究       
摘要:
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息.为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC).结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容.该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理.在CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法.
推荐文章
基于文本块密度与标签路径等特征的正文提取
正文抽取
文本块
标签路径
文本密度
一种基于模板的快速网页文本自动抽取算法
噪声
非结构化
文本抽取
模板
阈值
基于文本行特征的网页正文信息抽取方法研究
网页信息抽取
正文特征
网页去噪
正文抽取
基于正文结构和长句提取的网页去重算法
网页去重
正文结构树
长句提取
层次指纹
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文本块密度和标签路径覆盖率的网页正文抽取
来源期刊 计算机应用研究 学科
关键词 正文抽取 文本块密度 标签路径覆盖率 特征融合
年,卷(期) 2018,(6) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1645-1650
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2018.06.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴共庆 合肥工业大学计算机与信息学院 24 251 6.0 15.0
2 胡骏 合肥工业大学计算机与信息学院 4 36 2.0 4.0
3 刘鹏程 合肥工业大学计算机与信息学院 2 35 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (73)
共引文献  (56)
参考文献  (9)
节点文献
引证文献  (4)
同被引文献  (12)
二级引证文献  (0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(10)
  • 参考文献(0)
  • 二级参考文献(10)
2008(9)
  • 参考文献(0)
  • 二级参考文献(9)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(8)
  • 参考文献(0)
  • 二级参考文献(8)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(11)
  • 参考文献(0)
  • 二级参考文献(11)
2014(7)
  • 参考文献(3)
  • 二级参考文献(4)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
正文抽取
文本块密度
标签路径覆盖率
特征融合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导