基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前互联网上网页来源众多 、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法.首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文本行信息字数较长这一特点,设定阈值并删除不符合阈值要求的文本行.正文信息行距一般相隔较近且含有中文标点符号,根据这一特征进一步删除不符合要求的文本行,最后整合出网页正文信息.将该方法与网页正文提取工具印象笔记(Evernote)、有道剪报工具(YNote)进行对比实验,实验结果表明该方法在平均准确率上高于YNote、Evernote,具有一定的通用性.
推荐文章
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
有效HTML文本信息抽取方法的研究
网页
信息抽取
机器学习
统计
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
基于多特征融合的网页正文信息抽取
单正文体
多正文体
多特征
信息抽取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文本行特征的网页正文信息抽取方法研究
来源期刊 软件导刊 学科 工学
关键词 网页信息抽取 正文特征 网页去噪 正文抽取
年,卷(期) 2017,(10) 所属期刊栏目 软件理论与方法
研究方向 页码范围 15-18
页数 4页 分类号 TP301
字数 3256字 语种 中文
DOI 10.11907/rjdk.172123
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘志杰 武汉工程大学计算机科学与工程学院 1 1 1.0 1.0
2 潘洋 武汉工程大学计算机科学与工程学院 4 14 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (34)
共引文献  (104)
参考文献  (9)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1996(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(10)
  • 参考文献(1)
  • 二级参考文献(9)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(7)
  • 参考文献(1)
  • 二级参考文献(6)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网页信息抽取
正文特征
网页去噪
正文抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
总被引数(次)
30383
论文1v1指导