原文服务方: 计算机应用研究       
摘要:
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息.分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取.提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析.实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡.
推荐文章
基于机器学习的HTML标题抽取
机器学习
标题
信息抽取
基于GA和信息熵的文本分类规则抽取方法
文本分类
遗传算法
信息熵
文本挖掘
基于Ontology的文本信息抽取
信息抽取
Ontology
概念模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 有效HTML文本信息抽取方法的研究
来源期刊 计算机应用研究 学科
关键词 网页 信息抽取 机器学习 统计
年,卷(期) 2008,(12) 所属期刊栏目 算法研究探讨
研究方向 页码范围 3568-3571,3574
页数 5页 分类号 TP311
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2008.12.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 莫倩 北京工商大学计算机学院 35 305 9.0 16.0
2 李文正 北京工商大学计算机学院 18 217 7.0 14.0
3 韩忠明 北京工商大学计算机学院 51 631 14.0 23.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (168)
参考文献  (6)
节点文献
引证文献  (39)
同被引文献  (79)
二级引证文献  (136)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(12)
  • 参考文献(2)
  • 二级参考文献(10)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(6)
  • 引证文献(6)
  • 二级引证文献(0)
2011(17)
  • 引证文献(5)
  • 二级引证文献(12)
2012(25)
  • 引证文献(8)
  • 二级引证文献(17)
2013(25)
  • 引证文献(3)
  • 二级引证文献(22)
2014(16)
  • 引证文献(3)
  • 二级引证文献(13)
2015(19)
  • 引证文献(5)
  • 二级引证文献(14)
2016(15)
  • 引证文献(2)
  • 二级引证文献(13)
2017(18)
  • 引证文献(4)
  • 二级引证文献(14)
2018(16)
  • 引证文献(1)
  • 二级引证文献(15)
2019(14)
  • 引证文献(1)
  • 二级引证文献(13)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
网页
信息抽取
机器学习
统计
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导