原文服务方: 计算机应用研究       
摘要:
提出了基于标记窗的网页正文信息提取方法.该方法不仅适合于处理一个网页中所有正文信息均放在一个td 中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当的情况.尤其重要的是,它能够解决非Table 结构的网页正文提取问题.实验表明,该方法可以提高网页正文提取的准确率,适用性强.
推荐文章
基于布局相似性的网页正文内容提取研究
布局相似性
网页正文提取
信息检索
基于正文结构和长句提取的网页去重算法
网页去重
正文结构树
长句提取
层次指纹
基于HTML树和模板的文献信息提取方法研究
网页信息提取
文档对象模型树
模板
文献信息搜集
一种垂直页面分割与信息提取方法的研究
页面分割
信息获取
垂直网站
内容聚集度
分割标签
前缀匹配
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于标记窗的网页正文信息提取方法
来源期刊 计算机应用研究 学科
关键词 标记窗 提取 文档对象模型
年,卷(期) 2007,(3) 所属期刊栏目 信息安全
研究方向 页码范围 144-145,180
页数 3页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2007.03.042
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘玉树 北京理工大学计算机科学技术学院 150 2634 25.0 46.0
2 索红光 北京理工大学计算机科学技术学院 10 380 6.0 10.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (147)
参考文献  (3)
节点文献
引证文献  (96)
同被引文献  (91)
二级引证文献  (342)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(2)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2007(2)
  • 引证文献(2)
  • 二级引证文献(0)
2008(7)
  • 引证文献(6)
  • 二级引证文献(1)
2009(13)
  • 引证文献(7)
  • 二级引证文献(6)
2010(41)
  • 引证文献(13)
  • 二级引证文献(28)
2011(41)
  • 引证文献(7)
  • 二级引证文献(34)
2012(49)
  • 引证文献(10)
  • 二级引证文献(39)
2013(47)
  • 引证文献(9)
  • 二级引证文献(38)
2014(54)
  • 引证文献(17)
  • 二级引证文献(37)
2015(44)
  • 引证文献(9)
  • 二级引证文献(35)
2016(43)
  • 引证文献(9)
  • 二级引证文献(34)
2017(43)
  • 引证文献(2)
  • 二级引证文献(41)
2018(31)
  • 引证文献(4)
  • 二级引证文献(27)
2019(21)
  • 引证文献(1)
  • 二级引证文献(20)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
标记窗
提取
文档对象模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导