基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块.对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容.试验表明,这种方法是切实可行的.
推荐文章
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
基于正文结构和长句提取的网页去重算法
网页去重
正文结构树
长句提取
层次指纹
基于布局相似性的网页正文内容提取研究
布局相似性
网页正文提取
信息检索
基于用户个性化特征的网页视觉传达设计研究
个性化特征
网页视觉传达
兴趣行为
跟踪系统
视觉兴奋点
自适应
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于视觉特征的网页正文提取方法研究
来源期刊 微型机与应用 学科 工学
关键词 页面分块 信息提取 视觉特征
年,卷(期) 2010,(3) 所属期刊栏目 网络与通信
研究方向 页码范围 38-41
页数 4页 分类号 TP391
字数 3328字 语种 中文
DOI 10.3969/j.issn.1674-7720.2010.03.013
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (118)
参考文献  (4)
节点文献
引证文献  (36)
同被引文献  (34)
二级引证文献  (20)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(7)
  • 参考文献(0)
  • 二级参考文献(7)
2005(4)
  • 参考文献(2)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(5)
  • 引证文献(4)
  • 二级引证文献(1)
2013(7)
  • 引证文献(6)
  • 二级引证文献(1)
2014(6)
  • 引证文献(4)
  • 二级引证文献(2)
2015(6)
  • 引证文献(5)
  • 二级引证文献(1)
2016(7)
  • 引证文献(4)
  • 二级引证文献(3)
2017(8)
  • 引证文献(6)
  • 二级引证文献(2)
2018(7)
  • 引证文献(3)
  • 二级引证文献(4)
2019(6)
  • 引证文献(1)
  • 二级引证文献(5)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
页面分块
信息提取
视觉特征
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息技术与网络安全
月刊
2096-5133
10-1543/TP
大16开
北京市海淀区清华东路25号(北京927信箱)
82-417
1982
chi
出版文献量(篇)
10909
总下载数(次)
33
总被引数(次)
35987
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导