基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
推荐文章
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
基于自适应边缘提取的人眼定位方法
人眼定位
自适应
边缘提取
图像复杂度
一种自适应识别RFID标签的方法
单片机
射频识别
铁路标签
波形特征
残缺数据
多径效应
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于标签密度的自适应正文提取方法
来源期刊 郑州大学学报(理学版) 学科 工学
关键词 标签密度 锚文本密度 正文信息 网页去噪
年,卷(期) 2009,(1) 所属期刊栏目
研究方向 页码范围 44-47
页数 4页 分类号 TP391
字数 2827字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 董守斌 华南理工大学广东省计算机网络重点实验室 60 696 10.0 25.0
2 孙皓 华南理工大学广东省计算机网络重点实验室 1 9 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (161)
参考文献  (3)
节点文献
引证文献  (9)
同被引文献  (5)
二级引证文献  (1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
标签密度
锚文本密度
正文信息
网页去噪
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
郑州大学学报(理学版)
季刊
1671-6841
41-1338/N
大16开
郑州市高新技术开发区科学大道100号
36-191
1962
chi
出版文献量(篇)
2278
总下载数(次)
0
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导