基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法.该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据.该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪.实验表明,该方法不仅有较高的精度,而且通用性好.
推荐文章
基于特征相关学习的网页信息提取方法
信息提取
特征学习
过滤
网页信息
使用特征文本密度的网页正文提取
文本密度
文本特征
信息抽取
网页
网页信息提取技术
DOM
标签提取
信息提取
网页净化
基于SVM遥感矿化蚀变信息提取研究
SAM
SVM
矿化蚀变信息
提取
遥感数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于SVM及文本密度特征的网页信息提取方法
来源期刊 计算机应用与软件 学科 工学
关键词 SVM 正文抽取 DOM树 文本密度特征
年,卷(期) 2019,(10) 所属期刊栏目 算法
研究方向 页码范围 251-255,261
页数 6页 分类号 TP3
字数 5373字 语种 中文
DOI 10.3969/j.issn.1000-386x.2019.10.043
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周艳平 青岛科技大学信息科学技术学院 22 244 5.0 15.0
2 李金鹏 青岛科技大学信息科学技术学院 4 4 2.0 2.0
3 宋群豹 青岛科技大学信息科学技术学院 15 15 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (47)
共引文献  (86)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(14)
  • 参考文献(0)
  • 二级参考文献(14)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(8)
  • 参考文献(1)
  • 二级参考文献(7)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(5)
  • 参考文献(3)
  • 二级参考文献(2)
2012(4)
  • 参考文献(2)
  • 二级参考文献(2)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
SVM
正文抽取
DOM树
文本密度特征
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导