基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题.于是提出基于模式识别算法的网页重复信息抽取方法.利用类间平衡因子和词频获取网页信息的互信息特征.在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取.利用模式识别中的支持向量机对网页信息分类,优化惩罚函数,建立软间隔支持向量机分类器.计算不同类别网页信息的结构相似度和语义相似度,结合上述计算结果获得网页信息相似性,完成网页重复信息的抽取.仿真结果表明,所提方法的抽取全面率高、重复信息比例低,且整体应用性能好,实验结果表明所提方法具有理想的应用效果.
推荐文章
基于DOM的半结构化网页信息抽取算法
DOM
信忠抽取
半结构化
信息集成
一种基于模板的快速网页文本自动抽取算法
噪声
非结构化
文本抽取
模板
阈值
基于加权频繁子树相似度的网页评论信息抽取
产品评论
抽取
加权频繁子树
动态模式识别算法的GPU平台实现
动态模式识别
神经网络
通用计算图形处理器
Jacket平台
并行实现
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于模式识别算法的网页重复信息抽取仿真
来源期刊 计算机仿真 学科 工学
关键词 模式识别算法 网页重复信息 特征提取 支持向量机 信息抽取
年,卷(期) 2022,(3) 所属期刊栏目 仿真服务化
研究方向 页码范围 439-443
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1006-9348.2022.03.086
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
模式识别算法
网页重复信息
特征提取
支持向量机
信息抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机仿真
月刊
1006-9348
11-3724/TP
大16开
北京海淀阜成路14号
82-773
1984
chi
出版文献量(篇)
20896
总下载数(次)
43
总被引数(次)
127174
论文1v1指导