基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于MD5算法计算数字指纹的网页消重算法简单而高效,在网页消重领域应用比较广泛。但是由于MD5算法是一种严格的信息加密算法,在文章内容变动很少的情况下得出的指纹结果完全不同,导致基于这种算法的网页消重技术召回率不是很高。提出了两种基于字集特征向量的网页消重改进算法,把文章内容映射到字集空间中去,计算字集空间距离来判断文章是否相似。提出的算法具有良好的泛化能力,段落中存在的调整语序和增删改个别字不会影响到对相似段落的识别,大大提高了网页消重算法的召回率。实验结果表明,算法的时间复杂度为O(n),空间复杂度为O(1),适合应用于大规模网页消重。
推荐文章
基于面积比矩阵的加权特征向量点匹配算法
计算机视觉
点匹配
面积比矩阵
加权特征向量法
基于加工特征向量的制造设备分组算法研究
模糊C-均值聚类
加工特征向量
设备分组
基于统计特征向量的时序符号化改进算法
多维时间序列
特征向量
加权属性
符号化
主成分分析
基于Map/Reduce的网页消重并行算法
搜索引擎
网页消重
Map/Reduce
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于字集特征向量的网页消重改进算法
来源期刊 计算机工程与应用 学科 工学
关键词 字集向量 机器码向量 网页消重 数字指纹 MD5
年,卷(期) 2017,(2) 所属期刊栏目 理论与研发
研究方向 页码范围 53-57
页数 5页 分类号 TP391
字数 4289字 语种 中文
DOI 10.3778/j.issn.1002-8331.1503-0340
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李洪奇 中国石油大学北京计算机系 50 640 15.0 23.0
2 张伟 中国石油大学北京计算机系 266 1209 20.0 26.0
3 冯海波 中国石油大学北京计算机系 1 0 0.0 0.0
4 杨中国 中国石油大学北京计算机系 10 34 3.0 5.0
5 宋伟城 中国石油大学北京计算机系 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (48)
共引文献  (56)
参考文献  (13)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(3)
  • 参考文献(1)
  • 二级参考文献(2)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(8)
  • 参考文献(0)
  • 二级参考文献(8)
2007(7)
  • 参考文献(1)
  • 二级参考文献(6)
2008(19)
  • 参考文献(2)
  • 二级参考文献(17)
2009(5)
  • 参考文献(2)
  • 二级参考文献(3)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
字集向量
机器码向量
网页消重
数字指纹
MD5
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导