基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大.现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法.使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度.从网页中提炼出表示网页特征的一些长句,从而把网页去重过程转换为一个搜索长句的过程,使用Bloom Filter减小了算法的时间复杂度.
推荐文章
基于Bloom Filter的去重方法研究
信息超载
个性化推荐系统
Bloom Filter
基于动态bloom filter的云存储安全去重方案
云存储
数据去重
bloom filter
收敛加密
所有权证明
基于特征串的网页文本并行去重算法
搜索引擎
特征串
网页去重
Simhash
Map/Reduce
基于特征码的网页去重
网页去重
网页特征码
二叉排序树
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Bloom Filter的网页去重算法
来源期刊 微型电脑应用 学科 工学
关键词 Bloom filter 网页去重 长句 Hash函数
年,卷(期) 2011,(3) 所属期刊栏目 开发应用
研究方向 页码范围 48-51
页数 分类号 TP311
字数 4106字 语种 中文
DOI 10.3969/j.issn.1007-757X.2011.03.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 倪卫明 31 106 5.0 8.0
2 徐娜 11 92 5.0 9.0
3 汪翔 5 25 3.0 5.0
4 刘四维 3 38 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (15)
参考文献  (4)
节点文献
引证文献  (16)
同被引文献  (27)
二级引证文献  (11)
1970(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(4)
  • 引证文献(2)
  • 二级引证文献(2)
2016(6)
  • 引证文献(4)
  • 二级引证文献(2)
2017(7)
  • 引证文献(5)
  • 二级引证文献(2)
2018(4)
  • 引证文献(0)
  • 二级引证文献(4)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Bloom filter
网页去重
长句
Hash函数
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
微型电脑应用
月刊
1007-757X
31-1634/TP
16开
上海市华山路1954号上海交通大学铸锻楼314室
4-506
1984
chi
出版文献量(篇)
6963
总下载数(次)
20
总被引数(次)
28091
论文1v1指导