基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%.
推荐文章
基于粒子群算法的三维CAD模型相似性计算
形状差异
模型相似性
粒子群算法
匹配序列
基于MapRed uce的增量式数据集的相似性连接
海量增量式数据集
划分
相似性连接
MapReduce
基于用户相似性的加权Slope One算法
个性化推荐系统
Slope One
相似性
用户活跃度
评分预测
基于路网相似性的路段行程时间估计
路网相似性
大数据
数据缺失
时空关联
人工神经网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于连接位Minwise Hash的三者相似性估计算法
来源期刊 上海交通大学学报 学科 工学
关键词 三者相似度 三者相似性估计 连接位 信息检索
年,卷(期) 2014,(7) 所属期刊栏目
研究方向 页码范围 936-941
页数 分类号 TP301.6
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 桂卫华 中南大学信息科学与工程学院 695 7452 38.0 56.0
2 龙军 中南大学信息科学与工程学院 65 387 8.0 16.0
3 张祖平 中南大学信息科学与工程学院 85 617 13.0 21.0
4 袁鑫攀 湖南工业大学计算机与通信学院 14 19 2.0 4.0
5 盛鑫海 湖南工业大学计算机与通信学院 3 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (1)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (3)
二级引证文献  (0)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2001(3)
  • 参考文献(2)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
三者相似度
三者相似性估计
连接位
信息检索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
上海交通大学学报
月刊
1006-2467
31-1466/U
大16开
上海市华山路1954号
4-338
1956
chi
出版文献量(篇)
8303
总下载数(次)
20
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导