作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较。通过测试数据和分析,该技术能保证运行稳定,每个实例可存储1亿文档,平均请求耗时稳定在20 ms左右,高峰期请求耗时会增长,但一般不会超过100 ms。
推荐文章
一种基于SimHash的海量视频检索方法
视频检索
视觉词袋
SimHash
Bloom Filter
基于Simhash的大规模文档去重改进算法研究
Web大数据
Simhash
近似文本检测
多维度
二次哈希
基于SimHash算法的SQL注入攻击检测方法
SQL注入
SimHash
白名单
防御体系
基于链接分析的网络搜索排名的反作弊研究
排序算法
链接分析
作弊倾向
惩罚因子
反作弊
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Simhash算法的海量文档反作弊技术研究
来源期刊 计算机技术与发展 学科 工学
关键词 重复文本检测 Simhash 反作弊 签名计算
年,卷(期) 2014,(9) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 103-107
页数 5页 分类号 TP311
字数 4810字 语种 中文
DOI 10.3969/j.issn.1673-629X.2014.09.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐济惠 26 67 3.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (23)
共引文献  (68)
参考文献  (11)
节点文献
引证文献  (14)
同被引文献  (33)
二级引证文献  (19)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(7)
  • 参考文献(0)
  • 二级参考文献(7)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(3)
  • 参考文献(2)
  • 二级参考文献(1)
2011(5)
  • 参考文献(4)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(5)
  • 引证文献(4)
  • 二级引证文献(1)
2016(2)
  • 引证文献(1)
  • 二级引证文献(1)
2017(7)
  • 引证文献(3)
  • 二级引证文献(4)
2018(5)
  • 引证文献(4)
  • 二级引证文献(1)
2019(11)
  • 引证文献(1)
  • 二级引证文献(10)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
重复文本检测
Simhash
反作弊
签名计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导