作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着信息科技的不断进步和网络的迅速普及,互联网中每天都会产生海量的文本信息,其中很大一部分文本在内容上有所重复,这会造成互联网用户浏览时间的浪费和内容提供方存储资源的过度消耗.为此,本文提出了一种高度相似网络文本排重系统,利用simhash算法确定文本内容的相似度,对于被判定为高度相似的文本只赋予一个唯一的标识入库保存,从而减轻了数据库的存储压力,提高了用户搜索与浏览的效率.
推荐文章
基于文本相似度的微博网络水军发现算法
特征码
索引
文本相似度
最长子序列
基于《知网》的文本相似度研究
知网
语义相似度
VSM
文本相似度
基于本体及相似度的文本聚类研究
本体
相似度
文本聚类
语义
基于人工神经网络的污染减排预警系统研究
污染减排
预警
人工神经网络
指标体系
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 高度相似网络文本排重系统研究
来源期刊 现代科学仪器 学科
关键词 网络文本 排重技术 simhash算法
年,卷(期) 2021,(1) 所属期刊栏目 技术创新与应用
研究方向 页码范围 125-128
页数 4页 分类号
字数 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (35)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(2)
  • 参考文献(0)
  • 二级参考文献(2)
2018(9)
  • 参考文献(0)
  • 二级参考文献(9)
2019(21)
  • 参考文献(1)
  • 二级参考文献(20)
2020(4)
  • 参考文献(4)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网络文本
排重技术
simhash算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代科学仪器
双月刊
1003-8892
11-2837/TH
大16开
北京海淀区西三环北路27号理化实验楼512室
1984
chi
出版文献量(篇)
4906
总下载数(次)
12
总被引数(次)
20682
论文1v1指导