基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法.首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度.在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求.
推荐文章
分布式海量文本检索系统研究
海量数据
全文检索
文本索引
海量加载
基于分布式架构的快速诊断测试技术研究
分布式
并行测试
合成仪器
多专家诊断系统
Hadoop分布式的海量图像检索
Hadoop分布式
海量图像
SURF特征
K?Means聚类
检索
数据挖掘
分布式环境基于相似度的关联规则挖掘模型的研究
数据挖掘
关联规则
相似度
分布式系统
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于分布式架构的海量文本快速相似度检测研究
来源期刊 中国传媒大学学报(自然科学版) 学科 地球科学
关键词 文本相似 Elasticsearch TF-IDF Simhash 余弦相似度
年,卷(期) 2019,(1) 所属期刊栏目
研究方向 页码范围 39-44
页数 6页 分类号 N37
字数 4851字 语种 中文
DOI 10.3969/j.issn.1673-4793.2019.01.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘杰 中国科学院自动化研究所数字内容技术与研究中心 218 1905 24.0 36.0
2 张树武 中国科学院自动化研究所数字内容技术与研究中心 18 61 4.0 7.0
4 晋晓琳 中国传媒大学信息工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (39)
共引文献  (18)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(6)
  • 参考文献(1)
  • 二级参考文献(5)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(6)
  • 参考文献(2)
  • 二级参考文献(4)
2016(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本相似
Elasticsearch
TF-IDF
Simhash
余弦相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国传媒大学学报(自然科学版)
双月刊
1673-4793
11-5379/N
16开
北京市朝阳区定福庄东街1号(中国传媒大学30号信箱)
1994
chi
出版文献量(篇)
1230
总下载数(次)
8
总被引数(次)
4943
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导