基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义.论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效的短文本聚类方法.该方法通过将文本表示成连续短字符串集合,并应用最小哈希将集合简化成一组由数字组成的文本签名,通过局部敏感哈希算法得到符合相似度条件的文本聚类.为了适应网络信息规模大的特点,论文进一步利用Apache Spark集群计算框架对聚类算法进行了并行化,提高了数据处理的效率,并分析了影响算法性能的因素.
推荐文章
一种基于密度的分布式聚类改进算法
聚类
分布式
数据挖掘
代表点
一种增量式文本软聚类算法
语义序列
增量式聚类
软聚类
文本聚类
一种基于密度峰值的高效分布式聚类算法
聚类
密度峰值
大数据
局部敏感哈希
Spark
一种分布式的K-means聚类算法
K-means聚类算法
分布式环境
大数据集
复杂度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种高效的分布式相似短文本聚类算法
来源期刊 计算机与数字工程 学科 工学
关键词 文本聚类 最小哈希 局部敏感哈希 shingling Spark
年,卷(期) 2016,(5) 所属期刊栏目 信息处理与网络安全
研究方向 页码范围 895-900,943
页数 7页 分类号 TP391.1
字数 5677字 语种 中文
DOI 10.3969/j.issn.1672-9722.2016.05.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王挺 国防科学技术大学计算机学院 34 445 12.0 20.0
2 唐晋韬 国防科学技术大学计算机学院 10 134 6.0 10.0
3 原默晗 国防科学技术大学计算机学院 1 7 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (7)
同被引文献  (12)
二级引证文献  (2)
2000(2)
  • 参考文献(2)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(3)
  • 引证文献(2)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本聚类
最小哈希
局部敏感哈希
shingling
Spark
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与数字工程
月刊
1672-9722
42-1372/TP
大16开
武汉市东湖新技术开发区凤凰产业园藏龙北路1号
1973
chi
出版文献量(篇)
9945
总下载数(次)
28
总被引数(次)
47579
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导