基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
通用后缀树因其优良的结构特征被广泛应用于序列匹配、最长公共子序列查找等场合.在大数据时代,待处理序列的规模往往十分庞大,这给通用后缀树的构造带来巨大挑战.为应对这一挑战,本文提出一种并行分布式的通用后缀树构造算法.该算法采用子树划分与合并的思想,将构造过程分解为多个子任务并行执行,算法基于Spark平台设计实现,字符序列以弹性分布式数据集(RDD)形式存储,任务在RDD上分布式执行.基于真实数据集的实验表明,对数十亿字符序列构造通用后缀树,其构造过程可在7分钟内完成,由此可见,本文所提算法可高效解决大规模通用后缀树构造问题.
推荐文章
基于Spark的并行Eclat算法
关联规则挖掘
大数据
Spark
投影树
并行化
基于后缀树的知识点间关联规则挖掘算法
后缀树
关联规则
数据挖掘
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
基于Spark的并行社区发现算法
社区发现
Spark
并行算法
图聚类
图数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的通用后缀树并行构造算法
来源期刊 福建电脑 学科
关键词 通用后缀树 Spark 弹性分布式数据集 子树划分 子树合并 构造算法
年,卷(期) 2018,(5) 所属期刊栏目 基金项目论文
研究方向 页码范围 4-7
页数 4页 分类号
字数 3431字 语种 中文
DOI 10.16707/j.cnki.fjpc.2018.05.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周经亚 苏州大学计算机科学与技术学院 2 10 1.0 2.0
2 高可攀 苏州大学计算机科学与技术学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (1)
同被引文献  (2)
二级引证文献  (0)
1976(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1993(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
通用后缀树
Spark
弹性分布式数据集
子树划分
子树合并
构造算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
福建电脑
月刊
1673-2782
35-1115/TP
大16开
福州市华林邮局29号信箱
1985
chi
出版文献量(篇)
21147
总下载数(次)
86
总被引数(次)
44699
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导