基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理.然而,云计算的处理方式要求先将测序数据上传到云平台中.但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别.目前已有的去重方法无法有效识别出这样的"重复"测序文件和测序结果中的"重复"内容.重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间.针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication).该方法对FastQ中的序列和质量信息,使用SimHash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重.实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值.
推荐文章
生物二代测序数据的压缩算法研究进展
二代测序
压缩算法
生物信息学
基于第二代测序数据识别肿瘤基因突变的工具比较
癌症
基因组突变
第二代测序
基因组测序
应用枇杷二代测序数据进行染色体步移研究
枇杷
染色体步移
启动子
二代测序
Reads
第二代测序在肿瘤临床研究中的应用
肿瘤
高通量测序
精准医学
免疫疗法
综述
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向云平台的二代测序数据近似去重方法研究
来源期刊 计算机工程与应用 学科 工学
关键词 高通量测序 重复数据删除 近似去重 布谷过滤器
年,卷(期) 2017,(23) 所属期刊栏目 热点与综述
研究方向 页码范围 1-5
页数 5页 分类号 TP311
字数 4438字 语种 中文
DOI 10.3778/j.issn.1002-8331.1706-0449
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈晨 首都医科大学附属北京地坛医院传染病研究所 56 294 10.0 15.0
2 赵晓永 北京信息科技大学信息管理学院 18 14 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (42)
参考文献  (8)
节点文献
引证文献  (1)
同被引文献  (9)
二级引证文献  (0)
1970(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
高通量测序
重复数据删除
近似去重
布谷过滤器
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导