Head banner

 

研究意义

<< 返回

2014 PLoS ONE: 超高精度大规模测序快速比对算法 FANSe2

 

引言

随着大规模测序(新一代测序,next-generation sequencing)的蓬勃发展,核酸测序成本已大大降低,使得生物科研与个体化医疗看到了新的契机。然而,现有测序结果验证率低,常见的问题包括:突变无法验证、基因表达检测假阳性和假阴性率高、不同的实验室、不同的仪器测出来的结果难以重现等。这些严重的问题使得其难以走向临床。Nature Reviews Genetics 2012年发表综述,痛陈问题之严重性:“现在绝大多数的基于测序的结果都不能被验证、重复、采纳或用于教育他人,造成了迫在眉睫的可重复性危机。”(Nature Reviews Genetics 13, 667-672)

现在测序仪、试剂和操作流程都已经标准化,有的还已经取得了FDA等权威机构的认证,那问题出在哪里呢?很显然,只能出在数据分析上。华盛顿大学基因组研究所主任 Elaine Mardis 总结说:“ 目前的挑战来自三个方面:怎样分析得更快、更便宜,最重要的是,更准确。

对绝大多数测序应用而言,都有一个参考基因组或参考转录组序列。第一步分析就是要把测序得到的数百万到数千万条短核苷酸序列(reads)向参考基因组上比对,确定其位置,这一步术语称为 mapping。根据这些位置信息,才能计算得出突变(SNV)、拷贝数变异(CNV)、RNA定量信息等。因此,mapping是所有分析的基石,若mapping不可靠,其上所有的分析都不可靠,正如盖房子,如果地基不稳,地上部分建筑质量再好,终有一天也会倒塌的。

现在已发表的mapping算法有40-50种,从数学原理上可分为两大类:Seed-based algorithms(又称 hash-table algorithms)和 Burrows-Wheeler transform based algorithms。前者的典型代表如 MAQ, BLAT, Novoalign, SHRiMP2等,特点是精度较高、稳健性较好,但速度慢。后者的典型代表如 BWA, Bowtie, Bowtie2 等,特点是稳健性较差,但速度快。2009年BWA和Bowtie的问世,使得普通的生物实验室可以在一两天内在一台高性能台式工作站上将一次测序的数据mapping到人基因组上,而不必动用超级计算机。这种速度引爆了测序应用,也使得 BWT 类算法成为目前最主流的算法。

现在问题来了:mapping 算法哪家强?

很现实的问题在于:不同的mapping算法对同一个数据集可以给出大相径庭的结果。同一算法设置不同的参数,其结果也相差巨大。那么我们该信谁呢?目前主流的做法是——看哪个顺眼就用哪个,或者看大牛用什么咱也用什么…… 这显然不是一种科学的态度。但几乎所有的论文中都没有给出选择算法的具体理由,却也是无法辩驳的事实 (Nature Reviews Genetics 13, 667-672)。


同一数据集用不同的算法进行mapping,mapping的结果差别巨大。(图表来源点此

既然这些传统算法不可信,我们就只好“自己动手,丰衣足食”了,研制自己的FANSe系列算法。目前开发到第二代,就是FANSe2算法。与传统算法主要追求速度截然不同的是,FANSe系列算法是以准确性为首要设计目标的mapping算法

 

1. 近乎完美的精度

FANSe系列算法的设计非常简单,但正是简单的设计给它带来了精度的理论保证——FANSe系列算法的错误率可以用概率论的方法来事先预估。FANSe2 的 mapping 错误率低至 10-3~10-6, 是世界上第一种可预估错误率的mapping算法。在很多情况下FANSe2可保证100%的准确率,理论上已没有继续提高的空间了。以下是从文章中摘录的部分模拟测试结果。

 

2. 超强的容错能力,无惧高错误率和高变异率

FANSe系列算法在8%错误率时可以保持极高的比对准确率,而此时传统算法的比对率已降至20%,已完全丧失实用意义。除此之外,FANSe系列算法对碱基的插入缺失(indel) 有着完善的处理机制,因此在高达4%的插入缺失率时仍保持几乎完美的准确率,而此时传统算法已完全不堪使用。因此,FANSe系列算法可轻松应对非模式物种的研究,同时也可以从容应对高错误率的三代测序仪数据。

举两个非模式物种研究的例子:

 

3. 远超传统算法的实验可验证性

已发表的论文中已有大量实验证据,证明用传统算法进行分析,有大量的测序计算结果无法被验证,包括碱基突变、基因表达等都有很多的假阳性、假阴性结果。而用FANSe2算法得到的测序计算结果,进行实验验证无一错漏,完美符合实验事实。因此,FANSe系列算法解决了Nature所指出的测序重复性危机,可以得到符合事实的结果


 

4. 极强的兼容性:测序和芯片的数据能线性对应

Comparing next-generation sequencing and microarray technologies in a toxicologial study of the effects of aristolochic acid on rat kidneys. Chemical Research in Toxicology (2011), 24(9):1486-93
在这篇文章中,作者用8个大鼠样品同时做了Illumina测序和Affymetrix芯片,用传统算法Bowtie, SOAP2, BWA进行mapping,发现测序对检测低丰度mRNA存在严重的偏差(左图)。我们下载其数据,发现用FANSe2进行mapping,问题迎刃而解:FANSe2可使测序数据和芯片数据线性对应(右图)。这样,可以充分利用其他人长期积累下来的珍贵芯片数据。

 

5. 定量精确,可大幅度降低测序成本

2013年人类蛋白质组计划(HPP)肝癌细胞翻译组测序的实践表明: 使用FANSe2算法,在2M reads(100M数据量)时, 即可准确鉴定和定量11000个编码基因。也就是说,FANSe2可以使测序通量降低50~100倍,达到同样的定量精度,大大降低测序成本

 

6. 精度与速度兼得:完美的精度,超越Bowtie2的速度

将整个 Illumina HiSeq-2000 的Flowcell所产生的608M reads 向人基因组hg19进行比对。FANSe2在一台i5-2500K四核办公电脑(不到4000元人民币)上10小时完成任务,相同的任务Bowtie2用了36小时。当FANSe2开启indel检测后会略慢,但FANSe2可以多机并行。使用3台普通的办公电脑联网运算,可以加速2倍多。其他算法不具备多机并行的能力。

 

因此,FANSe2给测序的高级分析打下坚实的基础。

FANSe系列算法精度高、稳健性好
FANSe系列算法的结果能被实验验证
传统算法在DNA和RNA测序上都会造成许多假阳性和假阴性,错漏多,不可靠。

 

<< Back