那些对Nanopore测序错误率的误解
Release time:2020-05-14 16:49:09 Author:Benagen
作为两个三代测序平台,经常听到有人讲PacBio测序的错误率低,Nanopore测序的错误率高,真的是这样吗,小编为你解惑。
ONT官方公布的数据整体错误率
首先看看ONT(Oxford Nanopore Technologies)官方的数据,现在DNA主要采用1D建库,使用R9.4.1芯片,High-accuracy basecalling(HAC)模式进行DNA测序,原始错误率5%;RNA测序(RNA直接测序,而不是cDNA测序)错误率6.1%(表1,图1)。HAC是目前最常用的测序模式,市面上的测序公司主要使用这种方式进行测序。
图1 ONT测序不同版本试剂测序准确率
实验室实际测得数据整体错误率
Nanopore 测序的数据错误率受DNA质量的影响非常大,因此实验室实测的数据质量值由于DNA纯度和样品类型不一样差别较大。同样的样品不同的实验室处理,得到的质量也是不一样的。
整体来说,实验室实测数据比官方使用标准品得到的数据错误率略有差异。以天然基因组DNA数据为例,细菌和大多数真菌质量值最高(错误率7%左右),昆虫、哺乳动物、农作物类次之(错误率率8%左右);生代谢物含量丰富的物种,比如药用植物、某些真菌的整体数据质量值稍低,错误率8-10%,这些样品测序错误率偏高的主要原因是次生代谢物的存在影响DNA纯度(图3)。另外DNA测序错误率与碱基的修饰也有关系,因此cDNA、扩增子等经过PCR处理的DNA整体错误较低,在7-8%左右或者更低。宏基因样品由于来源的复杂性及富含多种杂质,错误率在8%左右,不过经过优化提取方法可以获得较理想的Q值。
DNA纯度是ONT测序数据质量值的重要影响因素,对实验室DNA提取水平的要求很高。同时质量值和序列的长度有关系(图3)。Reads长度大于100Kb平均质量值会下降,超长read的准确率偏低,一般1M以上的reads的平均质量值大多数在9以下。
图3 实验室基因组数据Pass reads 质量值分布图
注:A是细菌样品,B是作物样品,C是药用植物样品
ONT测序错误率的误导性宣传
1 ONT测序错数据误率高,PacBio测序错误率低
PacBio有两种不同类型的测序模式,CLR和CCS模式(HiFi模式也是CCS模式的一种,因此不单独讨论)。其中CLR模式(目前基因组项目主要使用该模式)测序的错误率在10%左右,和ONT测数据错误率相当或者稍高。CCS的错误率较低,整体在1%以下。因此两个平台比较首选需要考虑的是PacBio使用的是哪一种模式。
另外就是随着测序试剂和软件的更新,测序的质量值是逐步增加的,有时候看到一些宣传把ONT 2017年的数据和PacBio 2018-2019年的数据进行对比。这个就像是汉阳造和中正式进行对比,本来就是有代差的数据,这样的比较是不科学的。
2 经常看到一些宣传说ONT测序数据错误率高,PacBio测序错误率低,因此ONT数据组装的基因组没有PacBio数据组装的基因组质量高
这是一个误导性的宣传策略,PacBio CCS数据由于片段短,主要用于转录组测序和扩增子测序,较少用到基因组项目,目前绝大部分的基因组项目还是使用CLR模式进行测序。此外,由于建库模式限制PacBio测序得到单read 50Kb以上的比例是非常低的。而ONT数据100Kb以上的reads占有一定的比例,很适合做基因组项目。ONT测序基因组项目会使用二代数据进行纠错,纠错后组装好的基因组的整体质量值在Q40(99.99%)以上(图4)。
3 ONT数据错误率高,PacBio测序错误率低,因此ONT数据组装的基因组有可能HiC挂载不上
关于错误率和组装的问题同上。基因组组装是一个技术性很强的活,如果技术不行或者第一次使用ONT数据组装得到的基因组质量不好这个是有情可原的,通过学习提高专业技能是有必要的。小编所在单位2019年10-12月完成动植物基因组项目40多个,还没有一个是无法挂载到染色体的,如果以后有那就解决掉。
4 ONT数据错误率高不适合做转录组
这是一个很好的误导的描述,很有迷惑性,小编第一次看到也有点蒙。后来仔细想想又似乎不对。这是一个半真半假的描述,目前来看ONT是不适合单独用于无参转录组测序,cDNA数据的错误率在8%左右,组装后进行转录本注释有诸多问题,小编单位测试过多次效果一直不理想,不过加上二代数据纠错是可以解决这个问题的。对于无参转录组构建参考序列小编推荐使用PacBio测序。
对于有参考基因组的物种,转录组的主要目的在于定量、检测可变剪切和融合基因。基于这种目的ONT数据是适合的,由于reads足够长,平均长度在800bp-1.5Kb。首先下机数据进行自我矫正,矫正后错误率会降到3%以内。足够长的序列再比对到参考序列,这个错误率已经不是问题了。因此适合进行有参转录组研究。
那么有参全长转录转是使用PacBio还是ONT呢,这里推荐使用ONT。转录本定量需要的有足够多的reads数,3G的ONT数据大约是3M的reads,用于大多数物种转录本的定量是足够的;同时可变剪切和融合基因等研究也需要有足够的reads数;而PacBio需要达到3M的reads则需要30Gb以上的数据,不经济。另外,PacBio在使用CCS模式测序以前,建库的时候是需要经过片段筛选的,短的转录本和长的转录本都检测不出来;ONT的cDNA建库则不进行片段筛选,直接进行测序,这样不会遗漏掉短的转录本和长的转录本,还原真实的RNA表达信息。因此有参全长转录组推荐使用ONT测序。
质量值和Q值的对应关系
很多时候初学生物信息的人不是很清楚Q值和准确率的对应关系,小编整理了常用的质量值和错误率的对应关系,共参考(附表1)。
ONT官方公布的数据整体错误率
首先看看ONT(Oxford Nanopore Technologies)官方的数据,现在DNA主要采用1D建库,使用R9.4.1芯片,High-accuracy basecalling(HAC)模式进行DNA测序,原始错误率5%;RNA测序(RNA直接测序,而不是cDNA测序)错误率6.1%(表1,图1)。HAC是目前最常用的测序模式,市面上的测序公司主要使用这种方式进行测序。
表1 R9.4.1芯片测序原始数据准确率
图1 ONT测序不同版本试剂测序准确率
ONT官方已发布R10.3芯片,测序准确率在R9.4.1芯片基础上有大幅提升,准确率达96%以上(图2)。不过由于R10.3芯片的数据产量较R9.4.1要小很多,整体测序成本较高。
实验室实际测得数据整体错误率
Nanopore 测序的数据错误率受DNA质量的影响非常大,因此实验室实测的数据质量值由于DNA纯度和样品类型不一样差别较大。同样的样品不同的实验室处理,得到的质量也是不一样的。
整体来说,实验室实测数据比官方使用标准品得到的数据错误率略有差异。以天然基因组DNA数据为例,细菌和大多数真菌质量值最高(错误率7%左右),昆虫、哺乳动物、农作物类次之(错误率率8%左右);生代谢物含量丰富的物种,比如药用植物、某些真菌的整体数据质量值稍低,错误率8-10%,这些样品测序错误率偏高的主要原因是次生代谢物的存在影响DNA纯度(图3)。另外DNA测序错误率与碱基的修饰也有关系,因此cDNA、扩增子等经过PCR处理的DNA整体错误较低,在7-8%左右或者更低。宏基因样品由于来源的复杂性及富含多种杂质,错误率在8%左右,不过经过优化提取方法可以获得较理想的Q值。
DNA纯度是ONT测序数据质量值的重要影响因素,对实验室DNA提取水平的要求很高。同时质量值和序列的长度有关系(图3)。Reads长度大于100Kb平均质量值会下降,超长read的准确率偏低,一般1M以上的reads的平均质量值大多数在9以下。
图3 实验室基因组数据Pass reads 质量值分布图
注:A是细菌样品,B是作物样品,C是药用植物样品
ONT测序数据错误的分布
ONT测序数据错误率主要有3种类型,一种是单碱基替换(Substitution),一种是插入错误(Insertion)和缺失错误(Deletion)。Insertion/ Deletion占整个错误类型75-80%。由于测序原理的原因,碰到同聚物时,Insertion/ Deletion概率会增加。这些错误可通过一致性序列进行矫正,矫正后的准确率可达99.9%到99.99%(图4);同时使用二代数据进行纠错,准确率可以更高。
ONT测序数据错误率主要有3种类型,一种是单碱基替换(Substitution),一种是插入错误(Insertion)和缺失错误(Deletion)。Insertion/ Deletion占整个错误类型75-80%。由于测序原理的原因,碰到同聚物时,Insertion/ Deletion概率会增加。这些错误可通过一致性序列进行矫正,矫正后的准确率可达99.9%到99.99%(图4);同时使用二代数据进行纠错,准确率可以更高。
图4 一致性序列质量分布图
ONT测序错误率的误导性宣传
1 ONT测序错数据误率高,PacBio测序错误率低
PacBio有两种不同类型的测序模式,CLR和CCS模式(HiFi模式也是CCS模式的一种,因此不单独讨论)。其中CLR模式(目前基因组项目主要使用该模式)测序的错误率在10%左右,和ONT测数据错误率相当或者稍高。CCS的错误率较低,整体在1%以下。因此两个平台比较首选需要考虑的是PacBio使用的是哪一种模式。
另外就是随着测序试剂和软件的更新,测序的质量值是逐步增加的,有时候看到一些宣传把ONT 2017年的数据和PacBio 2018-2019年的数据进行对比。这个就像是汉阳造和中正式进行对比,本来就是有代差的数据,这样的比较是不科学的。
2 经常看到一些宣传说ONT测序数据错误率高,PacBio测序错误率低,因此ONT数据组装的基因组没有PacBio数据组装的基因组质量高
这是一个误导性的宣传策略,PacBio CCS数据由于片段短,主要用于转录组测序和扩增子测序,较少用到基因组项目,目前绝大部分的基因组项目还是使用CLR模式进行测序。此外,由于建库模式限制PacBio测序得到单read 50Kb以上的比例是非常低的。而ONT数据100Kb以上的reads占有一定的比例,很适合做基因组项目。ONT测序基因组项目会使用二代数据进行纠错,纠错后组装好的基因组的整体质量值在Q40(99.99%)以上(图4)。
3 ONT数据错误率高,PacBio测序错误率低,因此ONT数据组装的基因组有可能HiC挂载不上
关于错误率和组装的问题同上。基因组组装是一个技术性很强的活,如果技术不行或者第一次使用ONT数据组装得到的基因组质量不好这个是有情可原的,通过学习提高专业技能是有必要的。小编所在单位2019年10-12月完成动植物基因组项目40多个,还没有一个是无法挂载到染色体的,如果以后有那就解决掉。
4 ONT数据错误率高不适合做转录组
这是一个很好的误导的描述,很有迷惑性,小编第一次看到也有点蒙。后来仔细想想又似乎不对。这是一个半真半假的描述,目前来看ONT是不适合单独用于无参转录组测序,cDNA数据的错误率在8%左右,组装后进行转录本注释有诸多问题,小编单位测试过多次效果一直不理想,不过加上二代数据纠错是可以解决这个问题的。对于无参转录组构建参考序列小编推荐使用PacBio测序。
对于有参考基因组的物种,转录组的主要目的在于定量、检测可变剪切和融合基因。基于这种目的ONT数据是适合的,由于reads足够长,平均长度在800bp-1.5Kb。首先下机数据进行自我矫正,矫正后错误率会降到3%以内。足够长的序列再比对到参考序列,这个错误率已经不是问题了。因此适合进行有参转录组研究。
那么有参全长转录转是使用PacBio还是ONT呢,这里推荐使用ONT。转录本定量需要的有足够多的reads数,3G的ONT数据大约是3M的reads,用于大多数物种转录本的定量是足够的;同时可变剪切和融合基因等研究也需要有足够的reads数;而PacBio需要达到3M的reads则需要30Gb以上的数据,不经济。另外,PacBio在使用CCS模式测序以前,建库的时候是需要经过片段筛选的,短的转录本和长的转录本都检测不出来;ONT的cDNA建库则不进行片段筛选,直接进行测序,这样不会遗漏掉短的转录本和长的转录本,还原真实的RNA表达信息。因此有参全长转录组推荐使用ONT测序。
质量值和Q值的对应关系
很多时候初学生物信息的人不是很清楚Q值和准确率的对应关系,小编整理了常用的质量值和错误率的对应关系,共参考(附表1)。
附表1 质量值和Q值的对应关系