纳米孔PromethION测序+Shasta完成人类基因组端粒到着丝粒的高效从头组装
经授权全文转载自 NanoporeTechnologies 公众号
要点
(1)Shasta从头组装分析工作流程:
-
Shasta是由加州大学圣克鲁兹分校研发,用于纳米孔测序数据的从头组装和矫正算法。初代Shasta 结合纳米孔PromethION高通量测序仪,已在9天内利用一台PromethION测序11个高质量人类基因组。
-
染色臂至染色体级组装:升级后的Shasta算法(v0.4)结合纳米孔超长读长,显著提升基因组组装连续性,能够对大多数染色体臂进行端粒到着丝粒的染色体臂组装;比较结果显示与其他“金标准”一致,比对一致性超过99.7%;
-
组装完整性提升,组装耗时减半:Shasta v0.4结合最新版纳米孔Guppy 软件,可将单个人类基因组组装时间从6小时减少至约3小时,超长序列组装时间从15小时减少至不到6小时。
(2)同时进行基因分型和定相(Phasing)的流程:
-
整条染色体上,长读长双倍型分型的表现优于短读长基因分型。
-
单核苷酸变异(SNV)基因型分型表现优于短读长测序数据,尤其在可定位性低的区域、染色体片段重复区域和碱基序列长度超过250kb方面,纳米孔长读长测序具有明显优势;
-
该流程在较短长度的均聚物中的SNV基因型分型表现与短读长测序相当。
“通过Shasta算法和纳米孔PromethION测序,我们正在达成并实现高效、经济、高度连续的(人类基因组)从头组装。”——Benedict Paten博士,加州大学圣克鲁兹分校
Shasta是一个用于纳米孔测序数据的从头组装和矫正算法,由加州大学圣克鲁兹分校(UCSC)和陈-扎克伯格倡议计划(CZI)联合开发。团队在2019年利用初代Shasta分析流程对纳米孔测序数据进行从头组装、矫正和Hi-C拼接Scaffold(图1),使用一台纳米孔PromethION测序设备在9天内完成了11个人类基因组测序,研究成果发表在《Nature Biotechnology》, DOI:https://doi.org/10.1038/s41587-020-0503-6
图1
-
高通量数据:共生成2.4 Tb序列数据,10kb及以上读长序列的覆盖度中位数约为55X,100 kb及以上的超长读长序列覆盖深度中位数约为6.5X,N50介于20 Mb-30Mb之间。
-
成功组装困难区域:纳米孔长读长序列成功组装了此前难以组装的重复主要组织相容性复合体(MHC)区域,一条单一连续的Contig覆盖到了整个区域,获得Scaffold达整条染色体臂,甚至完整的染色体级。
-
降低时间及成本:初代Shasta算法组装一个基因组最快仅用不到6小时,每个样本成本约70美元,大幅降低时间周期和成本。
图2
组装结果与其他“金标准”一致:
将Shasta组装与来自T2T联盟的人CHM13端粒到端粒组装结果(超链接:【精彩回顾】London Calling 2019——Day 2 研究精彩集锦)比较,显示23个染色体臂都有候选全长组装。聚焦在12号染色体这个例子上,显示在长臂(q)和短臂(P)的超级scaffold比对一致性超过了99.7%(图4)。
图4
从HG002基因组整体数据来看,Shasta结合最新版纳米孔软件Guppy可将组装时间从最初论文中描述的约6小时减少至约3小时;对超长序列数据集组装时间也从约15小时减少至不到6小时。基因组总长度也有所增加,插入缺失数量减少了约5倍,这都是用Guppy 3.6.0产生的结果(用R10.3组装数据甚至更佳)。基因组组装完整性(BUSCO)同样有大幅提升,几乎与GRCh38一致。
图5
使用人HG002基因组,纳米孔数据在20-22号染色体中的单核苷酸变异(SNV)识别表现要优于使用短读长数据进行的基因分型(图6)。在比对定位率低的区域,由于短读长序列无法很好地定位,长读长有明显优势。以一个染色体片段重复区域为例,短读长数据没有识别出任何SNV,而使用纳米孔读长序列,该区域的所有SNV都被识别出并成功定相。
图6
在均聚物(homopolymer stretches)方面,11个碱基对以内的长度里,短读长数据和纳米孔数据的双倍型分型结果相当。在该流程生成的定相block连续性方面,在整个HG002基因组中。其NG50为约1.2Mb,“与此前的数据集相比也非常优秀”。
展望
未来,研究团队希望将Shasta和双倍型分型流程结合起来,以获得完整的、有定相信息的(phase-awared)染色体臂,并通过人类泛基因组计划(Human Pangenome Project)测序来自多样个体的350个人类全基因组,并达到完全定相的、端粒到端粒的质量。
*资料来源:Benedict Paten演讲视频,扫描下方二维码报名观看本视频: