由于PacBio和Nanopore在长度上的优势,目前三代测序是基因组组装的主要测序方式。PacBio的CLR模式和Nanopore测序具有较高的错误率(~15%),因此需要更高的数据量进行自身纠错来提高准确性。PacBio的hifi模式则在保证长读长(10kb~20kb)的同时,通过对同一DNA序列的循环测序而获得高准确性reads(>99%),并天然包含着单倍型信息。针对hifi数据的显著特征,市面上出现了一些专门用于HiFi数据组装的软件,比如HiCanu、Hifiasm等。今天小编就给大家介绍一下Hifiasm软件。
1. Hifiasm介绍
Hifiasm是由李恒博士开发的一台用于PacBio Hifi reads的快速单倍型解析从头组装软件。它可以在单个机器上多线程运行长度,在较少的资源消耗下快速完成基因组的组装,并保证结果的高准确性和连续性。而在给定家系(父母本、子代)数据的情况下,可以实现子代来自不同亲本的单倍体的组装。
2. 算法简介
Hifiasm组装主要分三步:
1)可识别单倍型的纠错:对于Hifi reads,虽然其准确性很高,但仍然保留了部分的错误。Hifiasm会将所有的hifi reads读取到内存中进行all-vs-all比对并进行纠错。基于reads间的overlap信息,如果read上有一台碱基与其他碱基不同,并有至少3条reads支持,则认为它是SNP并保留,否则认为是错误并进行纠正。值得注意的是Hifiasm只使用相同单倍型的数据进行纠错,从而避免过度校正,保留来自不同单倍型的杂合变异信息。在这一步,Hifiasm可以对杂合SNP进行定相(phasing)。
2)组装图的构建:在校正之后,大多数错误被去除,同时杂合变异信息被保留。基于这些信息,Hifiasm构建了以reads为顶点、重叠区为边的定相string-graph。区别于一般三代数据组装时构建的string-graph,Hifiasm会保留全部的气泡(bubble),因而可以保留下来基因组上全部的单倍型信息,以便后续对于单倍型的处理。
3)组装序列的生成:如果没有其他数据,Hifiasm在输出序列时会任意选择每个气泡的一侧输出类似Falcon unzip和HiCanu的主要组装结果(primary contigs)。而如果同时有父母本的测序数据,Hifiasm可以通过亲本特有的kmer在图上识别出来自父母本的序列,从而得到两套单倍体基因组。
图1 hifiasm组装算法流程
3.Hifiasm的家系数据组装
通过家系数据(父母本+子代)组装出子代的两套单倍体基因组,最早可见于2018发表的TrioCanu软件在牛基因组上的应用(trio-binning策略),其原理是通过父母本二代测序数据获得两个亲本特有的kmer,将三代reads区分为来自父本、母本以及部分无法区分的reads。而后将区分后的reads分别组装,便获得了子代的两套单倍体序列。
图2 TrioCanu组装原理
但trio-binning的一台主要问题是,一部分杂合子reads不能明确地划分为亲本单倍型:如果双亲在某个位点上都是杂合,那么这个位点无法给reads提供有效的kmer信息,并且不能被唯一地分配给一台亲本单倍型;同样如果父本在一台位点是杂合子,而母本是纯合的,从母本单倍型来看也不能分割。在标准的trio-binning中,不能被区分的杂合reads在两个亲本数据集中都会使用。因此,这两个等位基因可能存在于一台单倍型组合中,并引入错误。另外还可能存在将reads错误划分到其中一台亲本的情况。
Hifiasm使用一种graph-binning的策略对此进行了改进。它不预先划分reads,而是在string-graph中对reads进行标记。因此在一台较长的bubble中,即使只有一小部分reads被正确标记,hifiasm也可以正确地将其定相。通过这种方式,可以避免因为reads划分错误而引入的错误位点和组装断裂,从而获得更完整和更准确的单倍体组装结果。
图3 家系reads区分
4. 组装表现
Hifiasm针对HiFi reads特点而开发,在hifi数据的组装表现上较同类软件更为突出,在多个基因组上表现出了更高的准确性和组装的连续性。
Hifiasm的另一台特点在于它的快速,只需要几个小时便可以完成人基因组的组装。另一台较为显著的例子则是在单个机器上用不到一周的时间完成27G的红杉基因组组装,并且达到Mb级别的N50,而使用ONT数据则花费了数月的时间用于组装。
5. 总结
三代测序在长度上解决了基因组组装的重复序列和杂合等困难,使得在简单基因组的组装精度和连续性上得到跨越式的提升。然而对于高重复、高杂合、多倍体等大型复杂基因组,CLR和ONT数据用于组装时仍然存在着挑战。Hifi数据由于其高准确性和长读长,结合专门设计的组装软件,在复杂基因组的组装上有着较大优势。对于一些较为复杂物种的组装,Hifi数据和Hifiasm软件不失为一种较好的选择。
参考文献:
Haoyu Cheng et al. Haplotype-resolved de novo assembly with phased assembly graphs. arXiv. 2020.基于hifi数据的组装软件--hifiasm介绍
相关阅读: |