中国农业科学院博士后提出基因组组装评估的新标准
近日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)潘玮华课题组联合美国加州大学河滨分校Stefano Lonardi课题组、福建农林大学魏秀清课题组在《基因组研究(Genome Research)》上发表了题为“Comprehensive assessment of 11 de novo HiFi assemblers on complex eukaryotic genomes and metagenomes”的研究论文,研究提出了5个基于特异性字串的基因组组装新指标,用于评价组装结果的完整性和正确性,并在4个真实数据集和40个不同倍性、测序覆盖度、杂合度和测序错误率的仿真数据集上,利用这5个指标对11个基于HiFi数据的基因组和宏基因组组装工具进行了系统性评估。
在分子生物学和基因组学领域,最新的单分子测序(SMS)技术,如Pacific Biosciences(PacBio)HiFi和Oxford Nanopore Technologies(ONT)技术的开发应用,显著提高了基因组从头组装的质量。其中,PacBio HiFi技术可产生超过10 kbp的长序列,且错误率低于0.01%,在人类、植物、动物等众多真核基因组的组装中取得了重大进展。尽管如此,基因组从头组装在计算上仍面临诸多挑战,包括基因组的高重复性区域、测序错误、测序覆盖度不均或不足以及嵌合序列等问题。
该研究系统地评估了11种针对HiFi测序技术的组装工具。通过在三个真实真核基因组数据集、34个具有不同倍性、测序覆盖度、杂合率和测序错误率的仿真真核基因组数据集、一个真实的宏基因组数据集以及五个具有不同组成丰度和相似性的仿真宏基因组数据集上进行比较实验,来评估各组装软件的性能。研究使用了标准的评估工具QUAST和BUSCO获取连续性、完整性、正确性、运行时间和内存使用等多个评价指标。并首次提出了5个基于特异性字串的评价指标,包括完成率、单拷贝完成率、重复完成率、最大类别平均比例、平均距离差异,用于有参考基因组时评估组装结果的完整性和准确性。相比于已有评价指标,基于特异性字串的评价指标更易于针对重复序列(包括各种串联和散在重复区域、各同源染色体的同源区域、宏基因组中近缘基因组等)准确地进行质量评估。
评估结果显示,hifiasm和hifiasm-meta分别成为组装真核基因组和宏基因组的优选工具。在真核生物基因组组装中,hifiasm在不同方法比较的组装基因组均具有更高的连续性、完整性和准确性;HiCanu、Verkko与LJA次之,但Verkko与LJA具有组装的contig较短等缺陷;NextDenovo仅对单倍体基因组具有更好的性能。宏基因组组装评估中,hifiasm-meta以及metaflye的组装错误最少,但是在面对复杂宏基因组时hifiasm-meta的完整性及连续性明显优于metaflye,但同时也会保留部分冗余的序列。
该研究提供了关于如何利用高精度长序列数据高质量组装复杂真核基因组和宏基因组的明确指导,不仅为相关组装研究推荐了最合适的组装工具,还指出了组装算法可能的改进方向。
基因组所博士后余文娟、访问学生罗浩辉,联合培养博士生杨金宝、张晟铖、科研助理蒋和灵为本文共同第一作者。基因组所潘玮华研究员、美国加州大学Stefano Lonardi教授、福建农林大学魏秀清教授为本文共同通讯作者。该研究得到了国家自然科学基金、深圳市优秀科技创新人才培养项目、美国国家自然科学基金等资助。