美国研究团队首次合成人类X染色体序列

2020-07-17 绿谷生物 NIH
浏览

 美国国立卫生研究院(NIH)下属的国家人类基因组研究所(NHGRI)的研究人员制造了人类染色体的第一个端对端 DNA 序列。这项研究于 7 月 14 日在《自然》(Nature)杂志发表,表明生成一个人类染色体的精确碱基序列如今已成为可能,未来研究人员还将能够生成人类基因组的完整序列。

NHGRI 主任 Eric Green 博士说:“这项成就开启了基因组学研究的新纪元。它使得生成真正完整的染色体和基因组序列成为可能。这是一个技术上的创举,将有助于我们全面了解基因组功能,并指导基因组信息在医疗服务中的使用。”

经过近二十年的改进,人类基因组的参考序列是有史以来最准确、最完整的脊椎动物基因组序列。但是这其中仍然存在数百个缺口,或者说缺失的未知 DNA 序列。

这些缺口通常包含重复的 DNA 片段,对它们进行测序极其困难。然而,这些重复部分可能包括与人类健康和疾病有关的基因和其他功能元件。

人类基因组非常长,由大约 60 亿个碱基组成,因此 DNA 测序仪无法一次读取所有碱基。目前研究者们使用的替代方法是将基因组切成较小的片段,然后逐个进行分析,读取由数百个碱基组成的序列。接下来,他们必须将这些较短的 DNA 序列重新拼接在一起(以获取完整的碱基序列)。

研究的资深作者、国家人类基因组研究所(NHGRI)的 Adam Phillippy 博士将这个过程比作拼图。

他说:“想象你在玩一个拼图游戏。如果你使用的是较小的拼图,那么每个拼图包含的背景信息就比较少,让你更难确定它的位置,特别是在拼图的某些没有特别线索的部分,例如一片蓝天。对人类基因组进行测序同样如此。直到现在,这些碎片还太小,无法将基因组难题中最困难的部分拼接一起。”

人类有 24 条人类染色体(包括 X 和 Y 染色体),该研究作者、加利福尼亚大学圣克鲁斯分校的 Adam Phillippy 和 Karen Miga 博士决定首先完成 X 染色体序列的构建,因为它与多种疾病相关联,包括血友病、慢性肉芽肿性疾病和杜兴氏肌营养不良症(DMD)。

人类有两套染色体,分别来自于父亲和母亲。例如,生物学上的女性继承了两条 X 染色体,一条来自其母亲,一条来自其父亲。但是这两个 X 染色体并不相同,它们的 DNA 序列有许多差异。

在这项研究中,研究人员没有对普通人类细胞的 X 染色体进行测序。相反,他们使用一种特殊的细胞类型,该细胞具有两个相同的X染色体。与仅具有一个 X 染色体拷贝的男性人体细胞相比,这种细胞可提供更多的 DNA 进行测序。它还可以避免分析典型的女性人体细胞的两个 X 染色体时遇到的序列差异问题。

在以这种方式分析人类 X 染色体后,Phillippy 和团队使用了他们的新开发的计算机程序,来组装生成序列的许多片段。Miga 的研究小组缩小了 X 染色体上最大的序列缺口,这是在染色体中间部分(着丝粒)发现的大约 300 万个重复 DNA 碱基。

没有“黄金标准”可供研究人员严格评估组装这种高度重复的 DNA 序列的准确性。为了帮助确认所生成序列的有效性,Miga 和她的合作者进行了数个验证步骤。

Miga 说:“我们以前从未在基因组中见到过这些序列,也没有很多工具来检验我们所做的预测是否正确。这就是为什么让基因组学领域的专家来确保最终产物的质量是如此重要。”

该项工作是更大的“端粒到端粒”(T2T)研究联盟的一部分,该项目由 NHGRI 提供部分资助,旨在生成人类基因组的完整参考序列。

目前,T2T 联盟正努力对其余人类染色体进行测序,以期在 2020 年生成完整的人类基因组序列。

Phillippy 说:“我们尚不知道在此前未发现的新序列中会发现什么。这是发现中令人兴奋的未知部分。完整基因组序列的时代即将到来,我们要全身心地拥抱它。”

潜在的挑战仍然存在。例如,1 号和 9 号染色体中的重复 DNA 片段比 X 染色体上的重复片段大得多。

Miga 说:“我们知道基因组中这些以前未知的位点有很大的个体差异,但是重要的是要开始弄清这些差异如何对人类生物学和疾病做出贡献。” Phillippy 和 Miga 都同意,增强测序方法将继续为人类遗传学和基因组学创造新的机遇。