Nanoporetech实验报告-北京华新康信生物科技有限公司

技术文章ARTICLE

您当前的位置：首页 > 技术文章 > Nanoporetech实验报告

Nanoporetech实验报告

发布时间： 2022-09-15　　点击次数： 1176次

北京华新康信现货大力回馈新老客户，现货打折出售，现有品牌和种类，新老客户可以自由选购：
ForteBio实验试剂，moltox实验试剂，toxin实验试剂，ForteBio  moltox  toxin 各种试剂的实验参数，说明书，欢迎咨询  Nanoporetech 产品介绍  Nanoporetech 产品介绍
北京华新康信也有Nanoporetech实验试剂销售，下面给大家讲讲Nanoporetech服务以及实验样本；
Nanoporetech 实验说明  Nanoporetech北京说明书 Nanoporetech技术参数 Nanoporetech方案对比  Nanoporetech 优势介绍  Nanoporetech广州实验试剂 Nanoporetech深圳实验试剂  Nanoporetech天津说明书 Nanoporetech技术参数Nanoporetech实验方案  Nanoporetech技术对比  Nanoporetech购买说明 Nanoporetech天津实验试剂  Nanoporetech北京实验试剂  Nanoporetech厦门实验试剂  Nanoporetech大理实验试剂  Nanoporetech武汉实验试剂  Nanoporetech福建实验试剂Nanoporetech安徽实验试剂Nanoporetech广西实验试剂Nanoporetech厦门实验试剂Nanoporetech常州实验试剂Nanoporetech常州实验试剂Nanoporetech长沙实验试剂Nanoporetech哈尔滨实验试剂Nanoporetech沈阳实验试剂Nanoporetech深圳实验试剂Nanoporetech武昌实验试剂
Nanoporetech

完整的人类 X 染色体的端粒到端粒组装
凯伦·H·米加，谢尔盖·科伦阿朗瑞_米切尔·R ·沃尔格阿里尔·格什曼安德烈·布齐卡泽雪莉丝·布鲁克斯埃德蒙·豪大卫·波鲁布斯基格伦尼斯 A.洛格斯登，瓦莱丽·A·施耐德塔玛拉·波塔波娃乔纳森·伍德周威廉乔尔·阿姆斯特朗珍妮·弗雷德里克森叶甫根尼娅·帕克克里斯托夫·蒂吉米林·克雷米茨基克里斯托弗·马尔科维奇瓦莱丽·马杜罗阿玛莉亚·杜特拉杰拉德·G·布法德，亚历山大·M·张，…亚当·M·菲利普显示作者
自然体积 585 , 页面79–84 ( 2020 )引用这篇文章

58k访问

264 次引用

第1365章

指标细节

抽象的
经过二十年的改进，目前的人类参考基因组（GRCh38）是有史以来最准确、最完整的脊椎动物基因组。然而，没有一条染色体是端到端完成的，数百个未解决的缺口仍然存在1 , 2。在这里，我们提出了超越 GRCh38 2连续性的人类基因组组装，以及人类染色体的无间隙、端粒到端粒组装。这是通过对完整的葡萄胎 CHM13 基因组进行高覆盖率、超长读长的纳米孔测序以及结合用于质量改进和验证的补充技术来实现的。专注于人类 X 3号染色体，我们重建了着丝粒卫星 DNA 阵列（约 3.1 Mb）当前参考中剩余的 29 个空白，包括来自人类假常染色体区域和癌症-睾丸扩增基因家族（CT-X 和 GAGE）的新序列。这些序列将被整合到未来的人类参考基因组版本中。此外，完整的 X 染色体与超长纳米孔数据相结合，使我们能够在复杂的串联重复序列和卫星阵列中绘制甲基化模式图。我们的研究结果表明，现在完成整个人类基因组已经触手可及，这里提供的数据将有助于完成其他人类染色体的持续努力。

主要的
完整的端粒到端粒参考基因组组装对于确保发现和研究所有基因组变异是必要的。目前，人类基因组的未解决区域由着丝粒周围区域的多兆碱基卫星阵列和近端短臂上的核糖体 DNA 阵列定义，以及富含片段重复的区域，这些区域的长度大于数百千碱基，并且旁系同源物之间的序列同一性超过 98%。由于缺乏参考，这些富含重复的序列通常被排除在遗传学和基因组学研究之外，这限制了关联和功能分析的范围4、5. 未解决的重复序列也会导致意想不到的后果；例如，旁系同源序列变体被错误地称为等位基因变体6，以及细菌基因数据库的污染7。完成整个人类基因组预计将有助于我们了解染色体功能8、人类疾病9和基因组变异，这将改进使用短读映射到参考基因组的生物医学技术（例如，RNA 测序（RNA- seq) 10，染色质免疫沉淀后测序 (ChIP-seq) 11和使用测序 (ATAC-seq) 12测定转座酶可及染色质。

从许多相对较短的测序读数（称为基因组组装的过程）中重建基因组的基本挑战是将重复序列彼此区分开13。解决此类重复依赖于足够长的测序读数以跨越整个重复或足够准确以根据的变体区分每个重复副本14。人类基因组在 2001 年发布 20 年后仍未完成，这一事实突显了组装问题的难度和过去技术的局限性15. 美国国家生物技术信息中心 (NCBI Build 28) 发布的第一个人类参考基因组高度碎片化，其中一半的基因组包含在 500 kb 或更大的连续序列 (contigs) 中 (NG50)。完成基因组16的努力，以及基因组参考联盟 (GRC) 2的管理，极大地提高了在新版本 GRCh38 中对 56 Mb 的 NG50 重叠群长度的参考的连续性，但在基因组中重复最多的区域基因组仍未解决，没有染色体*代表端粒到端粒。超长（大于 100 kb）纳米孔读数的从头组装在最困难的区域显示出有希望的组装连续性1，但这个概念验证项目将基因组测序到只有 5 倍的覆盖深度，并且未能组装最大的人类基因组重复序列。先前基于人类基因组中大重复序列的大小和分布的模型预测，30 倍超长读数的组装将接近人类参考1的连续性。因此，我们假设高覆盖率的超长读长纳米孔测序将使人类染色体的完整组装成为可能。

为了规避组装二倍体基因组的两个单倍型的复杂性，我们选择了有效的单倍体 CHM13hTERT 细胞系进行测序（以下简称 CHM13）17。该细胞系来源于具有 46,XX 核型的完整葡萄胎 (CHM)。这种子宫痣的基因组来源于经历减数分裂后染色体复制的单个精子。因此，这些基因组对于一组等位基因是一致的纯合子。CHM13 以前曾用于修补人类参考2、基准基因组组装器和二倍体变异调用18中的空白，并研究人类节段重复19. CHM13 系的核型分析证实了稳定的 46,XX 核型，没有可观察到的染色体异常（扩展数据图1，补充说明 1）。最大似然混合分析20自信地将大多数单倍型归类为欧洲起源，并具有一些亚洲或美洲印第安人混合的潜力（扩展数据图2，补充说明 2）。

高度连续的全基因组组装
使用先前描述的超长读取协议1从 CHM13 细胞中提取和制备高分子量 DNA 用于纳米孔测序。我们总共对 98 个 MinION 流动槽进行了测序，总共 155 Gb（50 倍覆盖率，每个流动槽 1.6 Gb，补充说明 3）。所有测序碱基的一半包含在 70 kb 或更长的读数中（78 Gb，25 倍基因组覆盖率），最长验证读数为 1.04 Mb。一旦我们为从头组装收集了足够的测序覆盖率，我们将超长读数的 39 倍覆盖率与先前生成的 PacBio 数据的 70 倍覆盖率相结合，并使用 Canu 21组装 CHM13 基因组. Canu 选择了最长的 30 倍覆盖超长和 7 倍覆盖 PacBio 读数进行校正和组装。该初始组装总计 2.90 Gb，其中一半基因组包含在长度为 75 Mb 或更大 (NG50) 的连续序列 (contigs) 中，这超过了 GRCh38 参考基因组的连续性（NG50 为 75 对 56 Mb）。然后通过一系列测序技术按照读取长度从最长到最短的顺序对组件进行迭代抛光：Nanopore、PacBio 和链接读取 Illumina。一致性精度从初始组装的 99.46% 提高到 Nanopore 抛光后的 99.67% 和 PacBio 抛光后的 99.99%。Illumina 数据仅用于纠正基因组可映射区域中的小插入和删除错误，这对平均准确度有边际影响，但减少了移码基因的数量。通过分析未在初始组装中使用的 Illumina 链接读取条形码（10X 基因组学）和光学映射（Bionano 基因组学）数据，确定了假定的错误组装。最初的重叠群在映射覆盖率低的区域被破坏，然后使用光学图对校正的重叠群进行排序和相对于彼此的定向。超过 90% 的 6 个染色体由两个重叠群表示，10 个由两个支架表示（图 1）。最初的重叠群在映射覆盖率低的区域被破坏，然后使用光学图对校正的重叠群进行排序和相对于彼此的定向。超过 90% 的 6 个染色体由两个重叠群表示，10 个由两个支架表示（图 1）。最初的重叠群在映射覆盖率低的区域被破坏，然后使用光学图对校正的重叠群进行排序和相对于彼此的定向。超过 90% 的 6 个染色体由两个重叠群表示，10 个由两个支架表示（图 1）。1a )。

图 1：CHM13 全基因组组装和验证。
图1
a，无间隙重叠群在染色体表意文字旁边显示为蓝色和橙色条（突出显示重叠群中断）。几条染色体仅在着丝粒区域断裂。重叠群之间的大间隙（例如，chr1 的中间）表示大异色块（人类卫星 2 和 3 的黄色阵列）或没有 GRCh38 序列的核糖体 DNA 阵列的位点。显示了预期在非同源染色体之间序列相似的着丝粒卫星阵列：chr1、chr5 和 chr19（绿色）；chr4 和 chr9（浅蓝色）；chr5 和 chr19（粉红色）；chr13 和 chr21（红色）；和 chr14 和 chr22（紫色）。b, X 染色体被选中进行手动组装，最初在三个位置断裂：着丝粒（在组装中人为塌陷）、一个大的节段重复（DMRTC1B，120 kb）和第二个节段重复，在 2 号染色体上有一个旁系同源物（134 KB）。注释了 GRCh38 参考（黑色）和已知的节段重复（红色；与 Y 同源，粉红色）中的间隙。大于 100 kb 的重复以预期大小 (kb) 命名（蓝色，串联重复；红色，节段重复）。c，由光学图（顶部）识别的 GAGE 基因座的错误组装，以及显示 19 个（9.5 kb）全长重复单元和两个部分重复的最终组装的校正版本（底部）。d, GAGE 基因座在使用（单拷贝）标记放置长读取之前和之后的质量。点表示从映射的 PacBio HiFi 读数中恢复的主要（黑色）和次要（红色）等位基因的覆盖深度（与每个碱基重叠的映射测序读数的数量）（补充说明 4）。因为 CHM13 基因组是有效的单倍体，低覆盖率或二级等位基因频率增加的区域表明低质量区域或潜在的重复崩溃。标记辅助抛光显着提高了整个 GAGE 基因座的等位基因均匀性。

全尺寸图片
最终组装由 448 个 contig 中的 2.94 Gb 组成，contig NG50 为 70 Mb。共有 98 个支架（173 个重叠群）被明确分配给参考染色体，占组装碱基的 98%。基于先前完成的 BAC 序列22和映射的 Illumina 关联读数（补充说明 4），我们估计该全基因组组装的中位一致性准确度至少为 99.99% 。虽然类似于 GRCh38 无间隙长度 (2.95 Gb)，但我们的组装大小比估计的人类基因组大小 3.2 Gb 短。我们使用分段复制汇编器 (SDA) 方法19估计大约 170 Mb 的折叠碱基. 与其他最近的组装相比，我们解决了 341 个 CHM13 细菌人工染色体 (BAC) 序列中的大部分，这些序列先前已从基因组19的片段重复和其他难以组装的区域中分离和完成（表1，补充说明 4）。我们的全基因组组装的比较注释也显示出比以前的组装更高的映射转录本一致性，并且与 GRCh38 23相比，潜在的移码率仅略有增加. 在 CHM13 de novo 组装中注释的 19,618 个蛋白质编码基因中，只有 170 个（0.86%）包含预测的移码，或者，如果通过转录本测量，83,332 个转录本中只有 334 个（0.40%）包含预测的移码（补充表1）。当用作调用其他基因组中结构变体的参考序列时，CHM13 报告了插入和删除调用的均匀平衡（扩展数据图3，补充说明 5），正如预期的那样，而 GRCh38 表现出删除偏倚，如先前报道的24. 与其他长读长组件相比，GRCh38 调用的倒位次数是 CHM13 的两倍（平均每个基因组 26 对 13 次倒位），这表明一些错误定向的序列仍然存在于当前的人类参考中（补充说明 5）。在这些倒位中，19 个是 GRCh38 *的，在最近组装的 5 个长读长人类基因组中没有发现（补充表5）。我们确定了组装和读取中的端粒序列（扩展数据图4，补充说明 4），它们的端粒大小高度一致，我们的组装包括重叠群末端的 46 个预期端粒中的 41 个。因此，在连续性、完整性和正确性方面，我们的 CHM13 组装在某些质量指标上超过了所有以前的人类从头组装——包括当前的人类参考基因组（补充表2）。

表 1 CHM13 的装配统计和按连续性排序的人类参考
全尺寸表
完成的人类 X 染色体
以这种全基因组组装为基础，我们选择X染色体进行人工整理和验证，因为它在初始组装中具有很高的连续性；且特征明确的着丝粒 α 卫星阵列3、8、25；发育过程中的行为26 ; 和不成比例地参与孟德尔病3。X 染色体的从头组装在三个地方被破坏：着丝粒和两个几乎相同的大于 100 kb 的节段重复（图1b ））。通过识别*跨越重复并在任一侧锚定的超长读取，手动解决了破坏组装的两个片段重复，从而允许在组装中进行自信的放置。通过映射从 CHM13 22生成的一组正交 PacBio 高保真 (HiFi) 长读取来评估这些困难区域的组装质量的改进并评估信息单核苷酸变体差异的读取深度（方法）。此外，使用液滴数字 PCR (ddPCR) 进行的实验验证证实，现在完成的组装正确地代表了 CHM13 基因组的串联重复，包括 7 个 CT47 基因 (7.02 ± 0.34 (mean ± sd))、6 个 CT45 基因 (6.11 ± 0.38)、19 个完整和两个部分 GAGE 基因 (19.9 ± 0.745)、55 个 DXZ4 重复 (55.4 ± 2.09) 和 3.1-Mb 着丝粒 DXZ1 阵列 (1,408 ± 40.69 2,057-bp 重复) (补充说明 6 )。

以前对 X 染色体 (DXZ1) 上的单倍体着丝粒卫星阵列的高分辨率研究为我们目前的人类着丝粒组织8基因组模型提供了信息。与所有正常人类着丝粒一样，X 着丝粒在序列水平上由 α 卫星 DNA 定义——一种富含 AT（约 171 bp）的串联重复序列，或“单体” 27。DXZ1 阵列的规范重复由 12 个不同的单体定义，这些单体按顺序排列形成大约 2 kb 的更大重复单元，称为“高阶重复”( HOR ) 28、29。HOR 串联排列成一个大型、数兆碱基大小的卫星阵列（即 2.2-3.7 Mb；平均值为 3,010 kb（sd = 429，n  = 49））25重复拷贝8、30、31之间的核苷酸差异有限。这些先前的评估用于指导我们对 DXZ1 组件的评估，并提供了已建立的实验方法来评估 DXZ1 阵列 25、32 的结构（扩展数据图5a）。为了组装 X 着丝粒，我们在标准DXZ1重复单元（约 2 kb） 28、33内构建了一个结构和单核苷酸变体目录，并将这些变体用作路标8以地平铺整个着丝粒卫星的超长读数阵列（DXZ1）（扩展数据图5b-e)，就像之前对 Y 着丝粒所做的那样34。通过脉冲场凝胶电泳 (PFGE) Southern 印迹估计 DXZ1 阵列在大约 2.8-3.1 Mb 的范围内（图2b，扩展数据图6），其中得到的限制曲线与预测阵列组件的结构（图2a ，b）。ddPCR 对 DXZ1 重复的拷贝数估计值通过 PFGE Southern 印迹与一组先前大小的阵列进行了基准测试，并为大约 2.8 Mb (1,408 ± 81.38) 个典型 2,057-kb 重复拷贝的阵列提供了进一步的支持）（图2c、附表3、附注 7）。此外，DXZ1 结构变异频率与 PacBio HiFi 数据的直接比较高度一致22（图2d，扩展数据图5c）。

图 2：3.1-MB CHM13 X 着丝粒阵列的验证结构。
图 2
a，顶部，阵列，大约 2 kb 的重复单元由垂直带标记（灰色是规范单元；彩色是结构变体）。数组中的单个 LINE/L1Hs 插入由箭头标记。底部，酶 BglI 的预测限制图，虚线表示 DXZ1 阵列之外的区域。出于说明目的，重建了最小平铺路径，并且不是初始组装的机制（扩展数据图5b）。b，实验性 PFGE Southern 印迹用于 BglI 消化一式两份（带大小由三角形表示；BglI，2.87 Mb ± 0.16），与 CHM13 阵列的计算机预测带模式（a）相匹配（实验重复六次，结果相似）。C，使用针对 PFGE Southern 印迹（HAP1， n  = 6；T6012，n  = 4；LT690，n  = 7；CHM13，n  = 13）优化的 ddPCR（一式三份进行；平均值±标准差）提供阵列大小估计值。d，33 个 DXZ1 结构变体的目录，相对于 2,057-bp 规范重复单元（灰色），以及观察到的实例数、阵列中的频率、α 卫星单体的数量和大小。INS，插入（即 8.1-kb 插入的 LINE/L1Hs）。e，映射（灰色）和锚定（黑色）纳米孔读取到 DXZ1 阵列的覆盖深度。与未抛光（顶部）组件相比，标记辅助抛光（底部）提高了覆盖均匀性。单拷贝的标记显示为垂直的绿色条带，整个阵列的密度降低但非零。f，分布显示染色体 X 和 DXZ1 上相邻标记之间的间距。平均而言，在 X 染色体上每 66 个碱基就有一个的标记，但在 DXZ1 中只有每 2.3 kb，任何两个相邻标记之间的最长间隙为 42 kb。

全尺寸图片
当前的长读长程序集需要严格的一致性抛光以实现最大的碱基检出准确度35、36。鉴于组装中每个读取的位置，这些抛光工具对基础信号数据进行统计建模，以对每个测序的碱基做出准确的预测。这个过程的关键是每个读数的正确放置，这将有助于抛光。由于不明确的读取映射，我们最初的抛光尝试降低了最大 X 染色体重复内的组装质量（扩展数据图7a，b）。为了克服这个问题，我们将 Illumina 测序数据分析为 CHM13 X 染色体上存在的短（21 bp）、（单拷贝）序列（扩展数据图8a ））。即使在最大的重复阵列中，例如 DXZ1，重复拷贝之间也有足够的变异以半规则间隔诱导的 21 聚体标记（图2e、f、扩展数据图8c）。这些标记用于告知在装配中正确放置长 X 染色体读数（方法）。每种技术进行两轮迭代抛光；首先是 Oxford Nanopore，然后是 PacBio，最后是 Illumina 链接读数37，并且在每一轮之后共识准确度都会增加。Illumina 的数据太短，无法使用的标记自信地锚定，并且仅用于修饰映射明确的区域。事实证明，这种仔细的抛光过程对于准确完成超过 Nanopore 和 PacBio 读取长度的 X 染色体重复序列至关重要。

我们手动完成的 X 染色体组装是完整的、无间隙的，根据 X 特异性 BAC 估计准确率为 99.991%，或根据映射的 Illumina 数据估计准确率为 99.995%。对 99.9% 的组装碱基（补充说明4 ）有明确的支持，这符合完成基因组序列38的原始百慕大标准。预计最大重复序列（如 DXZ1 卫星阵列）的准确度会略低（中位数同一性 99.3%），但由于缺乏来自这些区域的 BAC 克隆，这很难测量。映射的长读长和光学映射数据显示整个 X 染色体的均匀覆盖，并且没有证据表明可以映射的区域存在结构错误（图2e，扩展数据图 2）。图8b、c、补充说明 4）和 Strand-seq 数据证实不存在任何反转错误39、40（扩展数据图8d、e）。通过长读长作图进行单核苷酸变异调用显示，在大的、串联重复的 GAGE 和 CT47 基因家族中，初始组装质量较低，但这些问题通过超长读长作图和光学作图的抛光和验证得到解决（图1c，d，扩展数据图7c-j，补充表4）。整个 DXZ1 阵列的映射长读长覆盖显示均匀的覆盖深度和高精度，由 TandemQUAST 41测量（图2 e，f，扩展数据图。7j、8c )。我们确定了与 DXZ1 重复匹配的所有 HiFi 读取。我们的重建解释了所有读数——除了一个大的、可能是错误的均聚物的读数，证实了 DXZ1 阵列的完整性。整个 X 染色体的映射覆盖率是均匀的，只有一小部分碱基的覆盖率与平均值相差超过三个标准差（0.44% Nanopore、0.77% PacBio 连续长读取 (CLR)、2.4% HiFi）。低覆盖高保真区域因标记密度低而丰富，由于它们的长度相对较短，因此难以分配（补充说明 4）。此外，变体调用没有从 HiFi 或 CLR 数据中识别出高频变体，而仅从超长读数据中识别出低复杂度的变体，这可能代表超长读数据中的错误，而不是真正的组装错误. 我们完整的 X 染色体端粒到端粒版本解决了 29 个参考间隙3，总共 1,147,861 bp 的先前模糊碱基（N-碱基）。

染色体范围的 DNA 甲基化图谱
纳米孔测序对甲基化碱基敏感，如原始电信号中的调制所揭示的42。精确锚定的超长读长提供了一种新方法来分析重复区域的甲基化模式，而这些重复区域通常难以通过短读长测序检测到。X 染色体具有许多在人类基因组中的表观基因组特征。X 染色体失活，其中一条雌性 X 染色体在发育早期被沉默并在体细胞组织中保持无活性，预计将提供一个的全染色体甲基化谱。与之前的研究一致43，我们观察到位于 X 染色体臂两端的大多数假常染色体区域（PAR1 和 PAR2）的甲基化降低（图3a）。不活跃的 X 染色体也采用不寻常的空间构象，并且与先前的研究一致44、45，CHM13染色体构象捕获 (Hi-C) 数据支持在大卫星重复 DXZ4 处划分的两个大型超域（扩展数据图9）。在对 DXZ4 阵列进行更仔细的分析后，我们发现了不同的甲基化条带（图3c），在远端边缘观察到低甲基化，这通常与之前描述的染色质结构一致46。值得注意的是，我们还在 DXZ1 着丝粒阵列中发现了一个甲基化降低的区域（约 60 kb，chrX：59,217,708–59,279,205）（图3b）。为了测试这一发现是 X 阵列*的还是在其他着丝粒卫星上也发现的，我们在 8 号染色体 (D8Z2) 47、48 上手动组装了一个约 2.02 Mb 的着丝粒阵列，并使用相同的标记映射策略来自信地锚定整个数组的长读取（GAL 等人，手稿正在准备中）。在此过程中，我们在 D8Z2 阵列中发现了另一个低甲基化区域，类似于我们在 DXZ1 阵列上的观察结果（扩展数据图10)——这进一步证明了我们的超长读长作图策略能够提供碱基水平的全染色体 DNA 甲基化图谱。需要研究来验证这一发现是否适用于额外的染色体和样本，并评估这些甲基化模式的潜在重要性（如果有的话）。

图 3：CpG 甲基化的全染色体分析。
图 3
甲基化估计值是通过平滑甲基化频率数据来计算的，窗口大小为 500 个核苷酸。PAR1、DXZ1 和 DXZ4 的覆盖深度和高质量甲基化调用 (|log-likelihood| > 2.5) 显示为插图。仅考虑具有可靠的锚定映射和至少存在一个高质量甲基化调用的读数。a，纳米孔覆盖和甲基化需要染色体 X (1,563–2,600,000) 的假常染色体区域 1 (PAR1)。底部集成基因组查看器 (IGV) 插图显示了 PAR1 (770,545–801,293) 内的一个低甲基化区域，蓝色为未甲基化碱基，红色为甲基化碱基。b, DXZ1 阵列中的甲基化，底部 IGV 插图显示染色体 X 着丝粒附近大约 93-kb 的低甲基化区域 (59,213,083–59,306,271)。c、垂直黑色虚线表示DXZ4数组的起点和终点坐标。左侧 IGV 插图显示了 X 染色体中 DXZ4 的甲基化区域（113,870,751–113,901,499）；右侧 IGV 插图显示了 DXZ4 (114,015,971–114,077,699) 的甲基化区域到未甲基化区域的转变。

全尺寸图片
完成人类基因组的路径
人类染色体的这种完整的端粒到端粒组装表明，现在有可能使用现有技术完成整个人类基因组。虽然我们在这里专注于完成 X 染色体，但我们的全基因组组装已经重建了其他几条染色体，只剩下一些空白，并且可以作为完成额外染色体的基础。然而，仍有许多挑战需要克服。例如，将这些方法应用于二倍体样本将需要对潜在的单倍型进行定相，以避免混合复杂结构变异的区域。我们对其他染色体的初步分析表明，大于 X 染色体的重复区域和着丝粒卫星将需要开发额外的方法49. 对于近端着丝粒的人类染色体尤其如此，其庞大的卫星阵列和节段重复尚未在序列水平上得到解决。此外，图1突出显示了预期在非同源染色体之间序列相似的着丝粒卫星阵列。像这样的阵列需要在染色体之间和染色体内进行定相。

随着剩余的挑战得到解决，人类基因组的完成将继续进行，从相对更容易组装的染色体（例如，3、6、8、10、11、12、17、18 和 20）开始，最终以包含大块经典人类卫星（1、9和16）和近端着丝粒染色体（13、14、15、21和22）的染色体。在短期内，CHM13 基因组中关闭的参考缺口将使用 GRC 现有的“补丁”基础设施整合到 GRCh38 中。一旦完成所有 CHM13 染色体，我们计划将这些提供给 GRC，作为新的、*无间隙的参考基因组发布的基础，这可能是最困难区域中带有 CHM13 序列的当前参考的马赛克。

方法
数据报告
没有使用统计方法来预先确定样本量。这些实验不是随机的，研究人员在实验和结果评估过程中也没有对分配视而不见。

细胞培养
作为 2000 年代初发生的一项研究的一部分（IRB MWH-20-054），来自完整葡萄胎 CHM13 的细胞最初是从马吉妇女医院（匹兹堡）的一个葡萄胎病例中培养出来的。那时，CHM13 细胞被培养，使用 Q 显带进行核型分析，随后使用人端粒酶逆转录酶 (hTERT) 使其永生化。在本研究中，将冷冻保存的 CHM13 细胞解冻并在补充有 1% 青霉素-链霉素 (Thermo Fisher Scientific) 的完整 AmnioMax C-100 基础培养基 (Thermo Fisher Scientific) 中培养，并在 37 °C 的湿度控制环境中生长，用95% O 2和 5% CO 2. 每三天更换一次新鲜培养基，用于本研究的所有细胞均不超过第 10 代。细胞已经过鉴定，支原体污染检测呈阴性。

核型分析
中期载玻片制剂由人葡萄胎细胞系 CHM13 制成，并通过如前所述51的标准风干技术制备。根据 ISCN 52 ，进行 DAPI 条带技术以识别核型中的结构和数字染色体畸变。使用 Zeiss M2 荧光显微镜和 Applied Spectral Imaging 软件（补充说明 1）分析核型。

DNA提取、文库制备和测序
使用改进的 Sambrook 和 Russell 方案 1、53 从 5 × 10 7 CHM13 细胞中提取高分子量DNA. 使用来自 Oxford Nanopore Technologies 的快速测序试剂盒 (SQK-RAD004) 使用 15 μg DNA 构建文库。初始反应通常分为三等份进行上样，并添加 FRA 缓冲液（104 mM Tris pH 8.0、233 mM NaCl）以使体积达到 21 ul。这些反应在 4 °C 下孵育 48 小时，以使缓冲液在加载前达到平衡。大多数测序是在 Nanopore GridION 上使用 FLO-MIN106 或 FLO-MIN106D R9 流通池进行的，除了一个用于测试的 Flongle 流通池。初始组装中使用的测序读数首先在测序仪器上进行碱基调用。收集完所有数据后，使用更新的 Guppy 算法（启用了“触发器”模型的 v.2.3.1）再次对读取进行碱基调用。

根据制造商的方案，使用 10X Genomics Chromium 设备和 Chromium Reagent Kit v.2 从 1 ng 的高分子量基因组 DNA 制备 10X Genomics 连锁阅读基因组文库。该文库在 S4 流动槽上的 Illumina NovaSeq 6000 DNA 测序仪上进行测序，产生 5.86 亿个配对末端 151 碱基读数。使用 RTA 3.3.3 和 bwa 0.7.12 54处理原始数据。根据 Supernova 55组装计算得到的分子大小为 130.6 kb 。

使用“Bionano Prep Cell Culture DNA Isolation Protocol”制备 DNA。收集细胞后，将它们进行多次洗涤，然后嵌入琼脂糖中。进行蛋白酶 K 消化，然后进行额外的洗涤和琼脂糖消化。使用 Qubit dsDNA BR 检测试剂盒和 CHEF 凝胶评估 DNA 的数量和质量。按照 Bionano Prep 直接标记和染色 (DLS) 方案对 750 ng 等分的 DNA 进行标记和染色。染色后，使用 Qubit dsDNA HS 检测试剂盒对 DNA 进行定量，并在 Saphyr 芯片上运行。

Hi-C 文库由 Arima Genomics 使用四种限制酶重复生成。在修饰的染色质消化后，标记消化的末端，近端连接，然后纯化近端连接的 DNA。在 Arima-HiC 协议之后，通过首先剪切然后使用 SPRI 珠子选择大小的 DNA 片段来制备与 Illumina 兼容的测序文库。使用 Arima-HiC 试剂盒中提供的富集珠对大小选择的包含连接点的片段进行富集，并使用 Swift Accel-NGS 2S Plus 试剂盒（P/N：21024）试剂将其转化为与 Illumina 兼容的测序文库。接头连接后，使用 SPRI 珠子对 DNA 进行 PCR 扩增和纯化。纯化的 DNA 进行标准质量控制（qPCR 和生物分析仪），并按照制造商的方案在 HiSeq X 上进行测序。

Nanopore 和 PacBio 全基因组组装
Canu v.1.7.1 21在 2018 年 11 月 7 日或之前生成的所有 rel1 Oxford Nanopore 数据（仪器上碱基调用器，rel1）和 PacBio 序列（序列读取存档（SRA）：PRJNA269593）生成2014 年和 2015 年（总计 70 倍覆盖率）2 , 56。组装中的几个染色体仅在着丝粒区域（例如，chr10、chr12、chr18 等）断裂（图1）。尽管几个着丝粒（例如，chr8、chr11 和 chrX）具有明显的连续性，但组装器报告的重复拷贝数比预期的要少得多。

手动间隙闭合
X 染色体上的间隙通过将所有读数映射到组装并手动识别连接未包含在自动 Canu 组装中的重叠群的读数来关闭。这产生了一个初始的候选染色体组装，着丝粒除外。发现候选组装的四个区域在结构上与 Bionano 光学图不一致，并通过从这些区域手动选择读数并使用 Canu 21和 Flye v.2.4 57进行局部重新组装来纠正。自信地跨越整个重复区域的低覆盖长读取用于指导和评估可用的最终组装。使用 HMMER (v.3) 评估重组版本和跨越读取之间的拷贝数和重复组织58 , 59在特定的串联重复单元上进行了训练，并手动比较了报告的结构。Minimap2 60的默认参数导致串联重复序列的覆盖不均匀和抛光精度。通过将 Minimap2 -r 参数从 500 增加到 10,000 并将报告的二级比对 (-N) 的最大数量从 5 增加到 50，成功解决了这个问题。重复碱基水平质量的最终评估通过 PacBio 数据集 (CLR) 的映射确定和 HiFi）（扩展数据图7，补充说明 4）。

X 着丝粒中的 α 卫星阵列，由于其在男性基因组中作为单倍体阵列的可用性，是基因组水平上研究好的着丝粒区域之一，具有明确定义的 2-kb 重复单元28，物理和遗传映射8、30和预期的数组长度范围25。我们最初生成了一个包含超长读数的 alpha 卫星数据库，通过在两个方向上用至少一个 171 bp 规范重复的完整共有序列33标记这些读数，如前所述61. 反向补充包含 alpha 的读数，并使用 HMMER (v.3) 使用 2,057-bp DXZ1 重复单元进行筛选。然后我们使用游程长度编码，其中 2,057 bp 规范重复（定义为最小值范围内的任何重复：1,957 bp，最大值：2,157 bp）存储为单个数据值和计数，而不是原始数据跑。这使我们能够将所有读数重新定义为一系列变体或重复，这些变体或重复在大小或结构上与预期的规范重复单元不同，其间具有定义的间距。使用 Alpha- CENTAURI 将超长读长数据中鉴定的 CHM13 DXZ1 结构变体与已发表的 PacBio（CLR 50和 HiFi 22）中先前表征的重排库进行比较，如61所述. 每个读数的结构变体的输出注释和规范 DXZ1 间距被手动聚类以生成六个初始重叠群，其中两个已知锚定到相邻的 Xp 或 Xq 中。为了定义重叠群之间的顺序和重叠，我们确定了在从 CRISPR-Cas9 双链序列 (CRISPR-DS) 靶向重测序62获得的高质量 DXZ1 阵列数据中具有*匹配的所有 21 聚体（补充说明 8）。两个或更多 21-mers 之间以相等的间距重叠指导了组装的组织。重叠群（和重叠群结构）之间的间距的正交验证得到了额外的超长读取覆盖率的支持，为除三个区域之外的所有区域的重复单元计数提供了高置信度。

染色体 X 长读长抛光
我们使用了一种新颖的映射管道，使用的标记将读取放置在重复中。长度k个子串 ( k-mers) 是从 Illumina 连锁读数中收集的，在修剪掉条形码（一对中第一个读数的前 23 个碱基）之后。读取被放置在与读取具有标记的组件的位置。对齐被进一步过滤以排除短和低同一性对齐。在每一轮抛光之后重复这个过程，在每一轮之后重新计算新的标记和对齐。使用一轮 Racon 进行抛光，然后使用两轮 Nanopolish 和两轮 Arrow。抛光后，所有先前标记的低质量基因座都显示出显着改善，除了 139-140.3 仍然有覆盖率下降并被 Canu 使用 PacBio HiFi 数据生成的替代补丁程序集取代。

全基因组长读长抛光
全基因组组装的其余部分与 X 染色体相似，但没有使用的k -mer 锚定。相反，使用上述参数运行两轮 Nanopolish，然后是两轮 Arrow，这些参数依赖于映射质量、长度和身份阈值来确定长读取的最佳位置。由于没有齐心协力在 X 染色体以外的染色体上正确组装大型卫星阵列，因此这种默认的抛光方法被认为足以满足基因组的其余部分。然而，未来完成这些剩余染色体的努力预计将受益于的k -mer 锚定映射方法。

全基因组短读抛光
Illumina 连锁读数用于整个组装的最终抛光，包括 X 染色体，但仅使用明确的映射并仅纠正小的插入和删除错误（补充说明 4）。

甲基化分析
为了测量纳米孔数据中的 CpG 甲基化，我们使用了 Nanopolish 63。Nanopolish 对纳米孔电流信号使用隐马尔可夫模型来区分 5-甲基胞嘧啶和未甲基化胞嘧啶。甲基化调用程序为特定k -mer处甲基化与未甲基化 CG 的概率比率生成对数似然值。接下来，我们使用 nanopore_methylation_utilities 工具) 过滤甲基化调用，该工具使用 2.5 的对数似然比作为调用甲基化的阈值64. 对数似然比大于 2.5（甲基化）或小于 -2.5（未甲基化）的 CpG 位点被认为是高质量的并包含在分析中。没有任何高质量 CpG 位点的读取被排除在随后的甲基化分析之外。图3显示了具有至少一个高质量 CpG 位点的读取的覆盖率。Nanopore_methylation_utilities 将甲基化信息集成到对齐 BAM 文件中，以便在 IGV 65中以亚硫酸氢盐模式查看，并创建 Bismark 样式文件，然后我们使用 R Bioconductor 包 BSseq (v.1.20.0) 66对其进行分析。我们使用 BSseq 包中的 BSmooth 算法66来平滑数据以估计特定感兴趣区域的甲基化水平。

报告摘要
有关研究设计的更多信息，请参阅与本文链接的自然研究报告摘要。

at101 SEA 100ug toxin特约实验试剂 toxin北京实验试剂toxin上海实验试剂 toxin南京实验试剂 toxin武汉实验试剂
bt202 SEB 1mg toxin特约实验试剂 toxin江苏实验试剂toxin湖北实验试剂 toxin安徽实验试剂 toxin合肥实验试剂
dt303 SED 100ug toxin特约实验试剂 toxin南宁实验试剂toxin浙江实验试剂 toxin吉林实验试剂 toxin哈尔滨实验试剂
et404 SEE 100ug toxin特约实验试剂 toxin北京实验试剂toxin天津实验试剂 toxin华北实验试剂 toxin广州实验试剂
其他的这些是菌株
71-097L moltox天津实验试剂，moltox浙江实验试剂，moltox江西实验试剂，moltox福建实验试剂，moltox广东实验试剂
71-098L moltox青海实验试剂，moltox河南实验试剂，moltox河北实验试剂，moltox山西实验试剂moltox陕西实验试剂
71-100L moltox黑龙江实验试剂，moltox吉林实验试剂moltox辽宁实验试剂，moltox广东实验试剂，moltox广西实验试剂
71-102L moltox云南实验试剂，moltox海南实验试剂，moltox贵州实验试剂，moltox湖北实验试剂，moltox湖南实验试剂
71-1535L moltox中国台湾实验试剂，moltox海南实验试剂，moltox广西实验试剂，moltox河北实验试剂，moltox河南实验试剂
71-1537L moltox南宁实验试剂，moltox兰州实验试剂，moltox武汉实验试剂，moltox合肥实验试剂，moltox青岛实验试剂
moltox  s9  11-101.5   moltox说明书，moltox技术文件，moltox技术参数，moltox规格，moltox  s9实验试剂 moltox  s9现货实验试剂 moltox  s9现货实验试剂 moltox  s9现货实验试剂 moltox s9现货实验试剂  moltox    s9现货实验试剂
北京华新康信为ForteBio广州实验试剂 ForteBio深圳实验试剂  ForteBio常州实验试剂  ForteBio杭州实验试剂 ForteBio南京实验试剂  ForteBio云南实验试剂  ForteBio桂林实验试剂  ForteBio天津实验试剂  ForteBio北京实验试剂  ForteBio厦门实验试剂  ForteBio大理实验试剂  ForteBio武汉实验试剂  ForteBio福建实验试剂ForteBio安徽实验试剂ForteBio广西实验试剂ForteBio厦门实验试剂ForteBio常州实验试剂ForteBio常州实验试剂fortebio长沙实验试剂fortebio哈尔滨实验试剂fortebio沈阳实验试剂ForteBio深圳实验试剂ForteBio武昌实验试剂ForteBio河南实验试剂ForteBio河北实验试剂ForteBio山东实验试剂ForteBio山西实验试剂ForteBio内蒙古实验试剂ForteBio北京实验试剂ForteBio天津实验试剂ForteBio上海实验试剂ForteBio广州实验试剂 ForteBio华北实验试剂ForteBio华中实验试剂ForteBio华南实验试剂ForteBio武汉实验试剂ForteBio产品ForteBio现货 ForteBio知识介绍 ForteBio系列 ForteBio广东实验试剂ForteBio常州实验试剂ForteBio广西实验试剂ForteBio山西实验试剂ForteBio山东实验试剂ForteBio实验试剂*ForteBio实验试剂活动ForteBio实验试剂系列产品，欢迎选购*活动，期待您的沟通，愿意为您提供满意的服务北京华新康信为ForteBio特约实验试剂ForteBio北京实验试剂ForteBio天津实验试剂ForteBio上海实验试剂ForteBio广州实验试剂 ForteBio华北实验试剂ForteBio华中实验试剂ForteBio华南实验试剂ForteBio武汉实验试剂ForteBio产品ForteBio现货 ForteBio知识介绍 ForteBio系列ForteBio广东实验试剂ForteBio云南实验试剂ForteBio广西实验试剂ForteBio山西实验试剂ForteBio山东实验试剂ForteBio实验试剂*ForteBio实验试剂活动ForteBio实验试剂系列产品，欢迎选购*活动，期待您的沟通，愿意为您提供满意的服务。

北京华新康信为Nanoporetech实验试剂 Nanoporetech 实验说明  Nanoporetech说明书 Nanoporetech技术参数 Nanoporetech方案对比  Nanoporetech 优势介绍  Nanoporetech广州实验试剂 Nanoporetech深圳实验试剂  Nanoporetech说明书 Nanoporetech技术参数Nanoporetech实验方案  Nanoporetech技术对比  Nanoporetech购买说明 Nanoporetech天津实验试剂  Nanoporetech北京实验试剂  Nanoporetech厦门实验试剂  Nanoporetech大理实验试剂  Nanoporetech武汉实验试剂  Nanoporetech福建实验试剂Nanoporetech安徽实验试剂Nanoporetech广西实验试剂Nanoporetech厦门实验试剂Nanoporetech常州实验试剂Nanoporetech常州实验试剂Nanoporetech长沙实验试剂Nanoporetech哈尔滨实验试剂Nanoporetech沈阳实验试剂Nanoporetech深圳实验试剂Nanoporetech武昌实验试剂

下一篇：Nanoporetech分析解决方案

上一篇：Nanoporetech牛津纳米孔测序

产品中心 Products