在基因组学、特别是高通量测序领域,确保数据的准确性、可重复性和实验室间的可比性至关重要。
NA12878并非化学试剂,而是一个被科研界广泛用作标准参照物的人类细胞系及其衍生的基因组DNA。它被誉为基因组学的“标尺”或“质控品”,为评估测序技术、分析流程和实验操作的性能提供了黄金基准。

一、身份溯源:来自一个特定个体
NA12878来源于一位匿名女性捐赠者的淋巴母细胞样细胞系。该细胞系由美国Coriell细胞保藏所储存和分发,编号为NA12878。它更重要的身份是国际“HapMap计划”和“千人基因组计划”中的核心样本之一。因此,它拥有世界被测量得最为透彻、注释最为精确的基因组序列信息。
二、核心价值:已知答案的“考卷”
NA12878的核心价值在于其基因组序列的“已知性”。经过全球多个顶尖测序中心使用多种技术平台的反复、交叉测序和联合分析,人们对其基因组的了解达到了新的精度。
三、主要用途:评估测序全流程的“试金石”
在基因组学研究中,NA12878被应用于多个关键环节,作为评估实验和分析质量的客观标准:
1.评估测序技术的性能:当一个新的测序平台或化学试剂上市时,对其样本进行测序是标准验证步骤。将新平台得到的数据与高置信度参考集进行比对,可以客观评估该平台的测序准确度、覆盖均匀性、对特定变异的检测能力等关键指标。
2.优化生物信息学分析流程:不同的生物信息软件和参数设置对变异检测结果有巨大影响。研究人员使用它的数据作为输入,运行自己的分析流程。将检测出的变异与高置信度集进行对比,可以计算出灵敏度(召回率)、精确度(阳性预测值)等量化指标,从而不断优化分析流程,确保其最佳性能。
3.进行实验室间比对:不同实验室在检测同一个样本时,由于操作、试剂、仪器和分析的差异,结果可能不同。如果大家都使用NA12878作为对照,就可以将各自的结果与“标准答案”对比,找出系统偏差所在,实现实验室间数据的标准化和可比性,这对于多中心研究项目至关重要。
结语
NA12878不是一个简单的化学试剂,而是基因组学质量控制的基石和共同语言。它作为一个“已知基因组”的标准,使得评估技术优劣、优化分析流程、实现数据标准化成为可能。