血浆蛋白组特征分析检测和避免生物标志物研究中样本相关性偏差
日期:2019-10-24

蛋白生物标志物发现是理解病理的非常重要的一步,也是在药物研发过程中,鉴定潜在药物和诊断目标物的重要一步。血浆和血清是关于一个人健康与否信息的重要来源,尽管投入了大量资金,但很少有新的生物标志物能真正进入临床。因此需要使用一个相对定量的差别分析方法,发现这些假定的、跟疾病有关的标志物,并要求严格的实验放方法来减少样本与样本之间的差异性。基于质谱的蛋白质组学是一种潜在的强大和有前途的技术,它可以定量和特异性地分析血浆蛋白质组。

 

通过对之前的研究回顾,不难发现红细胞溶解、血小板污染和部分凝血引起的质量问题会影响所有生物标志物研究中占比的50%,同时如何寻找一些有效方法降低候选生物标记的错配,必然会对生物标记的发现存在重要指导意义。

 

2019年9月30日,德国马普生化研究所所长、世界著名蛋白质组学专家 Matthias Mann 教授将其最新的研究成果发表在了国际学术期刊EMBO Molecular Medicine(IF=10.624)上。他们利用血浆蛋白质组分析,发现了三个质量标记面板,这些质量标记面板报告了血浆样品在红细胞裂解、血小板污染和部分凝血方面的状态。这些面板可以识别到个别样本质量好坏与否,并纠正在生物标志物研究中的系统性偏差。同样,它们也可以用来评估一种新的生物标志物候选是否与污染源之一有关。最后,作者还进一步提供了样本制备指南和在线资源,以评估临床研究中个别样本的总体样本相关偏差。

 

1.jpg

 

 

研究速读

 

1、血浆蛋白质组中的红细胞和血小板蛋白
在之前研究中,作者通过手工和生物信息学检查发现样品质量问题的三类起源:红细胞,血小板和凝血系统。因此,设计实验来系统地表征血浆蛋白质组学的这些主要质量问题。他们先获得了红细胞和血小板的参考蛋白质组,收集的细胞成分来源于10位健康的女性和10位男性中(样本策略),每个个体又分五个血液级分:红细胞、血小板和纯血浆(无血小板),并进一步收集了富含血小板的血浆和全血(图1A)。使用自动化蛋白质组学样品制备流水线,然后进行液相色谱联用高分辨率质谱(LC-MS / MS)。此前还通过分析广泛的预分离肽段,也已从合并样本中生成了一个非常深的文库,使用该文库进行分析。

 

最终,他们从61654个序列独特的肽中鉴定出总共6130种不同的蛋白质(图1B和C)。血小板蛋白质组最广泛(5793种蛋白质),在红细胞中检测到2069种蛋白质,在富含血小板的血浆中检测到1682种蛋白质,在无血小板血浆中检测到912种蛋白质。富含血小板的血浆与无血小板的血浆的比较表明,血小板可以引入的更多蛋白质。作者选择30种含量最丰富且CV低于30%的蛋白质,发现在污染性细胞类型中的表达水平至少比血浆高10倍(图1D和E)。肌动蛋白和甘油醛-3-磷酸脱氢酶,这两种蛋白被认为是血浆质量起源的特定且独立的指标。

 

红细胞蛋白的明显污染似乎是血浆蛋白质组的一部分,红细胞组通常在参考人群红细胞水平与血浆样品之间具有相对较高的相关性。相反,在许多血浆样品中,参考队列血小板水平与研究中的血浆样品之间没有可检测到的相关性。所以,明显的污染蛋白仍可以用作生物标记,但是,在这种情况下其丰度值应与参考质量面板中的模式不同。

 

2.jpg

图1血细胞标志物的鉴定

 

 

2. 连续稀释实验验证了红细胞和血小板质量标记物面板

为了进一步确定之前两个蛋白质组是否正确地量化了血浆中的污染,作者再一次从五个研究参与者中生成了四个红细胞和血小板池。将这些池分9步稀释成无血小板血浆,然后进行细胞计数和蛋白质组学分析(图2A),得到了与预期相同的细胞蛋白质组与血浆比例下降(图2B和C)。由于每个组中的蛋白质具有相同的来源,因此作者通过对每种细胞类型的强度求和并除以所有定量血浆蛋白的总强度来定义单个变量。这产生了两个非常强大的“污染指数”,相对于通过细胞流式细胞仪测定的细胞数而言,它们呈线性关系(图2D和E)。当然,掺入的1:100污染物很容易被检测到,相当于每升血浆中70000红细胞或30000血小板的浓度。

3.jpg

图2 将红细胞和血小板组分掺入纯血浆中,稀释和分析方案

 

 

 

3. 凝血相关质量标记面板

除了由细胞成分引起的污染外,凝血也可能导致生物标志物研究中的系统偏倚。在临床实践中,通常将抗凝剂预先添加到容器中,快速倒置会使抗凝剂与血液混合,离心后产生纯血浆(图3A)。添加或混合的任何延迟都可能导致部分凝结,在缺少抗凝剂并等待30分钟的极端情况下,将获得血清而不是血浆。

 

为了生成评估血液凝固的面板,作者系统地比较了72个血浆样本与72个血清样本(4个人,共18等份)。在总共2099种定量蛋白质中,有299种发生了显著变化(图3B)。凝结后最显著去富化的蛋白质是凝血级联反应的典型成分,更有趣的是,血清中升高最强的蛋白是高丰度的血小板蛋白。总共有208种蛋白质由于凝结而增加,而91种减少。

 

为了定义一个可靠的凝血标记物,选择了血清和血浆之间变化最剧烈的30种蛋白质。与红细胞和血小板标记面板相反,由于血液凝结,凝血标记面板相关的蛋白质或增加或减少,并且它们之间的倍数变化很大。因为对于减少的蛋白质而言,倍数变化最大,所以可根据它们计算出凝血标志物的比率(所有血浆蛋白质的总和除以血浆升高的凝血蛋白质的总和)。比较血清和血浆时,该比率非常可靠,对于这些不同的样品类型,它们的中位数比率分别为9和120,被明显分开(图3C)。在凝血标记物组中,只有F13A1,PPBP和THBS1与血小板组相同,而与红细胞组则没有相同(图3D)。观察到的三个质量标记物组的低重叠可使其成为高度特定的工具,以阐明样品相关偏差的存在和起源。

 

4.jpg

图3 凝血质量标记面板

 

 

 

4.在具体研究中的应用

上面定义的标记物可以在三个层面上评估与样品相关的问题:临床队列中每个样品的质量、整个研究中的潜在系统偏倚以及单个生物标记物候选物属于污染物蛋白质组的可能性。作者研究了减肥后血浆蛋白质组的变化,对52个人进行2个月的热量限制,然后维持体重1年。血浆蛋白质组学分析的七个纵向样品揭示了载脂蛋白谱的显著变化、炎症蛋白和与胰岛素敏感性相关的标志物的减少。通过计算三个污染指数,分别评估了每个样品的质量。通过这种方式,标记了12个样品,其中6个样品被血小板污染,一个样品的红细胞水平升高,另外五个样品则有部分凝结的迹象(图4)。

 

作者在www.plasmaproteomeprofiling.org上创建了一个在线平台。它提供了用于交互式评估血浆蛋白质组数据质量的工具箱。可通过简单的拖放系统上载MaxQuant搜索结果表或模板中的蛋白质丰度列表,系统自动生成三个污染指数值,如图4A所示。如果用户指示病例和对照,则将对数据集进行系统性偏差分析(如火山图所示)(图4B),全局相关图也与质量标记面板的群集一起显示(图4C)。

 

5.jpg

图4 减肥研究和文献研究中的质量标记面板

 

 

总结以及对未来蛋白质组学研究的建议

 

基于作者对上述三个质量标志物面板的经验以及对数千种血浆蛋白质组的分析,设计了一个通用指南,以最小化和检测与样品采集和处理有关的偏差(表1)。为了进一步记录公共变量在采血过程中的影响,还邀请了10名健康个体,并在10个不同的采血管中采集了血液。在该实验中,系统地改变了血浆/血清的类型,血液样本管(有或没有凝胶)以及血液在采样管中的沉积(真空与拉动系统)。最显著的差异再次出现在血清和血浆之间(图3B)。作者还发现,从试管中采样血浆的过程对血小板污染有显著影响。因此,作者建议离心后不要收集血小板床上方的最低血浆层。从离心到血浆收集的任何延迟都可能引起血小板蛋白污染。这些因素主要影响血小板而不是红细胞污染指数,这表明来自血小板蛋白质组的蛋白质是生物标志物候选物错误分配的最可能原因。

6.jpg

 总之,三个质量标记面板能很好地报告血浆样品在红细胞裂解、血小板污染和部分凝血方面的状态。同时,也发现了与样品质量相关的蛋白质很多已被综合文献调查显示为候选生物标志物。作者提供了样品制备指南和在线资源(www.plasmaproteomeprofiling.org),以评估生物标志物临床研究中与样品相关性偏差,并防止重要生物标志物候选物的错配。

 

参考文献Geyer, P. E., et al., 2019, Plasma Proteome Profiling to detect and avoid sample-related biases in biomarker studies. EMBO Molecular Medicine.

原创: Dr.Proteomics 精准医学与蛋白组学