JHM (IF=11.3) | 暴露组学+AI 破解EPL谜题,25%育龄女性受困早期妊娠丢失,污染物+代谢紊乱是关键!

重磅!百谱生物震撼发布植物广靶定量代谢组学技术!
2025 年 9 月 22 日
植物胁迫专集 | 5篇项目文章揭示植物逆境求生的“组学智慧”:抗逆代谢调控研究新思路
2026 年 1 月 9 日

       早期妊娠丢失(EPL,孕12周内自发流产)是备孕家庭的隐痛,发生率高达25%,远超想象,它不仅让家庭承受心理压力,更是全球生育率下降的重要原因之一,近年来其发病率还在持续上升,但病因研究多停留在遗传异常、内分泌失调等传统因素,对环境暴露的关注严重不足——越来越多研究指向塑料添加剂、全氟化合物、化妆品成分等广泛存在于日常用品中的“新兴污染物”,孕期接触风险更高,此前虽有研究证实邻苯二甲酸酯、双酚A等与流产风险相关,却存在两大局限:既未考虑真实环境中“混合暴露”的联合作用,也难以阐明污染物如何通过体内代谢过程影响妊娠,直到发表在Journal of Hazardous Materials(IF=11.3)的重磅研究,通过“暴露组学+代谢组学+机器学习”三维视角,揭开了EPL与环境污染物、代谢紊乱的关联密码,为早期预警和防护提供了全新科学依据!

文章题目:Untargeted metabolomics and machine learning unveil the exposome and metabolism linked with the risk of early pregnancy loss

期刊名称:Journal of Hazardous Materials

影响因子:11.3

发表时间:2025年1月

发表单位:南开大学等

研究方法:暴露组学+代谢组学+机器学习等

NO.1 研究思路——三维检测+AI建模

1. 样本与检测:

48名受试者(23 名EPL患者+25名健康孕妇),分别于术前/常规产检采集血清,同步检测37种环境污染物(PFAS、PAEs、PCPs)、6种生化指标(氧化应激/炎症/生殖激素)、2057种内源性代谢物。

2.关联分析:

通过Spearman相关性分析,识别247个显著相关关系(26个中度、221个弱相关),DEHP代谢物与脂质代谢物关联最紧密,锁定机制研究方向。

3.模型构建与验证:

用LR、RF、XGBoost、SVM四种算法,分别基于三类数据单独建模;再通过“堆叠集成模型”整合三类数据优势联合建模。

NO.2 核心发现——为EPL防护全新方向

1. EPL组与健康对照组的多重暴露特征及代谢物差异对比

        在37种目标化学物中,21种在所有参与者血清中检测率超50%,涵盖全氟和多氟烷基物质(PFASs)、邻苯二甲酸酯代谢物(mPAEs)及个人护理产品化学物(PCPs)三类,证实早孕期存在多种新兴污染物(ECs)的普遍暴露。系统对比EPL组与健康对照组的暴露差异发现,EPL组目标ECs总浓度显著高于对照组,其中6种化学物水平呈显著升高趋势,包括1种PFASs(PFHxA)、1种个人护理品成分(BPA)及4种mPAEs,且这4种mPAEs均为邻苯二甲酸二(2-乙基己基)酯(DEHP)的代谢物,在EPL组中检出率达100%,远高于对照组的50%左右,提示EPL病例早孕期DEHP暴露水平更高。生化指标方面,两组氧化应激与炎症标志物无显著差异,但EPL组关键妊娠激素出现明显异常,表现为β-人绒毛膜促性腺激素(β-HCG)显著降低、促卵泡激素(FSH)显著升高。代谢组学分析共注释2057种血清代谢物,经OPLS-DA验证模型稳健,EPL组有256种代谢物显著上调、128种显著下调,这些差异代谢物以脂质为主,主要富集于脂质代谢和氨基酸代谢等关键通路。

图1 多种母体暴露特征的测量结果

 

2. 暴露-生物-代谢三类指标关联性分析:DEHP 代谢物与脂质代谢物关联最紧密

         为挖掘化学物、生化指标与代谢物三类数据的内在联系,采用Spearman相关性分析展开系统探究,共识别出247个显著相关关系。其中,化学物与代谢物间存在26个中度相关(0.70≤|r|<0.85)和221个弱相关(0.50≤|r|<0.70),生化指标与代谢物间有26个弱相关,而化学物与生化指标间未发现显著相关。在差异特征中,仅β-HCG与BPA存在弱相关,而DEHP的三种代谢物(MCMHP、MEHHP、MECPP)表现出独特的强关联优势,与大量内源性代谢物(尤其是脂质代谢物)的关联性显著强于其他化学物,这一发现直接锁定了DEHP暴露通过干扰脂质代谢影响妊娠结局的核心研究方向,为后续机制解析提供了关键线索。

图2 多种母体暴露特征间的相互关联性

3. EPL风险预测模型性能对比:化学物数据驱动的随机森林模型表现最优

        基于原始数据集和差异特征数据集,采用逻辑回归(LR)、随机森林(RF)、极端梯度提升(XGBoost)、支持向量机(SVM)四种机器学习算法,分别构建三类数据的EPL风险预测模型,并通过SHAP解释和堆叠集成(stacking)方法优化模型性能。结果显示,仅包含差异特征的数据集构建的模型,在三类数据中均展现出更高的预测准确性;其中,基于化学物数据的模型整体性能最优,其最优的RF算法在准确率、召回率、精确率、F1分数和AUC-ROC五项指标中均表现突出,准确率达90%;基于代谢物数据的模型中,SVM算法表现最佳,准确率为80%;而基于生化指标数据的模型性能最差,最优的LR算法准确率仅70%。进一步采用堆叠集成方法,将三类数据的最优模型作为基础学习器,RF作为元学习器进行联合建模,模型准确率大幅提升至95%,充分验证了多维度数据融合在 EPL 风险预测中的优势。

图3 12种模型在测试集上对化学物质、生化物质及代谢物的性能表现

4. EPL患者氨基酸与脂质代谢通路显著紊乱,DEHP代谢物干扰核心代谢网络

        通过构建化学物、生化指标与代谢物的关联网络,结合代谢通路富集分析及广义线性回归模型,系统揭示了ECs与EPL相关代谢扰动的核心关联。关联网络分析显示,DEHP的三种代谢物与脂质分子之间存在显著强关联,节点大小反映两组间t检验的-log10P值,黄色和蓝色线条分别代表正负相关,直观凸显了DEHP暴露对脂质代谢的直接影响。经SVM结合递归特征消除(SVM-RFE)方法筛选出95种关键代谢物,通路富集分析显示这些代谢物显著富集于甘油磷脂代谢、精氨酸与脯氨酸代谢、鞘脂代谢等通路,均与氨基酸和脂质代谢密切相关。广义线性回归分析进一步证实,脂质代谢物(如甘油磷脂、脂肪酰基)与前四种关键化学物的浓度之间存在高度显著关联;且三种DEHP代谢物共同干扰了多个脂质代谢相关通路,包括甘油酯代谢、醚脂代谢、鞘脂代谢及泛酸和辅酶A合成,表明其暴露可能通过多通路协同作用加剧妊娠风险。

图4 早期妊娠丢失与对照组的代谢变化对比

5. C17-鞘氨醇作为EPL高价值生物标志物的主队列验证及独立队列确认结果

         为筛选EPL风险的高效预测生物标志物,基于SHAP值筛选出的前20种代谢物,利用SVM模型生成ROC曲线进行性能评估。主队列(48人)分析显示,C17-鞘氨醇表现尤为突出,其ROC曲线AUC达0.93±0.07,显著优于已有的临床生物标志物β-HCG(AUC=0.63±0.16),且EPL组血清中C17-鞘氨醇水平显著高于健康对照组,提示其预测效能更优。为验证该标志物的稳定性和可靠性,在独立验证队列(36人)中采用MRM-MS进行靶向定量分析,结果显示EPL组C17-鞘氨醇中位数为 4.13ng/mL,对照组为2.88ng/mL,ROC曲线AUC=0.84±0.19,进一步确认了其作为EPL预测生物标志物的潜力,是极具临床应用价值的候选指标。

图5 C17-鞘氨醇作为潜在生物标志物的性能表现

研究意义及总结

        本研究创新性整合环境化学暴露、内源性生化指标及代谢组数据,系统解析EPL的暴露特征、代谢机制及风险预测模型。通过四类机器学习算法构建的预测模型中,化学物数据驱动的RF模型准确率达90%,多维度数据堆叠集成模型准确率提升至95%,为EPL风险预测提供了高效工具;筛选并验证C17-鞘氨醇为EPL高价值生物标志物,主队列与验证队列AUC分别达0.93和0.84,显著优于传统标志物β-HCG;明确EPL患者存在显著的氨基酸(精氨酸、脯氨酸等)和脂质代谢紊乱,DEHP及其代谢物(MCMHP、MEHHP、MECPP)是关键风险因子,通过干扰甘油磷脂、鞘脂等多条脂质代谢通路加剧EPL风险。研究存在样本量较小、化学物检测范围有限的局限,未来需扩大样本规模并拓展化学物检测种类,深入探究C17-鞘氨醇的作用机制,为EPL的早期预警、临床干预及孕期环境健康防护提供科学依据。

 
百谱云