阿斯利康基因组学研究中心基于近50万份组学样本发布疾病预测AI开源模型

近日,基于近50万份基因组测序样本以及近5万份蛋白质组学数据,阿斯利康基因组学研究中心与合作伙伴开发了疾病预测AI开源模型MILTON,发表在《自然-遗传学》(Nature Genetics)上。MILTON 基于纵向电子病历和生物标记物数据,以67 种数量性状作为参数,对3000余种疾病进行预测,整体准确率高于临床上常用的多基因风险评分(PRS)。

一、利用多种生物标志物联合预测健康/疾病状态的集成机器学习模型MILTON 

传统的表型关联分析(例如PheWAS工具)依靠国际疾病分类( ICD-10) 的注释进行疾病诊断,其中存在漏诊未确诊疾病(即隐匿病例)的可能。文章第一作者——阿斯利康基因组学研究中心的高级数据科学家Manik Garg表示,我们想探索是否可以根据与已确诊患者共享的生物标志物特征来识别隐匿病例。我们通过血液和尿液的生物标志物以及其他生理性状和生活习惯参数,针对3,000多种疾病建立预测模型(包括发病前和发病后)MILTON 。该模型通过病历的对照重分析,能够检测到新的遗传关联信号,结果超过传统表型关联分析的性能。

MILTON 是一种利用多种生物标志物联合预测疾病的集成式机器学习开源模型,基于纵向时间序列的电子病历数据信息和生物标记物,以67 种数量性状(包括血液化学、尿液分析、肺量计、血压、体型、性别、年龄和禁食时间等指标)训练模型,在484,230份基因组测序样本以及46,327个蛋白质组学样本中进行全表型组关联分析验证(未来也可扩展到转录组和代谢组学数据上)。

阿斯利康基因组学研究中心资深科学家楼海一博士表示,该工具不仅从英国生物样本库 (UKB) 结构化数据中学习表型的贡献率,还可以根据UKB的性状数据来拟合模型并预测疾病与健康状态。理论上MILTON可以部署到其他生物样本库队列中来预测疾病。

MILTON成果平台:http://milton.public.cgr.astrazeneca.com/  

代码等资源共享地址:https://github.com/astrazeneca-cgr-publications/milton-releasehttps://zenodo.org/records/13149004

关于MILTON模型的性能,我们邀请了来自普瑞基准的季序我博士进行了详细介绍和解读。

二、MILTON模型的性能

(1)MILTON 用于疾病预测的性能优于PRS
67种特征用于训练 MILTON,包括:30 种血液生化指标、20 种血液计数指标、4 种尿液检测指标、3 种呼吸测量指标、4 种体型测量指标、3 种血压测量指标、性别、年龄和测量前空腹时长。以受试者操作特征(ROC)曲线下面积(area under the curve,简称 AUC) 作为性能衡量指标,诊断、预后和混合三种模型的 AUC 在 60-70% 左右。对于三种时间模型都可及的 1466 种疾病类型,诊断模型比预后和混合模型稍好。随着病例数提升,AUC、敏感性和特异性在欧洲和非洲祖源人群中没有显著变化,在南亚人群中有提升。针对151 种疾病中,基于 67 种特征训练的诊断模型的预测性能对于其中的 111 种疾病显著高于多基因风险评分(polygenic risk scores,简称 PRS)训练模型,预后和混合这两种模型类似。对于乳腺癌、黑色素瘤和前列腺癌三种疾病,PRS在三种模型上相对更为显著,可能因为 MILTON 涵盖的血液和尿液生物标志物对这几种实体瘤的预测功效较差。


(2)MILTON成功在疾病发生前预测疾病
为了评估 MILTON 预测真实病例的有效性,研究者以 2018 年 1 月 1 号之前的样本用作训练数据,预测这个时间点之后的样本。结果显示,MILTON对1740 种疾病的 1695 种显著富集,展示出 MILTON 的疾病风险预测能力。


(3)蛋白质组学数据提升针对部分疾病的预测性能
对于 UKB 人群中有 2923 种蛋白数据的 46327 个人的样本,单独使用蛋白质组学数据(3k proteins)或和 67 种生物标志物(67 traits)结合使用,重新对 MILTON建模,能够带来小幅度的性能提升(中位AUC 0.68 vs. 0.65)。不同表型提升幅度不同,对包括多种骨髓瘤和恶性浆细胞肿瘤、前列腺癌、脊髓性肌萎缩症在内的疾病预测性能显著提升。这些结果提示了蛋白组学特征对于某些疾病的预测有特别的价值。


(4)MILTON 鉴定出有预测功效的显著标记物,并进行疾病聚类
研究者进一步研究发现,对于每一种疾病的多种相关生物标志物中,MILTON 赋予了其中至少一个相对较高的“特征重要性评分”。例如,对于一型糖尿病,糖化血红蛋白和血糖是特征重要性评分较高的两种标志物,这两种标志物在临床诊断中也被使用,符合预期。基于这种情况,研究人员探索了能表征特定疾病类型最少的特征,对于每种疾病鉴定了 7-8 个最重要的特征,作为显著标记物(signature)。如果该疾病类型的样本包含蛋白组数据,则只需要约5-6 种特征构成显著标记物(signature)。将所有疾病类型按相似的显著标记物(signature) 富集,可以展示各疾病间的相似性。


(5)基于MILTON 预测新增的阳性病例,赋能PheWAS 揭示新的基因-疾病关联
基于上文提到的“潜在对照组”,MILTON 预测出新的阳性病例,并形成了新的扩展阳性组。基于欧洲人群的扩增样本的全基因组(WGS)进行稀有变异重分析,得到了 2905 个新的显著的疾病和基因关联。显示出MILTON 加强了PheWAS 的分析能力,特别是乳腺癌相关的已知标志物分析。


(6)MILTON 扩展人群的 ExWAS 分析
类似PheWAS(表型组关联分析),研究人员对于 MILTON 预测得到的扩展人群在变异水平进行ExWAS (exome-wide association study,外显子组关联分析)。基线中的8013 个变异-疾病关联,78.88%(6321 个)在 MILTON 扩展人群中仍然显著;在MILTON 扩展人群新发现的9881 个关联中,61.94% 相比基线人群更为显著。
对于MILTON ExWAS 分析中鉴定得到的显著关联,研究人员进一步将结果和 FinnGen Biobank 中变异水平的富集结果进行比较,发现重叠部分中54.76% 达到了显著水平(p<0.0.5)。对于通过 GWAS(全基因组关联分析) 得到的常见变异-疾病类型关联,进一步分析了其中 14 种疾病类型,93.10% 的关联有同向的效果。

三、专家点评

阿斯利康基因组学研究中心总监田立峰博士接受基因慧采访,从生物样本库分析应用现状发现,人类基因组学研究在不同群体的健康公平性方面还存在显著不足。截至2021年,86%的基因组学研究集中在欧洲血统的人群上,而针对代表性不足群体的研究比例则停滞不前甚至下降。此外,一些重要的临床变异仅在未被充分代表的群体中发现,这表明更多的遗传变异和疾病机制尚未被发现。为确保精准医学发展,同时让所有人受益并遵循最高的科学与伦理标准,我们需要在全球范围内增强多组学研究的多样性和包容性。
田博士表示,我们期待包括MILTON开源框架等一系列创新的人工智能大数据模型能够在多组学平台上部署,成为连接数据与健康的桥梁,助力源头创新药物发现和精准医疗的快速发展,为人类的健康事业贡献更大的力量。我们相信,通过不断优化和扩展生物信息平台,深化与中国研究机构和医院的合作,将能够在多组学研究和创新药物研发方面取得更多突破。我们致力于将先进的基因组研究成果转化为实际的临床应用,造福全球患者。


昌平实验室赵亚杰教授对基因慧讲到,如何提前预测个体的疾病风险一直以来都是生命科学领域所关注的重要方向,当前随着包含有多组学数据的大规模人群队列的不断涌现,也为系统性地探索可以预测疾病风险的指标以及算法提供了可能。来自阿斯利康基因组研究中心的研究团队利用来自英国生物银行的多组学数据结合先进的机器学习算法对超过三千种的疾病进行了风险预测建模,体现了利用常见生物标志物以及多组学数据进行疾病预测的巨大潜力。同时基于算法所识别出来的潜在病例的全基因组关联分析也找到了一系列潜在相关基因,为下游机制探索提供了重要线索。


星云基因刘志岩博士谈到,随着大规模人群队列中多组学数据的井喷式增长,精准疾病风险预测模型的研发迎来了前所未有的机遇。阿斯利康基因组研究中心基于UKB超50万人次的多组学数据开发了MILTON框架,对超过三千种疾病建立了精准的疾病风险诊断与预测模型,是多组学数据价值挖掘与应用的典范。
刘志岩博士表示,近年来我国人群队列发展迅猛,产生海量多组学数据,但缺乏先进的数据管理与分析体系,严重限制了数据价值的充分挖掘与应用。星云基因将在其组学大数据管理与分析云平台上部署MILTON框架,为我国的大规模人群队列以及相关研究团队提供数据管理与分析服务,助力研发适用于中国人群的疾病风险预测模型。


复旦大学索晨副教授认为,该文章研究的思路和开发的软件MILTON对于进行组学研究的研究人员有相当高的参考价值。首先,MILTON在基于UKB数据的应用中表现出了较高的预测能力,且在大多数疾病中优于PRS评分,有望在其他数据库中拓展应用。其次,MILTON框架有助于在遗传分析中发现潜在的新信号,文章中通过构建MILTON增强队列进行PheWAS分析,相较于基线PheWAS分析,得到了182 个基线病例对照或定量性状 PheWAS中均未发现的推定关联;基线PheWAS中的87.41%原本信号也得到了增强或保留,文章通过FinnGen Biobank等进行验证。 此外,MILTON作为一种全新的方法框架,应用前景广泛,可为组学数据的处理提供参考。文中纳入了蛋白组学数据提升了模型的性能。提示了我们在未来研究中可将多组学数据方法有机结合。


普瑞基准的季序我博士谈到,本研究从模型性能以及概念验证上体现了多处亮点。本研究的最大意义在于概念验证(proof-of-concept),在群体大样本和纵向时间尺度上,通过 MILTON 选出来的针对每种疾病的这些传统的生物标志物在统计学上是有显著预测效果的,即在本研究中MILTON 的绝对性能在多数疾病中优于PRS模型。此外, MILTON发现了具备预测能力的生物标记物集合,找出了传统医疗系统漏掉的数量不小的阳性人群(接近150%)。这可以作为先验证据支持将这些标志物纳入研究的数据收集计划,复制到未来类似 UKB级别的大数据收集和分析中,将加速了生物标记物的发现过程。研究者通过 PheWAS、GWAS和ExWAS 分析,大人群数据库 FinnGen验证以及大规模文献数据收集和对比,充分证明了 MILTON 预测的新增扩展阳性病例是真阳性。季博士补充到,未来值得进一步探索和讨论的是,对生物标记物进行进一步的生物学解释和临床层面的验证;在实际应用场景中对于不同工具的比较和优化;基于每种疾病领域内已知的生物学先验信息,来优化生物标记物随时间变化的函数,可能有助于进一步提高模型的预测能力。


上海交通大学医学院附属瑞金医院曹亚南研究员认为,根据表型特征,临床检测数据和组学数据进行个体的疾病风险预测是精准医学研究的核心科学问题。在自然人群和疾病队列研究中,通过开发和应用人工智能方法整合分析高维度多模态的数据库,包括体征测量、生化检验、医学影像、分子检测和多组学数据,实现对复杂疾病发生的准确预测,是我们研究者的共同目标。阿斯利康基因组研究中心的研究团队开发和发布的MILTON 模型,基于XGBoost 极限提升树的机器学习算法,利用英国生物样本库 (UKB) 高质量的结构化数据库进行训练,基于67个数量性状可对数千种疾病的发生进行预测,整体预测性能超过PRS评分。增加血浆蛋白组数据(UKB-PPP)可以进一步提升部分疾病的预测表现。这一创新性开源工具的发布将帮助我们基于中国人群队列数据更好的开展疾病风险预测模型研究和构建,在未来实现临床转化和应用。

【声明】为了推动生命科技普惠和生物产业发展,基因慧秉持专业、赋能、中立的立场收集、分析及发布相关行业信息;但由于时效性及技术迭代特殊性,所刊登内容仅供研究参考,不作为临床诊疗及投融资等决策依据。本文相关信息不代表基因慧的观点。基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎在基因慧平台合作推广先进的技术、产品及市场成果以及产业规划、行业咨询及市场调研。

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注