深度访谈北大高歌：单细胞多组学数据整合与调控推断新方法——GLUE

本期科研大咖 · 北京大学高歌老师

笔者第一次与高歌老师取得联系时接近凌晨一点，彼时他态度谦和地解释自己刚刚开完会，忙碌——是笔者对高歌老师的第一印象。

图：高歌老师（来源/受访者提供）

高歌老师对笔者说：“ 把问题想清楚很多时候比盲目的“炼丹”更有意义。作为生物信息学工作者，开发出对大家有用的方法是我们的核心使命之一。”

作为生物信息学领域专家，高歌及团队一直关注着迅速发展的单细胞测序技术。如何通过开发新的计算方法实现对这些宝贵数据的有效利用是当今生物信息学领域关注的重点与热点，也是高歌团队一直在思考的问题。

图：Multi-omics single-cell data integration and regulatory inference with graph-linked embedding（来源 /Nature Biotechnology ）

2022年5月2日，北京大学/昌平实验室高歌课题组于Nature Biotechnology发表题为Multi-omics single-cell data integration and regulatory inference with graph-linked embedding的研究论文，提出了基于图耦联策略的深度学习方法GLUE，首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。

重点概述

1、GLUE是一种基于图耦联策略的深度学习方法，可将不同组学的低维隐空间表示关联起来并确保其“语义一致性”；

2、设计GLUE的目的旨在全面地刻画细胞内的基因调控状态、揭示调控机制，为前沿精准医学研究提供线索；

3、与Seurat等目前主流单细胞跨组学整合算法相比，GLUE的主要优势在于提出了不依赖于特征转换的整合方法；

4、GLUE可容易地扩充以支持如单细胞Ribo-seq、空间转录组等更多组学类型数据整合。

……更多精彩，请阅读本期深度专访！

PART.1

我国生物信息学界的新突破

基因慧：高老师，祝贺您的团队在Nature Biotechnology上发表基于深度学习方法解决单细胞多组学无监督整合的成果。用清华大学张学工教授的话说，这是我国生物信息学界的一个新突破！请您首先介绍下这项研究的背景。特别是针对目前属于科研转化阶段的单细胞多组学，这项研究旨在解决什么难题？

高歌团队：我们知道，传统的测序等生命解码方法是对群体细胞特征的平均值测量，但是每个成年人体内平均有40万亿个细胞，而每个细胞在形态、功能方面各有不同，如果能在单细胞水平测量细胞的状态，可在不同病人、位置、阶段的组织样品内高精度地鉴定细胞类群，研究不同类群细胞的分子特点、类群间相互作用等，有助于实现疾病的精准诊断和治疗。

从2009年以来，高通量单细胞测序技术得以快速发展，逐渐从单细胞转录组测序，发展到染色质开放组、DNA甲基化组、组蛋白修饰组等等在内的多组学分析。但是，大部分单细胞组学测序技术在一个单细胞中只能检测一种组学，这样的数据对于细胞状态的刻画是片面的，无法完整地反应细胞内的基因调控状态；而这些组学数据又具有非常高的维度和噪音，且特征空间存在差异，给数据整合造成了很大的困难。因此，我们希望通过开发建立合适的计算方法与模型，解决当前的跨组学计算整合挑战，提高数据整合精度，充分利用这些宝贵数据以更全面地刻画细胞内的基因调控状态、揭示调控机制，为前沿精准医学研究提供线索。

PART.2

GLUE的优势总结

基因慧：读者朋友们对于您团队发布的GLUE工具非常好奇。它相对目前市面上已有单细胞多组学数据整合方法（比如Seurat等）相比，有哪些明显的优势？突出地解决了什么问题呢？

高歌团队：单细胞多组学数据整合的一大挑战在于不同组学的特征空间存在差异，例如转录组的特征是基因，而染色质开放组的特征是染色质开放区段，不同特征空间的细胞缺乏可比性。

GLUE的全称是Graph Linked Unified Embedding，即图耦联统一嵌入，它的特点是提出了全新的图耦联（graph-linking）策略，将不同组学的低维隐空间表示关联起来并确保其“语义一致性”。

图：GLUE模型的结构示意图来源/北京大学生物医学前沿创新中心

与Seurat等目前主流单细胞跨组学整合算法相比，GLUE的主要优势在于提出了不依赖于特征转换的整合方法。Seurat等方法在进行具体整合工作前需要将不同组学数据转换为同一组特征（一般是基因特征），会造成显著的信息损失。具体来说：Drop-ChIP的数据与ATAC相似都是比较高维、稀疏的，如果使用Seurat的话在特征转换这一步就会损失一部分细胞类型分辨率；另外，取决于Drop-ChIP检测的组蛋白修饰，如果是抑制性修饰的话，数据还需要进行反转，导致进一步的信息损失同时提高内存消耗。

图:GLUE首次实现了图谱级超大规模单细胞多组学数据的准确整合。与同类工具相比，GLUE在细胞分辨率与叠合精度方面均具有显著的优势。

来源/北京大学生物医学前沿创新中心

总体来说，GLUE优势包括以下四点：

1. 多组学整合的精度高；

2. 可支持任意数量、调控方向的跨组学数据匹配：通过引入组学特异的变分自编码器(Variational AutoEncoder, VAE)组件堆叠，支持对多组学非配对数据的无监督整合；

3. 计算可扩展性(Scalability)强：计算复杂度与细胞数之间呈亚线性关联，是同类方法中唯一可以精准分析上百万单细胞的方法；

4. 可同时进行调控推断：在先验调控图中直接对调控关系进行了建模，还可综合先验调控信息与多组学数据统计相关性，实现可靠的转录调控推断。

PART.3

用正确的方法做对的事

基因慧：听起来非常惊艳！解决了作为生物信息工作者的诸多难题，请问这个模型设计过程中遇到了哪些困难？你与团队又是如何将困难一步步优化成最终这样美妙的策略的呢？

高歌团队：在整个工作过程中，我们一直的原则是“用正确的方法做对的事情”，希望通过理性设计(rational design)来构建可理解、可解释的模型，用以解决实际的生物学问题。

例如，早期我们曾尝试借鉴图像学习领域的CycleGAN模型，使用循环一致性损失（cycle-consistency loss）来保证非配对多模态数据整合的准确性，但我们反复琢磨后意识到CycleGAN模型并不是完全依赖循环一致性损失保证整合正确性的，图像领域基于卷积的特殊编码、解码网络结构等图像领域的先验知识对于结果正确性有着不可替代的重要作用，这让我们意识到在数据整合中先验知识的重要性，进而提出了基于图模型在神经网络中引入组学数据先验信息的思路；与此同时，我们通过在模型设计中创造性地引入了非线性编码器(Encoder)与线性解码器(Decoder)组合，在提高计算效率的同时显著改善了结果的可解释性，这也成为了最终采取的图耦联(Graph-linked)策略的雏形。

在这个过程中我们也碰到了若干困难，如在百万级细胞图谱整合的工作中，发现我们的整合结果与原文作者给出的注释存在不一致的情况。很长一段时间里误以为是我们搞错了，经过反复检查才得以确认我们的结果是正确的的，最终这些结果也得到了原文作者的认可。

回头来看，这段经历不仅让我们有机会系统性地检验了整个工作，也进一步坚定了我们对所采用的从基础出发、理性设计模型而非简单修补以“炼丹”(Making it right before making it better)这一基本理念的信心。

PART.4

模型的设计是非常重要的

基因慧：请问咱们这项研究的整体周期多长，在哪个阶段花费的时间最长呢？

高歌团队：GLUE从开始构思到完成工作开始写稿花了两年半的时间，2/3以上的时间（约20个月）都是花在前期模型设计、试错和性能评测上；这些工作打了非常好的基础，后续的这些应用实例花的时间反而相对较少。

事实上，我们认为模型的设计是非常重要的；如果模型对了，那么应用实例应该花不了太多时间，而如果基础模型有缺陷，在应用实例上花再多的时间意义也不大。

PART.5

把问题想清楚有时比盲目“炼丹”更有意义

基因慧：读者还比较关心目前GLUE框架能够应用到哪些实际的分析中？未来优化方向是什么？

高歌团队：对于跨模态数据整合，如果不同模态的特征关系存在先验知识，理论上都可以应用GLUE来完成整合。GLUE在设计上引入了模块化思想，可容易地扩充以支持如单细胞Ribo-seq、空间转录组等更多组学类型数据整合。

目前，GLUE所有代码均已开源发布，可以作为一个通用的框架支持进一步的开发与优化(https://github.com/gao-lab/GLUE)。

我们鼓励并期待来自生物信息学、基因组学、数据科学和AI研究等领域的专家和人才充分碰撞与合作，在GLUE的基础上进一步引入、改进或设计全新的计算模型，来充分地挖掘海量单细胞数据中隐藏的生命科学新现象、新规律与新法则。

PART.6

理解生命的规律

基因慧：从发表的论文中可以看出团队的严谨、用心以及对于生命科学领域的使命感，请问您有什么想要对在这一领域或者想要从事单细胞领域的研究者说的呢？

高歌团队：作为生命科学工作者，我们的最终目标是理解生命的规律从而为人类服务。随着以深度测序为代表的高通量测量技术迅猛发展，当今生命科学研究正在快速进入“大数据时代”，为此我们需要发展新计算模型方法以更好地解读这些宝贵的生命信息。

在此过程中的关键是要“用正确的方法做对的事情”——计算手法可以复杂、但模型应该是可以理解的(understandable)；计算过程可能繁复、但结果需要是可以解释的(interpretable)，把问题想清楚很多时候比盲目的“炼丹”更有意义。

PART.7

工作的顺利推进需要多面支持

基因慧：本次的研究是由国家重点研发计划、蛋白质与植物基因研究国家重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室资助，大规模计算分析工作在北京大学高性能计算校级公共平台和北京大学太平洋高性能计算平台完成。针对政、产、学、研的合作，您有什么想要分享的体会和对未来的合作期待？

高歌团队：一个工作的顺利推进需要多面的支持。

在GLUE开发的过程中，我们不仅得到了来自各个方面经费的支持，更重要的是与各位同仁的讨论，如张泽民、陶乐天、邓明华、张强锋等各位老师在计算方法上的宝贵意见，谢晓亮、汤富酬、李程、黄岩谊等老师在单细胞多组学技术与应用方面的关键启发都令我们受益匪浅。同时高效稳定的高性能计算平台对于确保大规模验证工作的快速推进也至关重要。

而这一切都离不开一个开放、交叉、包容的智力环境与技术驱动、面向前沿、追求卓越的学术精神。

PART.8

欢迎多领域专家的合作

基因慧：2009年以来，高通量单细胞测序发展了13年，近年也在单细胞多组学、时空组学方面有长足发展。部分企业也在将单细胞技术转化到辅助生殖、癌症CTC早筛方面，对于未来单细胞领域在临床的应用展望，您认为最有可能落地是哪些场景？对此，咱们生物信息方法可以从哪些方面着手解决应用转化的问题？

高歌团队：细胞是构成生命的基本单元，细胞中多种调控机制造就了机体中功能形态丰富多样的细胞群体，并进而构成了早期发育、肿瘤发展等多种关键生理病理现象的生物学基础。随着单细胞多组学技术的迅猛发展，人们在历史上首次有可能从整体上构建解析细胞调控图谱、在计算机中建立细胞调控的高精度模型，从而全面理解细胞在病理状态和生理状态之间的差异，并精准锁定诊断标志物和治疗性靶点。
如我们通过对近五千万个单细胞数据的整合构建了基于大数据的细胞-表型关联鉴定CWAS (Cell-Wide Association Study)，可以针对数百个细胞类型及其组合系统寻找鉴定其与特定生理/病理表型之间的定量关联，进而实现基于细胞调控图谱的疾病早筛/早诊。
作为生物信息学工作者，我们实验室在持续开展世界一流的生物信息学方法与技术开发研究的同时，十分欢迎来自各个领域的专家学者与我们共同合作将基础方法研究的成果加速转化为后续生物医学的应用，为改善人民的生命健康做出自己的贡献。

PART.9

论文作者介绍