Science Advances | 钱珑团队推出功能基因深度挖掘大模型SYMPLEX,推动生物制造与合成生物元件开发

2025-04-10 10:12:22

202549,北京大学定量生物学中心钱珑团队在国际学术期刊Science Advances上发表题为Discovery of Diverse and High-quality mRNA Capping Enzymes through a Language Model-enabled Platform的研究论文,报道了全球首个面向合成生物学元件挖掘与生物制造应用的大语言模型SYMPLEX。该模型通过融合领域大语言模型训练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件并精准推荐其工程化应用潜力。团队与中科院深圳先进技术研究院娄春波研究员合作,将SYMPLEX应用于mRNA疫苗生物制造关键酶——加帽酶的挖掘,成功获得多种高性能新型加帽酶。通过第三方公司实验验证显示,这些酶在催化效率上超越国际头部企业New England BiolabsNEB)商业化加帽酶2倍以上,显著提升了mRNA疫苗生产的产率和成本效益。此项成果不仅为合成生物学元件设计提供了AI驱动的新范式,更展现了大语言模型等人工智能技术在生物制造中的突破性应用前景。

原文链接: https://www.science.org/doi/10.1126/sciadv.adt0402

 

破局传统:功能基因深度挖掘的大语言模型

天然生物基因组编码海量的功能基因,这些基因在长期进化选择过程中,占据了广泛的序列空间,并发展出精巧多样的功能活性,为生物体在复杂环境中的生存和繁衍提供了独特优势。随着测序获得的生物序列累计达数十亿量级,这些潜在的功能基因也为生物制造和合成生物技术提供了基因元件的“宝库”。然而,尽管天然基因具备极为丰富的功能和应用潜力,目前只有一小部分热门的功能基因(如基因编辑工具酶)被高质量注释并构建了序列或结构模型。因此,基于序列、结构或深度学习的基因挖掘和蛋白质设计方法无法拓展至复杂功能基因,限制了对高价值基因元件的挖掘与开发利用。

针对上述问题,团队创造性地将大型语言模型(LLM)与结构化生物知识库深度融合,开发出SYMPLEX智能基因挖掘平台(图1SYMPLEX是强大的功能基因搜索引擎,它通过自动化阅读和理解千万级体量的生物学文献,在基因、功能和知识水平上对文献内容进行提取分析,并与专家数据库进行概念对齐、交互和基于先进生物信息技术的统计模式生成,从而产生证据链完整的高质量候选基因集合。不仅有效规避了大语言模型幻觉,还能自动生成基因功能相关的细粒度知识树,引导科学家探索广泛的生物机制和分子过程

对比结果表明,SYMPLEX大模型相比传统的生物信息学方法在挖掘基因的深度、数量和多样性上具有显著优势,而其基因多样性也超越了现有蛋白质功能预测模型的预测边界(图2)。

 

1 SYMPLEX大模型的技术路线及其与传统基因挖掘流程的对比。

 

 

2 SYMPLEX挖掘结果多样性对比和细粒度知识树生成。

 

应用案例:解锁mRNA疫苗高效生产的蛋白质密码

近年来,mRNA疫苗以其高效、可快速开发等特点在全球抗疫中发挥了关键作用。然而,mRNA疫苗背后的一项关键工艺——mRNA 5端加帽(capping),却一直是一个效率较低、成本高昂的“卡脖子”环节。加帽过程对于稳定mRNA、促进翻译和减少免疫反应至关重要,而目前mRNA疫苗生产工艺中使用的仍是传统的痘病毒双蛋白(Vaccinia D1/D12)加帽酶,选择极为有限且价格昂贵。

团队应用SYMPLEX大规模挖掘mRNA 加帽酶,并进行了实验验证。SYMPLEX 通过生物学文献的批量处理和生物信息分析,识别出16,685个与 mRNA 加帽相关的基因,并进一步筛选出75类(18,779 条序列)高置信度的完整加帽酶基因。经过46种候选基因实测,获得14种可在哺乳动物和酵母细胞中稳定发挥作用的加帽酶,以及2种体外活性比商业化痘病毒加帽酶高两倍的新型加帽酶(图3)。值得一提的是,本工作挖掘的新型加帽酶与已知加帽酶的序列相似性低于20%,且编码序列长度缩减30%,有望为mRNA疫苗和基于mRNA的基因疗法研究提供关键使能技术。

SYMPLEX的挖掘还揭示了加帽酶在自然界中多样的构型与进化策略。研究发现了加帽酶TPase功能域的桶状外围结构的保守与可设计区间,以及MTase功能域新的酶活中心模体。这些发现表明,SYMPLEX的基因挖掘能力有助于理解自然界各种生物过程的多样化策略,还可提供高质量数据集服务于酶的理性工程优化或生成式蛋白设计。

 

3 候选加帽酶在细胞体系和体外转录体系中表现出跨物种、跨体系的高加帽效率。

平台赋能:合成生物制造的"智能基座"

目前,SYMPLEX在线交互式平台已上线,供研究人员免费使用(https://bdainformatics.org/page?type=SYMPLEX(图4。平台采用模块化设计,提供三个核心功能:

1)文献智能提取引擎PubEngine:支持高通量的文献智能检索分析与可视化交互;

2)基因功能标注系统GeneTagger:实现从分子机制到生物过程的细粒度自动化基因与功能提取;

3)标准化知识中枢GeneNorm:实现与专家知识库的概念对齐与标准化,使知识树构建和功能模式识别成为可能。

各模块既可无缝协同实现高效数据流转,又能独立运行,以期加速功能基因挖掘以及蛋白质设计。平台现有注册用户200余人,2024年访问量达6000余次。

3E8EB2

4 SYMPLEX平台示意

本项研究开创了功能基因深度挖掘的新范式,利用LLM高效推动生物知识转化,为mRNA疫苗规模化生产提供了关键酶资源库。团队正在利用SYMPLEX进行更多可用于生物制造和合成生物学的关键酶元件的挖掘,并将该平台拓展至合成通路设计等领域,有望推动生物制造进入"AI for Science"的新纪元。

北京大学钱珑研究员和中科院深圳先进技术研究院娄春波研究员为本文的共同通讯作者。北京大学定量生物学中心为本文第一通讯单位。北京大学王天泽、覃博文、厉思宏,和中科院深圳先进技术研究院王子陌为共同第一作者本研究获得了浙江大学欧阳颀教授团队和北京远轩科技有限公司的大力支持。本工作由国家重点研发计划、国家自然科学基金和北京市重点基金共同支持。