我国团队研发,全球首个基因挖掘大模型 SYMPLEX 问世
GoodNav 4月14日消息,随着生物测序技术的进步,全球自然基因库已积累了数十亿条序列,蕴藏了大量高价值的功能基因。然而,目前只有少数明星基因得到了深入研究,大部分基因仍处于“沉睡”状态。
4月9日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室及合成生物学研究所的娄春波团队,与北京大学定量生物学中心的钱珑团队合作,在国际期刊Science Advances上发表研究论文,揭示了全球首个专注于合成生物学元件挖掘与生物制造应用的大语言模型——“SYMPLEX”,并展示了该模型在mRNA加帽酶基因挖掘中的应用,展现了大语言模型在生物制造中的巨大潜力。
该模型通过整合领域大语言模型训练、合成生物专家知识对接与大规模生物信息分析,实现了从海量文献中自动挖掘功能基因元件,并精准评估其工程化应用潜力。
研究团队将SYMPLEX用于mRNA疫苗生物制造中的关键酶——加帽酶的挖掘,成功获得了多种高性能的新型加帽酶。第三方公司的实验验证显示,这些酶的催化效率超过了全球领先企业New England Biolabs(NEB)商业化加帽酶的两倍,显著提升了mRNA疫苗的生产率和成本效益。
研究团队创新性地将大型语言模型(LLM)与结构化生物知识库深度结合,开发了SYMPLEX智能基因挖掘平台。
SYMPLEX是一个强大的功能基因搜索引擎,通过自动化阅读和理解数千万篇生物学文献,提取和分析基因、功能及知识层面的内容,并与专家数据库进行概念对接、互动以及基于先进生物信息技术的统计模式生成,提供证据链完整的高质量候选基因集合。
SYMPLEX不仅有效避免了大语言模型的幻觉问题,还能自动生成与基因功能相关的细粒度知识树,引导科学家探索多样的生物机制与分子过程。
对比结果显示,SYMPLEX大模型在挖掘基因的深度、数量和多样性上明显优于传统生物信息学方法,其挖掘的基因多样性也超越了现有蛋白质功能预测模型的界限。
目前,SYMPLEX在线交互式平台已开放供研究人员免费使用。该平台采用模块化设计,提供三个核心功能:
-
(1)文献智能提取引擎PubEngine:支持高通量的文献智能检索分析与可视化交互。
-
(2)基因功能标注系统GeneTagger:实现从分子机制到生物过程的细粒度自动化基因与功能抽取。
-
(3)标准化知识中枢GeneNorm:实现与专家知识库的概念对接与标准化,支持知识树构建和功能模式识别。
附论文链接: