近日,国内 Genos 团队发布全新基因组模型插件 Gengram,将 DeepSeek “外挂大脑” 模式引入生命科学领域,通过构建 “基因字典” 与动态检索机制,大幅提升基因组大模型性能,助力破解 DNA 序列密码,推动生命科学研究迈入新阶段。
当前主流基因组大模型多采用单碱基分词处理方式,将 DNA 序列拆分为单个碱基分析,虽精准却效率低下,易在数亿碱基长序列中丢失关键信息,难以高效识别启动子、剪接位点等由特定碱基组合决定的功能元件。针对这一瓶颈,Genos 团队借鉴 DeepSeek Engram “外挂大脑” 思路,创新推出 Gengram,实现 “静态模体识别” 与 “动态语境推理” 的结构解耦。
Gengram核心在于构建外置 “基因字典”,团队预建涵盖 1 至 6 碱基长度的哈希字典,存储生物学常见短序列组合,模型读取序列时可直接检索先验知识,无需从零推导。同时配备动态门控机制,在编码区、关键调控区激活记忆库调用,在无功能背景区抑制检索,精准分配算力,减少无效计算。
测试中,Gengram 展现出惊人的生物学适配性。研究发现,当局部信息聚合窗口设为 21bp(碱基对)时模型性能最优,这一数值恰好对应 DNA 双螺旋旋转两圈的长度,让模型处理一维序列时能捕捉三维空间中碱基的协同作用,自主悟出 DNA 双螺旋物理规律,实现对生命本质的深度理解。
作为仅约 20M 参数的轻量插件,Gengram 以小体量撬动大性能。数据显示,搭载该插件的模型刷新多项基因组任务 SOTA 记录,剪接位点识别等任务 AUC 提升 16.1%;且数据能效比突出,小规模训练数据即可媲美甚至超越训练数据规模数十倍的公开模型。此外,在 MoE 模型中,Gengram 还能优化负载均衡,提升模型训练与推理效率。
目前,Gengram 已应用于华大基因遗传病临床检测大语言模型 GeneT,助力提升遗传病分析解读水平,推动精准医疗发展。该技术基于团队去年 10 月发布的全球首个百亿级人类基因组基础模型 Genos 研发,背后是之江实验室与华大生命科学研究院的强强联合,融合顶尖组学大数据经验与计算模型能力,打造出杭州 AI for Science 领域的创新力量。
从逐字识别 ATCG 排列,到借助 “基因字典” 读懂序列含义,Gengram 的发布标志着基因组 AI 研究实现关键跨越。未来,随着技术持续优化,Gengram 有望拓展至蛋白质结构预测、药物靶点发现等领域,为生命科学研究与临床应用提供更强大的 AI 工具,助力人类真正读懂 “生命之书”。