Biohub 的蛋白质「世界模型」:它和 AlphaFold 类结构预测差在哪

Biohub 开源了一套蛋白质世界模型,核心卖点是设计出在真实实验里有功能的结合体,而非再做一次结构预测。它的可信度边界在 binder 这一小块。

Biohub 的蛋白质「世界模型」:它和 AlphaFold 类结构预测差在哪
图 / Unsplash

概述

5 月 27 日,Biohub(全名 Chan Zuckerberg Biohub,Zuckerberg 夫妇资助的 501(c)(3) 非营利研究机构)开源了一套被它称为「蛋白质生物学世界模型」的东西:三个组件,ESMC、ESMFold2、ESM Atlas。值得拆开看的地方在于,它把生物 AI 的命题往前推了一步,而不只是「又一个结构预测模型」。AlphaFold 那一代解决的是「给定序列,预测它折成什么形状」;Biohub 这次的核心主张是「我设计一段全新的序列,它在试管里真的能按预期结合靶点」。

这个区别是实打实的。公告里报的硬数字落在一个很窄但很关键的领域:针对癌症和免疫学的五个靶点设计蛋白结合体,紧凑型 minibinder 的命中率 36-88%、抗体衍生格式 15-29%,且都在实验室确认了结合。一个本来要 3 到 4 年的临床前结合体候选搜索,被压到「数天」级的计算。它真正的价值在能不能做出有功能的设计,而不是又刷高一个基准分。但「世界模型」这个词被用得有点大,它学到的更像是蛋白这一层的物理规则,可信度边界目前牢牢锁在 binder 设计这一小块。

发生了什么

Biohub 一次放出三件套,定位是一个开放的「发现引擎」:

ESMC 是底座,一个表示蛋白质的语言模型,训练数据约 28 亿条来自全生命之树的序列。它的核心科学假设是:让一个语言模型去预测进化所选择的氨基酸,它就会内化支配蛋白如何折叠、相互结合、发挥功能的底层规则,因为进化倾向于保留「合用」的蛋白,几十亿年沉淀下来的序列模式里就隐含了这些物理规则。

ESMFold2 是设计引擎,把 ESMC 的序列表示转成原子级精度的 3D 结构,包括蛋白复合物。公告说它在标准折叠基准上领先,尤其在蛋白-蛋白和抗体-抗原相互作用预测上:仅凭 ESMC 的表示,它预测抗体-抗原真实结合位姿的成功率就高于 AlphaFold 3;补上同样的进化信息(MSA)后,它在两项基准上都最强。它还能吃更多算力,让模型多次预测再按自身置信度打分,精度会随算力提升。

真正撑起立论的是设计实验。在一篇预印本里,Biohub 用 ESMFold2 对五个靶点设计结合体:EGFR 和 PDGFRβ(与肿瘤生长相关)、PD-L1 和 CTLA-4(癌细胞用来逃避免疫的检查点)、CD45(免疫细胞信号调节器)。命中率前面已列,关键的一条是:针对 PD-L1 设计的结合体,在实验里恢复了 T 细胞信号,阻断的正是已获批检查点疗法瞄准的同一条通路。公告还强调,这些设计与公共数据库里的已知序列相似度极低,说明模型是在从头(de novo)生成,而不是检索已知的结合体。

ESM Atlas 是第三块,把 ESMC 的表示铺到 68 亿条蛋白序列、11 亿个预测结构上,按模型学到的关系组织,能浮现现有数据库没捕捉到的连接,比如分布在生命树遥远分支上的基因编辑酶之间的进化关联。三件套全部在 Biohub Platform 免费开放,HN 上有人确认模型挂的是 MIT License。

为何重要

把这件事放进上下文:过去几年生物 AI 的主旋律是「预测静态结构」。AlphaFold2/3 把「序列到结构」做到了惊人的水平,但它本质是在描述一个已经存在的蛋白长什么样。从「预测一个已有的东西」到「设计一个不存在的、且要在真实生物体系里有功能的东西」,中间隔着一道真正的鸿沟,因为后者要求模型不只是记住形状,而是把握「什么样的界面才能产生有效结合」这种功能层面的规则。Biohub 的主张就是它跨过了这道沟,而且拿出了湿实验数据,不只是计算指标。

这一步为什么是判断而非炒作,关键在它绕开了「又一个 benchmark」的陷阱。结构预测领域这些年最大的认识是:基准分高,不等于在真实生物里管用。HN 上一位制药从业者把这点说透了:AlphaFold2 很强,但它的训练数据全来自单一状态的 X 射线晶体学,那不是蛋白在体内真实的行为方式,所以预测「什么和什么结合」依然是个几乎没解决的问题,根子在没数据。Biohub 报的不是又一个结构 RMSD 跑分,而是「设计出来的东西在试管里按预期工作了」,Alex Rives 的原话也卡在这一点上:模型学到的世界模型保真到了能在计算里设计蛋白界面、拿进实验室、它真的如预测般工作。如果这批湿实验结果经得起独立复现,那这确实是从「描述生物」到「编程生物」的一次实质推进。

但要给「世界模型」这个词降一档温。它没有学到细胞、组织、整个生物体那一层的动态,它学到的是蛋白这一层、由进化序列隐含的物理规则。它能做的是设计一段能折叠、能结合的蛋白,做不到的是预测这段蛋白进了活体之后的系统级后果。HN 上有人反复提醒生物比硅基「更黏、更怪、更不可预测」,这话对模型的适用边界是成立的:它在 binder 这个相对干净的子问题上跨了一步,不等于它对整个生物学有了世界模型。

对建设者的影响

如果你在做药物发现或蛋白工程,这是一个值得现在就上手评估的工具,而且门槛低:三件套开源、MIT 许可、平台免费。最直接的用法是把早期结合体筛选从经验性的湿实验海选,换成计算引导的设计,再拿少量候选去实验室验证。抗体类疗法占了新批准 FDA 药物的约四分之一,而一个临床前结合体候选通常要 3 到 4 年,任何能把前端搜索从月/年压到天的工具,杠杆都很大。

评估时要把可信度边界划清楚。ESMFold2 擅长的是肽段和结合体这一级,不是大的大分子复合物,HN 上的从业者对此有明确共识。原子级精度仍是 hit-and-miss:有人指出预测或设计出的活性位点可能和真实结构差一两个侧链,而这足以改变相互作用怎么被解读。所以正确的工作流是「模型出大量计算候选 → 湿实验做硬过滤」,而不是把模型输出当成可信结构直接往下推。命中率 36-88% 这个区间本身也说明了这点:在好的靶点上很高,但远不是稳定的高,选型时要按你具体靶点的难度打折。

还有一件要核对的事是许可与机构性质。模型挂 MIT 是好消息,真正可商用可改;但 Biohub 是非营利机构,HN 上有人直接拿 OpenAI 类比,提醒「非营利」三个字这些年含义变得很滑。对要把它嵌进商业管线的团队,值得去平台逐个组件核对许可条款,别只凭一句「免费开放」就假设无限制。

该忽略什么

忽略「世界模型」这个词的字面野心。它不是细胞或生物体层面的世界模型,不能模拟一个蛋白进入活体后的系统级动态。公告自己的措辞其实很克制,说的是蛋白这一层的物理规则;真正被放大的是「世界模型」这个标签的联想。把它读成「AI 现在能模拟整个生物学了」是过度解读,它跨的那一步具体而有限:在蛋白结合体设计这个子问题上,从预测走到了能产功能的设计。

忽略「干掉 AlphaFold」式的标题。和它一起发的 Nature 报道标题就是「Move over, AlphaFold」,但「在某选定基准上抗体-抗原位姿预测胜过 AlphaFold 3」是一个很具体的窄断言,不是全面替代,而且是 Biohub 自报、独立复现还没出来。结构预测领域的工具往往是互补而非取代,AlphaFold 一脉的优势领域、训练设定、可用性都还在。把单项基准上的领先读成「AlphaFold 被淘汰了」,既不准确,也会误导选型。

忽略「HN 评论少所以这事不重要」的反向噪音。这帖只 155 赞、评论不多,但热度从来不是重要性的证据,何况帖子发在美国周六深夜这个低流量时段,HN 上自己人也在讨论这点。这件事该不该认真看,取决于那批湿实验数据能不能被独立复现,而不取决于它在 HN 上引发了多少软件工程师的评论。

常见问题

ESMFold2 的许可证能商用吗?

Biohub 公告说三件套(ESMC、ESMFold2、ESM Atlas)在 Biohub Platform 上对全球科研者免费开放。HN 上有人确认模型挂的是 MIT License,这是真正可商用、可改的开源许可,在这个子领域比带限制的学术许可更干净。但公告本身没逐一列出每个组件的许可条款,商用前仍要去平台逐个核对。

ESMFold2 在抗体-抗原预测上真的强过 AlphaFold 3 吗?

按公告的说法:仅凭 ESMC 的序列表示,ESMFold2 预测抗体-抗原复合物真实结合位姿的成功率高于 AlphaFold 3;给它和 AlphaFold 相同的进化信息(MSA)后,它在两项基准上都是最强。注意这是 Biohub 自己报的、基于其选定基准的结果,独立复现还没出来,「最强」这个结论的可信度要等第三方评测。

ESMFold2 做不到什么?

HN 上做制药的从业者点了两处:一是大的、复杂的大分子复合物现在仍预测不好,模型擅长的是肽段和结合体这一级;二是原子级精度仍是 hit-and-miss,设计出的活性位点可能和 X 射线/冷冻电镜解出的真实结构差一两个侧链,而这足以改变相互作用的判读。它把早期搜索从月/年压到天,但不替代湿实验验证。

来源

  1. Biohub 发布蛋白质生物学世界模型 / official
  2. Biohub releases a world model of protein biology(Hacker News,155 赞) / hn