正文共4498字,预计阅读时间约为15分钟

可点击右上角小圆点“听全文”~

编者按

2024年被戏称为诺贝尔奖的“AI元年”,三项经典自然科学诺奖(生理、化学、物理)中的两项竟然都颁发给了AI有关的科学家。

在AI迅速发展的今年,“AI抢科学家饭碗”的议论也越来越多,面对AI,科研工作者是焦虑还是欣喜?大院er收到了一位生物学研究从业者的一些感悟。

欢迎大家在评论区留下自己的看法!

作为一个研究生物分子传感技术的“萌新”(四舍五入也算半个“生物狗”了),今年的诺奖奖项里,最让我觉得欣喜的是化学奖:AI辅助蛋白设计。

美国科学家Jumper开发的AlphaFold系列蛋白质结构预测工具最近席卷了半个生物分子研究圈子。而大卫·贝克进行的从头设计蛋白(De-novo protein signing),及基于AI的蛋白结合蛋白(PBP)设计思路则更是有可能颠覆现代生物分子传感基础的一套全新工具。更令人欣喜的是,人工设计具有分子识别功能的蛋白质这个领域从“无人区”到获得诺奖,大概只经过了十年。而这,很可能只是一场大范围变革的序幕。

今天我要介绍的故事聚焦在AI对生物分子传感研究的影响上。

生物分子传感是干啥的

“生物分子传感”这个名词看似高深,其实我们平时去医院做的很多检查都用得到。原理大致是这样:

生物传感的基本原理图,需要高性能分子探针(特别是抗体)的识别及后续的反应、换能的步骤,最终才能生产可分析的数据 。

(图片来源:自制)

它的本质就是探测血液、唾液、细胞、组织等生物样本内的某种特定分子,并将这种分子信号转化为更容易被观测的光、电信号的过程。而在这个过程中,分子的识别、反应与信号的探测都是至关重要的因素。信号探测原件的灵敏度、反应器件的构型和分子识别原件的准确性共同决定了一个生物传感器的探测性能。

经过近半个世纪的努力,微弱光电信号的探测问题已经有相当多的解决方案。此外,在分子反应层面,各类微流控器件层出不穷,反而是分子的识别工具迭代速度则稍显缓慢,甚至已经成为了生物分子传感器“木桶上最短的那块板子”。在目前的实际应用中,分子识别的过程大量依赖抗体这类本质上也是蛋白质的工具。而在AI出现之前,抗体的生成、筛选流程步骤复杂且成本高昂。更为严重的是,对某些特定的分子(如毒品等小分子或复杂一些的蛋白质)甚至完全无法产生出堪用的抗体。

但是,AI辅助的抗体设计方法很有可能会在生物分子传感研究中掀起一场风暴。

AI蛋白预测的基础:结构,结构,还是结构

说到抗体的设计,就不得不先来聊聊它的工作原理。科学家们常将抗体与抗原蛋白的对接方式比喻成钥匙和锁的关系。虽然后面的研究中发现这种比喻忽略了氢键等非共价键的影响,但还是说明蛋白之间的结合能力,与其结构的互补性高度相关。因此,科学家们提出了一个假说:精密测量抗体等蛋白质不同亚区域的结构,能有助于我们深入理解这些“蛋白工具”的通用运作机理。由此,结构生物学研究轰轰烈烈地走到了科学舞台的聚光灯下。

而要想研究蛋白的三维结构,到目前为止,科学家手里的“武器”只有早期常见的X光衍射技术和近些年发展起来的冷冻电子显微成像技术。无论采用哪条技术路线,使用的原料蛋白均需较高程度的提纯,以及较为复杂、专业的后期信号分析处理。这都使“解蛋白结构”成为了一个公认的高门槛技术。而解更大、更复杂的蛋白复合物或膜蛋白结构,则成为了“绣花技术”比赛中最夺目的那个标的(因为难以形成结晶,解蛋白复合物结构这种任务甚至于只有冷冻电镜才能完成)。这样的研究确实给科学界带来了许多实打实的新科学发现,但其中耗费的人力物力,同样也是巨大的。

基于冷冻电镜(Cryo-EM)技术的蛋白质结构研究,需要较为复杂的蛋白质纯化、高分辨率成像、后期结构重建等工作。

(图片来源:Nature)

如果前文提到的AI辅助蛋白结构分析方法不出现,类似“淘金”的结构生物学研究模式也许还会再持续几年。但2020年以来,逐渐脱颖而出的谷歌Deepmind AlphaFold系列技术,已经像是这个游戏中“掀桌子”的那个人。目前最新迭代的Alphafold3是最容易获取,也是最受普通生物研究人员欢迎的蛋白结构预测工具。基于一段输入的氨基酸序列(就像输入一段文字),即可生成较高可信度的蛋白质结构预测(AI到底是怎么做到的,请看这里)。除一些较为复杂的跨膜蛋白、多结构域蛋白及多种蛋白组成的复合物之外,获取很多的蛋白结构信息已经可以不需要冷冻电镜实验。

不过,特别值得说明的是,AI的结构预测仍然需要建立在前期的实验结果之上。建立AI模型所需的原始数据,有极大的比例都来自于前期采集的冷冻电镜蛋白结构观测研究以及蛋白质相互作用研究。因此,说结构生物学是AI蛋白结构预测的基石也并不为过。在此,我们对所有上手做实验获取数据的科学家致以崇高的敬意!

AI让我们变成“造物主”

除了单纯的结构信息之外,近些年David Baker等科学家还开发了一些工具可以更准确地预测蛋白质之间的相互作用强度(如亲和力等),为大型多蛋白复合物建立更精确的结构与功能模型,而这正是对我的研究帮助最大,且可能在今后产生巨大影响力的领域之一。

我在这里给大家介绍一个发生在我身边的AI帮助生物分子传感研究的例子。这个故事还要从生物分子传感中最常用的探针分子——抗体开始讲起。

在我们的工作中,经常需要对某个蛋白标志物(如传染病的抗原蛋白)进行高特异性的精准定量,这就需要对这个特定的目标开发出能结合在不同空间位点的两个或更多的抗体,以形成可以组成“三明治结构”的抗体对。生活中常见的验孕棒,新冠抗原试纸、艾滋病试纸以及科学研究中常见的ELISA大多基于是基于这样的分子原理。

三明治结构免疫分析的示意图。对大蛋白目标而言,往往需要两个抗体分别结合其不同的结构区域。

(图片来源:自制)

在AI时代来临前,生产、验证这种高特异性抗体的工作可是一个不折不扣的苦差事。

生产这些抗体的工作流程复杂。具体而言,研究人员首先制备重组抗原(目标蛋白质或其片段),并多次注射入实验动物体内(如小鼠、兔子或山羊)。实验动物的淋巴系统将这些外来蛋白识别为抗原,触发B淋巴细胞的“超突变”,进而产生多种针对这些抗原的抗体(即多克隆抗体)。上述过程的本质是将实验动物的免疫系统看成了一个“碳基计算机”,输入的是一个抗原,输出的则是对应的抗体。

为了提高抗原表位的确定性,技术人员经常需要从免疫动物的脾脏中提取B淋巴细胞,与永生化骨髓瘤细胞融合,形成单克隆杂交瘤细胞系。最后才是将杂交瘤分泌的抗体送去进行各方面测试。经常还难以确保抗体与对应抗原的具体结合位点,其费效比非常低。经常是筛选了几千上万个细胞,才能获得一个潜在的抗体分子。因此,有不少研究人员戏称,抗体的生成控制,决定权掌握在老天爷的手里。

David Baker课题组研发的蛋白结合蛋白(PBP)设计方法,甚至可以找到一些可与传统上认为被遮挡或不易结合区域结合的分子。

(图片来源:Science)

在目前的研究中,特别是多种基于不同传感原理的单分子级别的蛋白探测技术诞生以来,我们对抗体探针性能的需求变得更加经常多种多样,有时需要高亲和力、高特异性的抗体。而个别时候则需要特异性极好,但亲和力较低的抗体。在另外的一些情况下,我们还需要对抗体与目标分子的结合位置及方向做精确的调控。目前最常用的动物免疫法生产的抗体很难满足差异化如此之大的需求,这也成为了生物分子传感技术研究的瓶颈之一。

国际歌中唱道“从来就没有什么救世主,也不靠神仙皇帝,要创造人类的幸福,全靠我们自己”,而正是人类科学家研发的AI工具正在逐渐尝试解决这些问题。

正如前文所说,蛋白之间的结合能力,与其结合区域局部结构的互补性高度相关。而这两三年以来,首先取得突破的正是AI计算潜在可结合区域的工作。普通的研究者目前已经可以把已知的抗体序列与已知的抗原序列直接输入Alphafold等平台,即可直接获取这个特定的抗体与对应抗原的空间结合位点。把两个以上的抗体同时放进去,就有望找到没有空间遮挡,可以匹配使用的抗体对。这大大降低了筛选抗体对的难度和所需的工作量。我目前在研究中就经常会把潜在的抗体序列输入Alphafold,以验证其结合位点是否与我们预想的相同。

而今年获得诺贝尔化学奖的David Baker教授,正在突破的技术壁垒意义更加重大。2021年,他们为蛋白结合蛋白(Protein Binding Protein, PBP)的设计开发了通用方法,能够针对蛋白的任意感兴趣表面区域设计相应的结合蛋白。甚至于一些传统上被认为不可结合,或在结构上被“深度隐藏”的区域也可以设计出亲和力相当可观的结合蛋白。在新冠疫情中,AI辅助的“抗体设计”就小试牛刀。2021年,Baker团队成功从头设计了亲和力达到皮摩尔级别的新冠病毒小蛋白抑制剂,且表现出了很好的热稳定性,这一成果充分证明了计算机从头设计蛋白具有超越“自然设计”的潜力,也标志着抗体类结合蛋白的设计、生成,由“黑箱”式的碳基计算,走向了更加可控的“硅基计算”。

传统方法与人工智能方法在抗体生成过程上的区别

(图片来源:自制)

如果上述基于AI的技术方案能够进一步实用化并广泛推广,总有一天我们可以直接输入我们想要检测的抗原序列,AI直接给你提供多种有不同结合位点、不同结合亲和力的抗体方案,供你在不同应用场景下选择。从某种程度上讲,这些研究是把设计具有功能性的工具蛋白,从“造物主的工作”变成了“生物狗的工作”。

AI不一定是职业杀手,还有可能是解放生产力的工具

人工智能技术的发展并不必然意味着传统行业从业者走向“失业”,甚至可能是另一次突破的契机。以我的感受而言,AI蛋白设计工具,很大程度上把我们从繁复、无聊,近似“炼丹”的试错过程中解脱了出来,实打实的提高了生产力。

以生物传感方面的研究为例,使用传统的抗体探针,其亲和力、结合表位不尽可控,与磁珠、金属、聚合物等传感器件的结合也经常依赖难以精准控制的化学偶联及物理吸附。但当蛋白成为可设计、可预测、可组装的分子原件后,我们完全可以在更高的水平上加强抗体等分子探针与传感器硬件之间的联系。在分子层面上也有希望获得除了分子浓度外的其他功能性信息。这些信息类型包括但不限于目标分子突变、多聚化、刺激活性、中和/抑制能力等。如果真的能实现上述突破,作者自己研究的生物分子传感等长期处于瓶颈的领域很可能会迎来“第二春”。

此外,各种不断侵扰人类的病原体也一直在提示我们,高效率疫苗的研究依旧是一项很有意义的研究课题。AI完全有可能辅助预测各毒株的突变方向,有针对性的设计多价重组蛋白疫苗,从根本上改善流感、新冠等快速突变传染病疫苗效率低下的问题。

目前的大语言模型或其它大模型,尚未完全接入我们的真实世界。这也就意味着,无论它预测、计算出了怎样的分子,都还是需要在真实世界中进行实验验证以确认他们的真实性能。而在AI的帮助下,科学家也有可能从工作量巨大的筛选实验中解脱出来,有更多的时间思考下游的实验设计。

AI还不能做什么?AI自己是怎么看的?

为了平复某些人的焦虑心情,针对人工智能在生命科学中的局限性,我们也询问了ChatGPT本人的意见。以下是GPT4的回答。

“人工智能(AI)在现代生命科学研究中取得了显著进展,但仍有许多领域无法完全胜任。一方面,AI难以全面理解复杂的生物系统。生物学中涉及多层次、多尺度的动态相互作用,例如基因、蛋白质、细胞和生态系统的相互影响,这些远超单纯数据分析的范畴。AI虽然擅长模式识别,但对复杂系统的因果关系建模和动态机制的解释能力仍显不足。另一方面,AI在科学创新性上存在局限性。科学发现往往需要突破性假设和创造性思维,而AI的训练依赖于既有数据,难以提出完全原创的假设。此外,AI虽然能预测生物学结果,如疾病风险或药物靶点,但其背后的机制性理解仍需人类科学家的推理能力。实验操作也是AI难以涉足的领域。生命科学实验涉及高度精细的操作与即时判断,例如微量样本的处理或动态反应的调整,这些仍然依赖于人类实验者的经验。总的来说,AI在生命科学中的作用是加速研究进程和辅助决策,而非全面替代。人类的创造力、洞察力与实验能力仍是推动生命科学不断突破的关键。”

为了一个更加美好的世界,AI的创造者进行了努力,AI本身提供了助力,而我们需要思考的就是如何在前辈的基础上,利用好新生事物,使其真正成为能提高生产力、突破科学壁垒、产生科学发现的尖刀利刃。你说呢?

作者简介

谭骁天,中国科学院深圳先进技术研究院副研究员,硕士生导师。研究方向为开发面向免疫功能研究的光微流生物分子传感技术。
联系方式:xt.tan@siat.ac.cn

版权说明:未经授权严禁任何形式的媒体转载和摘编,并且严禁转载至微信以外的平台!

文章首发于科学大院,仅代表作者观点,不代表科学大院立场。转载请联系cas@cnic.cn

推荐阅读

鄂维南院士:数学与人工智能 >>

ChatGPT:今天你被忽悠了吗?>>

史上最难“找不同”:找到相同的纽结 >>

小小抗体如何承担起保护我们的重任?>>

推荐资源

扫码进入“科学与中国”小程序,可观看以院士科普视频为代表的优秀科普视频,第一时间获取中国科学院公众科学日、科学节等科普活动报名信息。

科学大院是中国科学院官方科普微平台,致力于最新科研成果的深度解读、社会热点事件的科学发声

主办机构:中国科学院学部工作局

运行机构:中国科学院计算机网络信息中心

技术支持:中国科普博览

转载授权、合作、投稿事宜请联系cas@cnic.cn

大院er拍了拍你:不要忘记 

点亮这里的 赞 和 在看 噢~ 

免责声明:凡本站注明稿件来源为“科普中国”、科普类微信公众号及互联网的文章,其转载目的在于传递更多信息并促进科学普及,但并不代表本站赞同其观点或对其内容的真实性、准确性负责,亦不构成任何形式的建议。若需转载本网站所提供的内容,请确保完整转载,并明确注明来源及原作者姓名。未经许可,转载内容不得用于任何商业目的。任何单位或个人若认为本网站或其链接内容涉嫌侵犯其合法权益,请及时向本网站提交书面反馈,并提供身份证明、权属证明及详细的侵权情况说明。本网站在收到上述法律文件后,将尽快处理并移除涉嫌侵权的内容或链接。