
大模型炒热AI制药赛道 生物医药GPT能否打破“10年10亿美元”困境?
作为高投入高风险的创新行业,生物医药行业一直面临着“双10困境”:一款新药的研发至少需要花费10亿美元、10年投入。伴随着AI大模型引领的创新浪潮席卷全球,生物医药产业正在面临新一轮的机遇期。一家初创企业借助大模型的算力,在短短两年内找到合适的抗癌苗头化合物,AI大模型能否真的改变生物医药的“双10困境”?
AI辅助寻找抗癌苗头化合物
“经过AI生物大模型的虚拟筛选,从780万个分子库中最终找到6个潜在活性分子,效率相较于以往的人工筛选提升了成千上万倍。”杭州立德医药科技有限责任公司负责人王紫壹告诉记者,生物医药行业有一个“双10魔咒”,一款新药的研发至少需要花费10亿美元和耗时10年投入,这是一家初创公司几乎难以承担的成本,如今凭借AI大模型的能力,生物技术团队也能实现弯道超车。
乳腺癌是全球女性发病率最高的恶性肿瘤,去年我国乳腺癌发病人数超过42万,CDK4/6抑制剂是该领域最为畅销的药物,有机构预测全球总的CDK4/6抑制剂市场将在2029年超过200亿美元,占乳腺癌药物销售市场份额的42%。目前已经上市的CDK4/6抑制剂有4个,在研的更是多达几十个。立德百克自主研发的检测技术,可以对蛋白质之间的相互作用进行快速的“湿”实验(生理学试验方法)验证,建立了专门针对CDK4/6-CCND蛋白-蛋白相互作用的药物筛选技术和活性检测技术平台,但是如何找到苗头化合物分子却犯了难。
“市面上的化合物商品库中有上千万种化合物,筛选工程耗时耗力,恰好生物计算大模型能弥补这一短板。”通过引入飞桨螺旋桨的文心生物计算大模型技术,王紫壹团队的“干”实验(计算机模拟试验方法)能力得到极大的提升,通过虚拟筛选,从780万个分子中得到了模型打分比较高的110个分子,并采购了其中的40个进行检测,最后发现有6个高潜力的分子,其中3个化合物能够同时打断CDK4/6-CCND蛋白-蛋白相互作用,还有3个化合物能够打断CDK4-CCND蛋白-蛋白相互作用。目前,双方正在对这些化合物进行更进一步的分析研究,也为下一步的结构优化提供数据准备。
记者获悉,去年5月对外发布了文心生物计算大模型,并将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子、基因组学信息的生物计算领域预训练大模型。目前正式对外发布的文心生物计算大模型,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白结构分析模型HelixFold、以及单序列蛋白表征模型HelixFold-Single。
国产生物大模型进入爆发期
当下,随着通用大模型的走红,生物医药等垂直领域大模型正逐渐浮出水面。不少指出,AI制药行业经历了算法迭代、算力提升及海量实验数据的堆砌,随着AlphaFold2、ChatGPT等创新产品的出现,行业有望迎来高速发展的成长初期。
AI大模型如何提高新药研发的效率,之江实验室图计算中心副主任陈红阳有一个非常形象的比喻:靶点发现是药物研发过程中的关键环节,其中靶点是药物在体内的作用结合位点,药物好比一把“钥匙”,靶点就是与之匹配的“锁”。基于大量的医学材料和生化数据,生物计算大模型能发掘潜在的药物靶点,甚至预测靶点与潜在药物之间的相互作用,提高药物研发成功率。
国外的显示,AI可以将新药研发的成功率提高16.7%,AI辅助药物研发每年能节约540亿美元的研发费用,并在研发主要环节节约40%至60%的时间成本。根据公开资料,使用AI技术可使药物早期发现所需时间缩短至三分之一,成本节省至两百分之一。
生物制药和转化医学作为AI的重点赛道之一,涉及药物设计、筛选、优化、验证等多个环节,需要处理大量的复杂数据和知识,也吸引了更多的竞争者。
早在2020年,在第14届国际蛋白质结构预测竞赛上,DeepMind研发的AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4的好成绩,比第二名高25分,被中国科学院院士施一公评价为“对科学领域最大的一次贡献”。
随后国内AI生物大模型逐渐开始发力,清华智能产业研究院日前开源了轻量版BioMedGPT1.6B,这是一个参数为16亿的生物医药领域轻量级科研版基础模型,具有跨模态与知识融合的特点,可以处理药物性质预测、自然语言类、跨模态等多种任务。
近日,上海研究院执行院长宋海涛表示,计划在生物制药、转化医学等领域,利用国产化训练框架推出国产大模型,打造具有自主和核心竞争力的技术。
研报中表示,AI医疗市场呈高增长态势,市场规模在2025年有望达385亿元,2020—2025年复合年均增长率达46%,其中AI制药是AI医疗领域的重要一环。
AI介入新药研发仍存挑战
目前,AI技术在生物医药产业的核心优势在于提升效率,但在落地过程中仍遇到了一些挑战。
智能云相关人士认为,药物研发真实的高精度实验数据获取成本极高,且有实验的批次效应问题,公开的数据库有大量的无标注数据,如何利用好大量无标注数据和少量高精度数据,这就对模型构建提出了较高的要求。其次,生物领域的任务繁多且复杂,比如ADMET成药性预测任务,常用属性指标多达几十项,想要一个模型对几十项指标都预测准确,这对技术的泛化性和可迁移能力也有较高的要求。
同时,生物领域有其独特的领域特性,比如对同分异构体的理解、研究对象需要建模三维结构等,对算法研发人员提出了更高的要求。特别是像DeepMind团队所开发的Alphafold2之类计算量巨大的复杂的神经网络模型,更需要有强大的算力和框架技术的支持。
陈红阳也有类似观点,分子生成任务需要通过引入领域知识、结合强化学习和“湿”实验等来验证生成分子的有效性,而大模型在训练过程缺少领域知识,无法保证其可信性。模型训练部署以及相关“湿”实验的成本高企,药物研发依然面临流程长投入大的问题。
最近更新生活资讯
- 反转再反转,这部科幻末世灾难片真的爽
- 快捷指令sky电影捷径库
- 2021《自然》年度十大人物:塑造科学,造福社会
- 千里单骑救萝莉却被捕,“正义使者”成了谁的牺牲品?
- 浪漫爱情励志人生 最震撼人心的十部日剧(图)
- 短篇小说(家庭伦理)
- 推动农业绿色低碳循环发展 推动农业绿色发展、协调发展
- 资料:成奎安电影作品《灯草和尚》(1992)
- 稻盛和夫《活法》1
- 合肥市第六中学2019-2020学年下学期2019 级高一年级线上线下教学衔接学
- 全网的电视剧,电影和动漫无偿观看(每年的都有哦)
- 理想国
- 刺激!梅州首部限制级伦理微电影《幻镜》网络首映!
- 男人为何迷恋女人胸部?
- 陆小曼与林徽因:都是富养的女儿,差别在哪里?
- 问题已被解决?
- 看了多少烂片,才找出这92部经典!
- 金高银:怎么从拿8个电影奖的怪物新人沦为了被众嘲的“资源咖”?
- 猎天下第2部:河阴之变
- 封神演义读后感100字(五篇)
- 又一部岛国神作,堪称校园版《权力的游戏》!
- 【全面解读】2022年以后,再无“国产”BCBA?
- 鬼文化(商代的帝王文化))
- 豆瓣9.2分年度第一佳片,每一秒都是夏日初恋的味道
- 社会的重器:性侵犯罪信息统一查询平台,还校园一片蓝天