AI制药风再起：中国医药能迎来弯道超车吗？

张英2023-03-31 22:49

经济观察报记者张英 在医药投资圈，人工智能制药领域的热度仿佛又回到了两三年前。

2020年英国公司Exscientia基于AI开发的药物被批准进入临床试验，这是全球第一个由AI设计的分子进入临床。这一里程碑事件让当年国内AI制药领域的投融资猛增7倍至31亿元人民币。也是在这一年，国内AI制药企业晶泰科技获得3.188亿美元C轮融资，创下当时全球AI药物研发领域融资额的最高纪录。

2021年AI制药行业继续火热，国内融资总金额超80亿元。到2022年生物医药全行业遭遇资本寒冬，AI制药领域的投资也有相当程度退潮。

现在，AI制药龙头企业英矽智能CEO任峰观察到，ChatGPT的出现，再次让这一领域站上了风口：

截至目前，国内还没有真正意义上的AI制药上市公司，但资本市场AI制药概念却显得十分火热：一家CRO（医药研发合同外包服务机构)）企业成都先导（688222.SH）的股价在3月一路上涨，数次20CM涨停，公司紧急提示：目前AI系公司主营业务和研发的辅助工具，直接贡献的销售额及利润较小，对公司主营业务的发展影响有待观察和验证。

3月24日，晶泰科技出现在港股18C（指港交所为吸引具备发展潜力但尚未满足主板上市规则的特专科技企业而设立的交易板块）潜在上市申请人名单中，也成为了行业热门事件。

3月28日,复星医药（600196.SH）的业绩发布会上，AI也成焦点。该公司董事长吴以芳称复星在AI制药领域探索已超五年，未来将在创新药领域推进AI制药业务。

在一级市场，成立不到一年的AI制药企业呈元科技在3月中旬宣布完成数千万美元pre-A轮融资，获得联想创投、格力产投等资金加持。

“最近许多投资人来跟我们讨论ChatGPT。”任峰说，实际上ChatGPT这样的生成式AI技术早已在制药领域落地应用，其底层算法与ChatGPT的一致。只不过ChatGPT是基于自然语言数据，而目前AI制药技术是基于基因组学等生命科学数据。

任峰期待ChatGPT这一基于自然语言大模型的生成式AI给制药行业带来改变，但目前还未看到很大的实质性应用。

当前全球还没有一款AI药物得到有效性验证。任峰判断行业下一个增长期应该是在AI制药成功通关二期临床试验后，乐观估计大概还需要1-3年时间。

3月27日，中国科技部启动了“人工智能驱动的科学研究”专项部署工作，提出要充分发挥人工智能渗透性、扩散性和颠覆性强的特性，逐步构建以人工智能支撑基础和前沿科学研究的新模式，加速我国科学研究范式变革和能力提升。

角井生物创始人周一鸣将中国生物医药产业与美国的差距比作中国汽车产业与美国的差距，他认为AI制药如同电动汽车一样给了中国一个换新赛道的机会。

专注于人工智能领域投资的沸点资本合伙人马兰表现得较为理性。“AI药物研发领域投资热正持续‘升温’。砸钱堆高了整个赛道的成长空间，目前看很快会挤泡沫，到了自证技术实力的过渡期。”

生成全新小分子：从5年缩短到18个月

医药研发行业是一场时间和金钱高投入的冒险，长期以来面临着“双十定律”，即需要耗时超过10年、10亿美金才有可能上市一款新药。

制药巨头强生的首席科学官Paul Stoffels曾形容，一款新药的成功上市比造飞机更难。

药物研发的流程繁复，在人们所熟知的临床试验之前，研发者的工作包括确认药物作用靶点（药物在体内的作用结合位点）、发现苗头化合物、先导化合物优化、临床前动物实验等环节。临床实验前这些环节的核心任务，是获得临床前候选化合物（PCC，若通关临床试验即等同于药物），PCC分子的确定在新药研发中被视为重中之重，而即使在药物靶点明确后，这一过程往往还需要4-5年时间，其中每一步都有着极高的失败率。

以其中主要难点——海量药物分子筛选为例，《Nature》2017年发表的一篇文章显示，人类可发现的药物分子个数可能是10的60次方，而传统药物筛选办法能够找到的分子数仅约10的11次方，在11次方与60次方之间有一个远未穷尽的大黑洞，这里或许就潜藏着许多新药的可能性。

人工智能被视为探索“黑洞”的有力工具，尤其是生成式AI技术。

英矽智能即将启动临床二期的小分子在研药物INS018_055，就是全球第一个针对全新靶点利用生成式AI生成的全新候选药物。

任峰介绍，在靶点发现上，生成式AI技术颠覆了传统的靶点生物学研究流程。传统生物学研究是从前往后做，先理解靶点生物学机制，再将生物学机制与某些疾病进行关联，而我们是从后往前做，先找到某类疾病患者的基因组学数据跟健康人群间的差异，再回过头去验证。比如在特发性肺纤维项目中，AI技术通过比对分析推荐了将近20个靶点，研究人员对近20个靶点的验证后确定了一个全新靶点。

“特发性肺纤维化这个项目是一个全新靶点，没有已知小分子，只能从0开始。”任峰说，英矽智能研发了一个生成式AI平台Chemistry42，只要给到这个平台有关靶点的结构信息，就可以生成一百到几千个能跟蛋白相结合的小分子。研发人员可以利用特定方法对这些小分子进行筛选，挑出10-15个小分子进行合成和测试，通过测试可发现部分分子有活性、而另外一部分分子没有活性，研发人员再将这些测试数据反馈给AI平台，下一轮会再生成和筛选出10—15个新的小分子。

如此循环优化了6轮，AI所生成的化合物活性越来越好，成药性不断提高，英矽智能在过程中合成并测试了78个分子，最终找到了临床前候选化合物。

从靶点发现，到确定临床前候选化合物这一过程，英矽智能历时不到18个月，研发成本仅为260万美元，而按照传统方式或需耗时数年，研发费用可能是AI制药的10倍。

颠覆大分子：相当于从siri到ChatGPT

在角井生物创始人周一鸣眼中，AI制药的前景不仅在赋能新药开发，而是有可能完全颠覆现有新药开发范式。角井生物与中关村生命科学园携手创建了国内首家AI新药研发公共平台。

与英矽智能专注于AI小分子药物不同，角井生物主攻基于AI技术的大分子药物开发。从全球来看，基于AI技术的小分子药物研发速度快于大分子。目前已有多款AI小分子药物进入临床二期试验，AI大分子药物进展最快的今年2月刚获批临床一期。

周一鸣解释，这种差别主要源于药物研发史上的小分子药物数据更多，便于训练AI模型，而大分子药物研发历史约30年时间，一直缺少高通量湿实验平台（指以分子水平和细胞水平的实验方法为基础，检测仪器在同一时间检测数量庞大的实验样品），积累数据有限，且研发门槛更高。比如美国企业Aulos Bioscience研发的全球首款进入临床一期的AI大分子药物，AI先是设计了约50万种蛋白，接下来试验者用非常高通量的湿实验去验证，从中选一种，导致整个流程的效率不够高。“未来有没有可能不再需要做细胞生物学和分子生物学实验，通过AI计算出来的化合物就能直接进行动物试验？设计50万种蛋白去验证，后面的药物研发人员太累了。未来大分子设计的AI算法必须得颠覆，只设计出100种里选一种行不行？”周一鸣提出了他的目标。

在他眼中，未来的AI大分子制药技术可能实现类似于从siri到ChatGPT的质的飞跃。

他举例说，角井生物当前对大分子药物研发的赋能，是应用AI技术升级置换了两个最重要的传统技术平台：杂交瘤（hybridoma）和噬菌体展示（Phage Display)。用AI赋能单个B细胞测序整体替代杂交瘤技术；在Phage Display技术中，保留Phage（一种噬菌体），用测序+AI的方法替代Display。目前已经应用两款AI赋能的新技术与包括诺诚健华、开拓药业在内的药企展开合作。

“我们正在研发的下一代深度学习算法，可以实现不用做噬菌体和B细胞实验，用AI进行完整替代。这是我们未来一到三年的计划，以AI彻底颠覆整个大分子研发的现有范式。”周一鸣说，现在的AI制药对蛋白质设计实验刚进化到对模式的升级替换，还没实现颠覆。

对于国内外AI大分子制药企业的差异，周一鸣认为主要在生物医药产业大环境方面，大家的技术差距并不大。国外创新药企多、实力强，对AI技术需求大，国内外签订的业务合同额是几亿美元与几百万人民币的差距。不过他也表示，未来随着中国生物医药产业的不断成熟，中国的AI大分子企业会迎来更快速的发展。

壁垒真的存在吗

AI制药概念真的成立吗，一家AI制药公司通过什么打造自己的护城河？

“国内外企业并不存在纯粹底层技术上的壁垒，因为大家都是利用基于神经网络的深度学习技术。”任峰认为，壁垒主要在于后台数据质量和AI算法的优化程度。

一个好的AI模型必须依赖于高质量的训练数据，尤其是在医药这样一个追求高精确度的领域。AI制药公司的数据大多来源于公开的数据库，比如基因组学数据库、医学文献数据等。不过这些数据并不能直接使用，还需要进行数据清洗和格式化。

任峰形容，这些公开数据是一个金矿，AI公司必须依靠数据团队才能把金矿转变成金子。

英矽智能自2014年成立开始便组建了20-40人的团队，专门负责收集、清洗数据，这一过程需要耗费大量的人力物力。目前英矽智能的后台有数十亿个数据点，涵盖超1000万组学数据样本、超4000万份文献专利、34万项临床实验、超300万美金科研基金产生的数据，以及超200万个化合物和分子碎片的结构活性与毒性数据。

他举例说，在用来发现特发性肺纤维化靶点的病人转录组数据上，数据团队必须具体看每个试验的操作方式、试验质量，同时对试验所提取的组织（涉及肺部、血液、上皮细胞等）进行筛选，筛选出肺部组织相关数据，这样才能保证数据的高质量，这一过程需要耗费大量的人力物力。在历史数据量更少的大分子领域，角井生物除了使用公开数据库外，还在自行生产数据，开发了自有的、AI赋能的高通量湿实验平台，低成本高速地产生海量高质量数据。在周一鸣看来，这些自产自有数据为角井开发算法引擎提供了源源不断的“石油”，从而打造大分子药物领域的“新药大模型”。

除了高质量的数据壁垒外，AI算法的优化程度也是企业竞争力的关键。

英矽智能的Chemistry42平台，最初有170多种算法帮助生成化合物，但在多年的项目实践中，研发团队不断用现实数据对算法进行评估和优化，最终优中选优，保留下30多种算法结构，更能生成活性好、有潜力的化合物。

“如果另一家公司想做同样的事情，他可能也得从170多种算法慢慢优化。算法本身没有壁垒，技术壁垒主要是我知道对这种应用场景，哪些算法是适用的，哪些算法是不适用的。”任峰说。

在长期关注AI医疗的投资人熙德资本创始合伙人李秋实看来，除了上述条件外，在AI制药这样一个跨学科领域，有一个既懂人工智能又懂医药生态的复合型团队显得尤为重要。

行业企业明显也感受到这一点，例如在去年角井生物挖来了“懂药的”迟颖。迟颖曾担任阿里巴巴达摩院制药智能负责人，还曾在西门子医疗系统有限公司任中国区AI经理，研究领域覆盖抗体设计、抗原设计、蛋白结构预测、单细胞等大分子药物开发的人工智能技术。

李秋实认为，中国的AI制药企业的起跑线跟欧美在现阶段是站在一起的，都还处于早期发展阶段。但中国在人才方面相较而言存在劣势，现在应该做好跨界人才的培养和储备。

此外，他表示，中国AI制药企业在软件上面的成熟度会越来越强，在芯片等硬件上也应有所准备。部分研发企业对于硬件上可能遭遇的限制进行了提前布局，比如英矽智能将其生成人工智能与量子计算研发中心设立在了中东地区的阿联酋首都阿布扎比。

下一步突破：数据蓝图

AI制药下一个突破点在哪里？不少行业人士认为大数据的规模化开发使用是关键。

一位人工智能权威专家在接受经济观察报采访时表示，在医疗等垂直领域发展大模型的关键在于收集高质量的垂直领域数据，而这也是国内相关产业未来差异化发展的重点。“AI技术发展本身，是由大规模数据集助推的，深度学习最初出现时，有一个包含人脸等各类图像的ImageNet数据集，这个数据集极大地促进了深度学习的发展”。

从AI制药产业界角度看，确实存在对疾病等医疗数据的需求。在任峰看来，由于人种差异，如果要针对中国特发、多发疾病进行新药研发，基于国内疾病数据进行疾病发病机制研究就显得尤为必要。目前绝大部分数据掌握在医院手中，且未连通，处于碎片化状态，未能真正利用起来。

他认为，“在隐私保护前提下，如果能在政策层面对相关疾病数据进行规模化，对于寻找新的靶点有非常好的指导意义，在促进新药研发速度上显得十分必要”。

如何建立一个有效的数据使用机制？目前全世界对于医疗数据的价值化应用也都处于探索阶段。

中南大学湘雅医院教授、移动医疗教育部实验室常务副主任黄伟红表示，鉴于医疗健康数据的敏感性，医疗数据使用机制涉及到数据的管理权、使用权、数据价值评定、数据交易规则、数据收益分配等问题，都需要制定详细的规则。

尤其是在数据价值界定上是一个难题。“即使一个人的医疗数据价值可以界定，但100万人的数据价值怎么计算？期间可能是指数级增长，同时还涉及到安全性问题。”黄伟红认为，短期内实现院内医疗数据的规模化联通和市场化应用还存在难题，不过国家数据管理局的成立可能会对相关模式的探索起到推动作用。