百图生科AI大模型研发始末

沈怡然2023-04-01 10:06

经济观察报记者沈怡然 “Give me aring-shaped protein”.（给我一个环形蛋白质）

“Generate a drug for ALS”.（研制一款治疗渐冻症的药物）

当人类在对话框输入以上指令，机器就能在一秒内生成一个相应的生命物质。现在，这些科幻电影中的桥段有希望成为现实。就像ChatGPT打开了人机对话的窗口，一批生命科学AI大模型也在开发的路上。

3月23日，生命科学平台公司百图生科对外发布了一款AIGP平台，这也是一款基于其自研的AI大模型“xTri－mo”开发的、能帮助解决生命科学问题的工具。简单说，这就像一个能生成蛋白质的ChatGPT，根据用户给定的参数和功能，给出各种蛋白质、酶、细胞等的设计方案。3月30日，百图生科CEO刘维对记者表示，设计的初衷是帮助研究者提供一些生命科学技术的基础版本，让研究者可以在基础版本上进行创造，节约了一定的实验时间和实验费用。

2017年前后，大模型的概念开始在业界流行，2020年刘维做这家公司的一个重要目的，就是尝试给昂贵又有巨大价值的大模型技术找一个应用场景。

2021年公司做出了AI大模型“xTrimo”，这是一个多模态预训练模型，相当于“大脑”，后来基于改模型研发了的AIGP平台，则是一个与用户交互的窗口，AIGP在2022年开始内测，直到2023年发布会上宣布了AIGP的公测，向海内外专业用户开放。

“但是，目前AIGP还很难像Chat－GPT一样在一秒钟内给出回答，用户给定的参数和功能是复杂和专业的，AI需要数小时内给出答案”，刘维对记者表示，新技术还处在初期，目前能在很多问题上有初步能力，但只能在一定概率下给出正确结果，其中又只有部分能一次性给对结果。

“我们今天很像ChatGPT0.5的时代，在技术和算力资源上具备了一定基础，但数据图谱的建立、实验能力的建立过程仍然是从零开始，且复杂而艰巨的”。团队的愿景是，将AI在生命科学研究的最终价值，是帮助解码、治愈所有的疾病、解决当下难以应对的全球公共卫生问题、食物能源短缺以及环境污染等人类可持续发展的问题。

理想和现实是有距离的，刘维表示，中间的过程非常复杂，算力、数据等资源上的支撑能力有限，还要考虑到社会融资的环境，团队从改变传统实验中的一些细小流程切入，这也是一种革命性变化的开始。

设计的初衷

刘维表示，AI大模型可以处理大量生命科学数据，提高数据分析的效率和准确性，机器的推理和自学习能力还可以将研究结果进行反向推理和优化。团队最初的设计是，用AI大模型生成一个个蛋白质、酶、细胞等的设计方案，替代生命科学研究者的琐碎工作，并在此基础上帮助解决高级问题。

生命科学是一个广泛的学科，而蛋白质和酶的研究是理解生命现象、促进生物技术发展和应用的基础。研究者通过研究蛋白质和酶的结构和功能，可以深入了解生物体内化学反应的原理和机制，研究酶的作用条件和抑制剂，可以优化生物体内的代谢途径，提高生物体的生产力。

生命科学是信息的学科，研究者通常需要大量的样本来进行统计分析，但许多样本往往难以获取或者成本较高。而生命科学数据具有复杂性，如基因序列、蛋白质结构、表达量等，使得数据分析变得困难。

较长的实验时间也是痛点之一。刘维团队所接触到的一些生命科学研究者和相关公司，他们并非专业搞蛋白质设计，对他们而言，要研发一个具有基本性能指标和功能的蛋白需要昂贵的时间和资金成本，“传统的蛋白生成可能要做多轮动物筛选实验，如小鼠筛选实验目前已经非常工业化，但仍要等待动物自己起反应，过程有时需要数月时间，而AI在虚拟空间里生成只需要数小时”，刘维表示。

刘维表示，研究者的实验结果需要建立在过去大量实验数据之上。而有些难成药靶点很难找到它已有抗体的数据，AI通过推理和预测，将全新的问题预测达到八九不离十，再通过多轮迭代找到疑难问题的答案，可以帮助研究者快速切入一个没有数据的研究难题。

研发的壁垒

AI大模型需要计算资源，数据集深度学习框架，语料库等多项能力的支撑。刘维表示，百图生科在研发所需的算力方案上的确是站在百度的肩膀上。

刘维表示，百图生科的定位是李彦宏和刘维共同创立的一家独立公司。根据企业工商信息资料，百图生科（北京）智能技术有限公司中，刘维和李彦宏在股东中，分别占21.6%和1%，刘维还是企业实控人。

百度的AI大模型在技术上有一定参考借鉴之处，团队和百度自然语言处理的团队在一些领域合作研发。百图生科基于百度云平台的研发，在算力上也得到了百度的支持。

刘维表示，训练出一个千亿级别参数的模型版本需要将近1000个GPU跑几个月时间，如果要将参数两极达到万亿级，训练时间则翻十倍。过程中，研发大模型和推动AIGP迭代所需资金量很大，公司在2020、2021年共获得上亿美元融资，2023年新一轮融资也在推进之中。

AI大模型需要输入大量数据参数以增加对问题的理解度。刘维表示，生命科学作为一个及其垂直的领域，数据集的打造难度是很大的。团队制作了生命科学的数据图谱，90%来自于公开和半公开数据的整理，整理过程很复杂，很多数据散落在不同的数据集中，来自论文和专利等，甚至是非结构化的，将一些无关联的数据抽取出来并分类需要大量专业人员的努力。

仅依靠公开数据无法支撑xTrimo的需求，团队还自建实验室自研AI/biotech技术以产生私域数据，大模型中10%的数据来自于此。

刘维表示，因为生命体的高度复杂度，目前数据量很大，但仍然是有限的。随着生命科学领域观测手段和技术的发展，吸收更多的数据尤其是垂直类数据，将使我们能够更加精细精准地理解进化，理解生命。这意味着，要实现这一目标公司需要不断吸纳新合作伙伴，特别是在体外模拟体系、超精度观测和特殊验证体系等方面具有丰富知识和技术的生命科学家。

面对质疑

AI大模型的概念在2017、2018年左右在业界流行。海外研究机构和公司开始很对一些专业领域开发AI大模型，Google母公司 Alphabet旗下的DeepMind开发了一种基于自然语言处理的工具，用于预测蛋白质结构和药物设计；IBMResearch也在人工智能和机器学习的基础上，与多家生命科学企业合作，开发了一些基于人工智能的应用程序，例如用于药物筛选和基因组测序的软件。

在创办百图生科之前，刘维曾做18年早期技术投资，在10年前以投资人的身份关注和布局了生命体的数字化技术。刘维发现，在这样的技术换代时期，一个新的、有能力打造平台级技术底座、有决心长期投入做前沿创新药物的公司，是市场所需要的。“2020年我们做这家公司的一个重要目的，是给昂贵又有巨大价值的大模型技术找一个应用场景”，刘维表示，当时主流互联网公司已经在自然语言处理方面有一定的语料、技术积累，作为一个初创公司很难在这个领域竞争，需要在新问题、新模态上寻找答案，和主流的AI大模型互补，所以要选择一个专业领域，而生命科学是很有价值的场景。

公司开放AI大模型后，正积极寻求合作伙伴，而刘维发现，对一种新技术往往有不同的态度，有的人更相信，有的人更质疑。

对此，刘维表示，技术在初期的确非常不完美，目前还需要技术再迭代升级，不断提高准确和可靠。目前公司所选择的赛道也充满技术挑战，需要传感器、AI、生物、数据等，AI大模型、高通量实验系统等技术门槛都很高，小公司完成起来难度较大；另一方面AI大模型会对传统生命科学的项目制研究模式构成挑战，这使得一些大型药企难以全面拥抱它。

刘维表示，即便目前项目还不成熟，也希望开放给业内共同合作创新。因为这涉及到路线选择的问题，如果AIGP的目标定在设计一些不那么挑战的蛋白质，一些利用行业现有方法、软件、实验技术就能发现的蛋白，那么当前的准确性、可靠性要高得多，因为问题简单、数据充沛。总之，既然要做底层技术创新，还是应该瞄准足够有意义的高难度问题。