黄铁军:做全球顶尖的AI研发机构丨AI·20人

任晓宁2023-09-15 18:32

经济观察报记者 任晓宁 北京报道

OpenAI创始人山姆·奥特曼出现在大屏幕上,当他回答“我准备好了”时,全场都沸腾了。

这是6月10日 “AI春晚”北京智源大会上的一幕,那是山姆·奥特曼首次亮相中国。那个夏天,所有人都在为AI即将改变世界而兴奋。

在那一天,一众全球知名的AI科学家,比如图灵奖得主、Meta首席AI科学家杨立昆、深度学习之父杰弗里·辛顿等,全部出现在大会上。杨立昆因为总统会见不能来京,坚持半夜4点起床,只为和中国观众实时交流。

北京智源人工智能(以下简称“智源”)院长黄铁军当时坐在台下,这些大咖很多由他邀请而来。在大众层面,知道黄铁军和他身后的智源的人并不多,但在全球AI圈,他是一个响当当的人物;这个成立于2018年的,早已在AI圈声名远播。

黄铁军研究AI超过30年,擅长智能视觉信息处理技术,对我国数字视频编码国家标准制定和大规模产业化做出过突出贡献,终结了国外向我国视频行业索取高额专利费的历史。他与国外AI大咖们私交甚笃,杨立昆的个人自传《科学之路》中文版,也邀请黄铁军写了序言。

近30年时间里,黄铁军的身份是科学家、北大教授,现在,智源是他花费精力最多的地方。今年4月,微软总裁布拉德·史密斯接受外媒采访时说,他认为有全球三家机构处于AI绝对的前沿,一是与微软合作的Open AI,二是谷歌,另一个就是北京智源人工智能。

今年大火的大模型,智源早在2019年开始布局。2020年,在大多数人对大模型还一无所知的时候,黄铁军掌舵的智源,将主要精力和资金放在研发大模型上,并在2021年上半年推出了开创“中国首个”、“世界最大”的大模型悟道1.0和悟道2.0。

“很多说中国大模型热,是因为ChatGPT火了之后才爆发的,其实并非如此。早在ChatGPT出现之前一年半,我们就已经开始系统化布局。那边爆发的时候,这边的舰队已经起航。”8月28日,黄铁军对经济观察报记者说。

目前,智源已经培养了一批大模型人才,当前大模型创业公司、大厂,从事研发的CTO或首席科学家中,甚至是创始人本人,参加过悟道项目的人为数不少,智源也因此被人称为大模型“黄埔军校”。对于人才被挖角,黄铁军并不排斥,“肉都在一个锅里”,“只要他们还在这个行业,还在为大模型发挥作用,都是可以的”。他觉得,智源作为非营利机构,能为行业培养人才,就是促进AI生态发展的有意义的事。

闯过无人区

智源人工智能在2020年选择做大模型时,国内鲜有机构或公司从事这项研究,这仿佛就是一个无人区,智源一脚踏入,并不是偶然。

8月29日,北京五道口智源大厦5层,黄铁军向记者讲述了这段往事。

故事的开始其实比2020年还要更早一些,2018年11月,智源人工智能成立,由科技部和北京市共同支持,联合北京人工智能领域优势单位共建。黄铁军担任首任院长。

他本人非常乐意做这件事。当时他的职务是北京大学计算机科学技术系主任,从2015年开始全程参与我国新一代人工智能发展规划建议、起草和实施。他愿意来智源的原因是,这里与企业、学校都不一样,是一种世界范围内都很新的新型研究机构,在这里,可以更高效的探索AI。

担任院长头两年,黄铁军在智源的工作重心是凝练方向,“智源学者计划”汇聚了中国顶尖人工智能学者,开启了“自由探索+目标导向”科研机制探索。2020年,智源决定把大模型作为攻坚目标,70%的预算投入到大模型研发和大模型基础软硬件生态建设。当年3月,黄铁军在悟道1.0发布会上提出,“人工智能正在从‘大炼模型’到‘炼大模型’的新阶段”,这是“大模型”这个概念首次登上历史舞台。

黄铁军告诉记者,做研究久了,会有一种直觉式的预感。而且,大模型这个方向,虽然外界很少有认知,但在AI科研圈已经有一个比较清晰的趋势判断,即:大模型将成为AI未来平台的起点。

从有想法到最终落实,并不容易。2020年10月,黄铁军在一次会议上与时任北京市市长陈吉宁汇报中提到,智源计划集中资源开展大模型研究。陈市长当机立断,明确提出大模型会是人工智能的下一个核爆点。

智源投入几乎全部科研力量。研发进展很快,第二年,2021年3月,“悟道1.0”大模型项目问世,2021年6月,间隔3个月后,“悟道2.0”亮相。当时的“悟道2.0”,创造了“世界最大”纪录,达到1.75万亿参数;是GPT-3采用的1750亿参数量的10倍,也超过了谷歌发布的Switch Transformer(1.6万亿参数量)。

“悟道2.0”面世后,继续突破需要更多的算力和资源。然而,当时正值AI低谷期,前一代AI四小龙备受质疑,新一代AI公司融资无门,即使智源,也资源受限。

2023年8月,记者问他,如果当时继续做“悟道3.0”“悟道4.0”,会不会推出ChatGPT的就是智源,而不是OpenAI?会不会觉得可惜。

他也觉得有点儿可惜,不过他想的很透彻:即使继续做,后来能引发全球爆火的,依旧会是OpenAI,因为双方投入的资源完全不是一个量级,而大模型这个方向,缺乏算力资源,无异于纸上谈兵。

“2022年下半年,我们的算力资源在国内已经是领先的了,但不足OpenAI的十分之一。如果只差一两倍,我们还有可能领先,如果差10倍以上还想领先,可能性就很小了。”

AI黄埔军校

今年2月,王慧文成立光年之外,广发英雄帖,之后大模型公司风起云涌。现在回顾会发现,大模型创业公司的技术带头人,很多来自智源。

智谱AI创始人唐杰曾担任过智源人工智能副院长,目前智谱AI被美团投资,与360合作;即将完成10亿元融资的月之暗面创始人杨植麟,也参与过悟道的研发。除了创业公司,字节跳动等互联网大厂的大模型带队者,也或多或少参与过智源项目。

一些国家项目的技术骨干,也同样来自智源。有些智源学者参与国家项目做研发,也会把算法结果放到智源的开源论坛中,供所有研究者共同探讨,黄铁军告诉记者,他对此觉得很欣慰。

担任智源院长前,黄铁军当了十几年北大老师,习惯了教书育人。现在,他依旧把发掘人才作为基本工作。

黄铁军本人其实是一个“天马行空”的科学家,记者问他,从业AI这么多年,有没有最得意的二三事?他并没有把十多年前确立的标准和专利积累当做值得讲述的事,反而觉得,2015年的一天,他突然灵光一现,豁然开朗,推翻了图像视频概念,推翻了计算机视觉的基本范式,当然也推翻了自己此前20多年的研究,开创了脉冲视觉原理和技术新体系,一切从零再出发,是更有意思的事。

“我个人的看法是,重大创新一定是首先在一个人脑子里出现,否则它就不会发生。”他和年轻学者们交流,也更热衷于谈论天马行动的想象,即使当下不可能发生,但未来,有可能突然有一天就能实现了。担任院长后事务繁琐,黄铁军不再有精力一行一行敲代码,和年轻学者一起脑暴,培养、发掘年轻人,是他最开心的事情之一。

从成功率上讲,未知的想象有很大风险,但是一旦成功,影响会是巨大的。

2018年,智源成立之初,就定下目标:支持科学家勇闯AI科技前沿“无人区”。他们给智源学者提供经费,希望支持学者们自由探索,挖掘面向未来的AI研究方向。

2023年,智源曾经耗费绝大部分资源和精力投入的大模型方向,已经从“无人”变得热闹非凡,但也意味着更多未解之谜,有更多需要探索的新无人区。黄铁军说,智源要与企业错位发展,开展更冒险、更开放、更前瞻、更创新地的工作,这是智源作为研究机构应该做的事。

5年时间,智源已经崭露头角,现在,黄铁军提到,更重要是实现当年立下的十年目标:2028年智源成为全世界公认的顶尖人工智能研发机构。

他还在继续证明自己。

微信图片_20230915155101

黄铁军(受访者供图)


【对话】

舰队启航

我们既不以论文为最终的评价指标,也不以产品作为评价指标;我们想做的,是一个创新性强、性能领先的系统,建立一套技术体系,一个技术生态。

经济观察报:如何定位智源?

黄铁军:智源的性质是介于大学和企业之间的一种新型研发机构。我们既不以论文为最终的评价指标,也不以产品作为评价指标,而是要做有创新性的系统。这种机构在国外也是很新的形态。从我个人来说,我2015年就开始参与我国新一代人工智能发展规划,这种科技创新组织方式的改革,是这几年国家很关注的一个方向,我愿意到智源来做这样的尝试。

原有体制下开展AI研究,大学受制于资源有限,企业受制于产品收入压力,都约束了创新突破的可能性。智源这种机构有探索出新可能性的很大机会,这是吸引我的最重要的原因。

经济观察报:智源是国内第一个提出大模型概念的机构,也早在2020年就投入大部分资源做大模型。为什么是智源?

黄铁军:其实早在2018年、智源成立时,我们从科研的角度对于AI已经看到一个比较清晰的趋势,大模型已经是一个比较明确的方向了。当时大模型还不叫大模型,我们看到的方向是:用大数据训练一个规模很大的模型,有望产生更强的智能。

2020年10月份,我们和时任北京市市长陈吉宁汇报中提到,智源计划集中资源开展大模型研究。陈市长当机立断,明确提出大模型会是人工智能的下一个核爆点。我们就开始买算力做事,当时买到了300P的算力,但是300P肯定是远远不够的,就申请再追加单独的经费来做更大的算力。最后定下的是1000P的算力,大约是3亿元人民币的一个专项支出。这种规模的智算平台在当时中国是绝对领先的。

经济观察报:智源2021年6月就推出了两个大模型产品,直到2023年6月,才又推出了悟道3.0中间为何间隔这么久?

黄铁军:悟道2.0推出后,我们中间发生了一个重大的变化。当时从我们科研角度来看,新的AI时代已经开始了,虽然那时候没有多少人相信,但在我们这些人眼中,门已经打开了。

我们于是开始考虑,既然它是一个时代的事,就绝对不会是智源一家机构在做,它应该是一个全社会、全世界的事情。

当时我们的分歧点是,继续做一个悟道3.0版,把它做得更大更强?还是在全国范围内进行布局,让不仅是北京中关村地区,而是全中国范围都可以做这件事?最终我们选择了后者,在国家新一代人工智能重大科技项目中提出了一个旗舰项目建议,从国家的科技布局角度,做系统化的布局和支持。

国家项目立项是需要时间的。从2021年6月份提出建议,到2022年12月份项目批准,花了一年半时间,在传统项目体制下已经是特别快了。这个旗舰项目2023年1月开始执行,计划通过滚动方式,一直持续到2030年,目标不是把一个模型做多大,或者性能做多高,而是要通过数据共建、算法竞争、开放评测、开源协同的创新机制,建立一套大模型开源开放技术体系,一个支撑大模型持续发展的技术生态。

所以,很多时候大家说中国大模型热是因为ChatGPT火了之后才爆发的,并非如此,早在ChatGPT出现之前一年半,我国就已经开始系统布局,那边爆发的时候,这边舰队已经起航。

 

AI新时代

新技术变革如果发生在中国,大家当然会更高兴,没首先爆发在中国,也不意味着我们就失去了机会。

经济观察报:会不会觉得遗憾?比如说,如果去年6月你们就发了悟道3.0,说不定年底的时候火的就不是ChatGPT,而是你们?

黄铁军:即使我当时发布了,也不一定会火。这与大模型的属性是有密切关系的。

大模型的数据量与投入直接相关,我们的算力、数据投入都与OpenAI差的很远。而且差的不是一点半点,我们是1000P的算力,不到2000块卡,ChatGPT大概是3万块卡,它是你15倍的算力,迭代速度会快很多。

科技体制改革的不容易就体现在这里,我们能调动的资源是几亿元人民币的体量,OpenAI是用10亿美元、100亿美元力量在做。如果只差一两倍,我们就有可能领先,如果差10倍以上你还想领先,这种事可能性就很小了。

但是反过来说,我们也不必纠结一城一池的得失。新技术变革如果发生在中国,大家当然会更高兴,没首先爆发在中国,也不意味着我们就失去了机会。

所以一方面确实是有点儿可惜,但另一方面,我们也不会被打乱节奏,我们从2021年想做的就是建立一个体系,希望在技术体系上保持在前沿的位置,做一个让大家一起参与的旗舰项目,让所有人都能发挥自己的聪明才智,共同塑造AI新时代。

经济观察报:现在悟道已经推出3.0了,也已经开源了,接下来你们还想做什么?还有哪些可做的事情吗?

黄铁军:我们作为一个科研机构,和企业和高校所做的事不一样,我们会做更前瞻的一些探索。仅就大模型来说,现在是刚刚揭开大幕,可做的东西非常多。

打个比方,大模型在当下,就相当于法拉第转动电磁线圈,能够产生电流了。发电机刚面世,能产生电流,大家很兴奋,但是如何让电流在全社会流通和应用,还有大量的创新性探索要做。

比如在大模型领域,有没有一种技术手段,能让现在训练的成本降低一个数量级?这种风险很大的创新,是我们应该做的。还有在理论领域,为什么大模型能这么强?寻找这种理论上的解释,也是我们应该做的。另外会不会有一些架构上的创新,能把一些新技术要素结合在一起,训练出更高水平的智能?甚至再往大了说,会不会有颠覆大模型的创新出现?这些探索我们也应该尝试。我们要比企业更冒险、更开放、更前瞻、更创新地做一些工作。

 

挑战与想象

在20年之后,AGI有很大可能实现。那时信息表达和流转的方式,神经元和神经网络结构及信号加工机理,都会有巨大变革,这些变革预计会在2045年之前会出现

经济观察报:您曾在2015年时预判2045年会有AI超级大脑出现,经过几年探索后,您的想法变化了吗?这个时间点会提前或延后吗?

黄铁军:现在的想法会比2015年更乐观一些,因为经过近10年的进展,发现AI比原来预想的进展更快了。

现在有些人认为,再过2至5年就能实现AGI(通用人工智能),我觉得可能还得再等20年。因为真正的实现AGI,和只在某些方面实现AGI,是有本质区别的。

真正的AGI一定是有自主意识的,人类拥有的智能它全部具备,而且它一定会从多个维度全面超越人类,说的通俗点就是超人,比你在科幻电影里看到的那种超人还要超人。它不一定以实体方式出现,可能不一定是我们目前能想象到的形态,但它肯定会有物理载体。

经济观察报:这些挑战具体是什么?我们能解决吗?

黄铁军:做了30多年AI,我一直说AI首先是一门技术,我们要寻找一种可行的技术途径和方法,再通过工程方法把智能做出来,这里面有很多不确定因素。

在技术这条路上,突破偶尔会发生,绝大多数时间是在黑暗中探索,这是常态。像我自己,一二十年反反复复这种状态,没有大突破,这是很正常的,一点都不奇怪。

但没有重大进展并不意味着人不聪明、不努力,只是因为重大突破没有标准答案,没有一个规律性的路径让你照着做。

然而,正是因为“面壁十年”,破壁而出、豁然开朗才弥足珍贵,一次突破,足慰平生。2015年我发明脉冲摄影原理时就是这样的感觉。这个原理颠覆了1839年发明的曝光成像原理,把普通光电传感器“点石成金”,赋予AI一双追光逐电的慧眼。

AlphaGo表明AI决策能力可以超越人类,大模型正在塑造的则是AGI无所不知的认知大脑。未来10年到20年,这样的创新还会纷沓至来,信息表达和流转的方式,神经元和神经网络结构及信号加工机理,将会发生巨大变革,未来的AI将采用类似生物大脑的脉冲神经网络系。我现在仍然认为,2045年左右,将出现真正的AGI。

在此之前,人类社会将享受20年的科技革命红利,同时也将积累从未面对的巨大风险。现在就应该投入充足资源开展风险研究,并开发相应的技术支持工具。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
TMT新闻部资深记者
关注并报道TMT(科技、传媒、通信)领域重大事件,擅长行业分析、深度报道。
联系邮箱:renxiaoning@eeo.com.cn
微信号:tangtangxiaomo
Baidu
map