陈沛/文 谷歌专为AI计算设计的TPU(Tensor Processing Unit)最近不太顺利。几个月前发布新版TPU v5e时就曾卷入过争议之中,这两天又面临计算机科学家Joseph Bates的专利侵权指控。这就让我想具体谈一下谷歌TPU。
谷歌TPU诞生之初即被寄予厚望
TPU的故事开始于2015年。当时大家普遍面临一项挑战,那就是使用传统CPU或GPU处理机器学习算法、特别是深度学习算法时效率都比较低。
在那个时候,不仅有如今红得发紫的英伟达在努力升级GPU架构,谷歌也在规划开发新的专用架构处理器。
到2016年,谷歌就发布了用于大规模机器学习加速的首个TPU版本,专门用于优化机器学习算法中常见的张量运算执行过程,展现出了速度和能效优势。
首款TPU面世后,大家意识到谷歌在开发出广受欢迎的海量数据管理系统、大规模分布式文件管理系统、开源机器学习开发框架后,又一次证明了自己深厚的技术沉淀。
抄袭?虚假?弱势?TPU磕磕绊绊
尽管谷歌推出TPU受到业界高度评价,但这些年TPU并非一帆风顺。
最近,计算机科学家Joseph Bates和他的公司Singular Computing LLC就指控谷歌在开发TPU v2和v3时,抄袭了他2010至2014年期间向谷歌介绍过的创新思路。
不仅如此,谷歌前几月推出的TPU v5e,则直接跳过了前期的争议版本TPU v5。当年谷歌非正式宣布TPU v5时,曾在研究论文中表示用到了AI设计v5版芯片,且设计效率比人类专家更高。不过,这一论述却引发了业界对于内容真实性的怀疑和调查,TPU v5后来也胎死腹中。
就算谷歌随后正式发布了全新版本的TPU v5e以正视听,它也在一定程度上回避了峰值算力指标的对比,而是声称每一美元对应算力的“性价比”最高。这一说法在追求最强算力的今天,似乎略显弱势。
最后,我细看了TPU v5e的架构和性能指标。在TPU v5e的芯片架构中,它又将从v3到v4沿用的双TensorCore架构改成了单TensorCore架构。虽然TPU v5e的INT8峰值算力达到393 TFLOPS,超过v4的275 TFLOPS,但是v5e的BF16峰值算力却只有197 TFLOPS,甚至还低于前一代v4的水平。这表明TPU v5e或将更适用于推理而非训练,也能映射出谷歌目前对于AI算力服务市场的战略选择。
TPU仍是谷歌未来发展多元算力的重要一环
TPU的发展历程不能说明谷歌的技术水平高低,它只是客观反映了全球科技行业中创新与挑战并存的现实。
在快速迭代的技术产品和激烈竞争的市场中,谷歌这样的科技巨头也是在妥协各种内外部因素后,稳妥推动技术创新,努力维持技术领先地位。
如今,虽然谷歌云上已经引入基于英伟达GPU的云算力服务,但是自行开发的TPU v5e仍是谷歌优化大语言模型、提升云业务竞争力、建设AI帝国的重要一环。
尽管存在争议,但是TPU v5e的推出维持了谷歌在AI领域的主流地位,体现了谷歌在未来多元算力布局的长远考虑。