新V观海外：谷歌TPU在争议中走向算力多元创新

陈沛2024-01-18 10:01

陈沛/文 谷歌专为AI计算设计的TPU（Tensor Processing Unit）最近不太顺利。几个月前发布新版TPU v5e时就曾卷入过争议之中，这两天又面临计算机科学家Joseph Bates的专利侵权指控。这就让我想具体谈一下谷歌TPU。

谷歌TPU诞生之初即被寄予厚望

TPU的故事开始于2015年。当时大家普遍面临一项挑战，那就是使用传统CPU或GPU处理机器学习算法、特别是深度学习算法时效率都比较低。

在那个时候，不仅有如今红得发紫的英伟达在努力升级GPU架构，谷歌也在规划开发新的专用架构处理器。

到2016年，谷歌就发布了用于大规模机器学习加速的首个TPU版本，专门用于优化机器学习算法中常见的张量运算执行过程，展现出了速度和能效优势。

首款TPU面世后，大家意识到谷歌在开发出广受欢迎的海量数据管理系统、大规模分布式文件管理系统、开源机器学习开发框架后，又一次证明了自己深厚的技术沉淀。

抄袭？虚假？弱势？TPU磕磕绊绊

尽管谷歌推出TPU受到业界高度评价，但这些年TPU并非一帆风顺。

最近，计算机科学家Joseph Bates和他的公司Singular Computing LLC就指控谷歌在开发TPU v2和v3时，抄袭了他2010至2014年期间向谷歌介绍过的创新思路。

不仅如此，谷歌前几月推出的TPU v5e，则直接跳过了前期的争议版本TPU v5。当年谷歌非正式宣布TPU v5时，曾在研究论文中表示用到了AI设计v5版芯片，且设计效率比人类专家更高。不过，这一论述却引发了业界对于内容真实性的怀疑和调查，TPU v5后来也胎死腹中。

就算谷歌随后正式发布了全新版本的TPU v5e以正视听，它也在一定程度上回避了峰值算力指标的对比，而是声称每一美元对应算力的“性价比”最高。这一说法在追求最强算力的今天，似乎略显弱势。

最后，我细看了TPU v5e的架构和性能指标。在TPU v5e的芯片架构中，它又将从v3到v4沿用的双TensorCore架构改成了单TensorCore架构。虽然TPU v5e的INT8峰值算力达到393 TFLOPS，超过v4的275 TFLOPS，但是v5e的BF16峰值算力却只有197 TFLOPS，甚至还低于前一代v4的水平。这表明TPU v5e或将更适用于推理而非训练，也能映射出谷歌目前对于AI算力服务市场的战略选择。

TPU仍是谷歌未来发展多元算力的重要一环

TPU的发展历程不能说明谷歌的技术水平高低，它只是客观反映了全球科技行业中创新与挑战并存的现实。

在快速迭代的技术产品和激烈竞争的市场中，谷歌这样的科技巨头也是在妥协各种内外部因素后，稳妥推动技术创新，努力维持技术领先地位。

如今，虽然谷歌云上已经引入基于英伟达GPU的云算力服务，但是自行开发的TPU v5e仍是谷歌优化大语言模型、提升云业务竞争力、建设AI帝国的重要一环。

尽管存在争议，但是TPU v5e的推出维持了谷歌在AI领域的主流地位，体现了谷歌在未来多元算力布局的长远考虑。