不用GPU！硅谷Groq大模型横空出世，能否挑战英伟达？

张赛男2024-02-22 12:38

AI圈卷疯了。

人们还没从视频生成模型Sora带来的震撼中回过神来，硅谷AI芯片初创公司Groq的大模型又引发了市场热烈讨论，其主打一个“快”，每秒能输出500个token（注：语言模型中用来表示最小文本单元）。相比之下，Chat GPT-3.5每秒生成速度为40个token。

在大模型产品多如牛毛的当下，Groq为何得以爆火？

其最大的亮点在于独特的技术路径。不同于广泛使用英伟达GPU的大模型产品，Groq团队为其大模型量身定制了专用芯片（ASIC），这一芯片能在速度上取胜的核心技术是其首创的LPU（Language Processing Unit）技术。

“天下苦英伟达久矣”，自大模型兴起以来，英伟达的GPU芯片一卡难求，算力短缺成为很多AI企业面临的难题。而如今Groq横空出世，不仅绕开了GPU，还能实现更快的计算速度，无疑让市场倍感兴奋。

Groq的AI芯片到底和GPU有何不同？能否实现“平替”英伟达？

主打一个“快”

据介绍，Groq的芯片采用14nm制程，搭载了230MB大静态随机存储器（SRAM）以保证内存带宽，片上内存带宽达80TB/s。在算力方面，该芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs。

如何直观地感受其运算效率？据称，Groq在大语言模型任务上彻底击败了GPU——比英伟达的GPU快10倍，而成本仅为GPU的10%，且只需要GPU十分之一的电力。

Anyscale的LLMPerf排行也显示，在Groq LPU推理引擎上运行的Llama 2 70B，输出tokens吞吐量快了18倍，优于其他所有云推理供应商。

为了证明自研芯片的能力，Groq在官网发布了免费的大模型服务，包括三个开源大模型，Mixtral 8×7B-32K、Llama 2-70B-4K和Mistral 7B-8K，目前前两个已开放使用。

Groq火箭般的生成速度，让市场侧目，也吸引网友纷纷测评。

据网友测试，面对300多个单词的“巨型”prompt（AI模型提示词），Groq在不到一秒钟的时间里，就为一篇期刊论文创建了初步大纲和写作计划。此外，Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默（Matt Shumer）在体验Groq后称赞其快如闪电，能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。更令人惊讶的是，其超过3/4的时间用于搜索信息，而生成答案的时间却短到只有几分之一秒。

Groq能实现上述功能的核心技术在于首创的LPU，那么对这一技术该如何理解？

据社交媒体X上与Groq关系密切的投资人k_zeroS分享，LPU的工作原理与GPU截然不同。它采用了时序指令集计算机（Temporal Instruction Set Computer）架构，这意味着它无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题，还能有效降低成本。不同于英伟达 GPU需要依赖高速数据传输，Groq的LPU在其系统中没有采用HBM，它使用的是SRAM，其速度比GPU所用的存储器快约20倍。

科技投资专家、首建投合伙人王嘉宁在接受21世纪经济报道记者采访时表示，“LPU架构与GPU使用的SIMD（单指令，多数据）不同，它的推理引擎是一个端到端系统，专为需要大量计算和连续处理的应用（如大语言模型）设计。LPU的设计允许更有效地利用每个时钟周期，确保一致的延迟和吞吐量，并降低复杂调度硬件的需求。”

“平替”英伟达？

“快”字当头，Groq的大模型可谓赚足眼球。Groq还喊话各大公司，扬言在三年内超越英伟达。

作为“AI卖铲人”，英伟达在这一波AI热潮中赚得盆满钵满，其GPU芯片价格一再被炒高，但仍一卡难求，因此在这场战役中，“天下苦英伟达久矣”的呼声一直高亢。如果Groq的LPU架构能“弯道超车”，显然为业内乐见。据悉，该公司的推理芯片在第三方网站上的售价为2万多美元。

不过，想要“平替”英伟达GPU可并不容易，从各方观点来看，Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账，因为Groq小得可怜的内存容量，在运行Llama 2 70B模型时，需要305张Groq卡才足够，而用英伟达的H100则只需要8张卡。从目前的价格来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。

对比LPU和GPU的优劣，天使投资人、资深人工智能专家郭涛对21世纪经济报道记者进一步分析，“性能方面，对于特定任务，比如深度学习中的矩阵运算，LPU可能提供更高的吞吐量和更低的延迟；通用性方面，GPU设计用于处理各种并行计算任务，而LPU可能更专一，这既是优势也是劣势。生态系统和软件支持方面，GPU拥有成熟的生态系统和广泛的软件支持，而新出现的LPU可能需要时间来建立相应的支持。”

深度科技院长张孝荣认为：“尽管LPU在某些方面可能无法与为广泛图形处理任务设计的英伟达GPU直接竞争，但在特定的AI领域，尤其是语言大模型推理方面，LPU具备不小的应用潜力。”

虽然市场上对GPU的主导地位有所不满，但受访专家普遍认为，LPU要完全取代GPU并非易事。

郭涛认为，“英伟达的GPU不仅性能强大，而且拥有庞大的用户基础和生态系统。随着AI和深度学习的不断发展，对专用芯片的需求也在增长。不过，LPU和其他ASIC提供了一种可能性，可以在特定领域内挑战GPU的地位。”。

当前，随着AI技术的发展和市场需求的变化，各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现，它们在各自擅长的领域内展现出了挑战GPU的可能性。“不过，要实现大规模的市场替代还需要解决生态建设、兼容性、成本效益等诸多问题。”王嘉宁说。

来源：21世纪经济报道作者:张赛男

版权与免责：以上作品（包括文、图、音视频）版权归发布者【张赛男】所有。本App为发布者提供信息发布平台服务，不代表经观的观点和构成投资等建议