新V观海外：Claude 3实际产品体验差强人意

陈沛2024-03-15 12:34

陈沛/文 OpenAI竞争对手Anthropic近期发布了新款大模型Claude 3系列，其中包括三款子模型Haiku、Sonnet和Opus。根据Anthropic发布的测试结果，Claude 3中性能最优的Opus模型在多项基准测试中的得分都超过了OpenAI的GPT-4，次优的Sonnet模型的得分也基本可与GPT-4相媲美。

尽管AI业界近年来有所弱化基准测试得分的重要性，越来越强调大模型的产品能力和用户实际体验才是关键衡量标准。但是能在多项测试中全面超过长期占据头名的GPT-4，表明Claude 3或是一个值得尝试的大模型服务。

我已经使用了Claude 3，目前Sonnet模型可免费限量使用，Opus模型则需支付每月20美元的订阅费用。根据我的对话体验，Claude长期以来反复强调的在长文本输入和内容安全性等方面的优势，在实际产品使用中并不突出。

例如我输入了一篇长新闻内容，让Claude 3总结其中的主要结论和关键数字，Claude 3输出的主要结论尚可，但找出的关键数字却完全是凭空捏造的。

Claude 3的长文本输入能力还受限于文档处理能力。Claude 3目前支持单次上传5个文档，每个文档10Mb以内。与现在主流AI大模型产品相比，这种处理能力并不突出。就算我上传了一个只有4Mb的研究论文进行测试，Claude 3也提示内容过长无法处理。而同样的研究论文，我已在其它AI大模型产品中成功做过测试。

在产品体验方面，Claude 3目前还处于测试阶段，对话数量限制也在调整之中。由于没有类似“每3小时发送50条”的明确限制，导致有时先发送一条输入，Claude 3会提示“超出限制”报错信息，但重复试几次就又可以输出了。

Claude 3官网还重点宣传了它的图片输入理解能力，提供了Claude 3读取图片中手写文稿的示例。但我使用官网截图进行输入，Claude 3能理解图片的数量、主题信息和位置关系，但在手写文稿截图不清的情况下，却给出了完全捏造的手写文稿识别结果。

最后，Claude 3已明确表示不支持搜索互联网的内容。这种选择虽然会让它在推理时的输出相对更快一些，但与其它主流AI大模型产品相比，这个短板或许会导致Claude 3难以让个人用户做出长期付费订阅的决定。

实际使用后，总体上可以感觉到Claude 3或许是一个优秀的研究成果，但与优秀的用户产品相比，还有距离。