陈沛/文 谷歌DeepMind曾在五月I/O大会上重点展示了新的多模态AI助理项目Project Astra,用户可在手机上打开Astra观察现场环境并进行问答,展示了多模态AI助理在实时视觉识别和低延迟语音交互方面的能力。
不过,由于OpenAI正好抢在前一天展示了GPT-4o的实时交互效果,很大程度上抢走了本属于谷歌Astra的关注热度。尽管如此,谷歌在I/O大会之后继续发布Astra的最新展示效果,Astra的多模态理解能力仍在持续进化。
理解现实物理世界的复杂信息
在近期的一项展示中,研究者在手机上打开Astra环视办公室环境,要求Astra在看到能发出声音的物体时进行指出。
Astra随即在用户走到办公桌附近时,成功指出了桌上放的音箱,并能根据用户进一步指向位置,对应解释音箱上的高频扬声器的功能。
随着研究者在办公室中继续移动,Astra还能接连看懂程序员电脑屏幕上的加密算法代码、根据桌上的彩色笔进行造句、识别窗外的著名建筑——国王十字车站——并推理出当前位置处于英国伦敦。
以上一系列过程展示了Astra对于现实世界的深度理解能力。它至少已经能够横跨物理、编程、文学、地理等多个维度,与研究者在现实世界中进行实时交流。
发展出了短期记忆能力
在展示过Astra以上综合理解能力后,研究者突然来了个“回马枪”,向Astra提问刚才在办公室中走动时,是否还记得眼镜放在哪里?
Astra简单停顿片刻,就立即回答出眼镜放在刚才走过窗边的桌上。
虽然研究者没有专门展示Astra的记忆周期有多长,但很明显它至少具备了短期记忆能力。在它看过的环境中,就算当时出现时没有被问到的物体,在后续被追问时依然能检索视觉记忆信息并回答出来。
已与眼镜实现无缝集成
研究者找到眼镜戴上后,展示了另一段Astra搭载在眼镜上的交流效果。这也是很多人对多模态AI助理的期待,将多模态AI助理搭载在眼镜上直接观察世界。
在眼镜上的展示过程中,Astra的深度理解和实时交流能力没有任何打折。它依然能够理解IT系统草图并给出优化建议,看懂黑板上两只猫简笔画加上实物纸盒组合出了“薛定谔的猫”的含义,并能结合宠物品种和玩偶外观起一个适当的名字。
这表明,为Astra提供理解能力的基础模型已经在可穿戴设备端实现了适配,甚至是在眼镜这种计算、内存、能耗远低于智能手机的设备环境中,也能运行起来。
总体来看,Astra的实时视觉理解和交互能力已经非常突出,特别是集成到眼镜上的展示效果更令人印象深刻。
但是也要看到,尽管在眼镜上集成多模态AI助理值得期待,但是语音交互的应用场景很有限,在现实中还要面临噪声、续航、光照环境、佩戴舒适性等诸多限制因素,因此Astra未来的产品化过程还会经历很多取舍,实际产品前景仍需谨慎观察。