现在,一家国产AI大模型厂商,已经放出了类似的视频通话功能,AI可以用摄像头看见这个世界,并且和我们实时互动。
功能实测:
1、视频理解:能识别物体、文字、空间关系。
2、对话:能随时打断,开始新对话。
3、延迟度:2秒左右,接近实时交互体验。
4、声音:一般、缺乏情绪表现力。
那这个实测效果和GPT4o的宣传片比的话,还是有差距,不过嘛,宣传片这个东西,大家都懂的,最后放出来有几成功力,还不好说,坐等GPT版出来再说。目前,这也是国内普通用户能体验到的,基本唯一的选择了,希望其他厂商也赶紧跟上。
如何体验?
升级到智谱清言App最新版,使用路径图如下。但是,视频通话功能只对“部分用户”开放。
申请地址:(点击进入网站)
如果没有的话,就需要申请内测权限,排队等待。
点评:
文本、音频到视觉,AI多模态能力最后一块拼图完成。有了视觉感知能力的加持,除了文本沟通模式外,生活中大量视觉场景也能互动了,和AI一起玩游戏、辅导作业、直播咨询等都成为现实。这只是一个开始,相信不久后,多模态能力,会成为所有AI大模型的标配,都给我卷起来!