语音AI助手大战开启！OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project20240518-业界动态-szhfh.com

语音AI助手大战开启！OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project

2024-05-18 00:31:16

语音AI助手大战开启！OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project

本文作(zuo)者：李笑寅

来源：硬(ying)AI

本周，AI圈“王炸”不(bu)断：谷歌宣布(bu)进入Gemini时代，“狂甩”一堆更新，直接对线(xian)提前(qian)一天“截(jie)胡”推出(chu)新品的OpenAI。

OpenAI的GPT-4o卓越的实时交互能力令人印象(xiang)深(shen)刻，而谷歌的Project Astra同样以相媲美的能力作(zuo)为反击，引(yin)发行业对AI助手的讨论度(du)飙(biao)升。

根据已公开的信息，同样作(zuo)为AI语音助手，GPT-4o和Project Astra都基于多模态模型打造，支(zhi)持文本、图片和音视频(pin)内容的接收/生成(cheng)，并能做(zuo)到超短延迟、实时交互。

另外，根据此前(qian)的媒体报道，苹果已经与OpenAI达成(cheng)协议，将在全新操作(zuo)系统iOS 18中引(yin)入ChatGPT技(ji)术，而谷歌掌控着安卓系统的“命脉”。这不(bu)禁令人联想：GPT-4o和Gemini之间的这场对决会不(bu)会是下一个AI手机(ji)届的“iOS VS 安卓”？

正面(mian)“硬(ying)刚”，谁更胜一筹？

逐一对比(bi)GPT-4o和Project Astra（在Gemini中提供Gemini Live功能），会发现这两款AI助手的确存在细节差(cha)异。

1）使用场景

GPT-4o的响应延迟平均(jun)为320毫秒，最快在232毫秒内回(hui)应音频(pin)输入，接近人类对话的反应时间。在发布(bu)会演示中，GPT-4o的日常使用场景包括(kuo)：口译、读写编码、数学教学、汇总(zong)并解读信息、视频(pin)识别情绪等。

Gemini Live的视觉识别和语音交互效(xiao)果和GPT-4o不(bu)相上下，同样提供了对话式自然语言语音界面(mian)和通过手机(ji)摄(she)像头进行实时视频(pin)分析的能力，反应速度(du)也够快，能进行自然日常对话。DeepMind CEO Demis Hassabis形容其为“一直希望打造一款在日常生活中有用的通用智能体”。

从易用性来看(kan)，二者之间差(cha)别不(bu)大。

不(bu)过，一个可能导致市(shi)场反响不(bu)同的点在于，GPT-4o的演示是现场完成(cheng)的，而谷歌的演示是发布(bu)会前(qian)录制的。

2）多模态能力

多模态能力是两款AI助手主打的宣传点，目前(qian)看(kan)来，GPT-4o可能在音频(pin)方面(mian)略微领(ling)先，而Project Astra展示的视觉功能则更胜一筹。

演示中，GPT-4o展示了逼真的声音、丝滑的对话流程、唱歌，甚至能够根据用户的预期猜测情绪；而Project Astra展示了更“高级”的视觉功能，比(bi)如(ru)能够“记住”你把眼镜放在哪里。

在多模态模型方面(mian)，Gemini依(yi)赖其他模型进行输出(chu)，包括(kuo)使用Imagen 3处理图像和Veo处理视频(pin)；而GPT-4o采用的是原生的多模态，自发生成(cheng)图像和声音。

3）产品定位

GPT-4o的推出(chu)引(yin)发了市(shi)场对于现实版(ban)“Her”的讨论，因其AI助手拥有情感表达充沛的女声，甚至具有闲聊和开玩笑的能力，而Project Astra虽然也是女声，但语气更加沉(chen)着冷静(jing)，更实事求是。

这体现出(chu)二者对于“AI助手”产品定位的不(bu)同，OpenAI希望其更“拟人化”，而谷歌则希望其更“代理化”。

谷歌曾表示，有意避免生产“Her”类型的人工(gong)智能。

在DeepMind上个月发表的论文中，该公司详细介绍了拟人化AI的潜在缺点，认为这种AI助手将模糊(hu)“人机(ji)界限”，可能会导致敏感信息泄露、人类情感依(yi)赖、代理能力削弱等问题(ti)。

4）访问路径

OpenAI表示，即日起在Web界面(mian)和GPT应用程序上推出(chu)GPT-4o的文本和视觉功能。该公司还(hai)表示，将在未来几周内增加语音功能，开发人员现可以访问API中的文本和视觉功能。

谷歌表示，Gemini Live将在“未来几个月”通过Google的高级AI计划Gemini Advanced推出(chu)。

有观点认为，OpenAI推出(chu)新功能的时点更早(zao)，可能意味着其产品在获取(qu)新用户方面(mian)更具优势。

5）费用

GPT-4o面(mian)向ChatGPT的所有用户免费开放，API价格降价50%。

不(bu)过，目前(qian)官(guan)方给出(chu)的免费限制在一定的消息数量上，超过这个消息量后(hou)，免费用户的模型将被切换回(hui)ChatGPT，也就是GPT3.5，而付费用户（每月20美元起）则将拥有五倍的GPT-4o消息量上限。

Gemini Advanced提供两个月的免费试用期，此后(hou)每月收费20美元。

AI眼镜会是下个战场吗？

伴随端侧AI应用的推进，AI助手将真正落(luo)地并应用于日常生活，届时其实际(ji)效(xiao)用才会逐一显现。

不(bu)过，AI语音助手似乎暗示了一种新的电子科技(ji)趋势：从文本转向音频(pin)。

而接下来，视觉能力的深(shen)度(du)融合似乎也正在路上。

发布(bu)会上，谷歌表示，Project Astra的另一重潜力在于，可以与谷歌眼镜一起配合使用——盲人戴上后(hou)，可以在日常生活中获得实时语音讲解。

Meta也推出(chu)了语音机(ji)器人MetaAI，用于其VR耳机(ji)和Ray-Ban智能眼镜。

有观点认为，现阶段，AI语音助手的加入可能推升AI手机(ji)成(cheng)为赢家，但往后(hou)看(kan)，这些(xie)语音AI模型的终极(ji)形态将是智能眼镜。

*免责声明：文章内容仅供参考，不(bu)构成(cheng)投资建议

*风(feng)险提示：股市(shi)有风(feng)险，入市(shi)需谨慎(shen)

发布(bu)于：上海市(shi)

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多