业界动态
语音AI助手大战开启!OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project
2024-05-18 00:31:16
语音AI助手大战开启!OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project

本文作(zuo)者:李笑寅

来源:硬(ying)AI

本周,AI圈“王炸”不(bu)断:谷歌宣布(bu)进入Gemini时代,“狂甩”一堆更新,直接对线(xian)提前(qian)一天“截(jie)胡”推出(chu)新品的OpenAI。

OpenAI的GPT-4o卓越的实时交互能力令人印象(xiang)深(shen)刻,而谷歌的Project Astra同样以相媲美的能力作(zuo)为反击,引(yin)发行业对AI助手的讨论度(du)飙(biao)升。

根据已公开的信息,同样作(zuo)为AI语音助手,GPT-4o和Project Astra都基于多模态模型打造,支(zhi)持文本、图片和音视频(pin)内容的接收/生成(cheng),并能做(zuo)到超短延迟、实时交互。

另外,根据此前(qian)的媒体报道,苹果已经与OpenAI达成(cheng)协议,将在全新操作(zuo)系统iOS 18中引(yin)入ChatGPT技(ji)术,而谷歌掌控着安卓系统的“命脉”。这不(bu)禁令人联想:GPT-4o和Gemini之间的这场对决会不(bu)会是下一个AI手机(ji)届的“iOS VS 安卓”?

正面(mian)“硬(ying)刚”,谁更胜一筹?

逐一对比(bi)GPT-4o和Project Astra(在Gemini中提供Gemini Live功能),会发现这两款AI助手的确存在细节差(cha)异。

1)使用场景

GPT-4o的响应延迟平均(jun)为320毫秒,最快在232毫秒内回(hui)应音频(pin)输入,接近人类对话的反应时间。在发布(bu)会演示中,GPT-4o的日常使用场景包括(kuo):口译、读写编码、数学教学、汇总(zong)并解读信息、视频(pin)识别情绪等。

Gemini Live的视觉识别和语音交互效(xiao)果和GPT-4o不(bu)相上下,同样提供了对话式自然语言语音界面(mian)和通过手机(ji)摄(she)像头进行实时视频(pin)分析的能力,反应速度(du)也够快,能进行自然日常对话。DeepMind CEO Demis Hassabis形容其为“一直希望打造一款在日常生活中有用的通用智能体”。

从易用性来看(kan),二者之间差(cha)别不(bu)大。

不(bu)过,一个可能导致市(shi)场反响不(bu)同的点在于,GPT-4o的演示是现场完成(cheng)的,而谷歌的演示是发布(bu)会前(qian)录制的。

2)多模态能力

多模态能力是两款AI助手主打的宣传点,目前(qian)看(kan)来,GPT-4o可能在音频(pin)方面(mian)略微领(ling)先,而Project Astra展示的视觉功能则更胜一筹。

演示中,GPT-4o展示了逼真的声音、丝滑的对话流程、唱歌,甚至能够根据用户的预期猜测情绪;而Project Astra展示了更“高级”的视觉功能,比(bi)如(ru)能够“记住”你把眼镜放在哪里。

在多模态模型方面(mian),Gemini依(yi)赖其他模型进行输出(chu),包括(kuo)使用Imagen 3处理图像和Veo处理视频(pin);而GPT-4o采用的是原生的多模态,自发生成(cheng)图像和声音。

3)产品定位

GPT-4o的推出(chu)引(yin)发了市(shi)场对于现实版(ban)“Her”的讨论,因其AI助手拥有情感表达充沛的女声,甚至具有闲聊和开玩笑的能力,而Project Astra虽然也是女声,但语气更加沉(chen)着冷静(jing),更实事求是。

这体现出(chu)二者对于“AI助手”产品定位的不(bu)同,OpenAI希望其更“拟人化”,而谷歌则希望其更“代理化”。

谷歌曾表示,有意避免生产“Her”类型的人工(gong)智能。

在DeepMind上个月发表的论文中,该公司详细介绍了拟人化AI的潜在缺点,认为这种AI助手将模糊(hu)“人机(ji)界限”,可能会导致敏感信息泄露、人类情感依(yi)赖、代理能力削弱等问题(ti)。

4)访问路径

OpenAI表示,即日起在Web界面(mian)和GPT应用程序上推出(chu)GPT-4o的文本和视觉功能。该公司还(hai)表示,将在未来几周内增加语音功能,开发人员现可以访问API中的文本和视觉功能。

谷歌表示,Gemini Live将在“未来几个月”通过Google的高级AI计划Gemini Advanced推出(chu)。

有观点认为,OpenAI推出(chu)新功能的时点更早(zao),可能意味着其产品在获取(qu)新用户方面(mian)更具优势。

5)费用

GPT-4o面(mian)向ChatGPT的所有用户免费开放,API价格降价50%。

不(bu)过,目前(qian)官(guan)方给出(chu)的免费限制在一定的消息数量上,超过这个消息量后(hou),免费用户的模型将被切换回(hui)ChatGPT,也就是GPT3.5,而付费用户(每月20美元起)则将拥有五倍的GPT-4o消息量上限。

Gemini Advanced提供两个月的免费试用期,此后(hou)每月收费20美元。

AI眼镜会是下个战场吗?

伴随端侧AI应用的推进,AI助手将真正落(luo)地并应用于日常生活,届时其实际(ji)效(xiao)用才会逐一显现。

不(bu)过,AI语音助手似乎暗示了一种新的电子科技(ji)趋势:从文本转向音频(pin)。

而接下来,视觉能力的深(shen)度(du)融合似乎也正在路上。

发布(bu)会上,谷歌表示,Project Astra的另一重潜力在于,可以与谷歌眼镜一起配合使用——盲人戴上后(hou),可以在日常生活中获得实时语音讲解。

Meta也推出(chu)了语音机(ji)器人MetaAI,用于其VR耳机(ji)和Ray-Ban智能眼镜。

有观点认为,现阶段,AI语音助手的加入可能推升AI手机(ji)成(cheng)为赢家,但往后(hou)看(kan),这些(xie)语音AI模型的终极(ji)形态将是智能眼镜。

*免责声明:文章内容仅供参考,不(bu)构成(cheng)投资建议

*风(feng)险提示:股市(shi)有风(feng)险,入市(shi)需谨慎(shen)

发布(bu)于:上海市(shi)
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7