业界动态
2024正版资料大全全年四年老玩家揭秘-语音AI助手大战开启!OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project
2024-06-04 12:59:35
2024正版资料大全全年四年老玩家揭秘-语音AI助手大战开启!OpenAI VS 谷歌--AI手机届的“iOS VS 安卓”,Gemini,Astra,Project

本文作者:李笑寅

来(lai)源:硬AI

本周,AI圈“王炸”不断:谷歌宣布(bu)进入Gemini时代,“狂甩”一堆更新,直接对线提(ti)前一天“截(jie)胡”推出新品的OpenAI。

OpenAI的GPT-4o卓越的实时交(jiao)互能力(li)令人印象深刻,而谷歌的Project Astra同样以相媲美(mei)的能力(li)作为反击(ji),引(yin)发行业对AI助手的讨(tao)论度飙升。

根据已(yi)公(gong)开的信(xin)息,同样作为AI语音助手,GPT-4o和Project Astra都基于多模态模型打造,支持文本、图片和音视(shi)频(pin)内容的接收/生成,并能做到超短延迟、实时交(jiao)互。

另外,根据此前的媒体(ti)报道,苹果已(yi)经与OpenAI达(da)成协议(yi),将(jiang)在全(quan)新操作系统iOS 18中(zhong)引(yin)入ChatGPT技术,而谷歌掌控着安卓系统的“命脉”。这不禁令人联想:GPT-4o和Gemini之间的这场对决会不会是下(xia)一个AI手机届的“iOS VS 安卓”?

正面“硬刚”,谁更胜一筹?

逐(zhu)一对比GPT-4o和Project Astra(在Gemini中(zhong)提(ti)供Gemini Live功能),会发现这两款AI助手的确存在细节(jie)差异。

1)使用场景(jing)

GPT-4o的响应延迟平均为320毫秒,最快在232毫秒内回应音频(pin)输入,接近人类对话的反应时间。在发布(bu)会演示中(zhong),GPT-4o的日常使用场景(jing)包括:口译(yi)、读写编码、数学教学、汇(hui)总并解读信(xin)息、视(shi)频(pin)识别情绪等。

Gemini Live的视(shi)觉识别和语音交(jiao)互效(xiao)果和GPT-4o不相上下(xia),同样提(ti)供了对话式自然语言(yan)语音界面和通过手机摄像头进行实时视(shi)频(pin)分析的能力(li),反应速度也(ye)够快,能进行自然日常对话。DeepMind CEO Demis Hassabis形容其为“一直希望打造一款在日常生活中(zhong)有用的通用智能体(ti)”。

从易用性来(lai)看(kan),二(er)者之间差别不大。

不过,一个可能导致市场反响不同的点在于,GPT-4o的演示是现场完成的,而谷歌的演示是发布(bu)会前录制的。

2)多模态能力(li)

多模态能力(li)是两款AI助手主(zhu)打的宣传(chuan)点,目前看(kan)来(lai),GPT-4o可能在音频(pin)方面略微领先,而Project Astra展示的视(shi)觉功能则更胜一筹。

演示中(zhong),GPT-4o展示了逼(bi)真的声音、丝滑的对话流程、唱歌,甚至能够根据用户的预期猜测情绪;而Project Astra展示了更“高级”的视(shi)觉功能,比如能够“记住”你把眼镜放在哪里(li)。

在多模态模型方面,Gemini依赖(lai)其他模型进行输出,包括使用Imagen 3处理图像和Veo处理视(shi)频(pin);而GPT-4o采用的是原生的多模态,自发生成图像和声音。

3)产品定位

GPT-4o的推出引(yin)发了市场对于现实版(ban)“Her”的讨(tao)论,因其AI助手拥(yong)有情感表达(da)充沛的女声,甚至具有闲(xian)聊和开玩笑的能力(li),而Project Astra虽然也(ye)是女声,但语气(qi)更加沉着冷静(jing),更实事求是。

这体(ti)现出二(er)者对于“AI助手”产品定位的不同,OpenAI希望其更“拟(ni)人化”,而谷歌则希望其更“代理化”。

谷歌曾表示,有意避免生产“Her”类型的人工(gong)智能。

在DeepMind上个月发表的论文中(zhong),该公(gong)司详细介(jie)绍了拟(ni)人化AI的潜在缺点,认为这种AI助手将(jiang)模糊“人机界限”,可能会导致敏(min)感信(xin)息泄露、人类情感依赖(lai)、代理能力(li)削弱等问题。

4)访问路径

OpenAI表示,即(ji)日起在Web界面和GPT应用程序上推出GPT-4o的文本和视(shi)觉功能。该公(gong)司还(hai)表示,将(jiang)在未来(lai)几(ji)周内增加语音功能,开发人员现可以访问API中(zhong)的文本和视(shi)觉功能。

谷歌表示,Gemini Live将(jiang)在“未来(lai)几(ji)个月”通过Google的高级AI计划(hua)Gemini Advanced推出。

有观点认为,OpenAI推出新功能的时点更早,可能意味着其产品在获(huo)取新用户方面更具优势。

5)费用

GPT-4o面向ChatGPT的所有用户免费开放,API价格(ge)降价50%。

不过,目前官方给出的免费限制在一定的消(xiao)息数量上,超过这个消(xiao)息量后,免费用户的模型将(jiang)被(bei)切换(huan)回ChatGPT,也(ye)就是GPT3.5,而付费用户(每月20美(mei)元起)则将(jiang)拥(yong)有五(wu)倍(bei)的GPT-4o消(xiao)息量上限。

Gemini Advanced提(ti)供两个月的免费试用期,此后每月收费20美(mei)元。

AI眼镜会是下(xia)个战场吗?

伴随端侧AI应用的推进,AI助手将(jiang)真正落地并应用于日常生活,届时其实际效(xiao)用才会逐(zhu)一显现。

不过,AI语音助手似(si)乎暗示了一种新的电子科技趋势:从文本转向音频(pin)。

而接下(xia)来(lai),视(shi)觉能力(li)的深度融合似(si)乎也(ye)正在路上。

发布(bu)会上,谷歌表示,Project Astra的另一重潜力(li)在于,可以与谷歌眼镜一起配合使用——盲人戴上后,可以在日常生活中(zhong)获(huo)得实时语音讲解。

Meta也(ye)推出了语音机器人MetaAI,用于其VR耳机和Ray-Ban智能眼镜。

有观点认为,现阶段,AI语音助手的加入可能推升AI手机成为赢家,但往后看(kan),这些语音AI模型的终极形态将(jiang)是智能眼镜。

*免责(ze)声明:文章内容仅供参考,不构成投资建议(yi)

*风险提(ti)示:股市有风险,入市需谨慎

发布(bu)于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7