业界动态
李志飞评GPT-4o:让人机交互这个渣男有望重新做人,期待下一个十年,OpenAI,模型,应用
2024-05-19 04:34:07
李志飞评GPT-4o:让人机交互这个渣男有望重新做人,期待下一个十年,OpenAI,模型,应用

新浪科技(ji)讯(xun) 5月14日上午消息,对于OpenAI发布(bu)可实时进行音频、视觉(jue)和文本推理的新一代AI模型GPT-4o一事(shi),出(chu)门问问创始人(ren)兼CEO李志飞今日早间于“ “飞哥说AI”个人(ren)号(hao)发文表示:“人(ren)机交互这个渣男,因(yin)为GPT-4o的出(chu)现(xian),有望真的重(zhong)新做人(ren),开启下(xia)一波的科技(ji)、应用、和商业(ye)模式的革命,期待(dai)下(xia)一个十年。”

李志飞指出(chu),自从2011年苹果发布(bu)Siri,无数公司尝试着(zhe)做一个万能的虚(xu)拟个人(ren)助理(VPA),包括Google,也包括出(chu)门问问,但基本都是demo炫(xuan)酷(ku),用户用起来却觉(jue)得很蠢。这次,OpenAI的demo无疑(yi)是把(ba)VPA推到了前所未有的高度(du)。主要是以下(xia)几点:

第一, 模型上端到端:以前的语音助手分下(xia)面(mian)多个步骤,唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由(you)不同的专业(ye)团队开发。GPT-4o是端到端模型,一个模型解决所有问题。

第二(er), 实时交互:因(yin)为是一个端到端模型,所以做到了平均300多毫秒的类似于人(ren)类的实时交互,如果用大模型串联可能需(xu)要几秒延迟。虽然以前的语音助手也可以实时交互,但大多是完成(cheng)一些基本信息查询(比如说附(fu)近的川菜馆(guan))和基本命令(比如说拨打电话号(hao)码),但这个GPT-4o是一个真正意(yi)义上通用的VPA。

第三(san),多模态交互:以前的语音助手只是语音交互,而(er)现(xian)在的GPT-4o是真正的多模态,跟人(ren)类一样,模态之间自由(you)切换。牛X的是,GPT没有因(yin)为加入别的模态而(er)降低语言的理解和生成(cheng)能力,大写地服。

第四, 丝(si)滑的交互体验:从视频来看,跟以前的语音助手不一样,没有反(fan)人(ren)类的唤醒、没有答非(fei)所问的对话、没有pipeline系统的错误传递,AI基本上可以作(zuo)为一个聪明的人(ren)类参与人(ren)类的集体对话(AI参与多人(ren)视频会议那个例子很好地证明了这个)。

第五,未来的期望:这次demo从体验上很炸(zha)裂,让我对大模型真正渗透到生活的方方面(mian)面(mian)重(zhong)新产生了信心。除了打磨基本体验外,未来可做的事(shi)情很多,比如说落地到各种智(zhi)能硬件;跟智(zhi)能家居、车载等各种场景(jing)结合实现(xian)跨(kua)场景(jing)联动,感觉(jue)未来五年很多东西值得期待(dai)。

第六,前沿科技(ji)的timing: 这次的演示本身(shen)没有新的idea,无论是现(xian)在的语音助手和多模态交互,还(hai)是未来要落地的智(zhi)能硬件和多场景(jing)联动,都没有啥新的概念,过去十年很多人(ren)做过demo。但是过去的体验都是半(ban)吊子,demo很酷(ku)、用起来反(fan)人(ren)类。本人(ren)做了十年,都已经绝望了,直到大模型的出(chu)现(xian),才看到了一个全能的VPA的可能性。所以,前沿科技(ji)很多时候不在于vision,而(er)在于实现(xian)vision的路径和节奏。

李志飞外,对于GPT-4o的发布(bu),猎豹移动董事(shi)长兼CEO、猎户星空董事(shi)长傅盛(sheng)今日早间同样发文点评称,“所有人(ren)工智(zhi)能从业(ye)者都在熬夜等着(zhe)大洋彼岸放核弹,但是没想到核弹没有放,掏出(chu)了一堆的摔炮。”

傅盛(sheng)表示,这样的评论虽然是一句玩笑(xiao)话,但比较让人(ren)失望的是这次OpenAI没有发布(bu)GPT 5.0,连GPT4.5也没有看到,反(fan)而(er)是发布(bu)了GPT4o,就是把(ba)一系列的引擎给结合在一起,比如图片、文字、声音,这样你就不需(xu)要来回去切换了。

当然,傅盛(sheng)也看到,OpenAI也发布(bu)了一系列的应用,通过一个桌面(mian)的App让你能够方便(bian)地把(ba)图片文档(dang)上传然后让大模型去帮你分析;此外,最重(zhong)要的是OpenAI还(hai)发布(bu)了一个语音助手,由(you)于使用了端到端大模型技(ji)术(shu),所以这次语音助手的体验超(chao)越了Siri,也远超(chao)于我们以前用过的所有的各种AI助手,不仅能够去感知情绪实时知道对话人(ren)的每一句话,并且在该插话的时候插话。

傅盛(sheng)指出(chu),一方面(mian),我们觉(jue)得OpenAI发布(bu)应用恰恰说明了应用在人(ren)工智(zhi)能领域大有可为,每一个创业(ye)者都应该去好好的做人(ren)工智(zhi)能应用,大模型的能力当然会不断地迭代,但最终能够把(ba)大模型用好的还(hai)是应用,这次OpenAI的发布(bu)会,也说明了这一点。另一方面(mian),如果不计成(cheng)本的累参数,提(ti)高所谓的大模型能力,这条路肯(ken)定是容易遇到困难的,目前看起来GPT5可能还(hai)要难产一段时间。

“OpenAI这次为了能够让更(geng)多的用户使用它,可以说是卯足了劲,一系列的应用,API降价,GPT免费,我们当然希望OpenAI能够使得这个行业(ye)更(geng)好的发展,我们也能认真地去学习,这次的发布(bu)会真正告诉(su)我们应用大有可为,所有人(ren)都应该努力。”傅盛(sheng)表示。(文猛)

责任编辑:尉旖涵

发布(bu)于:北京市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7