李志飞评GPT-4o：让人机交互这个渣男有望重新做人，期待下一个十年,OpenAI,模型,应用20240519-业界动态-szhfh.com

李志飞评GPT-4o：让人机交互这个渣男有望重新做人，期待下一个十年,OpenAI,模型,应用

2024-05-19 04:34:07

李志飞评GPT-4o：让人机交互这个渣男有望重新做人，期待下一个十年,OpenAI,模型,应用

新浪科技(ji)讯(xun) 5月14日上午消息，对于OpenAI发布(bu)可实时进行音频、视觉(jue)和文本推理的新一代AI模型GPT-4o一事(shi)，出(chu)门问问创始人(ren)兼CEO李志飞今日早间于“ “飞哥说AI”个人(ren)号(hao)发文表示：“人(ren)机交互这个渣男，因(yin)为GPT-4o的出(chu)现(xian)，有望真的重(zhong)新做人(ren)，开启下(xia)一波的科技(ji)、应用、和商业(ye)模式的革命，期待(dai)下(xia)一个十年。”

李志飞指出(chu)，自从2011年苹果发布(bu)Siri，无数公司尝试着(zhe)做一个万能的虚(xu)拟个人(ren)助理（VPA），包括Google，也包括出(chu)门问问，但基本都是demo炫(xuan)酷(ku)，用户用起来却觉(jue)得很蠢。这次，OpenAI的demo无疑(yi)是把(ba)VPA推到了前所未有的高度(du)。主要是以下(xia)几点：

第一，模型上端到端：以前的语音助手分下(xia)面(mian)多个步骤，唤醒、语音识别、自然语言理解、信息查询、对话、TTS。每一个步骤是一个单独的模型、由(you)不同的专业(ye)团队开发。GPT-4o是端到端模型，一个模型解决所有问题。

第二(er)，实时交互：因(yin)为是一个端到端模型，所以做到了平均300多毫秒的类似于人(ren)类的实时交互，如果用大模型串联可能需(xu)要几秒延迟。虽然以前的语音助手也可以实时交互，但大多是完成(cheng)一些基本信息查询（比如说附(fu)近的川菜馆(guan)）和基本命令（比如说拨打电话号(hao)码），但这个GPT-4o是一个真正意(yi)义上通用的VPA。

第三(san)，多模态交互：以前的语音助手只是语音交互，而(er)现(xian)在的GPT-4o是真正的多模态，跟人(ren)类一样，模态之间自由(you)切换。牛X的是，GPT没有因(yin)为加入别的模态而(er)降低语言的理解和生成(cheng)能力，大写地服。

第四，丝(si)滑的交互体验：从视频来看，跟以前的语音助手不一样，没有反(fan)人(ren)类的唤醒、没有答非(fei)所问的对话、没有pipeline系统的错误传递，AI基本上可以作(zuo)为一个聪明的人(ren)类参与人(ren)类的集体对话（AI参与多人(ren)视频会议那个例子很好地证明了这个）。

第五，未来的期望：这次demo从体验上很炸(zha)裂，让我对大模型真正渗透到生活的方方面(mian)面(mian)重(zhong)新产生了信心。除了打磨基本体验外，未来可做的事(shi)情很多，比如说落地到各种智(zhi)能硬件；跟智(zhi)能家居、车载等各种场景(jing)结合实现(xian)跨(kua)场景(jing)联动，感觉(jue)未来五年很多东西值得期待(dai)。

第六，前沿科技(ji)的timing：这次的演示本身(shen)没有新的idea，无论是现(xian)在的语音助手和多模态交互，还(hai)是未来要落地的智(zhi)能硬件和多场景(jing)联动，都没有啥新的概念，过去十年很多人(ren)做过demo。但是过去的体验都是半(ban)吊子，demo很酷(ku)、用起来反(fan)人(ren)类。本人(ren)做了十年，都已经绝望了，直到大模型的出(chu)现(xian)，才看到了一个全能的VPA的可能性。所以，前沿科技(ji)很多时候不在于vision，而(er)在于实现(xian)vision的路径和节奏。

李志飞外，对于GPT-4o的发布(bu)，猎豹移动董事(shi)长兼CEO、猎户星空董事(shi)长傅盛(sheng)今日早间同样发文点评称，“所有人(ren)工智(zhi)能从业(ye)者都在熬夜等着(zhe)大洋彼岸放核弹，但是没想到核弹没有放，掏出(chu)了一堆的摔炮。”

傅盛(sheng)表示，这样的评论虽然是一句玩笑(xiao)话，但比较让人(ren)失望的是这次OpenAI没有发布(bu)GPT 5.0，连GPT4.5也没有看到，反(fan)而(er)是发布(bu)了GPT4o，就是把(ba)一系列的引擎给结合在一起，比如图片、文字、声音，这样你就不需(xu)要来回去切换了。

当然，傅盛(sheng)也看到，OpenAI也发布(bu)了一系列的应用，通过一个桌面(mian)的App让你能够方便(bian)地把(ba)图片文档(dang)上传然后让大模型去帮你分析；此外，最重(zhong)要的是OpenAI还(hai)发布(bu)了一个语音助手，由(you)于使用了端到端大模型技(ji)术(shu)，所以这次语音助手的体验超(chao)越了Siri，也远超(chao)于我们以前用过的所有的各种AI助手，不仅能够去感知情绪实时知道对话人(ren)的每一句话，并且在该插话的时候插话。

傅盛(sheng)指出(chu)，一方面(mian)，我们觉(jue)得OpenAI发布(bu)应用恰恰说明了应用在人(ren)工智(zhi)能领域大有可为，每一个创业(ye)者都应该去好好的做人(ren)工智(zhi)能应用，大模型的能力当然会不断地迭代，但最终能够把(ba)大模型用好的还(hai)是应用，这次OpenAI的发布(bu)会，也说明了这一点。另一方面(mian)，如果不计成(cheng)本的累参数，提(ti)高所谓的大模型能力，这条路肯(ken)定是容易遇到困难的，目前看起来GPT5可能还(hai)要难产一段时间。

“OpenAI这次为了能够让更(geng)多的用户使用它，可以说是卯足了劲，一系列的应用，API降价，GPT免费，我们当然希望OpenAI能够使得这个行业(ye)更(geng)好的发展，我们也能认真地去学习，这次的发布(bu)会真正告诉(su)我们应用大有可为，所有人(ren)都应该努力。”傅盛(sheng)表示。（文猛）

责任编辑：尉旖涵

发布(bu)于：北京市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多