一码一肖100准确使用方法新-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本20240603-业界动态-szhfh.com

一码一肖100准确使用方法新-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

2024-06-03 01:55:28

一码一肖100准确使用方法新-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

（文(wen)/观(guan)察(cha)者网陈思(si)佳）一夜之间，AI界震(zhen)动。

当地时间5月13日，美(mei)国人工智(zhi)能研究公司OpenAI在线举(ju)行(xing)“春季更新”活(huo)动，正式(shi)推出新的旗舰人工智(zhi)能模型GPT-4o，以及免费向用户提(ti)供更多ChatGPT功能。GPT-4o支持文(wen)本、音频和图像(xiang)的任意组合输入，并能够生成文(wen)本、音频和图像(xiang)的任意组合输出。

OpenAI首席执行(xing)官奥(ao)尔特曼表示(shi)，GPT-4o的语音功能让人想起了电影《她》，“感觉就像(xiang)是电影中的人工智(zhi)能，我仍然对其(qi)感到惊讶。”

据美(mei)国《华尔街日报》13日报道，OpenAI首席技术官米拉·穆(mu)拉蒂(di)（Mira Murati）在发布会上表示(shi)，GPT-4o的速度比现有的GPT-4 Turbo快了两倍，但成本仅为(wei)其(qi)一半。GPT-4o可以实时对文(wen)本、音频和图像(xiang)进行(xing)推理(li)，响(xiang)应时间几乎达到人类(lei)水平。

报道称(cheng)，OpenAI高管现场演(yan)示(shi)了GPT-4o的多项功能，包括分析一段计算机代码、在意大利语和英语之间进行(xing)翻译、通过摄像(xiang)头引导研究人员解决基本数学(xue)问题等。

OpenAI发布GPT-4o模型视频截图

OpenAI还表示(shi)，GPT-4o可以检测用户的情绪，并以类(lei)似人类(lei)或机器人的语调与(yu)用户交谈。在演(yan)示(shi)中，ChatGPT识(shi)别到OpenAI后训练团队负责人巴雷特·佐夫（Barret Zoph）脸上的微笑，对他说(shuo)：“你(ni)脸上挂着(zhe)灿烂的笑容，看(kan)起来心情很好。”

但GPT-4o在演(yan)示(shi)过程中也出现一些失误。例如，它(ta)在尚未读取到图像(xiang)时就开始求解方(fang)程，还一度把佐夫的面部识(shi)别为(wei)“木质表面”。英国广播公司（BBC）称(cheng)，这(zhe)表明生成式(shi)人工智(zhi)能的“幻觉”问题仍未得到解决，距离解决聊天(tian)机器人不(bu)可靠的问题还有很长的路要走。

根据OpenAI发布的新闻稿，GPT-4o的“o”代表“omni”，即“全(quan)能”之意。GPT-4o可以在最快232毫秒的时间内响(xiang)应音频输入，平均响(xiang)应时间为(wei)320毫秒，几乎接近人类(lei)在交谈中的响(xiang)应时间。GPT-4o的英语和代码文(wen)本性能与(yu)GPT-4 Turbo相当，在非英语文(wen)本方(fang)面也有显著提(ti)高。

OpenAI表示(shi)，在GPT-4o之前，使用语音模式(shi)与(yu)ChatGPT对话的平均延迟时间为(wei)2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的语音模式(shi)是由三个(ge)独立模型组成，一个(ge)简(jian)单模型将音频转换为(wei)文(wen)本，GPT-3.5或GPT-4接收文(wen)本并输出文(wen)本，第三个(ge)模型将文(wen)本转换回音频。这(zhe)一过程将导致GPT-4丢失大量信息，它(ta)无法识(shi)别音调、多个(ge)说(shuo)话者或背景噪(zao)音，也无法输出表达情感的语音。

但在GPT-4o中，OpenAI训练了一个(ge)综合文(wen)本、图像(xiang)和音频的端到端新模型，这(zhe)意味着(zhe)所(suo)有输入和输出都由同一个(ge)神(shen)经网络处理(li)。不(bu)过，OpenAI也坦言，GPT-4o是该(gai)公司首个(ge)结合所(suo)有这(zhe)些模式(shi)的模型，在探索模型功能及其(qi)局限性方(fang)面仍处于起步阶段。

OpenAI高管现场演(yan)示(shi)GPT-4o的检测情绪功能视频截图

穆(mu)拉蒂(di)在发布会上表示(shi)，GPT-4o的文(wen)本和图像(xiang)功能将在ChatGPT更新后提(ti)供给所(suo)有用户，付费订阅(yue)的ChatGPT Plus用户的消息数量上限是免费用户的5倍。新版语音模式(shi)也将在未来几周内向Plus用户推出。

穆(mu)拉蒂(di)最后还感谢了美(mei)国芯片公司英伟达的支持，“我想感谢令人难(nan)以置信的OpenAI团队，也感谢黄仁勋和英伟达团队为(wei)我们提(ti)供了最先进的GPU，这(zhe)使得今天(tian)的演(yan)示(shi)成为(wei)可能。”

发布会结束后，OpenAI首席执行(xing)官萨姆·奥(ao)尔特曼在其(qi)个(ge)人博客上发文(wen)称(cheng)：“新的语音模式(shi)是我用过的最好的计算机界面。感觉就像(xiang)是电影中的人工智(zhi)能，我仍然对它(ta)感到惊讶。事实证明，达到人类(lei)水平的响(xiang)应时间和表达能力(li)是一个(ge)重大的变化。”

奥(ao)尔特曼还表示(shi)，GPT-4o的语音功能与(yu)电影《她》（Her）相似。美(mei)国有线电视新闻网（CNN）也指出，GPT-4o的语音令人想起了《她》中的人工智(zhi)能。《她》是2013年在美(mei)国上映的一部科幻电影，讲述了作家西奥(ao)多爱上电脑操作系(xi)统里的女声(sheng)的故事。

奥(ao)尔特曼在社交媒(mei)体上发文(wen)，提(ti)及电影《她》

资料图：美(mei)国电影《她》海报

《华尔街日报》注意到，OpenAI在谷歌年度开发者大会的前一天(tian)推出了GPT-4o，预计谷歌将在当地时间5月14日的开发者大会公布自己的新产品。GPT-4o的推出似乎意味着(zhe)，在投入大量资金和精力(li)研发新产品之后，OpenAI和其(qi)他科技巨(ju)头正寻求扩大用户群体并获得更多的研究资金。

美(mei)国“商业内幕”网站评论称(cheng)，这(zhe)使得美(mei)国科技巨(ju)头的人工智(zhi)能竞赛(sai)变得更加激烈，美(mei)国亚马(ma)逊公司的Alexa、苹果公司的Siri和谷歌的Gemini都还只能在语音对话中作出机械式(shi)的回应，与(yu)GPT-4o的表现有明显差距。预计这(zhe)些公司将在未来几个(ge)月发布新的AI产品。

但AI技术的快速发展也引起一些担(dan)忧。法新社指出，围绕版权(quan)问题的争议持续困扰着(zhe)AI企业。OpenAI公司已经与(yu)美(mei)联社、英国《金融时报》和德国阿克塞尔·施普林格(ge)集团签署合作协议，但它(ta)也面临来自美(mei)国《纽约时报》的诉讼。

许多创作者也担(dan)心，AI大模型的训练涉及侵权(quan)问题。去(qu)年9月，包括美(mei)国知名作家、《冰与(yu)火之歌》作者乔治·马(ma)丁在内的17名作家通过美(mei)国作家协会发起集体诉讼，指控OpenAI“大规模、系(xi)统性盗窃(qie)”，使用受版权(quan)保护(hu)的作品训练AI。

路透(tou)社此前指出，这(zhe)些诉讼牵涉到一个(ge)极具争议的问题，即科技公司使用从互联网上抓取的图像(xiang)、文(wen)字和其(qi)他数据来训练AI是否构成侵权(quan)。在一些创作者看(kan)来，科技公司在未经许可的情况下使用他们的作品，侵犯了他们的版权(quan)。但多数科技公司认(ren)为(wei)，这(zhe)是对受版权(quan)保护(hu)内容的合理(li)使用。

发布于：上海市(shi)

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多