澳门天天资料免费大全2024年-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本20240602-业界动态-szhfh.com

澳门天天资料免费大全2024年-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

2024-06-02 10:28:00

澳门天天资料免费大全2024年-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

（文/观察者(zhe)网陈思佳）一夜(ye)之(zhi)间(jian)，AI界震动(dong)。

当地时间(jian)5月13日，美国人工智能研究公司OpenAI在线(xian)举行“春(chun)季更新”活动(dong)，正式(shi)推(tui)出新的旗舰人工智能模型GPT-4o，以(yi)及免费向用(yong)户提供(gong)更多(duo)ChatGPT功能。GPT-4o支持文本、音频和图像的任意组(zu)合输入，并能够生成文本、音频和图像的任意组(zu)合输出。

OpenAI首席执行官奥尔特曼表示，GPT-4o的语音功能让(rang)人想起了电影(ying)《她》，“感觉就像是电影(ying)中的人工智能，我仍然(ran)对其感到惊讶。”

据美国《华尔街日报》13日报道(dao)，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在发布(bu)会上表示，GPT-4o的速度比现有的GPT-4 Turbo快了两(liang)倍，但成本仅为(wei)其一半。GPT-4o可以(yi)实时对文本、音频和图像进行推(tui)理(li)，响(xiang)应时间(jian)几(ji)乎达到人类水(shui)平。

报道(dao)称(cheng)，OpenAI高管现场演(yan)示了GPT-4o的多(duo)项功能，包括分析一段计算(suan)机代码、在意大(da)利语和英语之(zhi)间(jian)进行翻译、通(tong)过摄像头引导研究人员解决基本数学问题(ti)等。

OpenAI发布(bu)GPT-4o模型视频截(jie)图

OpenAI还表示，GPT-4o可以(yi)检测用(yong)户的情绪，并以(yi)类似人类或机器人的语调与用(yong)户交谈。在演(yan)示中，ChatGPT识(shi)别到OpenAI后训(xun)练团队负(fu)责人巴雷特·佐夫（Barret Zoph）脸(lian)上的微笑，对他说：“你脸(lian)上挂着灿烂的笑容，看(kan)起来心情很好(hao)。”

但GPT-4o在演(yan)示过程(cheng)中也出现一些失误。例如，它在尚未读取到图像时就开始求解方程(cheng)，还一度把佐夫的面部识(shi)别为(wei)“木质表面”。英国广播公司（BBC）称(cheng)，这表明生成式(shi)人工智能的“幻觉”问题(ti)仍未得(de)到解决，距离解决聊天机器人不(bu)可靠的问题(ti)还有很长的路要走。

根据OpenAI发布(bu)的新闻稿，GPT-4o的“o”代表“omni”，即“全能”之(zhi)意。GPT-4o可以(yi)在最(zui)快232毫秒的时间(jian)内响(xiang)应音频输入，平均响(xiang)应时间(jian)为(wei)320毫秒，几(ji)乎接近人类在交谈中的响(xiang)应时间(jian)。GPT-4o的英语和代码文本性能与GPT-4 Turbo相当，在非(fei)英语文本方面也有显著提高。

OpenAI表示，在GPT-4o之(zhi)前，使(shi)用(yong)语音模式(shi)与ChatGPT对话的平均延迟时间(jian)为(wei)2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的语音模式(shi)是由(you)三个独立模型组(zu)成，一个简单模型将音频转换为(wei)文本，GPT-3.5或GPT-4接收文本并输出文本，第三个模型将文本转换回音频。这一过程(cheng)将导致GPT-4丢失大(da)量信息，它无法识(shi)别音调、多(duo)个说话者(zhe)或背景噪音，也无法输出表达情感的语音。

但在GPT-4o中，OpenAI训(xun)练了一个综(zong)合文本、图像和音频的端到端新模型，这意味着所(suo)有输入和输出都由(you)同一个神经网络处理(li)。不(bu)过，OpenAI也坦言，GPT-4o是该公司首个结合所(suo)有这些模式(shi)的模型，在探索模型功能及其局限性方面仍处于起步阶段。

OpenAI高管现场演(yan)示GPT-4o的检测情绪功能视频截(jie)图

穆拉蒂在发布(bu)会上表示，GPT-4o的文本和图像功能将在ChatGPT更新后提供(gong)给所(suo)有用(yong)户，付费订(ding)阅(yue)的ChatGPT Plus用(yong)户的消息数量上限是免费用(yong)户的5倍。新版(ban)语音模式(shi)也将在未来几(ji)周内向Plus用(yong)户推(tui)出。

穆拉蒂最(zui)后还感谢了美国芯(xin)片公司英伟达的支持，“我想感谢令人难以(yi)置信的OpenAI团队，也感谢黄仁勋和英伟达团队为(wei)我们提供(gong)了最(zui)先进的GPU，这使(shi)得(de)今天的演(yan)示成为(wei)可能。”

发布(bu)会结束后，OpenAI首席执行官萨姆·奥尔特曼在其个人博客上发文称(cheng)：“新的语音模式(shi)是我用(yong)过的最(zui)好(hao)的计算(suan)机界面。感觉就像是电影(ying)中的人工智能，我仍然(ran)对它感到惊讶。事实证明，达到人类水(shui)平的响(xiang)应时间(jian)和表达能力是一个重(zhong)大(da)的变化。”

奥尔特曼还表示，GPT-4o的语音功能与电影(ying)《她》（Her）相似。美国有线(xian)电视新闻网（CNN）也指(zhi)出，GPT-4o的语音令人想起了《她》中的人工智能。《她》是2013年在美国上映的一部科幻电影(ying)，讲述了作家西(xi)奥多(duo)爱上电脑操作系统里(li)的女声的故事。

奥尔特曼在社交媒体上发文，提及电影(ying)《她》

资料(liao)图：美国电影(ying)《她》海报

《华尔街日报》注意到，OpenAI在谷歌年度开发者(zhe)大(da)会的前一天推(tui)出了GPT-4o，预(yu)计谷歌将在当地时间(jian)5月14日的开发者(zhe)大(da)会公布(bu)自己的新产品。GPT-4o的推(tui)出似乎意味着，在投入大(da)量资金和精力研发新产品之(zhi)后，OpenAI和其他科技巨头正寻求扩大(da)用(yong)户群体并获得(de)更多(duo)的研究资金。

美国“商业(ye)内幕”网站评论称(cheng)，这使(shi)得(de)美国科技巨头的人工智能竞赛变得(de)更加激(ji)烈，美国亚马逊公司的Alexa、苹果公司的Siri和谷歌的Gemini都还只能在语音对话中作出机械式(shi)的回应，与GPT-4o的表现有明显差距。预(yu)计这些公司将在未来几(ji)个月发布(bu)新的AI产品。

但AI技术的快速发展也引起一些担忧。法新社指(zhi)出，围绕版(ban)权(quan)问题(ti)的争议持续困扰(rao)着AI企(qi)业(ye)。OpenAI公司已经与美联(lian)社、英国《金融时报》和德国阿克塞尔·施普林格集团签署合作协议，但它也面临来自美国《纽约时报》的诉(su)讼。

许多(duo)创作者(zhe)也担心，AI大(da)模型的训(xun)练涉及侵权(quan)问题(ti)。去年9月，包括美国知名作家、《冰与火之(zhi)歌》作者(zhe)乔治·马丁在内的17名作家通(tong)过美国作家协会发起集体诉(su)讼，指(zhi)控OpenAI“大(da)规模、系统性盗窃”，使(shi)用(yong)受版(ban)权(quan)保护的作品训(xun)练AI。

路透社此前指(zhi)出，这些诉(su)讼牵涉到一个极具争议的问题(ti)，即科技公司使(shi)用(yong)从互联(lian)网上抓取的图像、文字和其他数据来训(xun)练AI是否构成侵权(quan)。在一些创作者(zhe)看(kan)来，科技公司在未经许可的情况下使(shi)用(yong)他们的作品，侵犯了他们的版(ban)权(quan)。但多(duo)数科技公司认为(wei)，这是对受版(ban)权(quan)保护内容的合理(li)使(shi)用(yong)。

发布(bu)于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多