2024期四不像资料-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本20240602-业界动态-szhfh.com

2024期四不像资料-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

2024-06-02 08:22:37

2024期四不像资料-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

（文/观察者(zhe)网陈思佳）一夜之(zhi)间，AI界震动。

当地(di)时(shi)间5月13日，美国(guo)人工智能研究公司(si)OpenAI在线举行“春季更新”活动，正式推出新的旗舰人工智能模(mo)型GPT-4o，以及免(mian)费向用户提供更多ChatGPT功能。GPT-4o支持文本、音频和图像的任(ren)意(yi)组合输(shu)入(ru)，并能够(gou)生成文本、音频和图像的任(ren)意(yi)组合输(shu)出。

OpenAI首席执行官奥尔特曼表示，GPT-4o的语音功能让(rang)人想起了电影《她》，“感觉就像是电影中的人工智能，我仍然对其感到惊讶。”

据美国(guo)《华尔街日报(bao)》13日报(bao)道，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在发(fa)布会(hui)上表示，GPT-4o的速度比现(xian)有的GPT-4 Turbo快了两倍，但成本仅为其一半。GPT-4o可以实时(shi)对文本、音频和图像进行推理，响应时(shi)间几乎(hu)达到人类水平。

报(bao)道称(cheng)，OpenAI高管(guan)现(xian)场演示了GPT-4o的多项(xiang)功能，包括分析一段计算机代码、在意(yi)大(da)利语和英语之(zhi)间进行翻译、通过(guo)摄像头引(yin)导研究人员解决基本数学问题等。

OpenAI发(fa)布GPT-4o模(mo)型视频截(jie)图

OpenAI还表示，GPT-4o可以检测用户的情绪，并以类似(si)人类或机器人的语调(diao)与用户交谈。在演示中，ChatGPT识别到OpenAI后训(xun)练(lian)团(tuan)队负责人巴雷特·佐夫（Barret Zoph）脸上的微(wei)笑，对他说：“你脸上挂(gua)着灿烂的笑容，看起来心(xin)情很好。”

但GPT-4o在演示过(guo)程中也出现(xian)一些(xie)失误。例如，它在尚未读取(qu)到图像时(shi)就开始求(qiu)解方(fang)程，还一度把佐夫的面部识别为“木质(zhi)表面”。英国(guo)广播公司(si)（BBC）称(cheng)，这表明生成式人工智能的“幻(huan)觉”问题仍未得到解决，距离解决聊(liao)天机器人不(bu)可靠(kao)的问题还有很长的路要走。

根据OpenAI发(fa)布的新闻稿，GPT-4o的“o”代表“omni”，即“全能”之(zhi)意(yi)。GPT-4o可以在最快232毫秒(miao)的时(shi)间内(nei)响应音频输(shu)入(ru)，平均(jun)响应时(shi)间为320毫秒(miao)，几乎(hu)接(jie)近人类在交谈中的响应时(shi)间。GPT-4o的英语和代码文本性能与GPT-4 Turbo相(xiang)当，在非(fei)英语文本方(fang)面也有显著提高。

OpenAI表示，在GPT-4o之(zhi)前，使用语音模(mo)式与ChatGPT对话的平均(jun)延(yan)迟时(shi)间为2.8秒(miao)（GPT-3.5）和5.4秒(miao)（GPT-4）。此前的语音模(mo)式是由三个独立模(mo)型组成，一个简单模(mo)型将音频转换为文本，GPT-3.5或GPT-4接(jie)收文本并输(shu)出文本，第三个模(mo)型将文本转换回音频。这一过(guo)程将导致GPT-4丢失大(da)量信息，它无法识别音调(diao)、多个说话者(zhe)或背景噪音，也无法输(shu)出表达情感的语音。

但在GPT-4o中，OpenAI训(xun)练(lian)了一个综合文本、图像和音频的端到端新模(mo)型，这意(yi)味(wei)着所有输(shu)入(ru)和输(shu)出都由同一个神经网络处理。不(bu)过(guo)，OpenAI也坦言，GPT-4o是该公司(si)首个结(jie)合所有这些(xie)模(mo)式的模(mo)型，在探索模(mo)型功能及其局限性方(fang)面仍处于起步(bu)阶(jie)段。

OpenAI高管(guan)现(xian)场演示GPT-4o的检测情绪功能视频截(jie)图

穆拉蒂在发(fa)布会(hui)上表示，GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户，付费订阅的ChatGPT Plus用户的消息数量上限是免(mian)费用户的5倍。新版语音模(mo)式也将在未来几周内(nei)向Plus用户推出。

穆拉蒂最后还感谢了美国(guo)芯片公司(si)英伟达的支持，“我想感谢令(ling)人难以置信的OpenAI团(tuan)队，也感谢黄仁(ren)勋和英伟达团(tuan)队为我们提供了最先进的GPU，这使得今天的演示成为可能。”

发(fa)布会(hui)结(jie)束后，OpenAI首席执行官萨(sa)姆·奥尔特曼在其个人博客上发(fa)文称(cheng)：“新的语音模(mo)式是我用过(guo)的最好的计算机界面。感觉就像是电影中的人工智能，我仍然对它感到惊讶。事实证明，达到人类水平的响应时(shi)间和表达能力是一个重大(da)的变化。”

奥尔特曼还表示，GPT-4o的语音功能与电影《她》（Her）相(xiang)似(si)。美国(guo)有线电视新闻网（CNN）也指出，GPT-4o的语音令(ling)人想起了《她》中的人工智能。《她》是2013年(nian)在美国(guo)上映的一部科幻(huan)电影，讲述了作家西奥多爱上电脑操作系统里的女声的故事。

奥尔特曼在社(she)交媒体上发(fa)文，提及电影《她》

资料图：美国(guo)电影《她》海报(bao)

《华尔街日报(bao)》注意(yi)到，OpenAI在谷歌年(nian)度开发(fa)者(zhe)大(da)会(hui)的前一天推出了GPT-4o，预计谷歌将在当地(di)时(shi)间5月14日的开发(fa)者(zhe)大(da)会(hui)公布自己的新产品。GPT-4o的推出似(si)乎(hu)意(yi)味(wei)着，在投(tou)入(ru)大(da)量资金和精力研发(fa)新产品之(zhi)后，OpenAI和其他科技巨头正寻求(qiu)扩大(da)用户群体并获得更多的研究资金。

美国(guo)“商业内(nei)幕”网站评(ping)论(lun)称(cheng)，这使得美国(guo)科技巨头的人工智能竞(jing)赛变得更加激烈(lie)，美国(guo)亚马逊公司(si)的Alexa、苹果公司(si)的Siri和谷歌的Gemini都还只能在语音对话中作出机械式的回应，与GPT-4o的表现(xian)有明显差距。预计这些(xie)公司(si)将在未来几个月发(fa)布新的AI产品。

但AI技术的快速发(fa)展也引(yin)起一些(xie)担忧。法新社(she)指出，围(wei)绕版权问题的争议持续困扰着AI企业。OpenAI公司(si)已经与美联社(she)、英国(guo)《金融时(shi)报(bao)》和德国(guo)阿克塞尔·施(shi)普(pu)林格集团(tuan)签署合作协议，但它也面临来自美国(guo)《纽约时(shi)报(bao)》的诉讼。

许(xu)多创作者(zhe)也担心(xin)，AI大(da)模(mo)型的训(xun)练(lian)涉及侵权问题。去年(nian)9月，包括美国(guo)知名作家、《冰与火之(zhi)歌》作者(zhe)乔治·马丁在内(nei)的17名作家通过(guo)美国(guo)作家协会(hui)发(fa)起集体诉讼，指控OpenAI“大(da)规模(mo)、系统性盗窃”，使用受版权保护的作品训(xun)练(lian)AI。

路透社(she)此前指出，这些(xie)诉讼牵(qian)涉到一个极具争议的问题，即科技公司(si)使用从互联网上抓(zhua)取(qu)的图像、文字和其他数据来训(xun)练(lian)AI是否(fou)构(gou)成侵权。在一些(xie)创作者(zhe)看来，科技公司(si)在未经许(xu)可的情况下使用他们的作品，侵犯(fan)了他们的版权。但多数科技公司(si)认为，这是对受版权保护内(nei)容的合理使用。

发(fa)布于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多