业界动态
2024期四不像资料-响应时间接近人类水平,OpenAI发布新款AI模型GPT-4o,语音,美国,文本
2024-06-02 08:22:37
2024期四不像资料-响应时间接近人类水平,OpenAI发布新款AI模型GPT-4o,语音,美国,文本

(文/观察者(zhe)网 陈思佳)一夜之(zhi)间,AI界震动。

当地(di)时(shi)间5月13日,美国(guo)人工智能研究公司(si)OpenAI在线举行“春季更新”活动,正式推出新的旗舰人工智能模(mo)型GPT-4o,以及免(mian)费向用户提供更多ChatGPT功能。GPT-4o支持文本、音频和图像的任(ren)意(yi)组合输(shu)入(ru),并能够(gou)生成文本、音频和图像的任(ren)意(yi)组合输(shu)出。

OpenAI首席执行官奥尔特曼表示,GPT-4o的语音功能让(rang)人想起了电影《她》,“感觉就像是电影中的人工智能,我仍然对其感到惊讶。”

据美国(guo)《华尔街日报(bao)》13日报(bao)道,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在发(fa)布会(hui)上表示,GPT-4o的速度比现(xian)有的GPT-4 Turbo快了两倍,但成本仅为其一半。GPT-4o可以实时(shi)对文本、音频和图像进行推理,响应时(shi)间几乎(hu)达到人类水平。

报(bao)道称(cheng),OpenAI高管(guan)现(xian)场演示了GPT-4o的多项(xiang)功能,包括分析一段计算机代码、在意(yi)大(da)利语和英语之(zhi)间进行翻译、通过(guo)摄像头引(yin)导研究人员解决基本数学问题等。

OpenAI发(fa)布GPT-4o模(mo)型 视频截(jie)图

OpenAI还表示,GPT-4o可以检测用户的情绪,并以类似(si)人类或机器人的语调(diao)与用户交谈。在演示中,ChatGPT识别到OpenAI后训(xun)练(lian)团(tuan)队负责人巴雷特·佐夫(Barret Zoph)脸上的微(wei)笑,对他说:“你脸上挂(gua)着灿烂的笑容,看起来心(xin)情很好。”

但GPT-4o在演示过(guo)程中也出现(xian)一些(xie)失误。例如,它在尚未读取(qu)到图像时(shi)就开始求(qiu)解方(fang)程,还一度把佐夫的面部识别为“木质(zhi)表面”。英国(guo)广播公司(si)(BBC)称(cheng),这表明生成式人工智能的“幻(huan)觉”问题仍未得到解决,距离解决聊(liao)天机器人不(bu)可靠(kao)的问题还有很长的路要走。

根据OpenAI发(fa)布的新闻稿,GPT-4o的“o”代表“omni”,即“全能”之(zhi)意(yi)。GPT-4o可以在最快232毫秒(miao)的时(shi)间内(nei)响应音频输(shu)入(ru),平均(jun)响应时(shi)间为320毫秒(miao),几乎(hu)接(jie)近人类在交谈中的响应时(shi)间。GPT-4o的英语和代码文本性能与GPT-4 Turbo相(xiang)当,在非(fei)英语文本方(fang)面也有显著提高。

OpenAI表示,在GPT-4o之(zhi)前,使用语音模(mo)式与ChatGPT对话的平均(jun)延(yan)迟时(shi)间为2.8秒(miao)(GPT-3.5)和5.4秒(miao)(GPT-4)。此前的语音模(mo)式是由三个独立模(mo)型组成,一个简单模(mo)型将音频转换为文本,GPT-3.5或GPT-4接(jie)收文本并输(shu)出文本,第三个模(mo)型将文本转换回音频。这一过(guo)程将导致GPT-4丢失大(da)量信息,它无法识别音调(diao)、多个说话者(zhe)或背景噪音,也无法输(shu)出表达情感的语音。

但在GPT-4o中,OpenAI训(xun)练(lian)了一个综合文本、图像和音频的端到端新模(mo)型,这意(yi)味(wei)着所有输(shu)入(ru)和输(shu)出都由同一个神经网络处理。不(bu)过(guo),OpenAI也坦言,GPT-4o是该公司(si)首个结(jie)合所有这些(xie)模(mo)式的模(mo)型,在探索模(mo)型功能及其局限性方(fang)面仍处于起步(bu)阶(jie)段。

OpenAI高管(guan)现(xian)场演示GPT-4o的检测情绪功能 视频截(jie)图

穆拉蒂在发(fa)布会(hui)上表示,GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户,付费订阅的ChatGPT Plus用户的消息数量上限是免(mian)费用户的5倍。新版语音模(mo)式也将在未来几周内(nei)向Plus用户推出。

穆拉蒂最后还感谢了美国(guo)芯片公司(si)英伟达的支持,“我想感谢令(ling)人难以置信的OpenAI团(tuan)队,也感谢黄仁(ren)勋和英伟达团(tuan)队为我们提供了最先进的GPU,这使得今天的演示成为可能。”

发(fa)布会(hui)结(jie)束后,OpenAI首席执行官萨(sa)姆·奥尔特曼在其个人博客上发(fa)文称(cheng):“新的语音模(mo)式是我用过(guo)的最好的计算机界面。感觉就像是电影中的人工智能,我仍然对它感到惊讶。事实证明,达到人类水平的响应时(shi)间和表达能力是一个重大(da)的变化。”

奥尔特曼还表示,GPT-4o的语音功能与电影《她》(Her)相(xiang)似(si)。美国(guo)有线电视新闻网(CNN)也指出,GPT-4o的语音令(ling)人想起了《她》中的人工智能。《她》是2013年(nian)在美国(guo)上映的一部科幻(huan)电影,讲述了作家西奥多爱上电脑操作系统里的女声的故事。

奥尔特曼在社(she)交媒体上发(fa)文,提及电影《她》

资料图:美国(guo)电影《她》海报(bao)

《华尔街日报(bao)》注意(yi)到,OpenAI在谷歌年(nian)度开发(fa)者(zhe)大(da)会(hui)的前一天推出了GPT-4o,预计谷歌将在当地(di)时(shi)间5月14日的开发(fa)者(zhe)大(da)会(hui)公布自己的新产品。GPT-4o的推出似(si)乎(hu)意(yi)味(wei)着,在投(tou)入(ru)大(da)量资金和精力研发(fa)新产品之(zhi)后,OpenAI和其他科技巨头正寻求(qiu)扩大(da)用户群体并获得更多的研究资金。

美国(guo)“商业内(nei)幕”网站评(ping)论(lun)称(cheng),这使得美国(guo)科技巨头的人工智能竞(jing)赛变得更加激烈(lie),美国(guo)亚马逊公司(si)的Alexa、苹果公司(si)的Siri和谷歌的Gemini都还只能在语音对话中作出机械式的回应,与GPT-4o的表现(xian)有明显差距。预计这些(xie)公司(si)将在未来几个月发(fa)布新的AI产品。

但AI技术的快速发(fa)展也引(yin)起一些(xie)担忧。法新社(she)指出,围(wei)绕版权问题的争议持续困扰着AI企业。OpenAI公司(si)已经与美联社(she)、英国(guo)《金融时(shi)报(bao)》和德国(guo)阿克塞尔·施(shi)普(pu)林格集团(tuan)签署合作协议,但它也面临来自美国(guo)《纽约时(shi)报(bao)》的诉讼。

许(xu)多创作者(zhe)也担心(xin),AI大(da)模(mo)型的训(xun)练(lian)涉及侵权问题。去年(nian)9月,包括美国(guo)知名作家、《冰与火之(zhi)歌》作者(zhe)乔治·马丁在内(nei)的17名作家通过(guo)美国(guo)作家协会(hui)发(fa)起集体诉讼,指控OpenAI“大(da)规模(mo)、系统性盗窃”,使用受版权保护的作品训(xun)练(lian)AI。

路透社(she)此前指出,这些(xie)诉讼牵(qian)涉到一个极具争议的问题,即科技公司(si)使用从互联网上抓(zhua)取(qu)的图像、文字和其他数据来训(xun)练(lian)AI是否(fou)构(gou)成侵权。在一些(xie)创作者(zhe)看来,科技公司(si)在未经许(xu)可的情况下使用他们的作品,侵犯(fan)了他们的版权。但多数科技公司(si)认为,这是对受版权保护内(nei)容的合理使用。

发(fa)布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7