业界动态
一码一肖100准确使用方法新-响应时间接近人类水平,OpenAI发布新款AI模型GPT-4o,语音,美国,文本
2024-06-03 01:55:28
一码一肖100准确使用方法新-响应时间接近人类水平,OpenAI发布新款AI模型GPT-4o,语音,美国,文本

(文(wen)/观(guan)察(cha)者网 陈思(si)佳)一夜之间,AI界震(zhen)动。

当地时间5月13日,美(mei)国人工智(zhi)能研究公司OpenAI在线举(ju)行(xing)“春季更新”活(huo)动,正式(shi)推出新的旗舰人工智(zhi)能模型GPT-4o,以及免费向用户提(ti)供更多ChatGPT功能。GPT-4o支持文(wen)本、音频和图像(xiang)的任意组合输入,并能够生成文(wen)本、音频和图像(xiang)的任意组合输出。

OpenAI首席执行(xing)官奥(ao)尔特曼表示(shi),GPT-4o的语音功能让人想起了电影《她》,“感觉就像(xiang)是电影中的人工智(zhi)能,我仍然对其(qi)感到惊讶。”

据美(mei)国《华尔街日报》13日报道,OpenAI首席技术官米拉·穆(mu)拉蒂(di)(Mira Murati)在发布会上表示(shi),GPT-4o的速度比现有的GPT-4 Turbo快了两倍,但成本仅为(wei)其(qi)一半。GPT-4o可以实时对文(wen)本、音频和图像(xiang)进行(xing)推理(li),响(xiang)应时间几乎达到人类(lei)水平。

报道称(cheng),OpenAI高管现场演(yan)示(shi)了GPT-4o的多项功能,包括分析一段计算机代码、在意大利语和英语之间进行(xing)翻译、通过摄像(xiang)头引导研究人员解决基本数学(xue)问题等。

OpenAI发布GPT-4o模型 视频截图

OpenAI还表示(shi),GPT-4o可以检测用户的情绪,并以类(lei)似人类(lei)或机器人的语调与(yu)用户交谈。在演(yan)示(shi)中,ChatGPT识(shi)别到OpenAI后训练团队负责人巴雷特·佐夫(Barret Zoph)脸上的微笑,对他说(shuo):“你(ni)脸上挂着(zhe)灿烂的笑容,看(kan)起来心情很好。”

但GPT-4o在演(yan)示(shi)过程中也出现一些失误。例如,它(ta)在尚未读取到图像(xiang)时就开始求解方(fang)程,还一度把佐夫的面部识(shi)别为(wei)“木质表面”。英国广播公司(BBC)称(cheng),这(zhe)表明生成式(shi)人工智(zhi)能的“幻觉”问题仍未得到解决,距离解决聊天(tian)机器人不(bu)可靠的问题还有很长的路要走。

根据OpenAI发布的新闻稿,GPT-4o的“o”代表“omni”,即“全(quan)能”之意。GPT-4o可以在最快232毫秒的时间内响(xiang)应音频输入,平均响(xiang)应时间为(wei)320毫秒,几乎接近人类(lei)在交谈中的响(xiang)应时间。GPT-4o的英语和代码文(wen)本性能与(yu)GPT-4 Turbo相当,在非英语文(wen)本方(fang)面也有显著提(ti)高。

OpenAI表示(shi),在GPT-4o之前,使用语音模式(shi)与(yu)ChatGPT对话的平均延迟时间为(wei)2.8秒(GPT-3.5)和5.4秒(GPT-4)。此前的语音模式(shi)是由三个(ge)独立模型组成,一个(ge)简(jian)单模型将音频转换为(wei)文(wen)本,GPT-3.5或GPT-4接收文(wen)本并输出文(wen)本,第三个(ge)模型将文(wen)本转换回音频。这(zhe)一过程将导致GPT-4丢失大量信息,它(ta)无法识(shi)别音调、多个(ge)说(shuo)话者或背景噪(zao)音,也无法输出表达情感的语音。

但在GPT-4o中,OpenAI训练了一个(ge)综合文(wen)本、图像(xiang)和音频的端到端新模型,这(zhe)意味着(zhe)所(suo)有输入和输出都由同一个(ge)神(shen)经网络处理(li)。不(bu)过,OpenAI也坦言,GPT-4o是该(gai)公司首个(ge)结合所(suo)有这(zhe)些模式(shi)的模型,在探索模型功能及其(qi)局限性方(fang)面仍处于起步阶段。

OpenAI高管现场演(yan)示(shi)GPT-4o的检测情绪功能 视频截图

穆(mu)拉蒂(di)在发布会上表示(shi),GPT-4o的文(wen)本和图像(xiang)功能将在ChatGPT更新后提(ti)供给所(suo)有用户,付费订阅(yue)的ChatGPT Plus用户的消息数量上限是免费用户的5倍。新版语音模式(shi)也将在未来几周内向Plus用户推出。

穆(mu)拉蒂(di)最后还感谢了美(mei)国芯片公司英伟达的支持,“我想感谢令人难(nan)以置信的OpenAI团队,也感谢黄仁勋和英伟达团队为(wei)我们提(ti)供了最先进的GPU,这(zhe)使得今天(tian)的演(yan)示(shi)成为(wei)可能。”

发布会结束后,OpenAI首席执行(xing)官萨姆·奥(ao)尔特曼在其(qi)个(ge)人博客上发文(wen)称(cheng):“新的语音模式(shi)是我用过的最好的计算机界面。感觉就像(xiang)是电影中的人工智(zhi)能,我仍然对它(ta)感到惊讶。事实证明,达到人类(lei)水平的响(xiang)应时间和表达能力(li)是一个(ge)重大的变化。”

奥(ao)尔特曼还表示(shi),GPT-4o的语音功能与(yu)电影《她》(Her)相似。美(mei)国有线电视新闻网(CNN)也指出,GPT-4o的语音令人想起了《她》中的人工智(zhi)能。《她》是2013年在美(mei)国上映的一部科幻电影,讲述了作家西奥(ao)多爱上电脑操作系(xi)统里的女声(sheng)的故事。

奥(ao)尔特曼在社交媒(mei)体上发文(wen),提(ti)及电影《她》

资料图:美(mei)国电影《她》海报

《华尔街日报》注意到,OpenAI在谷歌年度开发者大会的前一天(tian)推出了GPT-4o,预计谷歌将在当地时间5月14日的开发者大会公布自己的新产品。GPT-4o的推出似乎意味着(zhe),在投入大量资金和精力(li)研发新产品之后,OpenAI和其(qi)他科技巨(ju)头正寻求扩大用户群体并获得更多的研究资金。

美(mei)国“商业内幕”网站评论称(cheng),这(zhe)使得美(mei)国科技巨(ju)头的人工智(zhi)能竞赛(sai)变得更加激烈,美(mei)国亚马(ma)逊公司的Alexa、苹果公司的Siri和谷歌的Gemini都还只能在语音对话中作出机械式(shi)的回应,与(yu)GPT-4o的表现有明显差距。预计这(zhe)些公司将在未来几个(ge)月发布新的AI产品。

但AI技术的快速发展也引起一些担(dan)忧。法新社指出,围绕版权(quan)问题的争议持续困扰着(zhe)AI企业。OpenAI公司已经与(yu)美(mei)联社、英国《金融时报》和德国阿克塞尔·施普林格(ge)集团签署合作协议,但它(ta)也面临来自美(mei)国《纽约时报》的诉讼。

许多创作者也担(dan)心,AI大模型的训练涉及侵权(quan)问题。去(qu)年9月,包括美(mei)国知名作家、《冰与(yu)火之歌》作者乔治·马(ma)丁在内的17名作家通过美(mei)国作家协会发起集体诉讼,指控OpenAI“大规模、系(xi)统性盗窃(qie)”,使用受版权(quan)保护(hu)的作品训练AI。

路透(tou)社此前指出,这(zhe)些诉讼牵涉到一个(ge)极具争议的问题,即科技公司使用从互联网上抓取的图像(xiang)、文(wen)字和其(qi)他数据来训练AI是否构成侵权(quan)。在一些创作者看(kan)来,科技公司在未经许可的情况下使用他们的作品,侵犯了他们的版权(quan)。但多数科技公司认(ren)为(wei),这(zhe)是对受版权(quan)保护(hu)内容的合理(li)使用。

发布于:上海市(shi)
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7