新澳门彩综合走势图表大全-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本20240602-业界动态-szhfh.com

新澳门彩综合走势图表大全-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

2024-06-02 04:57:57

新澳门彩综合走势图表大全-响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

（文/观察者网陈思佳）一夜之(zhi)间，AI界震动。

当地时间5月(yue)13日，美国人工智能研究公司OpenAI在(zai)线举(ju)行“春季更新”活动，正式推(tui)出新的旗舰(jian)人工智能模(mo)型GPT-4o，以及免(mian)费向用户提供更多ChatGPT功能。GPT-4o支持文本、音频(pin)和图像的任意组合输入，并能够生成文本、音频(pin)和图像的任意组合输出。

OpenAI首席执行官奥尔特曼表示，GPT-4o的语音功能让人想起了电(dian)影《她》，“感觉(jue)就(jiu)像是电(dian)影中的人工智能，我(wo)仍然对其感到惊讶。”

据美国《华尔街日报》13日报道(dao)，OpenAI首席技术官米拉·穆拉蒂(di)（Mira Murati）在(zai)发布(bu)会上表示，GPT-4o的速(su)度比现有的GPT-4 Turbo快了两倍，但成本仅为其一半(ban)。GPT-4o可以实时对文本、音频(pin)和图像进行推(tui)理，响应时间几乎达到人类水平。

报道(dao)称，OpenAI高管现场演(yan)示了GPT-4o的多项功能，包(bao)括分析一段(duan)计算机代码、在(zai)意大利语和英语之(zhi)间进行翻译、通过摄像头引导研究人员解决基本数学问(wen)题(ti)等。

OpenAI发布(bu)GPT-4o模(mo)型视(shi)频(pin)截图

OpenAI还表示，GPT-4o可以检测用户的情绪，并以类似人类或机器人的语调与用户交谈。在(zai)演(yan)示中，ChatGPT识别到OpenAI后训练团队负责(ze)人巴雷特·佐夫（Barret Zoph）脸上的微笑，对他说：“你脸上挂着(zhe)灿烂(lan)的笑容，看起来心情很好。”

但GPT-4o在(zai)演(yan)示过程中也出现一些失误。例如，它在(zai)尚未读取到图像时就(jiu)开始求解方(fang)程，还一度把佐夫的面(mian)部识别为“木质表面(mian)”。英国广播公司（BBC）称，这表明(ming)生成式人工智能的“幻觉(jue)”问(wen)题(ti)仍未得到解决，距离解决聊天机器人不可靠的问(wen)题(ti)还有很长的路要走。

根据OpenAI发布(bu)的新闻稿，GPT-4o的“o”代表“omni”，即“全能”之(zhi)意。GPT-4o可以在(zai)最快232毫秒的时间内响应音频(pin)输入，平均响应时间为320毫秒，几乎接近人类在(zai)交谈中的响应时间。GPT-4o的英语和代码文本性能与GPT-4 Turbo相当，在(zai)非英语文本方(fang)面(mian)也有显著提高。

OpenAI表示，在(zai)GPT-4o之(zhi)前，使用语音模(mo)式与ChatGPT对话的平均延(yan)迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的语音模(mo)式是由三个独立模(mo)型组成，一个简单模(mo)型将音频(pin)转换为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个模(mo)型将文本转换回音频(pin)。这一过程将导致GPT-4丢(diu)失大量信息，它无法识别音调、多个说话者或背景噪音，也无法输出表达情感的语音。

但在(zai)GPT-4o中，OpenAI训练了一个综合文本、图像和音频(pin)的端到端新模(mo)型，这意味着(zhe)所有输入和输出都由同一个神经网络处理。不过，OpenAI也坦言，GPT-4o是该公司首个结合所有这些模(mo)式的模(mo)型，在(zai)探索模(mo)型功能及其局(ju)限性方(fang)面(mian)仍处于起步阶段(duan)。

OpenAI高管现场演(yan)示GPT-4o的检测情绪功能视(shi)频(pin)截图

穆拉蒂(di)在(zai)发布(bu)会上表示，GPT-4o的文本和图像功能将在(zai)ChatGPT更新后提供给所有用户，付费订阅的ChatGPT Plus用户的消息数量上限是免(mian)费用户的5倍。新版语音模(mo)式也将在(zai)未来几周内向Plus用户推(tui)出。

穆拉蒂(di)最后还感谢了美国芯片公司英伟(wei)达的支持，“我(wo)想感谢令人难以置信的OpenAI团队，也感谢黄仁勋(xun)和英伟(wei)达团队为我(wo)们提供了最先进的GPU，这使得今天的演(yan)示成为可能。”

发布(bu)会结束后，OpenAI首席执行官萨(sa)姆(mu)·奥尔特曼在(zai)其个人博客上发文称：“新的语音模(mo)式是我(wo)用过的最好的计算机界面(mian)。感觉(jue)就(jiu)像是电(dian)影中的人工智能，我(wo)仍然对它感到惊讶。事实证明(ming)，达到人类水平的响应时间和表达能力是一个重大的变化。”

奥尔特曼还表示，GPT-4o的语音功能与电(dian)影《她》（Her）相似。美国有线电(dian)视(shi)新闻网（CNN）也指出，GPT-4o的语音令人想起了《她》中的人工智能。《她》是2013年在(zai)美国上映的一部科幻电(dian)影，讲述了作家西奥多爱上电(dian)脑操作系统(tong)里的女声的故(gu)事。

奥尔特曼在(zai)社交媒体上发文，提及电(dian)影《她》

资料图：美国电(dian)影《她》海报

《华尔街日报》注意到，OpenAI在(zai)谷歌年度开发者大会的前一天推(tui)出了GPT-4o，预计谷歌将在(zai)当地时间5月(yue)14日的开发者大会公布(bu)自己的新产品(pin)。GPT-4o的推(tui)出似乎意味着(zhe)，在(zai)投入大量资金和精力研发新产品(pin)之(zhi)后，OpenAI和其他科技巨头正寻(xun)求扩大用户群体并获(huo)得更多的研究资金。

美国“商业内幕”网站评论称，这使得美国科技巨头的人工智能竞赛(sai)变得更加激烈(lie)，美国亚马逊公司的Alexa、苹果公司的Siri和谷歌的Gemini都还只能在(zai)语音对话中作出机械式的回应，与GPT-4o的表现有明(ming)显差(cha)距。预计这些公司将在(zai)未来几个月(yue)发布(bu)新的AI产品(pin)。

但AI技术的快速(su)发展也引起一些担忧。法新社指出，围绕版权问(wen)题(ti)的争议持续困扰着(zhe)AI企业。OpenAI公司已经与美联社、英国《金融时报》和德(de)国阿克塞尔·施(shi)普林格集团签(qian)署合作协议，但它也面(mian)临来自美国《纽约时报》的诉(su)讼(song)。

许多创作者也担心，AI大模(mo)型的训练涉及侵权问(wen)题(ti)。去年9月(yue)，包(bao)括美国知名作家、《冰与火之(zhi)歌》作者乔治·马丁在(zai)内的17名作家通过美国作家协会发起集体诉(su)讼(song)，指控OpenAI“大规模(mo)、系统(tong)性盗窃”，使用受版权保(bao)护的作品(pin)训练AI。

路透(tou)社此前指出，这些诉(su)讼(song)牵涉到一个极具争议的问(wen)题(ti)，即科技公司使用从互联网上抓取的图像、文字(zi)和其他数据来训练AI是否(fou)构成侵权。在(zai)一些创作者看来，科技公司在(zai)未经许可的情况下使用他们的作品(pin)，侵犯了他们的版权。但多数科技公司认为，这是对受版权保(bao)护内容的合理使用。

发布(bu)于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多