业界动态
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri,输出
2024-05-19 07:09:35
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri,输出

·GPT-4o可(ke)以对音频、视觉和文本进行实时推理,在232毫秒(miao)内响应音频输入,与人类在对话中的响应时间相似。

·GPT-4o的文本和图像功能开始在ChatGPT中免费推出,音频模式存在各种新风险而未公开,未来音频输出将仅限于选定的预设声音,并要遵守安全政策。

GPT-4o生成图像:机器(qi)人正在输入日志条目,正文很大(da),清(qing)晰(xi)易读(du),机器(qi)人的手在打字机上打字。

5月14日,OpenAI发布新产品(pin),不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗(qi)舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更(geng)多功能。

GPT-4o的“o”代表“omni”,意(yi)为全能,与现有模型相比,它在视觉和音频理解方面尤(you)其出色。GPT-4o可(ke)以在音频、视觉和文本中进行实时推理,接(jie)受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可(ke)以最(zui)短在232毫秒(miao)内响应音频输入,平均为320毫秒(miao),这(zhe)与人类在对话中的响应时间相似。

在GPT-4o之前,用户可(ke)以使用Voice Mode(由三个独立(li)模型组成)与ChatGPT通话,但平均延(yan)迟为2.8秒(miao)(GPT-3.5)和5.4秒(miao)(GPT-4)。原理是Voice Mode利用一个简单模型将音频转录为文本,GPT-3.5或GPT-4接(jie)收文本并输出文本,第三个简单模型将文本转换回音频。

但这(zhe)个过程(cheng)会丢失大(da)量信息,例如(ru)GPT-4不能直接(jie)观(guan)察(cha)音调、多个说话者或背景噪音,也不能输出笑声、歌声或情感表达。利用GPT-4o,OpenAI训练了一个跨文本、视觉和音频的端(duan)到端(duan)新模型,这(zhe)意(yi)味(wei)着(zhe)所有输入和输出都(dou)由同一个神经网络处理,这(zhe)是OpenAI第一个结合所有这(zhe)些模式的模型,OpenAI仍在探索模型的功能及其局(ju)限性。

新语音模式是一种语音聊天助手。据Business Insider(商业内幕)报(bao)道,它能够与用户进行自然的来回对话,能够带着(zhe)情感说话,它可(ke)以假装兴奋、友好,甚至(zhi)讽(feng)刺。这(zhe)可(ke)以秒(miao)杀Siri,用户不需要像苹果手机那样使用“唤醒词”或精确的命令比如(ru)“嘿Siri!”来使用语音功能。

从性能来看,OpenAI表示,在传统基准测(ce)试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级(ji)的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英(ying)文文本和代码上的性能与GPT-4 Turbo相当,在非英(ying)文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。GPT-4o还与来自社会心理学(xue)、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红(hong)队合作,以识别新增(zeng)加的模式引入或放大(da)的风险,提高与GPT-4o互动(dong)的安全性。

OpenAI表示,将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险,目前公开的是文本和图像输入以及文本输出,在接(jie)下来的几周(zhou)和几个月里将围绕技术基础(chu)设施、训练后的可(ke)用性、发布其他模式所需的安全性开展工作,例如(ru)音频输出将仅限于选定的预设声音,并将遵守现有安全政策。

目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可(ke)以享(xiang)受到5倍的调用额度。在接(jie)下来的几周(zhou)内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

OpenAI首席执行官山姆·奥特曼(Sam Altman)表示,新的语音和视频模式是他用过的最(zui)好的电脑界面,感觉就(jiu)像电影里的AI。达到人类水平的反应时间和表达能力是一个很大(da)的变化。“对我来说,与电脑交谈从来都(dou)不是一件很自然的事,现在它做到了。随着(zhe)我们增(zeng)加(可(ke)选的)个性化、访问(wen)你的信息、代表你采取行动(dong)的能力等等,我真的可(ke)以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都(dou)多的事情。”

发布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7