业界动态
中信证券:OpenAI推出GPT新模型,端到端加速边缘侧落地,语音,用户,处理
2024-05-15 10:08:52
中信证券:OpenAI推出GPT新模型,端到端加速边缘侧落地,语音,用户,处理

文(wen)|陈俊云贾凯方高飞翔(xiang)刘(liu)锐

OpenAI于北京时间(jian)2024年5月14日推(tui)出(chu)了其最新旗舰(jian)AI模型GPT-4o,在(zai)保持与GPT-4同等智能水平的(de)基础上,实现了文(wen)本、图像和语音处理的(de)全面提升(sheng),尤其是引入(ru)了业界领先的(de)实时语音功能,同时OpenAI宣布将免费开放GPT-4o给所有(you)用(yong)户,plus用(yong)户仅会优先体验部分功能以及享受每天(tian)更高的(de)使用(yong)限额。GPT-4o作为(wei)一个原生多模态端到端模型,所有(you)输入(ru)输出(chu)均由同一神经网络处理,同时整体API价格相比于前代也下降(jiang)了50%,这为(wei)将大型语言模型部署到边缘设备提供了可行(xing)的(de)技术路径。我们认为(wei)GPT-4o的(de)推(tui)出(chu)预示(shi)着交互方式的(de)变革,实时语音输入(ru)与反馈将极大提升(sheng)用(yong)户交互体验。我们看好GPT-4o代表的(de)多模态交互革命(ming),建议重点关注未来1年内(nei)可能落地的(de)端侧AI的(de)相关机会,并持续关注应(ying)用(yong)在(zai)教育(yu)、音视频社交媒体等领域的(de)相关落地情况。

事件背景:

北京时间(jian)5月14日,OpenAI宣布推(tui)出(chu)其最新旗舰(jian)AI模型GPT-4o,该(gai)模型预计将在(zai)未来几(ji)周(zhou)逐步融入(ru)OpenAI的(de)全线产(chan)品。据OpenAI首席技术官穆里·穆拉蒂介绍,GPT-4o在(zai)保持与GPT-4同等智能水平的(de)同时,在(zai)文(wen)本与图像处理上实现了显著(zhu)提升(sheng),并新引入(ru)了实时语音功能。测试(shi)数据表明,GPT-4o已超越谷歌Gemini等竞争对手(shou),成为(wei)市场上领先的(de)多模态模型。虽然GPT-4o将向ChatGPT的(de)免费用(yong)户提供,但使用(yong)上会存在(zai)一定限制。Plus用(yong)户将享受比免费用(yong)户多5倍的(de)消息限制,而Team和Enterprise用(yong)户则享有(you)更高限制。

模型概况:基础性能全方位提升(sheng),语音TTS成为(wei)最大亮点。

OpenAI研究员William Fedus在(zai)发(fa)布会中透(tou)露,GPT-4o即是此前在(zai)大模型竞技场进行(xing)A/B测试(shi)的(de)模型之一,其elo分数较(jiao)4月9日的(de)GPT-4 turbo版本提升(sheng)了4.8%,在(zai)语音生成与转(zhuan)换方面表现尤为(wei)出(chu)色。GPT-4o对音频输入(ru)的(de)响应(ying)时间(jian)缩短(duan)至232毫秒,平均为(wei)320毫秒,接近人(ren)类的(de)反应(ying)速度。该(gai)模型能够识别并响应(ying)用(yong)户的(de)语调和语速,并在(zai)多人(ren)对话中准确区(qu)分不同发(fa)言人(ren)的(de)语气风格及情感。在(zai)英(ying)文(wen)文(wen)本和代码处理上,GPT-4o与GPT-4 Turbo表现相当,但在(zai)非英(ying)语文(wen)本处理上取得了明显进步。此外(wai),GPT-4o运行(xing)效率(lu)更高,使用(yong)成本较(jiao)之前API降(jiang)低了50%,在(zai)视觉(jue)和音频理解方面展现了更优越的(de)性能。

端到端原生多模态:跨文(wen)本、视觉(jue)和音频端到端训练的(de)模型,所有(you)输入(ru)和输出(chu)由同一个神经网络处理。

GPT-4o是一个原生多模态融合(he)模型,通过端到端训练,能够处理文(wen)本、音频和图像的(de)任意组合(he)输入(ru),并生成相应(ying)的(de)多模态输出(chu)。在(zai)语音翻译任务中,GPT-4o的(de)表现超过了OpenAI的(de)专业语音模型Whisper-V3以及谷歌和Meta的(de)语音模型。对比此前ChatGPT处理语音信息的(de)流(liu)程:首先将通过一个模型将语音转(zhuan)为(wei)文(wen)本,然后由GPT-4处理并生成文(wen)本,最后再由另一个模型将文(wen)本生成为(wei)语音,GPT-4o是一个完(wan)全重新训练的(de)端到端模型,所有(you)输入(ru)输出(chu)均由同一神经网络处理,模型可能使用(yong)了一种基于神经网络的(de)流(liu)式编码技术,传输运动变化的(de)Token。如果这个可能性成立,OpenAI后续可以在(zai)边缘设备上部署一个小型神经网络,并通过评定内(nei)容长短(duan)来为(wei)边缘端分配算力,这为(wei)后续可能的(de)边缘端部署提供了切实可行(xing)技术手(shou)段。

交互革命(ming):交互方式改变为(wei)端侧部署提供新的(de)想象空间(jian)。

GPT-4o的(de)更新预示(shi)着语言模型交互方式的(de)变革,实时语音输入(ru)与反馈将极大提升(sheng)用(yong)户交互体验。此前大模型的(de)端侧部署有(you)两(liang)个较(jiao)大的(de)问题:1)端侧交互模式受限,大多数端侧用(yong)户并不能接受一个需要(yao)打字(zi)输入(ru)的(de)交互模式,而三段式的(de)语音大模型延迟较(jiao)高。2)端侧成本较(jiao)高,在(zai)成本上无(wu)法支持频繁的(de)端侧调用(yong)。而与以往的(de)语音模型相比,GPT-4o真正解决了实时语音延迟问题,使得高性能大语言模型的(de)端侧部署成为(wei)可能。同时在(zai)成本方面,GPT-4o也继续优化API价格,相比于前代继续降(jiang)低50%,流(liu)式传输的(de)神经网络也为(wei)更进一步控制成本提供了可能。此外(wai),OpenAI已宣布,Plus用(yong)户将可立即在(zai)MacOS桌(zhuo)面端使用(yong)GPT-4o,而Windows和手(shou)机端的(de)支持将在(zai)年内(nei)后续推(tui)出(chu)。

风险因素:

AI核心技术发(fa)展不及预期风险;科技领域政策(ce)监管持续收紧风险;私有(you)数据相关的(de)政策(ce)监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致(zhi)欧(ou)美企业IT支出(chu)不及预期风险;AI潜(qian)在(zai)伦理、道(dao)德、用(yong)户隐私风险;企业数据泄露、信息安全风险;行(xing)业竞争持续加剧风险等。

投资策(ce)略:

OpenAI推(tui)出(chu)GPT-4o印证了我们年初的(de)判断,即OpenAI在(zai)2024年将重点发(fa)展易于商业化落地的(de)多模态能力。GPT-4o的(de)测试(shi)评分证明了端到端模型的(de)商业潜(qian)力,我们认为(wei)这是实现商业化的(de)最优路径。鉴(jian)于GPT-4o在(zai)语音转(zhuan)换和图片模态融合(he)方面的(de)能力,我们预计OpenAI将在(zai)年底前推(tui)出(chu)更多相关功能,并适配端侧AI。GPT-4o在(zai)智能度、延迟性和交互便(bian)捷度方面均优于Siri,其端到端设计保证了任务切换的(de)一致(zhi)性。当前挑战(zhan)在(zai)于模型的(de)进一步缩小以适应(ying)端侧硬件性能,我们预计这一过程需要(yao)半年到一年的(de)时间(jian)。除了端侧机会,我们还建议关注教育(yu)和音视频社交媒体领域的(de)应(ying)用(yong)落地情况。

来源:券商研报精选

发(fa)布于:北京市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7