中信证券：OpenAI推出GPT新模型，端到端加速边缘侧落地,语音,用户,处理20240515-业界动态-szhfh.com

中信证券：OpenAI推出GPT新模型，端到端加速边缘侧落地,语音,用户,处理

2024-05-15 10:08:52

中信证券：OpenAI推出GPT新模型，端到端加速边缘侧落地,语音,用户,处理

文(wen)｜陈俊云贾凯方高飞翔(xiang)刘(liu)锐

OpenAI于北京时间(jian)2024年5月14日推(tui)出(chu)了其最新旗舰(jian)AI模型GPT-4o，在(zai)保持与GPT-4同等智能水平的(de)基础上，实现了文(wen)本、图像和语音处理的(de)全面提升(sheng)，尤其是引入(ru)了业界领先的(de)实时语音功能，同时OpenAI宣布将免费开放GPT-4o给所有(you)用(yong)户，plus用(yong)户仅会优先体验部分功能以及享受每天(tian)更高的(de)使用(yong)限额。GPT-4o作为(wei)一个原生多模态端到端模型，所有(you)输入(ru)输出(chu)均由同一神经网络处理，同时整体API价格相比于前代也下降(jiang)了50%，这为(wei)将大型语言模型部署到边缘设备提供了可行(xing)的(de)技术路径。我们认为(wei)GPT-4o的(de)推(tui)出(chu)预示(shi)着交互方式的(de)变革，实时语音输入(ru)与反馈将极大提升(sheng)用(yong)户交互体验。我们看好GPT-4o代表的(de)多模态交互革命(ming)，建议重点关注未来1年内(nei)可能落地的(de)端侧AI的(de)相关机会，并持续关注应(ying)用(yong)在(zai)教育(yu)、音视频社交媒体等领域的(de)相关落地情况。

▍事件背景：

北京时间(jian)5月14日，OpenAI宣布推(tui)出(chu)其最新旗舰(jian)AI模型GPT-4o，该(gai)模型预计将在(zai)未来几(ji)周(zhou)逐步融入(ru)OpenAI的(de)全线产(chan)品。据OpenAI首席技术官穆里·穆拉蒂介绍，GPT-4o在(zai)保持与GPT-4同等智能水平的(de)同时，在(zai)文(wen)本与图像处理上实现了显著(zhu)提升(sheng)，并新引入(ru)了实时语音功能。测试(shi)数据表明，GPT-4o已超越谷歌Gemini等竞争对手(shou)，成为(wei)市场上领先的(de)多模态模型。虽然GPT-4o将向ChatGPT的(de)免费用(yong)户提供，但使用(yong)上会存在(zai)一定限制。Plus用(yong)户将享受比免费用(yong)户多5倍的(de)消息限制，而Team和Enterprise用(yong)户则享有(you)更高限制。

▍模型概况：基础性能全方位提升(sheng)，语音TTS成为(wei)最大亮点。

OpenAI研究员William Fedus在(zai)发(fa)布会中透(tou)露，GPT-4o即是此前在(zai)大模型竞技场进行(xing)A/B测试(shi)的(de)模型之一，其elo分数较(jiao)4月9日的(de)GPT-4 turbo版本提升(sheng)了4.8%，在(zai)语音生成与转(zhuan)换方面表现尤为(wei)出(chu)色。GPT-4o对音频输入(ru)的(de)响应(ying)时间(jian)缩短(duan)至232毫秒，平均为(wei)320毫秒，接近人(ren)类的(de)反应(ying)速度。该(gai)模型能够识别并响应(ying)用(yong)户的(de)语调和语速，并在(zai)多人(ren)对话中准确区(qu)分不同发(fa)言人(ren)的(de)语气风格及情感。在(zai)英(ying)文(wen)文(wen)本和代码处理上，GPT-4o与GPT-4 Turbo表现相当，但在(zai)非英(ying)语文(wen)本处理上取得了明显进步。此外(wai)，GPT-4o运行(xing)效率(lu)更高，使用(yong)成本较(jiao)之前API降(jiang)低了50%，在(zai)视觉(jue)和音频理解方面展现了更优越的(de)性能。

▍端到端原生多模态：跨文(wen)本、视觉(jue)和音频端到端训练的(de)模型，所有(you)输入(ru)和输出(chu)由同一个神经网络处理。

GPT-4o是一个原生多模态融合(he)模型，通过端到端训练，能够处理文(wen)本、音频和图像的(de)任意组合(he)输入(ru)，并生成相应(ying)的(de)多模态输出(chu)。在(zai)语音翻译任务中，GPT-4o的(de)表现超过了OpenAI的(de)专业语音模型Whisper-V3以及谷歌和Meta的(de)语音模型。对比此前ChatGPT处理语音信息的(de)流(liu)程：首先将通过一个模型将语音转(zhuan)为(wei)文(wen)本，然后由GPT-4处理并生成文(wen)本，最后再由另一个模型将文(wen)本生成为(wei)语音，GPT-4o是一个完(wan)全重新训练的(de)端到端模型，所有(you)输入(ru)输出(chu)均由同一神经网络处理，模型可能使用(yong)了一种基于神经网络的(de)流(liu)式编码技术，传输运动变化的(de)Token。如果这个可能性成立，OpenAI后续可以在(zai)边缘设备上部署一个小型神经网络，并通过评定内(nei)容长短(duan)来为(wei)边缘端分配算力，这为(wei)后续可能的(de)边缘端部署提供了切实可行(xing)技术手(shou)段。

▍交互革命(ming)：交互方式改变为(wei)端侧部署提供新的(de)想象空间(jian)。

GPT-4o的(de)更新预示(shi)着语言模型交互方式的(de)变革，实时语音输入(ru)与反馈将极大提升(sheng)用(yong)户交互体验。此前大模型的(de)端侧部署有(you)两(liang)个较(jiao)大的(de)问题：1）端侧交互模式受限，大多数端侧用(yong)户并不能接受一个需要(yao)打字(zi)输入(ru)的(de)交互模式，而三段式的(de)语音大模型延迟较(jiao)高。2）端侧成本较(jiao)高，在(zai)成本上无(wu)法支持频繁的(de)端侧调用(yong)。而与以往的(de)语音模型相比，GPT-4o真正解决了实时语音延迟问题，使得高性能大语言模型的(de)端侧部署成为(wei)可能。同时在(zai)成本方面，GPT-4o也继续优化API价格，相比于前代继续降(jiang)低50%，流(liu)式传输的(de)神经网络也为(wei)更进一步控制成本提供了可能。此外(wai)，OpenAI已宣布，Plus用(yong)户将可立即在(zai)MacOS桌(zhuo)面端使用(yong)GPT-4o，而Windows和手(shou)机端的(de)支持将在(zai)年内(nei)后续推(tui)出(chu)。

▍风险因素：

AI核心技术发(fa)展不及预期风险；科技领域政策(ce)监管持续收紧风险；私有(you)数据相关的(de)政策(ce)监管风险；全球宏观经济复苏不及预期风险；宏观经济波动导致(zhi)欧(ou)美企业IT支出(chu)不及预期风险；AI潜(qian)在(zai)伦理、道(dao)德、用(yong)户隐私风险；企业数据泄露、信息安全风险；行(xing)业竞争持续加剧风险等。

▍投资策(ce)略：

OpenAI推(tui)出(chu)GPT-4o印证了我们年初的(de)判断，即OpenAI在(zai)2024年将重点发(fa)展易于商业化落地的(de)多模态能力。GPT-4o的(de)测试(shi)评分证明了端到端模型的(de)商业潜(qian)力，我们认为(wei)这是实现商业化的(de)最优路径。鉴(jian)于GPT-4o在(zai)语音转(zhuan)换和图片模态融合(he)方面的(de)能力，我们预计OpenAI将在(zai)年底前推(tui)出(chu)更多相关功能，并适配端侧AI。GPT-4o在(zai)智能度、延迟性和交互便(bian)捷度方面均优于Siri，其端到端设计保证了任务切换的(de)一致(zhi)性。当前挑战(zhan)在(zai)于模型的(de)进一步缩小以适应(ying)端侧硬件性能，我们预计这一过程需要(yao)半年到一年的(de)时间(jian)。除了端侧机会，我们还建议关注教育(yu)和音视频社交媒体领域的(de)应(ying)用(yong)落地情况。

来源：券商研报精选

发(fa)布于：北京市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多