免费，才是最强杀招,ChatGPT,音频,输出20240619-业界动态-szhfh.com

免费，才是最强杀招,ChatGPT,音频,输出

2024-06-19 02:01:33

免费，才是最强杀招,ChatGPT,音频,输出

科技巨(ju)头之间的竞争，越来越不讲(jiang)武德了。

原本，OpenAI的“春(chun)季新品发布会”定于5月9号，结果硬生生拖到(dao)了现在。

为(wei)什么呢？因为(wei)谷歌(ge)明天(tian)开开发者大会……

就是要骑脸输出，不给(gei)友商任何活路(lu)！

于是今天(tian)凌晨1点，山姆·奥(ao)特曼口中“就像魔法一样的东(dong)西”，终于揭开了面纱。

不是大家想象中的GPT-5，而是GPT-4的迭代版本，GPT-4o。

o是omni的缩写，源于拉丁语的omnis，意思是无所不在、无所不知、无所不能。

听起来神神叨(dao)叨(dao)的，颇有点佛(fo)祖、上帝的味道。

GPT-4o，也就是全能大模型。

全能？这就很有意思了。

01强在哪里(li)？

所谓全能，当然(ran)不是真的指全知全能。

至少现在不可能。

如果人造“上帝”真的被造出来，我们所有人都可以立(li)刻躺平、混吃等死了，统治世界or解放世界都在这家伙(huo)的一念之间。

目前的GPT-4o，能做到(dao)的是文字、图像、音频、视频任意组合的全模态。

OpenAI的原话是：GPT-4o是第一个融合所有模态的模型，我们只是触及到(dao)其(qi)能力的表面。

尽管只是表面，但也极其(qi)强大了。

先看横向测(ce)评。

简单(dan)总结就是：更快、更强、更便宜。

首先是效率。GPT-4o 的处理速度是 GPT-4 Turbo 的两(liang)倍，速率限制提高了五倍，最高达到(dao)1000万token/分钟，价格还降低(di)了一半。

其(qi)次是性能。在所有语言基准测(ce)试中，GPT-4o都比(bi)GPT-4更强大，还能在50多种语言之间无缝翻(fan)译(yi)。

然(ran)后是最重(zhong)要的一点：多模态输入输出。

GPT-4o 能够处理文本、音频和(he)图像的任意组合输入，并实时生成相应的输出与用户互动。

注意，是实时！实时！

下(xia)面再看看其(qi)具体(ti)表现。

发布会上，测(ce)试者对着手机说：我第一次来直(zhi)播，有点紧张。

ChatGPT立(li)刻回答：你(ni)可以深呼吸。

男子照办。

ChatGPT立(li)刻又开玩(wan)笑道：你(ni)不是吸尘器吧，不要喘。

当听到(dao)对方(fang)终于平稳(wen)呼吸时，它居(ju)然(ran)还会开口鼓励。

看到(dao)这，苹果手机用户很快就能察觉出有啥不同了。

我们此前用的Siri之类的语音助手，反馈慢倒还罢(ba)了，你(ni)还必须要等它说完，才能进行下(xia)一轮对话。

非常呆板，且浪费时间。

其(qi)实这也正常，它毕竟只是个很原始的程序。

之前我们与AI对话，都要经历(li)3个步骤(zhou)：

1.人说话，AI将音频转成文本代码；

2.AI回答它自己翻(fan)译(yi)的这段文本；

3.将回复的内容转化成音频输出。

这就相当于一来一回的回合制，不论怎么样都会有延迟，现在业界最快的反应速度是2秒。

别的先不说，至少用户很难有真实交流的沉(chen)浸感。

但用GPT-4o，平均反应时间只有0.32秒，基本就是你(ni)刚问完、它立(li)刻就能回答你(ni)，和(he)真人聊天(tian)没啥区别。

更关键的是什么？

因为(wei)人与人之间对话，是充(chong)满了各种即时反应的，比(bi)如嗯嗯啊啊各种预期助词，以及手势、停顿、咽口水等等。

但你(ni)过去与AI 聊天(tian)，却根本不会存(cun)在这些因素，即便AI回答得再完美，你(ni)依然(ran)无法拥有沉(chen)浸感。

而现在，你(ni)不仅能随时打断GPT-4o，它甚至能根据(ju)你(ni)的语速、语调、呼吸乃至面部表情来判断你(ni)的情绪(xu)，并依次表达出对应的情绪(xu)。

这就很Nice了。

不仅仅只是语音对答，GPT-4o的文本、音频、视频所有输入和(he)输出，都由同一个神经网(wang)络处理。

也就是说，它在各种维度上，都能有同样强大的表现。

简单(dan)来说，就是GPT在能看、能听、能说话方(fang)面，更加“通人性”了。

它不一定真的懂情感这回事，但能够模仿。

现阶段而言，只要能模仿就够了，完全够投入商用了。

以上种种，你(ni)觉得意味着什么？

意味着ChatGPT在交互性上，又做出了巨(ju)大突破。

比(bi)如，你(ni)可以在睡前，要求GPT用女神的声音、舔狗(gou)的语气，讲(jiang)故事、唱歌(ge)哄(hong)你(ni)入眠。

又比(bi)如，你(ni)可以把自己的日常资料发给(gei)GPT，让它根据(ju)每天(tian)的天(tian)气、突发事件等等状况，生成工作、生活计划。

乃至辅(fu)导小(xiao)孩写作业等等等等……

千万不要小(xiao)看交互性，它的价值远超想象。

02为(wei)什么免费?

除了功(gong)能强大，GPT-4o更让人关注的是什么？

免费！

不仅仅是 GPT-4o 免费，更刺激的是 GPT Store、Vision （包含(han)代码解释器、联网(wang)功(gong)能等），都会陆续开放出来。

为(wei)了让用户们用得方(fang)便，新版ChatGPT还开放了桌面端。

关于这一点，山姆·奥(ao)特曼专门发了博客说明：

OpenAI的核(he)心使命之一，就是免费为(wei)人类提供顶尖(jian)的AI工具，为(wei)世界创造各种利益，让所有人从中受益。在未来，所有人都能免费获(huo)得 GPT 的算力，可以使用、转售或捐赠。

你(ni)们之前批评我不开源，现在我直(zhi)接免费，甚至都不用注册，还有话说吗(ma)？

按照我们的商业逻辑来看，这不是纯纯的做慈(ci)善？

当然(ran)不是，至少不完全是。

首先，新模型变小(xiao)了，运行成本大幅降低(di)。

前文提到(dao)过：GPT 4o处理速度翻(fan)倍，价格只有GPT 4 Turbo的一半。

原先输入、输出一百万token的价格是10、30美元(yuan)，现在则只要5、15美元(yuan)。

其(qi)次，是先舍后得的商业逻辑。

免费是有限制的。

官方(fang)文档里(li)都说了，免费用户目前每3个小(xiao)时只能使用10条(tiao)GPT-4o，用完了就回落到(dao)GPT-3.5版本。

10条(tiao)，够什么用的？

想继(ji)续玩(wan)？想玩(wan)得爽？给(gei)我充(chong)钱！

只要20美刀/月，你(ni)就能成为(wei)尊贵的plus会员，每小(xiao)时能享用80条(tiao)GPT-4o！

这简直(zhi)！太不划算了！

就目前的情况而言、对绝大部分人而言，你(ni)只要不是无聊到(dao)什么都去试着玩(wan)，每3小(xiao)时10条(tiao)内容完全是足够了。

照OpenAI这么搞，如今ChatGPT的忠实付费用户（原来免费的只能使用GPT-3.4），恐(kong)怕都不会充(chong)钱了。

为(wei)什么OpenAI 要承担丢失付费会员的风险，去给(gei)全民提供免费服务？

其(qi)实，我们的目光可以放长远一点。

想想看，人人都能免费用上高质量的AI，这意味着什么？

你(ni)如果悲观地去看，这很可能对现在社会的分工结构造成重(zhong)大冲击，造成广泛的失业潮。

看到(dao)这里(li)，别的不敢(gan)说，我们至少能确定一件事：除非自己感兴趣，以后的小(xiao)孩都不用再学(xue)英语了。

GPT-4o完全可以做到(dao)各种口译(yi)、同声传译(yi)，甚至还带感情、带理解。

除此之外，大量的普(pu)通家庭教师(shi)、程序员、设(she)计师(shi)等等，基本都会被取(qu)代。

这是不可避免的事。

但就像前几次技术革命一样，在一些行业消亡的同时，一定会有新的财富风口出现，整个社会的财富总量必然(ran)是增(zeng)加的。

乐观点看，就是另一回事。

03财富大爆炸

《易经》“乾”卦(gua)“用九(jiu)”：见群龙无首，吉。

王阳明也曾说：人人心中有仲尼。心之良知之谓圣。

真正伟大的时代，应该是人人平等、人人如龙、人人成圣的。

从古(gu)至今，这都只能是幻想，但如果能善用AI、善用工具，我们未必不能接近(jin)这种境界。

其(qi)实从GPT-3.5→GPT-4→GPT-4o，我们能很明显概(gai)念感受到(dao)，OpenAI想干什么：

他们要让GPT这个人造大脑，越来越符合“人”的标(biao)准。

人是什么？

人不仅仅是劳动力，不论是什么时候、用什么工具，人才是创造财富的主体(ti)。

随着多模态越来越完善，现有的部分行业将会被怎样改变？

我们的主要关注点应该在娱乐方(fang)面。

因为(wei)物质世界的体(ti)力劳动必然(ran)与人类越来越远，人类创造财富的方(fang)向肯定将加速集中在精(jing)神方(fang)面。

从之前投资De的举(ju)动可以看出，OpenAI早就有意把AI技术引入到(dao)影视创作领域。

即便他们不这么干，其(qi)他的影视公司(si)也一定会干。

因为(wei)未来的趋势就是——“交互式传媒”。

你(ni)可以把这种模式，理解为(wei)短视频，每个人都是创作者，没有谁(shui)更专业一说。

各种短视频平台上，如今已经充(chong)斥着大量AI制造的内容。以前我们还能看得出来，现在越来越逼真。

而以后，只要你(ni)善用能模仿人情感的多模态大模型，创造出的内容也将彻(che)底脱离“机械感”。

每个人都是最佳导演，一天(tian)拍十几部大片都没问题。

想要出圈，就看谁(shui)的点子更有新意，更迎(ying)合受众口味。

与之相对的，各种影视公司(si)，包括现在的一大堆流量明星，都将没有任何发展空间。

未来，能存(cun)活下(xia)来的，只有平台，和(he)无数个个人。

除了影视之外，包括音乐、动漫、游戏等任何具备消费价值的娱乐领域，都将变得一样：

去中心化。

每个人都是完美的音乐家、漫画家、游戏设(she)计师(shi)，只要你(ni)有足够的耐心。

你(ni)能想象，这些将催化多大的市场吗(ma)？

以游戏为(wei)例，到(dao)2025年，全球将有35.3亿游戏玩(wan)家。数十亿人，有多少千奇百怪的点子？

以前，99%人限于技术，只是单(dan)纯的玩(wan)家，属于被收割者，只有游戏公司(si)赚钱。

从市场的角度考虑，这个发展效率是非常低(di)下(xia)的。

以后，就相当于是这35亿人相互买单(dan)，金钱流通速度何止提升10倍！？

再比(bi)如社交媒体(ti)。

从前是没有技术，当网(wang)友分享他的游戏、电影、音乐交互体(ti)验后，其(qi)他用户除了评论就没啥后续了。

但以后，我们都能在此基础(chu)上，让AI定制自己的二次体(ti)验，不论是语音、视频还是漫画形式，与其(qi)他人分享。

然(ran)后其(qi)他人看到(dao)了，再定制，再分享……

就这样病毒式传播。

这些描述(shu)，很像去年底炒作的Web3.0概(gai)念。

它的目的，是创造一个去中心化、交互式的互联网(wang)世界，打破已经见顶的互联网(wang)现有桎(zhi)梏。

它的驱动力，就是多模态大模型、乃至以后真正完善五感的更高级AI。

拥有五感的GPT，不仅仅是一种技术进步，更是现代商业社会的一次彻(che)底的娱乐、消费、社交革命。

总而言之，让每个人都能免费使用顶级AI，就相当于把生产力赋能给(gei)每个人，每个人的价值将进一步凸显，整个互联网(wang)世界也将创造出更大的价值。

等到(dao)你(ni)发现其(qi)中的财富效应，乃至未来大多数人或许都要在这样的大环境中生活……

等到(dao)AI真正成为(wei)每个人创造财富的重(zhong)要工具，3小(xiao)时使用10条(tiao)GPT-4o，你(ni)还觉得够吗(ma)？

每个月20美刀的会员费，你(ni)还觉得贵吗(ma)？

就算再贵十倍，你(ni)也心甘(gan)情愿抢着买！

我们真正应该担心的，不应该是这点鸡毛蒜(suan)皮的事，而是：AI 科技的推进速度太快，你(ni)有没有意识到(dao)要去适应新时代。

千万不要做落后的那一批人。

发布于：广东(dong)省(sheng)

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多