业界动态
商汤想要创造“超级时刻”,模型,版本,卢乐炜
2024-07-22 00:06:03
商汤想要创造“超级时刻”,模型,版本,卢乐炜

作者 | 刘(liu)宝丹(dan)

编(bian)辑 | 周智宇

ChatGPT的爆红让人(ren)们看到了AI大模型的巨大潜力,在经过一年多的技术追赶后,国内(nei)大模型公司纷纷押注应用端。

然而,要想做出(chu)一款真正(zheng)有影响力的产品,并不是件(jian)容易(yi)的事情。

在2024世界人(ren)工智能大会上,商汤(tang)CEO徐立审(shen)慎地(di)指出(chu):“尽管热潮汹(xiong)涌,但我们距离(li)那个(ge)真正(zheng)震撼业界的‘超级时(shi)刻’尚有距离(li)。”他强调,AI尚未全面渗透至各行各业的骨髓之中,也未能在社会上激(ji)起广泛而深刻的变革涟漪。

正(zheng)是基(ji)于这种清醒(xing)的认知,商汤(tang)把当前的重点放在了大模型本身的性能上。

7月5日,商汤(tang)在“大爱无疆·向新力”人(ren)工智能论坛上发布了“日日新5o”,这是国内(nei)首个(ge)所见即所得模型,其交(jiao)互体验对标GPT-4o。

具体来看,“日日新5o”通过整合跨模态信息,基(ji)于声音、文本、图像和视频等(deng)多种形式(shi),带来一种全新的AI交(jiao)互模式(shi),即实时(shi)的流式(shi)多模态交(jiao)互。

对于为何命名(ming)为5o,商汤(tang)研究院研发总监卢乐炜对华(hua)尔街(jie)见闻表示,这个(ge)版(ban)本引入了很多现在能媲美 GPT-4o 的最前沿能力,在版(ban)本命名(ming)上比较保守,V6会有一个(ge)更(geng)大的计划,带来更(geng)全面、更(geng)基(ji)础的大升级。

创新交(jiao)互模式(shi)

在现场,商汤(tang)科技对“日日新5o”的能力进(jin)行了演示:

刚开始,工作人(ren)员仅是和“日日新5o”打个(ge)招呼,它(ta)就自动识别出(chu)工作人(ren)员脖(bo)子佩戴(dai)的胸卡带子上的字(zi)眼,判断出(chu)现场就是世界人(ren)工智能大会会场,并表示在这个(ge)地(di)方可以“好好学习”。

接下来,工作人(ren)员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴(dai)——一个(ge)戴(dai)着印有商汤(tang)科技logo白(bai)帽子,很给主场人(ren)排面。

再(zai)上些难度,随便(bian)翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简(jian)单的OCR识别文字(zi),而是识别图文给出(chu)好理解(jie)的总结,这一切在瞬间即可完成,真正(zheng)做到实时(shi)交(jiao)互。

工作人(ren)员还现场发挥了“画功”,随手画了一只简(jian)笔画小兔子,“日日新5o”直呼画得可爱,而后工作人(ren)员又画了一个(ge)微笑(xiao)表情,它(ta)从这个(ge)平(ping)静的表情中捕捉到了笑(xiao)意,工作人(ren)员又改了一笔把嘴巴画大增(zeng)添了舌头,“日日新5o”看到后立马说到这表情开心(xin)多了。

“日日新5o”打造的是如同(tong)真人(ren)聊天一般(ban)的交(jiao)流对话,据商汤(tang)介绍,这种交(jiao)互模式(shi)特(te)别适用于实时(shi)对话和语音识别等(deng)应用,能够实现对标GPT-4o的交(jiao)互体验正(zheng)是源(yuan)于“日日新5.5”基(ji)础模型能力的全面提升。

接下来的计划

今年4月,商汤(tang)科技发布了“日日新5.0”,这是国内(nei)首个(ge)对标GPT-4 Turbo的国产大模型,引发资(zi)本市场的热潮。

短短两个(ge)多月时(shi)间,全新“日日新5.5”体系迎来多项(xiang)升级,综合性能较“日日新5.0”平(ping)均提升30%,在数学推理、英文能力和指令跟随等(deng)能力明显增(zeng)强,交(jiao)互效(xiao)果和多项(xiang)核心(xin)指标实现对标GPT-4o。

卢乐炜表示,5.5的发布从技术预研来说,不是最近几(ji)个(ge)月的,它(ta)是商汤(tang)自上年末在研发原生多模态的一个(ge)方法论的集成。“这一块恰(qia)好跟 GPT-4o 的 o 这个(ge) Omni的实际含义是一样的。我们当时(shi)很早就预判了这个(ge)趋势,有一个(ge)研发攻关(guan)的技术团队(dui)在做这个(ge)事。”

“它(ta)能在训练过程中涵盖多个(ge)模态带给它(ta)的知识,然后相互融合,这个(ge)对于算法的性能精度提升帮助非常大。”卢乐炜进(jin)一步强调,这个(ge)原生多模态集成了音频、视频,还有最早的图像,从输入端encoder到输出(chu)端 decoder 都是完全集成到一个(ge)模型里(li)。

此外,“日日新5.5”采用混合端云(yun)协同(tong)专家架构,最大限度发挥云(yun)边端协同(tong),降低推理成本,模型训练基(ji)于超过10TB tokens高质量训练数据,包括大量合成的思维链数据,提升推理思维能力。

对于接下来的版(ban)本计划,卢乐炜表示,这一版(ban)本更(geng)新还是相当大的,当时(shi)也考虑按常规(gui)是一个(ge) V6 的版(ban)本号,但我们同(tong)时(shi)在进(jin)行的 V6 版(ban)本会有一个(ge)更(geng)大的计划,它(ta)能承载一个(ge)希望更(geng)全面的、更(geng)基(ji)础的一个(ge)大的升级。

“我们先(xian)把他保守的宣传做一个(ge)5.5版(ban)本的发布,希望也可以让大家期待一下,到时(shi)候 V6 将会带来怎样一个(ge)更(geng)全面的升级。”

发布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7