业界动态
澳门最准内部资料u7-腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力
2024-06-02 00:18:09
澳门最准内部资料u7-腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力

文/观(guan)察者网 周毅 编辑 张广凯

5月14日,腾讯宣布(bu)旗下混元文生(sheng)图大模型(xing)全面升(sheng)级并对外开源。据悉,这是业内首个中文原生(sheng)的DiT架构文生(sheng)图开源模型(xing)。它支(zhi)持(chi)中英文双语输入及理解,参数(shu)量15亿。目前(qian),该大模型(xing)已在(zai)Hugging Face平台和Github上发布(bu),包含模型(xing)权(quan)重、推理代码、模型(xing)算法(fa)等完整模型(xing),可供企业与个人开发者免费商用。

不(bu)同模型(xing)在(zai)图文一致性等方面的表现 图源Hugging Face

腾讯混元文生(sheng)图负责人芦清林对观(guan)察者网表示,提升(sheng)技术能力和更广泛(fan)的应用,是该大模型(xing)未来的两个方向。

“从技术能力的提升(sheng)来说,如(ru)何让图片(pian)生(sheng)成的速度更快,生(sheng)成的质量更好,是我们永远都会追(zhui)求的一个技术方向,它似乎是没有(you)止境的。”芦清林表示,项(xiang)目团队也希望该大模型(xing),能在(zai)腾讯内外更广泛(fan)的业务场景(jing)应用起(qi)来。事实上,从去年开始,腾讯混元文生(sheng)图就和腾讯的广告业务进行了一些协作。

“今年会跟社交业务,包括QQ、企业微信等很多业务场景(jing)做联动。跟他们合作做一些新的技术能力。”芦清林透露,同时,该大模型(xing)也会跟腾讯游戏做一些深入的技术合作,希望能够在(zai)美术场景(jing)中应用起(qi)来。包括QQ音乐(le)等在(zai)内,也都是该大模型(xing)未来将会提供支(zhi)撑的业务场景(jing)。

大模型(xing)的优异表现,往往离不(bu)开先进的技术架构。过去,视觉生(sheng)成扩散模型(xing)主要基(ji)于U-Net架构,但(dan)随着参数(shu)量的提升(sheng),基(ji)于Transformer架构的扩散模型(xing)展现出了更好的扩展性,有(you)助于进一步提升(sheng)模型(xing)的生(sheng)成质量及效率。升(sheng)级后的腾讯混元文生(sheng)图大模型(xing)采用了全新的DiT架构(即Diffusion With Transformer),这也是Sora和Stable Diffusion 3的同款架构和关键技术,它就是一种基(ji)于Transformer架构的扩散模型(xing)。

公开资料显示,在(zai)DiT架构的基(ji)础之上,腾讯混元文生(sheng)图大模型(xing)还在(zai)算法(fa)层面优化了模型(xing)的长(chang)文本理解能力,能够支(zhi)持(chi)最多256字(zi)符的内容输入,同时赋予其多轮生(sheng)图和对话能力:在(zai)一张初始生(sheng)成图片(pian)的基(ji)础上,用户(hu)通过自(zi)然语言描述,即可对其进行调整。

用户(hu)通过“对话”,即可调整文生(sheng)图的具体内容 测试截图

此外,“中文原生(sheng)”也是腾讯混元文生(sheng)图大模型(xing)的一大亮点,此前(qian),像Stable Diffusion等主流开源模型(xing)核(he)心数(shu)据集以英文为主,对中国的语言、美食、文化、习俗理解有(you)限。作为首个中文原生(sheng)的DiT模型(xing),混元文生(sheng)图具备中英文双语理解及生(sheng)成能力,在(zai)古诗词、俚语、传统建筑、中华美食等中国元素的生(sheng)成上表现出色。

混元文生(sheng)图大模型(xing)的部分(fen)能力展示 图源Hugging Face

发布(bu)于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7