业界动态
2024年全年香港正版资料-腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力
2024-06-02 03:38:57
2024年全年香港正版资料-腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力

文/观察者网 周(zhou)毅(yi) 编辑 张广凯

5月14日,腾讯宣布旗下(xia)混元文生图大(da)模型(xing)全(quan)面升级并对外开源。据悉,这是业内首个中文原(yuan)生的DiT架构文生图开源模型(xing)。它支持中英文双(shuang)语输入及理解,参数量15亿。目前(qian),该大(da)模型(xing)已在Hugging Face平台和Github上发布,包(bao)含模型(xing)权重、推理代码、模型(xing)算法(fa)等完整模型(xing),可(ke)供企(qi)业与个人开发者免(mian)费商用。

不同模型(xing)在图文一致性等方面的表现 图源Hugging Face

腾讯混元文生图负责人芦清林对观察者网表示,提(ti)升技术能(neng)力和更广泛(fan)的应用,是该大(da)模型(xing)未来的两个方向。

“从技术能(neng)力的提(ti)升来说,如何让图片(pian)生成的速度(du)更快,生成的质量更好,是我们永远都会追求的一个技术方向,它似乎(hu)是没有止境的。”芦清林表示,项目团队也(ye)希望该大(da)模型(xing),能(neng)在腾讯内外更广泛(fan)的业务(wu)场景应用起来。事实上,从去年开始,腾讯混元文生图就和腾讯的广告业务(wu)进行了一些协作(zuo)。

“今年会跟社交业务(wu),包(bao)括QQ、企(qi)业微信(xin)等很多业务(wu)场景做联动。跟他们合作(zuo)做一些新的技术能(neng)力。”芦清林透露,同时,该大(da)模型(xing)也(ye)会跟腾讯游戏做一些深(shen)入的技术合作(zuo),希望能(neng)够在美术场景中应用起来。包(bao)括QQ音乐等在内,也(ye)都是该大(da)模型(xing)未来将会提(ti)供支撑的业务(wu)场景。

大(da)模型(xing)的优异(yi)表现,往往离不开先进的技术架构。过去,视觉生成扩散模型(xing)主要(yao)基于U-Net架构,但(dan)随着参数量的提(ti)升,基于Transformer架构的扩散模型(xing)展现出了更好的扩展性,有助于进一步提(ti)升模型(xing)的生成质量及效(xiao)率。升级后的腾讯混元文生图大(da)模型(xing)采用了全(quan)新的DiT架构(即(ji)Diffusion With Transformer),这也(ye)是Sora和Stable Diffusion 3的同款架构和关键技术,它就是一种基于Transformer架构的扩散模型(xing)。

公开资料(liao)显示,在DiT架构的基础之上,腾讯混元文生图大(da)模型(xing)还在算法(fa)层面优化(hua)了模型(xing)的长文本理解能(neng)力,能(neng)够支持最(zui)多256字符的内容输入,同时赋予其多轮生图和对话(hua)能(neng)力:在一张初(chu)始生成图片(pian)的基础上,用户通过自然语言描述,即(ji)可(ke)对其进行调整。

用户通过“对话(hua)”,即(ji)可(ke)调整文生图的具体内容 测试截图

此外,“中文原(yuan)生”也(ye)是腾讯混元文生图大(da)模型(xing)的一大(da)亮(liang)点,此前(qian),像Stable Diffusion等主流开源模型(xing)核心数据集以(yi)英文为主,对中国的语言、美食、文化(hua)、习(xi)俗(su)理解有限(xian)。作(zuo)为首个中文原(yuan)生的DiT模型(xing),混元文生图具备中英文双(shuang)语理解及生成能(neng)力,在古诗词、俚语、传统(tong)建筑、中华美食等中国元素的生成上表现出色。

混元文生图大(da)模型(xing)的部分能(neng)力展示 图源Hugging Face

发布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7