澳门正版资料全年免费公开2024*-腾讯混元文生图大模型宣布开源，未来还将跟QQ、企微和游戏做联动,架构,技术,能力20240604-业界动态-szhfh.com

澳门正版资料全年免费公开2024*-腾讯混元文生图大模型宣布开源，未来还将跟QQ、企微和游戏做联动,架构,技术,能力

2024-06-04 02:28:58

澳门正版资料全年免费公开2024*-腾讯混元文生图大模型宣布开源，未来还将跟QQ、企微和游戏做联动,架构,技术,能力

文/观(guan)察者(zhe)网周毅编辑(ji) 张广凯

5月14日，腾讯宣布旗下混元(yuan)文生图大模型全面升级(ji)并对外开源。据悉，这是业内首个(ge)中文原生的DiT架构文生图开源模型。它支持(chi)中英文双语输入及理解，参数量15亿。目(mu)前，该(gai)大模型已在Hugging Face平台(tai)和Github上发布，包含模型权重、推理代码、模型算(suan)法等(deng)完整模型，可供企业与个(ge)人开发者(zhe)免费商用。

不同模型在图文一致性等(deng)方面的表现图源Hugging Face

腾讯混元(yuan)文生图负责(ze)人芦清林(lin)对观(guan)察者(zhe)网表示(shi)，提升技术能力和更广泛的应用，是该(gai)大模型未来的两个(ge)方向。

“从技术能力的提升来说，如何让图片生成的速度更快，生成的质量更好，是我们永远都会追求的一个(ge)技术方向，它似乎是没有(you)止境的。”芦清林(lin)表示(shi)，项(xiang)目(mu)团队也希(xi)望(wang)该(gai)大模型，能在腾讯内外更广泛的业务(wu)场景应用起(qi)来。事(shi)实上，从去年开始，腾讯混元(yuan)文生图就和腾讯的广告(gao)业务(wu)进行了一些协作。

“今年会跟社交业务(wu)，包括QQ、企业微信等(deng)很(hen)多业务(wu)场景做联动。跟他们合(he)作做一些新的技术能力。”芦清林(lin)透(tou)露，同时，该(gai)大模型也会跟腾讯游(you)戏做一些深入的技术合(he)作，希(xi)望(wang)能够在美术场景中应用起(qi)来。包括QQ音乐等(deng)在内，也都是该(gai)大模型未来将会提供支撑(cheng)的业务(wu)场景。

大模型的优异表现，往往离不开先(xian)进的技术架构。过去，视觉生成扩散模型主要基(ji)于U-Net架构，但随着参数量的提升，基(ji)于Transformer架构的扩散模型展现出了更好的扩展性，有(you)助于进一步提升模型的生成质量及效率。升级(ji)后(hou)的腾讯混元(yuan)文生图大模型采(cai)用了全新的DiT架构（即Diffusion With Transformer），这也是Sora和Stable Diffusion 3的同款架构和关键技术，它就是一种基(ji)于Transformer架构的扩散模型。

公开资料显(xian)示(shi)，在DiT架构的基(ji)础之上，腾讯混元(yuan)文生图大模型还在算(suan)法层面优化了模型的长文本理解能力，能够支持(chi)最多256字(zi)符的内容输入，同时赋(fu)予其多轮生图和对话能力：在一张初(chu)始生成图片的基(ji)础上，用户通过自然语言描述，即可对其进行调整。

用户通过“对话”，即可调整文生图的具体内容测试截图

此外，“中文原生”也是腾讯混元(yuan)文生图大模型的一大亮(liang)点(dian)，此前，像Stable Diffusion等(deng)主流开源模型核心数据集以英文为主，对中国的语言、美食、文化、习俗(su)理解有(you)限。作为首个(ge)中文原生的DiT模型，混元(yuan)文生图具备中英文双语理解及生成能力，在古诗词、俚语、传统(tong)建筑、中华美食等(deng)中国元(yuan)素(su)的生成上表现出色。

混元(yuan)文生图大模型的部分能力展示(shi) 图源Hugging Face

发布于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多