业界动态
澳门正版资料全年免费公开2024*-腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力
2024-06-04 02:28:58
澳门正版资料全年免费公开2024*-腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力

文/观(guan)察者(zhe)网 周毅 编辑(ji) 张广凯

5月14日,腾讯宣布旗下混元(yuan)文生图大模型全面升级(ji)并对外开源。据悉,这是业内首个(ge)中文原生的DiT架构文生图开源模型。它支持(chi)中英文双语输入及理解,参数量15亿。目(mu)前,该(gai)大模型已在Hugging Face平台(tai)和Github上发布,包含模型权重、推理代码、模型算(suan)法等(deng)完整模型,可供企业与个(ge)人开发者(zhe)免费商用。

不同模型在图文一致性等(deng)方面的表现 图源Hugging Face

腾讯混元(yuan)文生图负责(ze)人芦清林(lin)对观(guan)察者(zhe)网表示(shi),提升技术能力和更广泛的应用,是该(gai)大模型未来的两个(ge)方向。

“从技术能力的提升来说,如何让图片生成的速度更快,生成的质量更好,是我们永远都会追求的一个(ge)技术方向,它似乎是没有(you)止境的。”芦清林(lin)表示(shi),项(xiang)目(mu)团队也希(xi)望(wang)该(gai)大模型,能在腾讯内外更广泛的业务(wu)场景应用起(qi)来。事(shi)实上,从去年开始,腾讯混元(yuan)文生图就和腾讯的广告(gao)业务(wu)进行了一些协作。

“今年会跟社交业务(wu),包括QQ、企业微信等(deng)很(hen)多业务(wu)场景做联动。跟他们合(he)作做一些新的技术能力。”芦清林(lin)透(tou)露,同时,该(gai)大模型也会跟腾讯游(you)戏做一些深入的技术合(he)作,希(xi)望(wang)能够在美术场景中应用起(qi)来。包括QQ音乐等(deng)在内,也都是该(gai)大模型未来将会提供支撑(cheng)的业务(wu)场景。

大模型的优异表现,往往离不开先(xian)进的技术架构。过去,视觉生成扩散模型主要基(ji)于U-Net架构,但随着参数量的提升,基(ji)于Transformer架构的扩散模型展现出了更好的扩展性,有(you)助于进一步提升模型的生成质量及效率。升级(ji)后(hou)的腾讯混元(yuan)文生图大模型采(cai)用了全新的DiT架构(即Diffusion With Transformer),这也是Sora和Stable Diffusion 3的同款架构和关键技术,它就是一种基(ji)于Transformer架构的扩散模型。

公开资料显(xian)示(shi),在DiT架构的基(ji)础之上,腾讯混元(yuan)文生图大模型还在算(suan)法层面优化了模型的长文本理解能力,能够支持(chi)最多256字(zi)符的内容输入,同时赋(fu)予其多轮生图和对话能力:在一张初(chu)始生成图片的基(ji)础上,用户通过自然语言描述,即可对其进行调整。

用户通过“对话”,即可调整文生图的具体内容 测试截图

此外,“中文原生”也是腾讯混元(yuan)文生图大模型的一大亮(liang)点(dian),此前,像Stable Diffusion等(deng)主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗(su)理解有(you)限。作为首个(ge)中文原生的DiT模型,混元(yuan)文生图具备中英文双语理解及生成能力,在古诗词、俚语、传统(tong)建筑、中华美食等(deng)中国元(yuan)素(su)的生成上表现出色。

混元(yuan)文生图大模型的部分能力展示(shi) 图源Hugging Face

发布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7