业界动态
腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力
2024-05-18 04:17:36
腾讯混元文生图大模型宣布开源,未来还将跟QQ、企微和游戏做联动,架构,技术,能力

文(wen)/观察者(zhe)网 周毅(yi) 编辑 张广凯(kai)

5月14日(ri),腾(teng)讯宣布旗下混(hun)元文(wen)生图大模型全面升(sheng)级并对外开源。据悉,这是业内首个(ge)中文(wen)原生的DiT架构文(wen)生图开源模型。它(ta)支持中英文(wen)双语输入及理解,参数量15亿。目(mu)前,该(gai)大模型已在Hugging Face平台和Github上发布,包含模型权重(zhong)、推理代码、模型算法(fa)等完整模型,可(ke)供(gong)企业与个(ge)人开发者(zhe)免费商用。

不同模型在图文(wen)一致性等方面的表现 图源Hugging Face

腾(teng)讯混(hun)元文(wen)生图负(fu)责人芦清林对观察者(zhe)网表示,提升(sheng)技术(shu)能(neng)力和更广泛的应用,是该(gai)大模型未来的两个(ge)方向。

“从技术(shu)能(neng)力的提升(sheng)来说,如何让图片生成的速度更快,生成的质量更好(hao),是我们永远都会追求(qiu)的一个(ge)技术(shu)方向,它(ta)似乎是没有止(zhi)境的。”芦清林表示,项目(mu)团队也希望该(gai)大模型,能(neng)在腾(teng)讯内外更广泛的业务场景(jing)应用起来。事实上,从去年开始,腾(teng)讯混(hun)元文(wen)生图就(jiu)和腾(teng)讯的广告(gao)业务进行了一些协作。

“今年会跟社交业务,包括(kuo)QQ、企业微信等很多业务场景(jing)做联动。跟他们合作做一些新的技术(shu)能(neng)力。”芦清林透露,同时,该(gai)大模型也会跟腾(teng)讯游戏做一些深入的技术(shu)合作,希望能(neng)够在美术(shu)场景(jing)中应用起来。包括(kuo)QQ音(yin)乐等在内,也都是该(gai)大模型未来将会提供(gong)支撑的业务场景(jing)。

大模型的优异(yi)表现,往往离(li)不开先进的技术(shu)架构。过去,视觉生成扩散模型主要基于(yu)U-Net架构,但随着参数量的提升(sheng),基于(yu)Transformer架构的扩散模型展现出了更好(hao)的扩展性,有助于(yu)进一步提升(sheng)模型的生成质量及效率。升(sheng)级后的腾(teng)讯混(hun)元文(wen)生图大模型采用了全新的DiT架构(即Diffusion With Transformer),这也是Sora和Stable Diffusion 3的同款架构和关键技术(shu),它(ta)就(jiu)是一种基于(yu)Transformer架构的扩散模型。

公开资料显(xian)示,在DiT架构的基础之上,腾(teng)讯混(hun)元文(wen)生图大模型还在算法(fa)层面优化了模型的长(chang)文(wen)本(ben)理解能(neng)力,能(neng)够支持最多256字符的内容输入,同时赋予其多轮生图和对话能(neng)力:在一张初始生成图片的基础上,用户通过自然语言描述(shu),即可(ke)对其进行调整。

用户通过“对话”,即可(ke)调整文(wen)生图的具体内容 测试截图

此外,“中文(wen)原生”也是腾(teng)讯混(hun)元文(wen)生图大模型的一大亮点,此前,像Stable Diffusion等主流开源模型核心数据集以英文(wen)为(wei)主,对中国的语言、美食、文(wen)化、习(xi)俗理解有限。作为(wei)首个(ge)中文(wen)原生的DiT模型,混(hun)元文(wen)生图具备(bei)中英文(wen)双语理解及生成能(neng)力,在古诗词、俚语、传(chuan)统建(jian)筑、中华美食等中国元素的生成上表现出色。

混(hun)元文(wen)生图大模型的部(bu)分(fen)能(neng)力展示 图源Hugging Face

发布于(yu):上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7