业界动态
4050亿参数!Meta或将7月23日发布迄今最强大Llama 3模型,训练,版本,语言
2024-07-18 01:28:23
4050亿参数!Meta或将7月23日发布迄今最强大Llama 3模型,训练,版本,语言

本文作者:李丹

来源:硬AI

不到两周后,我们(men)可能就会见到迄今(jin)为(wei)止最强大的开源Llama 3模型。

美东时间7月(yue)12日(ri)周五,媒体援引一名Meta Platforms的员工消息称,Meta计划7月(yue)23日(ri)发布旗下(xia)第(di)三代大语言模型(LLM)Llama 3的最大版本。这一最新版模型将拥(yong)有4050亿参数,也将是多模态模型,这意(yi)味着它(ta)将能够理(li)解和(he)生成(cheng)图像和(he)文本。该媒体未透(tou)露这一最强版本是否开源。

Meta公司拒绝对上述消息置评。周五盘中,低开的Meta股(gu)价跌幅收窄,盘初曾跌3.6%,此后跌幅曾收窄到不足2%,但尾盘跌幅扩大,收跌2.7%,在周四(si)大幅回落超4%后连跌两日(ri),刷新6月(yue)21日(ri)以来收盘低位。

去年7月(yue)Meta发布的Llama 2有三个(ge)版本,最大版本70B的参数规模为(wei)700亿。今(jin)年4月(yue),Meta发布Llama 3Meta,称它(ta)为(wei)“迄今(jin)为(wei)止能力最强的开源LLM”。当时推出的Llama 3有8B和(he)70B两个(ge)版本。

Meta CEO扎克伯格当时称,大版本的Llama 3将有超过4000亿参数。Meta并未透(tou)露会不会将4000亿参数规模的Llama 3开源,当时它(ta)还在接受训练。

对比(bi)前代,Llama 3有了质的飞(fei)跃。Llama 2使(shi)用2万亿个(ge) token进行训练,而(er)训练Llama 3大版本的token超过15 万亿。

Meta称,由于预训练和(he)训练后的改进,其预训练和(he)指令调优的模型是目前8B和(he)70B两个(ge)参数规模的最佳模型。在训练后程序得到改进后,模型的错(cuo)误拒绝率(lu)(FRR)大幅下(xia)降,一致性提高,模型响应的多样性增加。 在推理(li)、代码生成(cheng)和(he)指令跟踪等功能方(fang)面,Llama 3相比(bi)Llama 2有极大改进,使(shi)Llama 3更易于操控。

4月(yue)Meta展示,8B和(he)70B版本的Llama 3指令调优模型在大规模多任务语言理(li)解数据集(MMLU)、研究生水平专(zhuan)家(jia)推理(li)(GPQA)、数学评测集(GSM8K)、编程多语言测试(HumanEval)等方(fang)面的测评得分(fen)都高于Mistral、谷歌的Gemma和(he)Gemini和(he)Anthropic的Claude 3。8B和(he)70B版本的预训练Llama 3多种(zhong)性能测评优于Mistral、Gemma、Gemini和(he)Mixtral。

当时社交媒体的网友评论称,根据基准测试,当前的Llama 3模型不完全是 GPT-4 级别的,但仍在训练中的较(jiao)大尺寸(cun)的模型将达到 GPT-4 级别。

英(ying)伟(wei)达高级科学家(jia)Jim Fan认为(wei),Llama 3的推出已经(jing)脱离了技术层面的进步,更是开源模型与顶(ding)尖闭源模型可分(fen)庭抗礼的象征

从Jim Fan分(fen)享的基准测试可以看出,Llama 3 400B 的实(shi)力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo,将成(cheng)为(wei)“分(fen)水岭(ling)”,相信它(ta)将释放(fang)巨大的研究潜力,推动整个(ge)生态系统(tong)的发展,开源社区(qu)或将能用上GPT-4级别的模型

此后有消息称,研究人员尚未开始(shi)对Llama 3进行微调,还未决定Llama 3是否将是多模态模型;正式(shi)版的Llama 3将会在今(jin)年7月(yue)正式(shi)推出。

不同于OpenAI等开发商,Meta致力于开源LLM,不过,这个(ge)赛道也越(yue)来越(yue)拥(yong)挤。谷歌、特斯拉CEO马斯克旗下(xia)的xAI和(he)Mistral 等竞争对手也发布了免费的AI模型。

Llama 3问世后,同在4月(yue)亮相的4800亿参数模型Arctic击败Llama 3、Mixtra,刷新了全球最大开源模型的纪录。

Arctic基于全新的Dense-MoE架构设计,由一个(ge)10B的稠密Tranformer模型和(he)128×3.66B的MoE MLP组成(cheng),并在3.5万亿个(ge)token上进行了训练。相比(bi)Llama 3 8B和(he)Llama 2 70B,Arctic所(suo)用的训练计算(suan)资源不到它(ta)们(men)的一半(ban),评估指标却取得了相当的分(fen)数。

发布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7