4050亿参数！Meta或将7月23日发布迄今最强大Llama 3模型,训练,版本,语言20240718-业界动态-szhfh.com

4050亿参数！Meta或将7月23日发布迄今最强大Llama 3模型,训练,版本,语言

2024-07-18 01:28:23

4050亿参数！Meta或将7月23日发布迄今最强大Llama 3模型,训练,版本,语言

本文作者：李丹

来源：硬AI

不到两周后，我们(men)可能就会见到迄今(jin)为(wei)止最强大的开源Llama 3模型。

美东时间7月(yue)12日(ri)周五，媒体援引一名Meta Platforms的员工消息称，Meta计划7月(yue)23日(ri)发布旗下(xia)第(di)三代大语言模型（LLM）Llama 3的最大版本。这一最新版模型将拥(yong)有4050亿参数，也将是多模态模型，这意(yi)味着它(ta)将能够理(li)解和(he)生成(cheng)图像和(he)文本。该媒体未透(tou)露这一最强版本是否开源。

Meta公司拒绝对上述消息置评。周五盘中，低开的Meta股(gu)价跌幅收窄，盘初曾跌3.6%，此后跌幅曾收窄到不足2%，但尾盘跌幅扩大，收跌2.7%，在周四(si)大幅回落超4%后连跌两日(ri)，刷新6月(yue)21日(ri)以来收盘低位。

去年7月(yue)Meta发布的Llama 2有三个(ge)版本，最大版本70B的参数规模为(wei)700亿。今(jin)年4月(yue)，Meta发布Llama 3Meta，称它(ta)为(wei)“迄今(jin)为(wei)止能力最强的开源LLM”。当时推出的Llama 3有8B和(he)70B两个(ge)版本。

Meta CEO扎克伯格当时称，大版本的Llama 3将有超过4000亿参数。Meta并未透(tou)露会不会将4000亿参数规模的Llama 3开源，当时它(ta)还在接受训练。

对比(bi)前代，Llama 3有了质的飞(fei)跃。Llama 2使(shi)用2万亿个(ge) token进行训练，而(er)训练Llama 3大版本的token超过15 万亿。

Meta称，由于预训练和(he)训练后的改进，其预训练和(he)指令调优的模型是目前8B和(he)70B两个(ge)参数规模的最佳模型。在训练后程序得到改进后，模型的错(cuo)误拒绝率(lu)（FRR）大幅下(xia)降，一致性提高，模型响应的多样性增加。在推理(li)、代码生成(cheng)和(he)指令跟踪等功能方(fang)面，Llama 3相比(bi)Llama 2有极大改进，使(shi)Llama 3更易于操控。

4月(yue)Meta展示，8B和(he)70B版本的Llama 3指令调优模型在大规模多任务语言理(li)解数据集（MMLU）、研究生水平专(zhuan)家(jia)推理(li)（GPQA）、数学评测集（GSM8K）、编程多语言测试（HumanEval）等方(fang)面的测评得分(fen)都高于Mistral、谷歌的Gemma和(he)Gemini和(he)Anthropic的Claude 3。8B和(he)70B版本的预训练Llama 3多种(zhong)性能测评优于Mistral、Gemma、Gemini和(he)Mixtral。

当时社交媒体的网友评论称，根据基准测试，当前的Llama 3模型不完全是 GPT-4 级别的，但仍在训练中的较(jiao)大尺寸(cun)的模型将达到 GPT-4 级别。

英(ying)伟(wei)达高级科学家(jia)Jim Fan认为(wei)，Llama 3的推出已经(jing)脱离了技术层面的进步，更是开源模型与顶(ding)尖闭源模型可分(fen)庭抗礼的象征。

从Jim Fan分(fen)享的基准测试可以看出，Llama 3 400B 的实(shi)力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo，将成(cheng)为(wei)“分(fen)水岭(ling)”，相信它(ta)将释放(fang)巨大的研究潜力，推动整个(ge)生态系统(tong)的发展，开源社区(qu)或将能用上GPT-4级别的模型。

此后有消息称，研究人员尚未开始(shi)对Llama 3进行微调，还未决定Llama 3是否将是多模态模型；正式(shi)版的Llama 3将会在今(jin)年7月(yue)正式(shi)推出。

不同于OpenAI等开发商，Meta致力于开源LLM，不过，这个(ge)赛道也越(yue)来越(yue)拥(yong)挤。谷歌、特斯拉CEO马斯克旗下(xia)的xAI和(he)Mistral 等竞争对手也发布了免费的AI模型。

Llama 3问世后，同在4月(yue)亮相的4800亿参数模型Arctic击败Llama 3、Mixtra，刷新了全球最大开源模型的纪录。

Arctic基于全新的Dense-MoE架构设计，由一个(ge)10B的稠密Tranformer模型和(he)128×3.66B的MoE MLP组成(cheng)，并在3.5万亿个(ge)token上进行了训练。相比(bi)Llama 3 8B和(he)Llama 2 70B，Arctic所(suo)用的训练计算(suan)资源不到它(ta)们(men)的一半(ban)，评估指标却取得了相当的分(fen)数。

发布于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多