业界动态
澳门大全正版资料查询新黄道仙-直面大模型“大成本”挑战,如何提高算力效率?,推理,训练,问题
2024-06-04 11:12:03
澳门大全正版资料查询新黄道仙-直面大模型“大成本”挑战,如何提高算力效率?,推理,训练,问题

中新网北(bei)京6月3日电 (记者 夏宾)近年来(lai),为(wei)了(le)追(zhui)求大模型的智慧能(neng)力,各国公司不停加码投入,4月,Meta宣布追(zhui)加10亿(yi)美元(yuan)投资,用于(yu)其AI芯片(pian)研发和AI数据中心建设;亚马逊为(wei)了(le)建设新数据中心投入110亿(yi)美元(yuan)。但在大模型扩张的背后(hou),算力代价、能(neng)源代价同(tong)样(yang)巨大。

有业(ye)界技术团队测算,若要对(dui)一个5000亿(yi)参(can)数规模的单体大模型进行充分(fen)训练,所需算力基础(chu)设施约(yue)在10亿(yi)美元(yuan)规模,每年消耗的电费(fei)在5.3亿(yi)元(yuan)人民(min)币(bi)。无论对(dui)于(yu)哪个机构、企业(ye),这都是天文数字和巨大代价,中国也不例(li)外。

知名科学杂志《Nature》此前发表了(le)一篇关于(yu)大模型未来(lai)发展之路的文章,《In Al, is bigger always better?》(人工智能(neng),越大型越好?)。争议的出现,意味着AI发展方向(xiang)出现了(le)分(fen)歧。

如今,“大”不再是模型的唯一追(zhui)求,计(ji)算效率和算力开销两(liang)大问题成为(wei)新的行业(ye)焦点。

对(dui)大模型推理成本的优化,可通过很(hen)多技术手段实现。首先是模型本身(shen),模型结构、训练方法都可以持续改进,包括业(ye)界很(hen)关注的MoE(混合专家模型),就是优化推理成本很(hen)好的解决方案。其次是工程上的优化。大模型的调用量(liang)越大,优化推理成本的空间也越大。以前的模型都是单机推理,大模型用的是分(fen)布式推理。所以如果能(neng)把各种各样(yang)底(di)层算力用得更好,推理成本就会(hui)大大降低。

MoE大模型的盛(sheng)行,实际上对(dui)应的正(zheng)是模型能(neng)力和算力开销两(liang)大问题的解决。这也是为(wei)何众多大模型厂商如OpenAI、谷歌、Mistral AI、浪潮信息等陆续基于(yu)MoE架构升级自家大模型产品的原因。

从浪潮信息发布的“源2.0-M32”开源大模型来(lai)看,其基于(yu)“源2.0”系(xi)列大模型已(yi)有工作基础(chu),创新提出和采用了(le)“基于(yu)注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并(bing)大幅提升了(le)模型算力效率,模型运行时(shi)激活参(can)数为(wei)37亿(yi),在业(ye)界主(zhu)流基准评测中性能(neng)全面对(dui)标(biao)700亿(yi)参(can)数的LLaMA3开源大模型。

浪潮信息人工智能(neng)首席科学家吴韶华在接受中新网记者采访时(shi)说,我们一直在想如何以更低的算力消耗,提高整个大模型的应用效果,能(neng)让企业(ye)、机构以更小的算力代价去获得更高的模型能(neng)力。“这可能(neng)是中国发展自己的AI大模型比较行之有效的路径。”

他直言,大模型推进速度越来(lai)越快,必须强调模型算力效率。“大家可以想象,效率越高就意味着在单位算力投入相等的情况下获得的精度回报越高,它(ta)对(dui)于(yu)训练和应用都非(fei)常有利。”

“现实的算力是有限的,我们一再反复(fu)强调模算效率,试图(tu)针对(dui)当前算力情况闯出一条自己觉得比较好的路子。在固定每个Token算力不变的情况下,通过扩展专家数量(liang)可以获得更大参(can)数量(liang)的模型,进而获得更高精度。”吴韶华说。

他进一步称,整体来(lai)看,尽管当前模型的能(neng)力提升非(fei)常之快,但之前大家更多关注单个维度问题,即平均精度的提升。但大模型进入快速落地时(shi)代,就不得不考虑更多维度的问题,包括模算效率、精度、算力开销等。

中国工程院院士郑(zheng)纬民(min)曾做(zuo)过这样(yang)的计(ji)算,在大模型训练过程中,70%开销要花在算力上;推理过程中95%的花费(fei)也是在算力上。

为(wei)解决大模型训练的算力不足问题,郑(zheng)纬民(min)建议,在推动智能(neng)计(ji)算中心建设同(tong)时(shi)也可以利用已(yi)有超算系(xi)统(tong)的空余算力。

郑(zheng)纬民(min)表示,现有14个国家挂牌的超算系(xi)统(tong),每台机器的建设成本都很(hen)高,成本在10亿(yi)元(yuan)至20亿(yi)元(yuan),甚至更高。这些超算系(xi)统(tong)已(yi)经为(wei)中国的国民(min)经济发展作出巨大贡献,但有些系(xi)统(tong)还(hai)有空余算力,这些空余算力也可被(bei)用来(lai)做(zuo)大模型训练,且(qie)经过优化甚至可降低大模型训练成本。

对(dui)于(yu)近期中国企业(ye)的一轮大模型降价,零一万物CEO李开复(fu)表示,未来(lai)整个行业(ye)的推理成本每年降低十倍(bei)是可以期待的,且(qie)这个趋势是必然的,如此会(hui)有更多人用上大模型,这是非(fei)常利好的消息。(完)

发布于(yu):北(bei)京市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7