面壁智能首席科学家刘知远：大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平20240709-业界动态-szhfh.com

面壁智能首席科学家刘知远：大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平

2024-07-09 03:58:40

面壁智能首席科学家刘知远：大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平

·从2023年下半年开始，很多国(guo)内一线大模型公司水平已经达到了GPT3.5，现在则达到了接近GPT4.0的水平，但更应该关注的是国(guo)外尚未公布的模型。

·未来(lai)高效大模型第一性原理的关键(jian)词便是知识密度。模型的知识密度增强将呈现出每(mei)8个月提升一倍的规律。

“OpenAI推出的ChatGPT拉开了通用人工智能的序幕，影响力堪比2000年左右(you)兴起的互联网。未来(lai)5-10年里，大模型及通用人工智能技术将给整个产(chan)业和人类社会带来(lai)无(wu)限想象空间”。

7月5日上午，清华大学长聘副教授，北(bei)京面壁智能科技有(you)限责任公司（简称面壁智能）联合创始人、首席科学家刘知远在WAIC2024分论坛上做了一场题为《大模型时(shi)代(dai)的“摩尔定律”》主(zhu)题分享。

2022年，身为清华大学计(ji)算机系自然语言处理实验(yan)室的副教授刘知远带头成立面壁智能，成为国(guo)内最早研发大模型的团队之一。

清华大学长聘副教授，北(bei)京面壁智能科技有(you)限责任公司联合创始人、首席科学家刘知远

今年6月，斯坦福学生AI团队训(xun)练出的开源多模态模型，被传“套壳”了面壁智能的MiniCPM-Llama3-V2.5后，这家清华系大模型创业公司受到了社会关注。

当前中国(guo)大模型水平到底怎么样？大模型商业化落地会面临哪些(xie)问题？澎湃科技（www.thepaper.cn）在刘知远演讲(jiang)结束(shu)后对他进行了专访(fang)。

中美(mei)大模型存在一年代(dai)差

在刘知远的观察中，从全球范围看，OpenAI推出的大模型仍(reng)处于世界一级水平，但中国(guo)大模型追赶能力超强。从2023年下半年开始，很多国(guo)内一线大模型公司水平已经达到了GPT3.5，现在则达到了接近GPT4.0的水平。

“单看已发布的模型能力，基本上会认为中美(mei)大模型存在一年左右(you)的代(dai)差。”但刘知远强调，关注模型更应该关注的是国(guo)外尚未公布的模型——比如(ru)美(mei)国(guo)一些(xie)科技公司完(wan)全具有(you)持续不断推出模型的能力。

刘知远对中国(guo)大模型技术水平的发展保持积极乐观的态度，“我(wo)认为国(guo)内AI大模型水平已经形成了有(you)高原但无(wu)高峰”的状态。据(ju)他透露，面壁智能将在半年或一年内把GPT3.5水平的模型能力放到端侧运行，争(zheng)取未来(lai)两年内在端侧实现GPT4.0能力。

但他也向澎湃科技感慨，尽管国(guo)内大模型企业用近一年半的时(shi)间追赶美(mei)国(guo)，但国(guo)内的大模型公司整体情况基本上还是“太卷”，大家太注重短期利益，整体大的创新性仍(reng)不足，“很难做出特别前沿的产(chan)品。”

在刘知远看来(lai)，未来(lai)大模型发展主(zhu)要会有(you)三个战(zhan)场：一是大模型会往更科学化的方向发展，高校会有(you)一套推进大模型实力增强的技术路线；二是未来(lai)大模型一定会跟(gen)计(ji)算系统结合，比如(ru)会有(you)智能操作(zuo)系统、智能数据(ju)库等，各类计(ji)算系统负责各行各业；其三，未来(lai)广泛应用会在企业端、产(chan)业界。

回(hui)看过去，刘知远判断，“我(wo)们经历了符号(hao)智能、专用智能，今天还是大模型的序幕，从OpenAI提出ChatGPT的第一个版本开始，到现在不过五六(liu)年时(shi)间。目前，我(wo)们正(zheng)在加速迈向更加通用的人工智能，而大模型技术就是非常重要的技术基础。”

未来(lai)大模型的竞争(zheng)是知识密度的竞争(zheng)

产(chan)业界似乎(hu)默认，OpenAI训(xun)练出的Sora和GPT，都是典型的“大力出奇迹”的效果，在大模型领域，当前依然是典型的暴力美(mei)学模式，大算力是造就大选手的基础门槛。

刘知远在WAIC2024“模型即服务(Mass) 加速大模型应用落地”论坛上演讲(jiang)

对此，刘知远也分享了他的研究思(si)路。他认为，大模型时(shi)代(dai)会拥有(you)自己的“摩尔定律”，即模型知识密度的持续增强，“如(ru)果说芯片制(zhi)程会带来(lai)终端算力持续增强，模型制(zhi)程也将带来(lai)模型知识密度的持续增长。”知识密度即每(mei)一次的计(ji)算所需要参与的参数以(yi)及对应能力所需要消耗的算力，刘知远进一步(bu)解释说，“一个知识密度越强的模型意味着能力越强，每(mei)一次计(ji)算所需要的参数规模越小。”据(ju)刘知远观察，模型的知识密度增强将呈现出每(mei)8个月提升一倍的规律。

刘知远认为，未来(lai)高效大模型第一性原理的关键(jian)词便是知识密度。如(ru)果大模型数据(ju)驱动技术方向大致确定，那么模型的架构(gou)、算法、数据(ju)等技术方案却仍(reng)在高速迭代(dai)，持续改进模型制(zhi)程、极致提升知识密度成为行业努力的方向。在这个逻辑之下，就可以(yi)打破“大模型算力越大，参数越大，准确率(lu)就会越高”的刻板(ban)印象。

WAIC2024显现的三大趋势(shi)

谈及此次世界人工智能大会，刘知远表示，可以(yi)看出三大发展趋势(shi)：

其一，具身智能是未来(lai)的趋势(shi)之一。他认为，当前产(chan)业界正(zheng)快速地往具身方向靠近，尤其人形机器(qi)人的核心功能对应的是具身智能，模型需要具备越来(lai)越强大的多模态能力。不过人形机器(qi)人虽然很火，但他认为人形机器(qi)人最终是否能够(gou)实现商业化落地依然是行业难题。面向未来(lai)，在他看来(lai)，人形机器(qi)人的发展大概率(lu)会经过过渡阶段，期间会出现各种不同形态的机器(qi)人，可以(yi)把大模型变(bian)得(de)更加智能，这样机器(qi)人会拥有(you)更强大的大脑。

其二，未来(lai)AI将赋能各个专业垂直(zhi)领域中，比如(ru)教育行业、司法领域等。“为什么法律领域的大模型落地速度快？”刘知远认为，一个原因在于借助AI技术可以(yi)帮助法官提质增效，从大量重复性的劳动中解放出来(lai)。面对案多人少(shao)的突出矛盾，法院拥抱AI的积极性非常高。另一个重要原因是信息化程度高。“它们的数据(ju)是天然的，所以(yi)大模型用起来(lai)很顺。”在刘知远看来(lai)，“现在限制(zhi)大模型广泛应用的瓶颈不在于技术，而在于相(xiang)关的信息化、数据(ju)化的准备上。”

其三，对于大模型的探索(suo)不应仅停留(liu)在云上运用，端上运用大模型的意义或价值更大。他认为，未来(lai)的大模型是端云协同的模式。出于隐(yin)私保护、算力等考虑，把模型放在离用户更近的地方，具有(you)重要的价值和意义。

发布于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多