业界动态
面壁智能首席科学家刘知远:大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平
2024-07-09 03:58:40
面壁智能首席科学家刘知远:大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平

·从2023年下半年开始,很多国(guo)内一线大模型公司水平已经达到了GPT3.5,现在则达到了接近GPT4.0的水平,但更应该关注的是国(guo)外尚未公布的模型。

·未来(lai)高效大模型第一性原理的关键(jian)词便是知识密度。模型的知识密度增强将呈现出每(mei)8个月提升一倍的规律。

“OpenAI推出的ChatGPT拉开了通用人工智能的序幕,影响力堪比2000年左右(you)兴起的互联网。未来(lai)5-10年里,大模型及通用人工智能技术将给整个产(chan)业和人类社会带来(lai)无(wu)限想象空间”。

7月5日上午,清华大学长聘副教授,北(bei)京面壁智能科技有(you)限责任公司(简称面壁智能)联合创始人、首席科学家刘知远在WAIC2024分论坛上做了一场题为《大模型时(shi)代(dai)的“摩尔定律”》主(zhu)题分享。

2022年,身为清华大学计(ji)算机系自然语言处理实验(yan)室的副教授刘知远带头成立面壁智能,成为国(guo)内最早研发大模型的团队之一。

清华大学长聘副教授,北(bei)京面壁智能科技有(you)限责任公司联合创始人、首席科学家刘知远

今年6月,斯坦福学生AI团队训(xun)练出的开源多模态模型,被传“套壳”了面壁智能的MiniCPM-Llama3-V2.5后,这家清华系大模型创业公司受到了社会关注。

当前中国(guo)大模型水平到底怎么样?大模型商业化落地会面临哪些(xie)问题?澎湃科技(www.thepaper.cn)在刘知远演讲(jiang)结束(shu)后对他进行了专访(fang)。

中美(mei)大模型存在一年代(dai)差

在刘知远的观察中,从全球范围看,OpenAI推出的大模型仍(reng)处于世界一级水平,但中国(guo)大模型追赶能力超强。从2023年下半年开始,很多国(guo)内一线大模型公司水平已经达到了GPT3.5,现在则达到了接近GPT4.0的水平。

“单看已发布的模型能力,基本上会认为中美(mei)大模型存在一年左右(you)的代(dai)差。”但刘知远强调,关注模型更应该关注的是国(guo)外尚未公布的模型——比如(ru)美(mei)国(guo)一些(xie)科技公司完(wan)全具有(you)持续不断推出模型的能力。

刘知远对中国(guo)大模型技术水平的发展保持积极乐观的态度,“我(wo)认为国(guo)内AI大模型水平已经形成了有(you)高原但无(wu)高峰”的状态。据(ju)他透露,面壁智能将在半年或一年内把GPT3.5水平的模型能力放到端侧运行,争(zheng)取未来(lai)两年内在端侧实现GPT4.0能力。

但他也向澎湃科技感慨,尽管国(guo)内大模型企业用近一年半的时(shi)间追赶美(mei)国(guo),但国(guo)内的大模型公司整体情况基本上还是“太卷”,大家太注重短期利益,整体大的创新性仍(reng)不足,“很难做出特别前沿的产(chan)品。”

在刘知远看来(lai),未来(lai)大模型发展主(zhu)要会有(you)三个战(zhan)场:一是大模型会往更科学化的方向发展,高校会有(you)一套推进大模型实力增强的技术路线;二是未来(lai)大模型一定会跟(gen)计(ji)算系统结合,比如(ru)会有(you)智能操作(zuo)系统、智能数据(ju)库等,各类计(ji)算系统负责各行各业;其三,未来(lai)广泛应用会在企业端、产(chan)业界。

回(hui)看过去,刘知远判断,“我(wo)们经历了符号(hao)智能、专用智能,今天还是大模型的序幕,从OpenAI提出ChatGPT的第一个版本开始,到现在不过五六(liu)年时(shi)间。目前,我(wo)们正(zheng)在加速迈向更加通用的人工智能,而大模型技术就是非常重要的技术基础。”

未来(lai)大模型的竞争(zheng)是知识密度的竞争(zheng)

产(chan)业界似乎(hu)默认,OpenAI训(xun)练出的Sora和GPT,都是典型的“大力出奇迹”的效果,在大模型领域,当前依然是典型的暴力美(mei)学模式,大算力是造就大选手的基础门槛。

刘知远在WAIC2024“模型即服务(Mass) 加速大模型应用落地”论坛上演讲(jiang)

对此,刘知远也分享了他的研究思(si)路。他认为,大模型时(shi)代(dai)会拥有(you)自己的“摩尔定律”,即模型知识密度的持续增强,“如(ru)果说芯片制(zhi)程会带来(lai)终端算力持续增强,模型制(zhi)程也将带来(lai)模型知识密度的持续增长。”知识密度即每(mei)一次的计(ji)算所需要参与的参数以(yi)及对应能力所需要消耗的算力,刘知远进一步(bu)解释说,“一个知识密度越强的模型意味着能力越强,每(mei)一次计(ji)算所需要的参数规模越小。”据(ju)刘知远观察,模型的知识密度增强将呈现出每(mei)8个月提升一倍的规律。

刘知远认为,未来(lai)高效大模型第一性原理的关键(jian)词便是知识密度。如(ru)果大模型数据(ju)驱动技术方向大致确定,那么模型的架构(gou)、算法、数据(ju)等技术方案却仍(reng)在高速迭代(dai),持续改进模型制(zhi)程、极致提升知识密度成为行业努力的方向。在这个逻辑之下,就可以(yi)打破“大模型算力越大,参数越大,准确率(lu)就会越高”的刻板(ban)印象。

WAIC2024显现的三大趋势(shi)

谈及此次世界人工智能大会,刘知远表示,可以(yi)看出三大发展趋势(shi):

其一,具身智能是未来(lai)的趋势(shi)之一。他认为,当前产(chan)业界正(zheng)快速地往具身方向靠近,尤其人形机器(qi)人的核心功能对应的是具身智能,模型需要具备越来(lai)越强大的多模态能力。不过人形机器(qi)人虽然很火,但他认为人形机器(qi)人最终是否能够(gou)实现商业化落地依然是行业难题。面向未来(lai),在他看来(lai),人形机器(qi)人的发展大概率(lu)会经过过渡阶段,期间会出现各种不同形态的机器(qi)人,可以(yi)把大模型变(bian)得(de)更加智能,这样机器(qi)人会拥有(you)更强大的大脑。

其二,未来(lai)AI将赋能各个专业垂直(zhi)领域中,比如(ru)教育行业、司法领域等。“为什么法律领域的大模型落地速度快?”刘知远认为,一个原因在于借助AI技术可以(yi)帮助法官提质增效,从大量重复性的劳动中解放出来(lai)。面对案多人少(shao)的突出矛盾,法院拥抱AI的积极性非常高。另一个重要原因是信息化程度高。“它们的数据(ju)是天然的,所以(yi)大模型用起来(lai)很顺。”在刘知远看来(lai),“现在限制(zhi)大模型广泛应用的瓶颈不在于技术,而在于相(xiang)关的信息化、数据(ju)化的准备上。”

其三,对于大模型的探索(suo)不应仅停留(liu)在云上运用,端上运用大模型的意义或价值更大。他认为,未来(lai)的大模型是端云协同的模式。出于隐(yin)私保护、算力等考虑,把模型放在离用户更近的地方,具有(you)重要的价值和意义。

发布于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7