业界动态
孙凝晖院士万字演讲:人工智能时代,中国的基础设施不落后,数据,空间,信息
2024-07-23 05:39:11
孙凝晖院士万字演讲:人工智能时代,中国的基础设施不落后,数据,空间,信息

导读:2024年7月7日-9日,由中国科学院空(kong)天信息创新(xin)研究院、江苏省无锡(xi)市人(ren)民政府(fu)指导,江苏无锡(xi)经济开发区管理委员会、中科星图股份有限公司主办的“2024空(kong)天信息大会暨数字地球生(sheng)态峰会”将在无锡(xi)国际会议中心召开。

中国工程院院士、中国科学院大学计算机科学与技术学院院长孙凝晖在会上发表题为(wei)“数据空(kong)间需要新(xin)型基础设施”的报(bao)告,以(yi)下是演讲视频及文(wen)字实录:

孙凝晖:

各位来宾,大家(jia)下午好。很高兴在这里跟大家(jia)交流一(yi)下我(wo)对(dui)数据空(kong)间和信息基础设施的一(yi)些看法。

在去年国家(jia)数据局成立以(yi)后,刘烈(lie)宏局长在一(yi)个报(bao)告中提到了首次提出我(wo)们(men)国家(jia)要建设数据基础设施。这是在新(xin)基建中的一(yi)个新(xin)的提法。以(yi)前我(wo)们(men)新(xin)基建中是不包括(kuo)数据基础设施这一(yi)块。那么他也给出了他的一(yi)些建设的内涵,其中包括(kuo)算力设施和流通设施这两(liang)个是在过去的信息基础设施里边是没(mei)有的。那过去我(wo)们(men)只有安全和网络设施,包括(kuo)高速(su)连接和5G,这都属于(yu)网络设施。那么这些设施要保证我(wo)们(men)数据要素化以(yi)后能够(gou)供得出流动和用得好。

孙凝晖院士

我(wo)先想谈一(yi)点网络空(kong)间的演进规律。我(wo)们(men)把数据还是放到Surface Space,就是网络空(kong)间里来看。这是一(yi)个大致的这样一(yi)个演进规律,就是从计算空(kong)间到信息空(kong)间,再发展到今天我(wo)们(men)谈的数据空(kong)间。我(wo)们(men)一(yi)开始计算机是一(yi)个孤立的设备。自从我(wo)们(men)有了互联网,把所有的计算机设备连成了一(yi)个空(kong)间。所谓空(kong)间就是一(yi)个有边界,而且有结构(gou)的这样一(yi)个真(zhen)实存在的一(yi)个客观(guan)事实。

互联网主要处(chu)理对(dui)象是符号化知(zhi)识、处(chu)理方法、数据计算。那么在第二个阶段,我(wo)们(men)通过万维(wei)网,也就是3W把人(ren)连接到网络空(kong)间里面。当然是通过智能手机和电脑这样的一(yi)些信息新(xin)的终(zhong)端(duan)。在信息空(kong)间里面,我(wo)们(men)对(dui)所有的信息以(yi)网页的形式把它们(men)连接在一(yi)起。这时候我(wo)们(men)处(chu)理的对(dui)象是结构(gou)化信息。

到了智能时代,由于(yu)人(ren)机物三元互联,大量的数据被从人(ren)和物,包括(kuo)我(wo)们(men)空(kong)天信息在内,空(kong)天信息采集的是关于(yu)地球的全圈层的这样的一(yi)个数据。那么会构(gou)成一(yi)个新(xin)的数据空(kong)间。

那么从一(yi)个基本的结构(gou)来看的话,这三个空(kong)间像我(wo)们(men)建楼一(yi)样是一(yi)层一(yi)层叠加上去的。那么最(zui)底下是由互联网结构(gou)构(gou)成的计算机空(kong)间,连接所有设备。它加工的是我(wo)们(men)人(ren)类抽(chou)象出来的知(zhi)识。我(wo)们(men)知(zhi)识库(ku)也好,我(wo)们(men)超(chao)算也好,那个加工的知(zhi)识都是先由人(ren)进行抽(chou)象,把它数字化以(yi)后再让计算机进行运算。

那么万维(wei)网是连接所有网页。这时候加工的信息就是人(ren)直接产生(sheng)的了,并没(mei)有对(dui)它进行加工。那我(wo)们(men)现在数据空(kong)间呢,它的结构(gou)我(wo)们(men)起了一(yi)个词叫(jiao)数据场。它是连接所有的数据的基本单元,称之为(wei)数据件这样的一(yi)个基本单元。这就是我(wo)们(men)构(gou)造(zao)出来的一(yi)个词。它的目的是加工这些数据来生(sheng)成这些智能模型,在用于(yu)实际的生(sheng)产和生(sheng)活中。

这里面有一(yi)些详细(xi)的这样一(yi)个介绍,包括(kuo)第一(yi)步我(wo)们(men)主要是连接的目的是为(wei)了加工知(zhi)识,是吧?就是我(wo)们(men)数字计算,就是人(ren)类符号化的这些数理知(zhi)识。其中这种网格计算是它的基础设施化部分。那么第二个加工信息呢,加工信息其实是我(wo)们(men)人(ren)类社(she)会的生(sheng)产和社(she)会活动向数字空(kong)间也是网络空(kong)间的一(yi)个投影(ying)。我(wo)们(men)整(zheng)个互联网看起来它就是一(yi)个投影(ying)。我(wo)们(men)在投影(ying)上进行处(chu)理,产生(sheng)了整(zheng)个互联网的应用。

那么它的基础设施化就是我(wo)们(men)所知(zhi)的云计算,Cloud Computing是它的云计算上的基础设施化。那么在数据空(kong)间呢,它数据已经不是原始数据了。数据是为(wei)了加工模型而产生(sheng)的数据。数据是一(yi)个客观(guan)事实。从古以(yi)来,从人(ren)类存在以(yi)来我(wo)们(men)就存在着数据。但数据并不是可以(yi)被加工成模型的。

图源(yuan):新(xin)华网

那么在上世纪60年代,有美国学者(zhe)就提出了utility computing,所谓效能计算的这样一(yi)个概念。概念非(fei)常的超(chao)前。它希望把我(wo)们(men)信息领域的所有的要素,包括(kuo)算力和数据在内的所有的要素都能够(gou)基础设施化。你只有基础设施化,它才能普(pu)及到各行各业,才能低成本的被使用。但理想一(yi)直没(mei)有被实现。60年后,我(wo)们(men)看理想正在逐渐变成现实。

在这一(yi)轮科技革命中,我(wo)们(men)并没(mei)有落后。我(wo)们(men)以(yi)前总是美国有了,我(wo)们(men)拿到中国来再进行平替(ti),进行国产化。在这一(yi)轮中,我(wo)们(men)包括(kuo)在东数西算工程,包括(kuo)人(ren)工智能2.0,我(wo)们(men)跟美国都是并跑的这样一(yi)个推动者(zhe)。

所以(yi)在数据空(kong)间,它的活动规律也是价值(zhi)增值(zhi)的规律是不一(yi)样的。我(wo)们(men)知(zhi)道(dao)互联网它的核心就是一(yi)个核裂变,就是无限扩大信息可达的边界。那么在数据空(kong)间,它的最(zui)高价值(zhi)的活动呢是叫(jiao)核聚变。我(wo)们(men)说(shuo)大语(yu)言模型可以(yi)把它看成是用Transformer这样一(yi)个算法或者(zhe)是一(yi)个点火(huo)的方法,点火(huo)成功的一(yi)个互联网全量数据空(kong)间的一(yi)个大型聚变反应的一(yi)个产物。

西部云算力基地 图源(yuan):新(xin)华网

我(wo)们(men)可以(yi)也可以(yi)大胆预测一(yi)下,数据空(kong)间它的价值(zhi)和数据件能够(gou)进行广谱关联这样一(yi)个数据体的这样一(yi)个平方成正比。当然我(wo)们(men)还需要演练出更多的除了大模型以(yi)外的数值(zhi)空(kong)间增值(zhi)的这样的一(yi)些基础范式。

那么数据空(kong)间是有边界的。那它的基本结构(gou)是什么?我(wo)们(men)看计算机空(kong)间,它都有一(yi)些基本结构(gou),基本抽(chou)象,基本的地址,基本的互联协议和基本的应用。信息空(kong)间也有,比如它的所有应用BAT的所有应用,你都可以(yi)把它认为(wei)是一(yi)种基于(yu)网页的应用。它的基本协议是超(chao)连接,它的基本的地址是HTTP。但数据空(kong)间是什么呢?对(dui)吧,我(wo)们(men)陈教授提了北斗划分网络,这还是对(dui)物理空(kong)间对(dui)数据空(kong)间映射的一(yi)个结构(gou)体。

现在有两(liang)种不同的学术观(guan)点。一(yi)种是以(yi)图灵(ling)奖获得者(zhe)罗伯特(te)·卡恩,他提出的叫(jiao)数据对(dui)象的结构(gou),他认为(wei)要把数据在广域范围内进行互联互通。科学院吴曼青院士,他是我(wo)们(men)工程院的副院长,他在我(wo)们(men)的战略研究中提出一(yi)个叫(jiao)数据场的架构(gou)。这是要支持局域的流通加工,局域就是有行政边界的,广域就是没(mei)有行政边界的。这是两(liang)种不同的学术观(guan)点。但是谁是不是对(dui),还有待时间考验。

那么也提出一(yi)些数据件互联协议,包括(kuo)数据场的,基本的这样一(yi)个描(miao)述语(yu)言作为(wei)一(yi)个基本协议。它的基本应用应该就是大数据和AI类型的应用。具体的细(xi)节我(wo)就不讲了,大家(jia)可以(yi)在网上都可以(yi)看到。

那我(wo)们(men)国家(jia)北大的黄罡团队,他也提出了基于(yu)罗伯特(te)·卡恩的就数据对(dui)象架构(gou)的这样一(yi)个数联网,也是一(yi)种结构(gou)。

下面看一(yi)下数据基础设施,我(wo)们(men)为(wei)什么需要一(yi)个数据基础设施呢?我(wo)们(men)回头看一(yi)下人(ren)类社(she)会,我(wo)们(men)需要有一(yi)些普(pu)及性的、基础性的基础设施来支撑我(wo)们(men)时代的经济发展。比如说(shuo)农业时代,我(wo)们(men)中国为(wei)什么发达呢?因为(wei)我(wo)们(men)的交通水利基础设施是全球最(zui)发达。我(wo)们(men)在工业时代为(wei)什么可以(yi)赶上西方发达国家(jia)呢?因为(wei)我(wo)们(men)的能源(yuan)基础设施,以(yi)能源(yuan)和电力为(wei)基础是最(zui)发达的。我(wo)们(men)在信息时代,我(wo)们(men)能够(gou)快速(su)的用不到20年时间,在信息基础设施上赶超(chao)了这样的美国,这样的一(yi)个发达国家(jia)。尤其在移(yi)动互联网时代。

罗伯特(te)·卡恩,美国计算机科学家(jia),被称为(wei)“互联网之父”。

在智能时代,会出现新(xin)的基础设施吗?我(wo)们(men)肯定要问一(yi)下。我(wo)们(men)现在预测是这种数据基础设施它可能是智能时代的一(yi)个新(xin)增的一(yi)个基础设施。

信息基础设施是由这四个层次构(gou)成的。最(zui)底层这些数据中心,包括(kuo)超(chao)算中心,IDC、公有云、私有云是吧?我(wo)们(men)的万维(wei)网里边会有一(yi)些叫(jiao)枢纽型的这样的网站,我(wo)们(men)的百度、我(wo)们(men)的腾讯、头条都可以(yi)认为(wei)它是个枢纽型的网站。信息到枢纽里面进行编组,再提供更广泛的服务。我(wo)们(men)互联网的IP网和域名再底层有通讯网,我(wo)们(men)有骨干网、有5G的接入网、4G、有卫通网、有物联网。这些构(gou)成了我(wo)们(men)整(zheng)个信息基础设施。

那么数据基础设施呢?现在看来,大概会有这几种形式。一(yi)个就是这种数据跟数据有关的国家(jia)正在建设的数据枢纽。我(wo)们(men)也可以(yi)认为(wei)中科星图建的这样一(yi)个遥感这样的一(yi)个数据,他也是在领域的一(yi)个垂直的一(yi)个数据枢纽。你300多颗(ke)卫星,未来可能有更多的卫星都汇聚在这。你首先只有建立枢纽,才能为(wei)大规模的应用。很容易(yi)理解(jie)是吧?我(wo)们(men)交通我(wo)们(men)需要建立枢纽,我(wo)们(men)的郑(zheng)州就是个枢纽。我(wo)们(men)的金融也需要有枢纽。所以(yi)枢纽的建设是非(fei)常重(zhong)要的。也有人(ren)CEC,也提出对(dui)这种对(dui)安全性很高的数据要通过数据金库(ku)的形式,就像我(wo)们(men)银行一(yi)样建立一(yi)个数据金库(ku)的形式来进行汇聚。包括(kuo)我(wo)刚才讲的数联网算力,当然现在比较(jiao)热是吧?智算中心,国家(jia)正在建设国家(jia)级的AI训练场。我(wo)们(men)现在有城市有算力网,现在国家(jia)也在建设区域算力枢纽,就是可以(yi)在区域内进行互联互通、互相调度的数据枢纽。最(zui)终(zhong)还要形成全国一(yi)体化的算力网。

那么在模型呢,我(wo)们(men)可以(yi)看到在上一(yi)个AI的时代,就有像Hugging Face这样的一(yi)个模型集市,阿里也在叫(jiao)魔搭,这些都是他,他就是一(yi)个market,是个大集市。现在的基座大模型,它也是一(yi)个模型的一(yi)个基础设施。但在数据层面基础设施层面还没(mei)有成型,正在演化进程中。

那么未来呢,大致是这么个模样,这是我(wo)们(men)数据基础设施的核心目标。它是将我(wo)们(men)智能时代的核心的要素,核心的生(sheng)产要素数据要素、算力要素和算法要素全面进行基础设施化,变成一(yi)个全社(she)会可以(yi)低门槛(kan)、低成本使用的这样的一(yi)个基础设施化。左(zuo)边是信息空(kong)间的基础设施,我(wo)刚才讲的那个四层,怎么通讯网、IP网、万维(wei)网和浏览器。浏览器是一(yi)个你可以(yi)理为(wei)是一(yi)个客户端(duan)的一(yi)个通用基础设施。未来在数据空(kong)间也是四层,数据枢纽层是吧?

资产表中的一(yi)部分,它是可以(yi)交易(yi)的,就相当于(yu)我(wo)们(men)那个原的矿(kuang)石一(yi)样,它经过加工以(yi)后,它可以(yi)百倍十倍的进行增值(zhi)。所以(yi)它的价值(zhi)比以(yi)前要高的多。那么你地方要流通,你必须要解(jie)决数据的标识、数据的交换的协议和数据访(fang)问的高效这样一(yi)些流通环节的问题。

比如说(shuo)这种我(wo)们(men)从图书可以(yi)看,图书是一(yi)种知(zhi)识的载体对(dui)吧,它首先我(wo)们(men)在过去的农业时代,我(wo)们(men)图书都在个人(ren)和在那些个人(ren)图书馆手里,它就不能成为(wei)一(yi)个全社(she)会的基础设施。所以(yi)我(wo)们(men)要搞图书馆,我(wo)们(men)建大学的第一(yi)个就要建图书馆,一(yi)个城市的标志就是图书馆,国家(jia)要建图书馆。而且这些图书馆之间要有馆际交换的这样一(yi)个系统,你进入了任何一(yi)个图书馆,你就可以(yi)有办法看到全世界任何一(yi)本书。那么这样呢,我(wo)们(men)的知(zhi)识才能在全社(she)会有序的进行流通。那么这两(liang)个是必须要有的。

那么数据的高效访(fang)问也非(fei)常的关键。现在运营商提出的算力融合的网络,包括(kuo)直联网络和数据的快递(di),都是让我(wo)们(men)在流通的环节来提高这样数据访(fang)问的效率。

第三层是现在比较(jiao)热热闹闹的各个地方政府(fu)都是非(fei)常热衷的进行数据加工层的智算中心的建设。智算中心不仅(jin)仅(jin)是智算的这样一(yi)个大体系,它包括(kuo)算力网的部分,就算力的互联互通的部分,也包括(kuo)把数据把它组织好供算力网进行加工的数据件的部分。数据件就有点像我(wo)们(men)一(yi)个钢(gang)铁的矿(kuang)石,它变成那个一(yi)个大的一(yi)个钢(gang),可加工的那个钢(gang),钢(gang)的那个铁铸(zhu)件一(yi)样。

那么还有包括(kuo)模型网,全世界的知(zhi)识绝不是一(yi)个大模型一(yi)个大语(yu)言模型可以(yi)概括(kuo)的,现在是一(yi)个叫(jiao)百模大战,未来我(wo)看,千模万模也不止(zhi),就相当于(yu)我(wo)们(men)现在的高性能计算一(yi)样,它的底下的求解(jie)器有很多。所以(yi)这些也要联网,可以(yi)更方便的被一(yi)个复(fu)杂的智能应用所调用。而且在模型网数据件和算力网这相当于(yu)我(wo)们(men)对(dui)数据进行加工的加工对(dui)象、加工动力和加工工艺,他们(men)之间要有一(yi)个方便的连接环境或者(zhe)叫(jiao)数据加工厂这样一(yi)套机制的进行加工。

那么最(zui)后一(yi)个就是数据应用层,数据应用层就是叫(jiao)AI,现在叫(jiao)AI+,它不仅(jin)仅(jin)是AI大模型,我(wo)们(men)过去的大数据的模型和我(wo)自己从事的HPC,但现在HPC都加上AI的模型都是数据应用层的这样一(yi)个基础设施,他其实要通过AI Agent的这些技术,形成Pilot+CoPilot,我(wo)们(men)知(zhi)道(dao)就像那个驾驶(shi)员和副驾驶(shi)一(yi)样,你开飞机,我(wo)们(men)现在说(shuo)AI重(zhong)要,AI归根到底就是个副驾驶(shi),AI本身是不能够(gou)靠它单独解(jie)决行业的问题的,它需要那个行业里面的那个驾驶(shi)员,但这两(liang)个要配合好,如何配合是个难题。这样形成一(yi)个紧耦合的这样的AI技术体系,才能赋能千方百业。

所以(yi)我(wo)刚才讲了,大模型就是一(yi)类算法基础设施,不是一(yi)个唯一(yi)的一(yi)类,它也分成三层,包括(kuo)通用底座大模型,领域专用大模型和长尾的这样一(yi)个场景大模型。所以(yi)每一(yi)层模型它的代价不一(yi)样的,你要训一(yi)个基座,你现在没(mei)有100亿人(ren)民币的投入,你是训不出来一(yi)个有竞争力的领域,你大概得有1亿到10亿,我(wo)觉得中科星图要训练一(yi)个领域的没(mei)有1到10个亿的投入训不出来的,场景大概我(wo)们(men)大百万和千万这样一(yi)个量级,现在大概是这样一(yi)个数量级才能做到一(yi)个有竞争力的这样一(yi)个模型。

那个流通,那个国家(jia)数据讲的比较(jiao)多了,我(wo)就想谈一(yi)点数据加工这样一(yi)个维(wei)度。那我(wo)们(men)看他到底发生(sheng)了跟过去比发生(sheng)了什么根本性的改变。我(wo)一(yi)直在强调数据是一(yi)个客观(guan)存在,它是一(yi)个being,是一(yi)个客观(guan)存在。那我(wo)们(men)在智能时代发生(sheng)了什么改变呢,第一(yi)个就是我(wo)们(men)给他赋予了他的资源(yuan)要素属性,他就跟石油、土地以(yi)及劳动力一(yi)样,他被要素化以(yi)后,从要素化以(yi)后,他就有从生(sheng)产一(yi)直到流通交易(yi)到资产到安全这样整(zheng)个的一(yi)个要素化的属性。只有国家(jia)数据20条提的都是这一(yi)条,这里面会产生(sheng)非(fei)常多的技术和产业机会。

那么第二个就赋予它了深加工的这样的属性,就是相当于(yu)把粮(liang)食加工成茅(mao)台、加工成五粮(liang)液,它就增值(zhi)了百倍千倍,这里面我(wo)刚说(shuo)到了它有加工对(dui)象、加工工艺、加工动力。那么我(wo)们(men)既然矿(kuang)产有采矿(kuang)业、有大宗矿(kuang)产交易(yi)业、有冶炼(lian)业,那么数据一(yi)样也会有这种采数业,也会有数据交易(yi)市场,也会有数据加工的这样一(yi)个你比如说(shuo)我(wo)们(men)物联网就是跟采数有关的,我(wo)们(men)现在的数联网数据交易(yi)就是跟流动有关的,我(wo)们(men)的数据场的技术就是跟用的好的加工有关的。

数字矿(kuang)山模拟(ni)平台

除此以(yi)外,在经济学家(jia)研究经济的他们(men)还要研究这些政策(ce),包括(kuo)资产表、安全合规的使用和数据的定价的锚点等等。那我(wo)们(men)再看一(yi)下数据加工的演变的规律,这数据加工从历史上看,它是一(yi)种不断解(jie)耦的过程,不断解(jie)耦的过程会带来数据基本抽(chou)象的一(yi)个变化。我(wo)们(men)第一(yi)步是数据和应用程序进行解(jie)耦,因为(wei)你越(yue)解(jie)耦,你的规模才能越(yue)大,数据跟应用解(jie)耦,我(wo)们(men)就出现了文(wen)件和表这样的以(yi)数据库(ku)为(wei)表现形式的以(yi)文(wen)件和表为(wei)基本抽(chou)象。

那么数据和业务进行解(jie)耦和企业的业务进行解(jie)耦,我(wo)们(men)出现了KeyValue这样的抽(chou)象,我(wo)们(men)出现了数据湖或者(zhe)数据仓这样的一(yi)个形式。我(wo)们(men)现在把数据生(sheng)产和消费的主体进行解(jie)耦,我(wo)们(men)必然会出现像数据件这样的抽(chou)象和数据场这样的系统。那么他就把数据变成一(yi)个全社(she)会化的这样的一(yi)个我(wo)们(men)上午也提到了,数据要进行全社(she)会化的共享你没(mei)有这样一(yi)些技术的支撑他是光(guang)有光(guang)有这样一(yi)个呼吁是做不到的。

这里边我(wo)就不仔细(xi)讲了,比如说(shuo)数据和应用他在历史上是怎么解(jie)耦的,数据和业务是怎么解(jie)耦的,我(wo)们(men)现在正在做的是数据的生(sheng)产者(zhe)和消费者(zhe)进行解(jie)偶。当然中科星图现在又想做生(sheng)产者(zhe),又想做消费者(zhe),地方到底是怎么进行但内部也可以(yi)进行解(jie)耦的是吧。这里面就需要一(yi)个数据件的一(yi)个基本抽(chou)象,我(wo)们(men)把它称之为(wei)数据件,不管你怎么实现,它应该具有这样的一(yi)些特(te)点。它是对(dui)意识多元数据进行标准化的封装,支持解(jie)耦的过程能够(gou)实现要素化的数据,它首先要要素化在全网进行加工,他要具备标识描(miao)述数据的语(yu)义接口(kou)和数据的语(yu)用接口(kou)这些能力,要实现可组装可计量,对(dui)他进行可管控。

那么数据件的生(sheng)产链跟过去呢,我(wo)们(men)与我(wo)们(men)现在训练大模型或者(zhe)是大数据分析,我(wo)们(men)拿那个原始数据,拿那个算法就直接产出了,你要有更加通用,要经过三级跳,就是数据要通过数据件组装,变成数据件,数据件再根据应用场景的需求形成数据场,在数据场配上不同的加工工艺和加工工具形成数据服务,通过三级解(jie)耦三级跳你才能上规模,否则我(wo)们(men)就是变成一(yi)个垂直的应用就相当我(wo)们(men)做雷(lei)达一(yi)样,它就是一(yi)个一(yi)个垂直的应用。我(wo)们(men)计算机为(wei)什么规模大呢,就是我(wo)们(men)可以(yi)分层解(jie)耦。

这里边细(xi)节我(wo)就不讲了,怎么实现是以(yi)人(ren)工智能大模型训练为(wei)例,怎么进行数据件的组装,这是数据场的生(sheng)成工具,包括(kuo)这是把它和外部的信息空(kong)间进行对(dui)比应该具备的能力,包括(kuo)我(wo)们(men)像html是一(yi)个网页描(miao)述语(yu)言,那是我(wo)们(men)每个人(ren)浏览网页需要的,那么数据场也需要一(yi)个数据场描(miao)述语(yu)言,比如说(shuo)你是一(yi)个是吧司法大模型训练的这样一(yi)个训练者(zhe),我(wo)不需要知(zhi)道(dao)细(xi)节,我(wo)只要把我(wo)的需求描(miao)述好,就跟网页一(yi)样我(wo)描(miao)述好,那么都应该有这些工具来帮你把这些数据给他配备好。

那么所有的这些加工的工艺,它都是应该放到这些广谱关联的算法的库(ku)里边,这里边大数据它是一(yi)种,是用呃用物理的那个电子场来做比喻,它有横向加工,我(wo)们(men)大模型是一(yi)种纵向深层模型加工的这样的一(yi)个算法。

好,在过程中呢,这样我(wo)们(men)就把安全的机制内嵌在数据链生(sheng)产链的这样一(yi)个过程中,基础设施化实践的第三个阶段。我(wo)们(men)算力网并不是要把计算设备联网,而是要以(yi)服务的形式来消费这些基础设施化的算力资源(yuan)。在网上,流动的不是计算能力,如果把算力服务化以(yi)后呢,它流动的是算力网页或者(zhe)任务闭包,这些请求算力服务的这样的一(yi)个表达。

所以(yi)解(jie)释就合理了,我(wo)们(men)第一(yi)个阶段就是网格计算,就大家(jia)如果有兴趣可以(yi)查,叫(jiao)Grid Computing,是Ian Foster提出来的。第二个阶段是Eric Schmidt,他提出来的云计算的概念。那么我(wo)们(men)这次提算力网,这是我(wo)们(men)中国人(ren)第一(yi)次由中国人(ren)自己提出来的这样一(yi)个第三代算力网的概念,3.0它必须建立在数据空(kong)间上才能发挥它的作用。那么它的根本目标也是实现智能的广域的共享,实现更优适配、更低成本和更加易(yi)用的算力服务。

我(wo)们(men)国家(jia)这两(liang)年东数西算工程呢,已经逐渐形成了技术体系,从并网到纳管,到我(wo)刚才说(shuo)的数据快递(di)算力调度,以(yi)及到三种不同的算力网的运行模式。但还是不足的,比如说(shuo)算力的资源(yuan)空(kong)间和算力的原子化编排的基本抽(chou)象,不足。大家(jia)有兴趣的话可以(yi)再再交流,比如说(shuo)在1.0时代,我(wo)们(men)有进程和CPU的时间片,在云计算有虚拟(ni)机和容器,这都是对(dui)资源(yuan)空(kong)间和算力封装的一(yi)个基本抽(chou)象。但是我(wo)们(men)在算力网里边还需要算力池和像网程这样的概念,对(dui)算力进行封装。

那么这是我(wo)们(men)计算所和中移(yi)动研究院一(yi)起提出来一(yi)个算力网体系架构(gou)的这样一(yi)个细(xi)腰的架构(gou),时间关系我(wo)就不说(shuo)了。那么算力网呢,它真(zhen)正要实现还要实现两(liang)个基本的改变,包括(kuo)算力资源(yuan)的全局统一(yi),这里面我(wo)也列出了域名、池化、计量、编程和路由等等,包括(kuo)像Java这样的一(yi)个跨平台移(yi)植,这是它的技术体系,包括(kuo)实现四个角色,就是供应商、运营商、服务商和消费者(zhe)之间的解(jie)耦,解(jie)耦之间要有技术,把他们(men)隔离(li)开来,这我(wo)也不细(xi)讲。

西部云基地国家(jia)数据中心中国联通数据中心机房

这是一(yi)个跟原来云计算的对(dui)比,我(wo)也不讲了。所以(yi)讲一(yi)下,就是你从未来看,我(wo)们(men)中美现在处(chu)于(yu)一(yi)种激烈(lie)竞争的环节,那我(wo)们(men)信息化的我(wo)们(men)中国,我(wo)们(men)现在想国内,我(wo)们(men)如果想出海(hai),我(wo)们(men)根本性的优势在哪,我(wo)们(men)第一(yi)个阶段的MIS系统,那时美国是放弃了,我(wo)们(men)利用我(wo)们(men)的工程师的红利,我(wo)们(men)占(zhan)据的优势。在第二个阶段互联网平台经济呢,我(wo)们(men)是用人(ren)口(kou)的规模红利,我(wo)们(men)可以(yi)达到PK的这样的。在大数据和积极学习阶段呢,我(wo)们(men)是落后的。现在在AI大模型阶段呢,我(wo)们(men)中国应该用什么样的方案来进行全球竞争的时候呢,锻造(zao)我(wo)们(men)的优势呢,我(wo)认为(wei)就是要做到两(liang)低一(yi)高,就是叫(jiao)极低成本和极低门槛(kan),就在供给侧要大幅度降低算力从器件到设备到连接获取调用,包括(kuo)电力消耗运营维(wei)护开发部署在内的总成本。在消费侧呢,我(wo)们(men)要像用户想开发网页一(yi)样能够(gou)使用我(wo)们(men)的算力使用这样云计算。

同时还有一(yi)个我(wo)们(men)中国自己必须解(jie)决的问题,就所谓的算的多的问题,因为(wei)我(wo)们(men)中国叫(jiao)钱少常常活多,然后人(ren)员的素质没(mei)有美国高,所以(yi)我(wo)们(men)必须要解(jie)决低熵高通量的问题。具体细(xi)节什么叫(jiao)低熵什么叫(jiao)通量,简单的说(shuo)一(yi)点,就是高通量就是高铁,我(wo)们(men)原来高性能呢就是飞机,我(wo)们(men)的云计算呢就是路面的公共交通。我(wo)们(men)也通过一(yi)些算力场来进行技术体系的中试。

最(zui)后一(yi)点就谈一(yi)点思考,就是从数据空(kong)间来看呢,我(wo)认为(wei)这一(yi)轮人(ren)工智能的本质,就是对(dui)数据的百炼(lian)成钢(gang),智能计算的核心特(te)征就是用数字计算数据分析和人(ren)工智能算法,在算力池中加工这些数据件,得到数据模型,再通过AI+溶入就是embodiment溶入到信息社(she)会物理世界的各个过程中。那么智能应该是数据基础设施的主力应用。

我(wo)们(men)以(yi)前科学家(jia)总告诉(su)我(wo)们(men)数据他要通过信息再变成知(zhi)识再变成洞察再变成智慧。这一(yi)轮数据告诉(su)我(wo)们(men)不见得,数据是可以(yi)直接产生(sheng)知(zhi)识直接产生(sheng)洞察甚(shen)至直接产生(sheng)智慧。当你做的不好,你也可以(yi)从数据中得到尿布和啤酒关联性这样的错误的认识,这就是所谓大模型胡说(shuo)八道(dao)的一(yi)面。

所以(yi)在我(wo)们(men)现在还不足的一(yi)点,就是算法基础设施这一(yi)块就模型即(ji)服务,我(wo)们(men)现在只有大模型变成了服务,但是我(wo)们(men)数理基础设施我(wo)们(men)计算机科学还有一(yi)些基础算法我(wo)们(men)这些也需要把它变成一(yi)个基础设施化。我(wo)们(men)数据空(kong)间还需要一(yi)个通用的引(yin)擎,在那个过去信息空(kong)间因为(wei)我(wo)们(men)有了信息网页有了Java 有了浏览器这样一(yi)些基础的这样的一(yi)个平台,使我(wo)们(men)解(jie)决了跨平台迁(qian)移(yi)的问题我(wo)们(men)才有了智能手机的广泛应用。但是我(wo)们(men)在智能时代还缺乏在云端(duan)的算力的平台的迁(qian)移(yi)和那个通用的这样一(yi)个通用的类似(si)于(yu)浏览器这样的一(yi)个通用的终(zhong)端(duan)。

那么最(zui)后的目的我(wo)们(men)是要把智能让他在线(xian),之所以(yi)互联网值(zhi)钱就是因为(wei)信息在线(xian)。这是我(wo)通过王坚院士他写(xie)的那个《在线(xian)》那本书得到最(zui)深刻(ke)的一(yi)个认识,就信息只有在线(xian)才值(zhi)钱。我(wo)们(men)智能呢只有在线(xian)他才能值(zhi)钱。

最(zui)后我(wo)想谈一(yi)点这三个热词的关系,我(wo)们(men)现在数据局是抓数据基础设施数据枢纽,我(wo)们(men)地方发改委经常抓算力基础设施建设,包括(kuo)能源(yuan)我(wo)们(men)科技抓人(ren)工智能技术,人(ren)工智能本质是个技术,AI+才是个产业,我(wo)们(men)的工信在做AI+。但是三者(zhe)是什么关系呢,这有点类比,我(wo)们(men)的数据相当于(yu)石油产业,算力技术设施相当于(yu)石化产业,我(wo)们(men)的AI+相当于(yu)汽车产业,这几个产业之间要互相联动、协同起来才能支撑整(zheng)个产业的做大。

我(wo)今天报(bao)告就到这,谢谢大家(jia)。

发布于(yu):上海(hai)市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7