今年2月,国家发展攚w委等部门联合印发文gQ同意在京|冀{?span lang="EN-US">8地启动徏讑֛家算力枢U节点,q规划了(jin)张家口集等10个国家数据中?j)集。至此,?/span>东数西算?/span>工程正式全面启动?/span>
“东数西”有?jin)M布局设计q开始行动。因此,有必要对其概念内涵予以清晰科学的理解Q以免再C哄而v的局面?/span>
“东数西”属于信息领域范_(d)目标是Ş成一张算力网。当前我国已建成相当发达的现代信息网Q比如通信|、互联网Q且形态、技术手D多P发展速度q远快于其他领域Qؓ(f)什么又要提出徏力|络呢?
q要从流通网l和数据谈v。在CC会(x)中,实现交换和分配就需要流通。流通不仅在点与点之_(d)而是面上多个点互怹间进行,因此需要构建网l,以便于经有效、高效通畅地实现多点与多点之间的流通?/span>
|的主要功能是流通,有针对实物的q输|,针对能量的电(sh)力网Q而针对信息的是通信|。当?dng)信息通中大量存在个体间非l济范畴如情感、思想的交,同样需要在通网l中实现?/span>
物体、能量和信息除了(jin)通外Q还需要加工变换等以满h们的需要。比如,信息的加工是在计机或具有计功能的各种讑֤中实现的?/span>
׃信息技术的快速发展,Z现在除了(jin)个h或集体自׃生的信息外,可以从各U社?x)活动中提取各类信息Q例如道路上的交通信息,从若q监点获取的温湿度?qing)其变化情况、气压、气情늭天气信息Q以?qing)商店h、各cd品销售情늭信息。ؓ(f)?jin)便于收集处理大量的信息Qh们用l一的电(sh)子格式来表达Q这是数据?/span>
q年来,Z从一大类看v来互不相q的数据中,L光的关联因素,发现q些数据之间有关联,但ƈ非因果关p,而是数学上称之ؓ(f)相关关系Q由于此cL据量较大Q称之ؓ(f)大数据。例如将一D|间内通过某一路段的R辆或行h敎ͼ一D|间内q入某一商店购买某类商品的h敎ͼ以及(qing)l成此h的性别、年龄结构等数据集中Q从其中扑ֈ的关pd以作为道路交通管理或商品营销的一U依据?/span>
而这U对各类数据加工处理、从中提取有用结果的能力即称为算力。大数据被发C来,Z对算力的需求大q增ѝ?/span>
此前Q信息网l的主要功能Z息流通,辅之以短时存储,以及(qing)使信息变换Ş式以适应在网l中传输要求的功能,q些功能的具体实现可以综合到通信|络中。这是因为,那时对复杂数据的加工处理往(xin)往(xin)是由单个计算机,包括高性能计算机或范围的计算机群来实现的Q数据量和处理量相对而言均不大。也因此Q没有单独明提出算力及(qing)力|的概念Q只明确?jin)计机或其l成的群l构h数据处理能力?/span>
大数据出现后Q由于对数据处理能力的要求大q增长,且有些数据集来自于一定的地域范围Q因此需要Ş成有别于通信|的数据处理的专用网l,即算力网l?/span>
力|络的核?j)是数据处理讑֤Q相应地要配|数据收集传送通道Q以攉来自不同地域的数据,q要配备相应的数据存储设备,以及(qing)对加工获得的有用l果传送到使用目的地的传送通道?/span>
多个数据攉、传递、处理、应用与存储q样的单元组合在一起就形成力|络Q算力网l根据地域覆盖范围可形成区域|和全国|,之间可Ş成层U关p,也可按不同应用领域Ş成专用网?/span>
回到“东数西”工E。根据我国的实际情况Qh口密度、hcL动、各U数据资源以?qing)数据应用?jng)场在东部更集中,中部ơ之Q西部地域更ơ之。既然数据资源和应用?jng)场相对密集于东部,相应地处理也应主要在东部Qؓ(f)何提出“东数西”,即东部的数据送到襉K计算处理Q然后再把结果送回东部应用呢?
“东数西”与“西煤东q”“西?sh)东送”有一致性,也有差异性?/span>
相同的是Q它们都是从资源密集地把资源送到相对E地加工Q不同的是加工后成品的处|问题?/span>
对于物品和能量,资源所在地与主要应用所在地不同Q加工地也可有不同选择。由于物品加工大多需要较复杂的技术和较高技术水q的人力Q因此较多的情况下将原材料从襉K产地q到东部加工Q然后成品大量在东部使用或出口,因此物流|络也Ş成原料和成品的不同网l。能量则׃能源的不同Ş式,其利用方式也不同Q如水能需要就地实玎ͼ然后传送至需能地区,而长距离传递主要方式是用电(sh)Q因此就需要从水能丰富的西部向需要大量能量的东部实行西电(sh)东输?/span>
而信息具有特D性,它可以大量复Ӟ因此加工后的数据一般可存储在加工处Q而只是在使用时才传输C用处。之所以要实施“东数西”工E,主要有两个因素,一是集中的数据加工/处理中心(j)需要占用较大的物理I间Q即土地和徏{,需要较大的能耗。而东部的土地已经成ؓ(f)E~源,同时能耗成本比襉K高出不少。此外,数据中心(j)自动化程度很高,所需人力相对较少。二是加工后的数据虽然要大量q回东部使用Q但数据作ؓ(f)信息可大量复Ӟq乎零成本。所以,数据送回东部q实物q回Q而是只选择所需要的数据在需要时以复制Ş态返回,原数据仍保存在西部的数据中心(j)Q(h)l可按需随时向不同地点输送,因此Q东数西在原则上是可行的?/span>
但原则上可行q不意味着怎么做都行,我们需要重视一个问题:(x)数据长距M输成本。一斚w数据可以q零成本大量复制q不{于可以无成本的L传输Q另一斚wQ数据传到某处实时用,与先存储以备之后使用是两回事Q存储是需要成本的?/span>
信息|络l成中主要问题(sh)一Q就是传输成本和处理成本的相对关p问题。近q来Q由于处理成本(卌机成本Q随着集成?sh)\的摩?dng)定律不断下降,传输成本随着光纤定律下降Q但׃光纤成本下降速度比集成电(sh)路成本快Q传输在|络成本中的相对比重也一直在下降Q但下降q不{于零成本?/span>
在“东数西”工E中Q由于是以增加传输量来节U数据加工成本的Q因此,必须Ҏ(gu)具体情况Ҏ(gu)本进行详l分析和具体设计。然而,目前未见到Ҏ(gu)问题的分析,甚至很少提到?/span>
q去的教训要吸取。比如“云计算”概念刚提出ӞZ认ؓ(f)把各个点上的规模数据处理和存储集中C个点即云中,可以发挥规模效应Q省d量设点的成本Q而ƈ未认真考虑传输成本、信息保密等问题。也因此Q后来又提出q推行了(jin)边缘计算Q大量分散的边缘计算和集中的云计共同组成一个相对较为合理的体系?/span>
数据量的问题?sh)应得到重视Q数据量q大好Q应以够用ؓ(f)原则Q且在满目标情况下小好Q这与节材节能意义相通。此外,相关关系cȝ数据中有用成分比因果关系cL据要得多,因此Q设计算力网l时Q要Ҏ(gu)处理的数据种cd数量q行实事求是、合理的预估?/span>
最后,从全国来看,数据处理|络的组成、不同地区的需求各有差异,对全国性、地区性、行业性的数据需求、集中程度也不同Q比如同是东部地区,京|冀、长三角、珠三角情况q不一P此外各地Ҏ(gu)据中?j)的、维护能力也不同Q要考虑人力资源的情c(din)?/span>
因此Q在实际操作中,需要仔l分析考虑Q对已有一定实늚如贵州的数据中心(j){应认真ȝQ吸取应有的l验和教训,推动我国的数据事业更好更利地发展前q?/span>