一文读懂 | 数据中心常说的PUE是什么?

一、PUE的定义

PUE是英文Power Usage Effectiveness的简写,是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载使用的能源之比,是DCIE(data center infrastructure efficiency )的反比。

PUE概念最早由微软工程师Christian Belady于2006年提出,并由业内颇具影响力的绿色网格组织TGG (The Green Grid)发展和完善。

PUE = 数据中心总设备能耗/IT设备能耗,PUE是一个比值,基准是2,越接近1表明能效水平越好。

PUE(PowerUsageEffectiveness,电源使用效率)值已经成为国际上比较通行的数据中心电力使用效率的衡量指标。PUE值是指数据中心消耗的所有能源与IT负载消耗的能源之比。PUE值越接近于1,表示一个数据中心的绿色化程度越高。

二、数据中心能耗的构成与占比

PUE的计算公式为数据中心总耗电量与IT设备耗电量的比值。要降低数据中心的PUE值,首先必须对数据中心的能耗构成进行分析。

数据中心能耗主要包括IT设备能耗、供配电系统能耗、制冷系统能耗、照明及其它能耗。数据中心PUE计算的能耗构成如下图所示:

一文读懂 | 数据中心常说的PUE是什么?

数据中心的用电量非常惊人,往往是普通办公楼用电量的几十倍、上百倍。据统计,目前全球数据中心的电力消耗总量已经占据了全球电力使用量的百分之三,有行业分析师认为,到2025年,全球数据中心使用的电力总量按现在的电力价格来估算的话,将会超过百亿美元。

那么数据中心哪些设备最耗电呢?

以一个PUE约为2的传统的数据中心总能耗中,IT设备能耗占比最高,约为50%,其次是制冷系统能耗,约占35%,再次是供配电系统能耗,约占10%,其中最主要的是UPS设备的能耗,次之是变压器设备的能耗,最后是照明及其他能耗,约占5%。这里的其他能耗主要包括:安防设备、消防设备、电梯、传感器以及数据中心管理系统的能耗等。不同数据中心即使PUE值相同,能耗占比也不同,上述占比情况仅供参考。

一文读懂 | 数据中心常说的PUE是什么?

三、数据中心如何降低PUE?

降低PUE值已经成为越来越多数据中心的目标,PUE值越小,表示一个数据中心的能源利用率越高,绿色化程度越高,越符合低碳、节能的标准。

从PUE计算公式来看,要降低PUE,只能减小非IT设备耗电量和增大IT设备耗电量,但是非IT设备与IT设备耗电量是有关联的,不是独立的变量,在数据中心正常运营的情况下,一般两者同升同降,但不是简单的线性关系。实际运用中,往往不会改变IT设备,只有通过采取节能措施降低非IT设备的耗电量来降低PUE,这是一般的数据中心运营管理人员或合同能源管理提供商能做的。

一文读懂 | 数据中心常说的PUE是什么?

如果把TFP划分为ITEP和非IT设备功率NITEP(Non-IT Equipment Power),非IT设备可以理解为基础设施,于是该公式可以改写为:

一文读懂 | 数据中心常说的PUE是什么?

PUE提出的初衷是希望合理减小数据中心基础设施的耗电量,更多地使用可再生能源,最终目的是节能减排,而不是一味地追求低PUE值。不同数据中心盲目地攀比PUE不可取。正如PUE创始人Christian Belady所说:“我并不在意你的PUE是1. 25还是1. 5,只要你在关注这个问题,同时又在不断取得进步就足够了。”

四、数据中心的PUE是一个动态变化的值

无论是IT设备还是非IT设备,这些负荷耗用的电功率随着时间的变化而变化,这种变化是无序的。它既受季节变化的影响,也与其他因素有关。如,数据中心前年增加了视频监控系统,要求照明灯一直开着;去年又对新风系统进行了改造,将传统的新风机换成全热交换器;今年刚刚发生的某个事件导致数据中心的访问量暴增;精密空调的压缩机、加湿器、再热器等等需要经常自动启停;UPS在逆变和自动旁路工作模式之间自动切换等等,这些因素都会导致PUE每时每刻都在变化。

所以我们研究PUE,不能仅看某个时刻的静态PUE值,还要看它每天、每月或者每年的PUE值,进行“环比”和“同比”,研究它的动态变化趋势。

目前很多数据中心所说的PUE值大多都是瞬时监测。也就是说,PUE值是在环境温度较低、负载率正好处在所有设备最佳工况等前提下测量出来的。而实际上,大量正态分布的PUE值比瞬时监测的值高0.1~0.2的水平。然而,真正对用户有效益的是全年的PUE,即所有的设备匹配出来的综合效果,这个PUE才是有价值的,才能衡量用户在电费上的投入产出比,计算出损失和效益。

由于PUE是动态变化的,无论是在数据中心建设初期的试运行阶段(这个阶段通常IT设备仅开启少数的几台),还是在建成后的正式运营阶段,或者是在突发故障应急运行阶段(如非IT设备总电源开关故障),其PUE值都是不一样的,甚至可能差别很大。举一个极端的例子,若采用市电直接对IT设备供电,关掉其他非IT设备,这时PUE值近似等于I,但我们不能说该数据中心能效优异,也许这种状况只能维持SS就有服务器死机或宕机了。所以,必须在数据中心正常运营时测量的PUE才是有效的。

五、数据中心边界范围不同得出的PUE值不同

对于一个新建的仅使用电能的独立数据中心建筑,数据中心的用电设备基本可以分成两类,IT设备和非IT设备,识别这两类设备也很容易,不同的人计算出来的PUE也一致。但是,这种数据中心往往只有极少数,绝大部分数据中心所在建筑是多用途的,供给它的能源也是多种多样的,数据中心仅分摊了其中的一部分。哪些电能(或折算成电能)应该计算在列,哪些不应计算在列,计算在列的究竟分摊多少比例,不同的人有不同的见解,这也使计算数据中心的PUE变得异常复杂,得出的结果自然也会大相径庭。

对于这种边界模糊的数据中心,应该制定统一的PUE计算原则,识别数据中心所有相关设备,明确哪些是应计算在列的数据中心设备,哪些是不应计算在列的非数据中心设备,哪些计算在列的数据中心设备是IT设备,哪些是非IT设备,对于非IT设备还要明确是数据中心独用还是共用,共用的要明确分摊比例,这些原则未必是最合理的,但是,只要我们始终如一秉承这些原则,就可以正确评估各种节能改进措施是否合理,指导我们不断调整改进节能方案以进一步降低PUE值,达到节能减排的目的。

对于有使用可再生能源(如太阳能、风能等)的数据中心,TGG认为不应计算在列,而且认为对PUE没有影响。对此笔者有不同见解,不管数据中心是如何利用这种非电能源的,只要这种能源的利用对节能减排有利并且确实降低了数据中心基础设施的用电量,那么就对降低PUE值有贡献,这与国外某些PUE值超低的数据中心充分利用天然的冷源给IT设备降温以实现节能减排是一回事。所以,对于使用某些非电能的数据中心,如太阳能、风能等可再生能源,可利用的废热、余热,天然的低温水源和空气能等等,这些能源虽不计算在列,但是合理利用这些能源可以大大减小数据中心的市电用电量,并且很有可能降低PUE值。

六、不同数据中心PUE值比较意义不大,同一数据中心不同时期PUE值的比较才有价值

所有软硬件配置都相同的数据中心,地域不同PUE值可能也不同,所以不同地域的数据中心的PUE值比较意义不大。但是,在规划设计时,PUE可以提供一些有益的指导,如指导我们进行数据中心的选址和设备的选型;一旦数据中心建成投人正常运营后,我们应监测PUE的变化,并将每周、每天甚至是每天不同班次的PUE值进行比较,这样也有利于促进人们养成人走关灯关门、多风凉爽的天气采用自然通风而少开新风机、尽量少进出机房等良好的机房用电习惯,日积月累,节约的电能是可观的。

对数据中心建筑本身的维护结构进行隔热保温的节能改造,对机房内IT设备进行分类布局、提高部署密度、优化气流组织等改进措施,调整数据中心所有设备低负荷全用模式为部分设备高负荷运行和部分整机待命备用模式,调整精密空调设定的送回风温度和相对湿度允许波。改干冷器为水冷冷凝器,改直接蒸发式制冷为冷水机组供冷,改多台小型冷水机组为少数几台大型离心式冷水机组,部分季节采用天然冷源给数据中心供冷,这些措施对降低PUE值是有帮助的,虽然这些措施需要增加费用,有的措施甚至还会大幅增加费用,但经过综合评估从长远来看还是值得的。在数据中心运营管理过程中,我们不但要用好现有的技术手段,还要不断学习数据中心节能减排的最新技术并应用到数据中心节能减排改进中来。

七、PUE的测量

随着数据中心建设的大量建设,PUE得到了广泛认可和不断发展,全球数据中心的PUE纪录在不断刷新,基于市场竞争的考虑,人们开始质疑PUE测量的公正性和权威性。为此,TGG提出数据中心PUE的测量分为4类:PUE0, PUE1, PUE2和PUE3,如下图表所示:

一文读懂 | 数据中心常说的PUE是什么?

上述PUE0-3使PUE的测量具有一定的公正性,避免出现模棱两可的情况。如PUEO中分子分母均采用一年内的最大值,PUE1-3中分子分母均为年耗能,从PUE0到PUE3,测量的等级要求越来越高。而且,PUE1-3分子分母均不限于电能,可包括某些非电能源,如数据中心的澳化铿冷水机组使用的燃气、柴油、煤炭等燃料需折算在内(PUE0用于仅使用电能的数据中心),避免不同数据中心使用不同能源产生的计算分歧。

对于某些数据中心使用天然气进行热电联产的情况,只要数据中心对热和电进行合理的综合利用,减少能源浪费,应该可以降低PUE值。如果仅利用其电能,仍然采用电冷机,未利用余热进行制冷,对热能弃之不用,对PUE是没有好处的,因为生产同样的电能,会比专业热电厂耗费更多的天然气,这对节能减排不利。

PUE是通过计算总设施功率TFP (Total FacilityPower)和IT设备功率ITEP (IT Equipment Power)的比值得来的,但总设施功率TFP和IT设备功率ITEP的测量必须在同一时刻或同一时间段内进行。实际应用中,PUE值可以通过自动化仪表或者软件直接读出,通过实时监测数据中心每一路输入有功电功率,按一定的频率同步采集信号并分别计算总设施功率TFP和IT设备功率ITEP算术和后的比值,实时显示出来,可以查询或同时显示日PUE、周PUE,月PUE、年PUE等等,也可以自定义时段进行查询或显示PU变化趋势图表,这些时段的PUE是通过把对应时间区段内采集到的离散数据先求和再求比值得出的。

总设施功率TFP和IT设备功率ITEP计量的是有功电功率,单位为kW,如果采用普通电度表计量,可以用电度表在该时段始末时刻读数的差值除以该时段时间,就得出了该时段的加权平均有功电功率。

我们常听说的某某数据中心报告的PUE达到多少多少,实际上可能是其在某个时刻出现的最小值,不具有代表性,并不能说明其PUE的真实水平,仅能用于该数据中心PUE的实时监测比较,要和其他同类数据中心PUE比较,笔者认为至少是用年平均PUE才能说明一些问题。

八、PUE的局限性

我们知道,对于一个运营中的数据中心,基础设施耗电减少IW只能带来整个数据中心节能m,如果IT设备耗电减少Iw,整个数据中心就可能节能2 W,甚至更多。但是IT设备节能1W对PUE是没有帮助的,这就是PUE的局限性,它不能衡量数据中心整体的电能使用效率。也不能衡量IT设备本身的电能使用效率,仅仅是衡量基础设施的电能使用效率。PUE值低说明大部分电能都用在IT设备上。我们希望找到一个公认的能够体现数据中心整体或者是体现数据中心IT设备电能使用效率的指标,这个指标应该是单位电能的产出,有量纲的,虽然已经有许多专家学者提出了众多指标,但到目前为止还没有一个能像PUE一样得到广泛认可。