数据中心基础设施管理
一、数据中心基础设施管理的概念
数据中心基础设施是除了 IT 设备(计算机、服务器、网络设备等)之外的所有数据机房辅助设施,包括暖通系统、电气系统、消防系统、安防系统及弱电 系统等。
暖通系统包括为数据机房、变配电室、消防控制室、管理人员办公室及公共环境(走廊等)进行空气调节的系统,空调调节包括温度、湿度控制(制热、制 冷、加湿、除湿等)及通风(送新风、排风)等。
电气系统包括变电系统、配电系统(配电箱、配电柜、列头柜及电缆、母排 等)、柴油发电机组、UPS 系统等。
消防系统包括灭火系统(气体灭火系统、水喷雾系统、水喷淋系统等)、报警系统(烟感探测器、温感探测器、报警控制设备等)、空气采样系统等。
安防系统包括视频监控系统、周界报警系统、出入口管理系统(门禁系统、 停车管理系统等)、巡更系统等。
弱电系统包括楼宇自动控制系统(包括对水系统、通风系统、柴油输送系统、 报警联动系统等)、电力监控系统、环境监控系统等。
数据中心基础设施管理是指对上述各系统的统一、系统地管理,尤其重要的是对暖通系统、电气系统的管理。
数据中心基础设施管理的主要目标包括:
1. 使数据中心安全、稳定地运行;
2. 延长数据中心基础设施设备的使用寿命;
3. 节能。
二、暖通系统的运行管理
2.1 大型数据中心节能水冷精密空调系统 新一代大型数据中心一般首选离心式水冷空调系统,其特点是制冷量大并且整个系统的能效比高。 离心式制冷压缩机的构造和工作原理与离心式鼓风机极为相似。它的工作原理与传统的活塞式压缩机有根本的区别,它不是利用汽缸容积减小的方式来提高 气体的压力,而是依靠动能的变化来提高气体压力。离心式压缩机具有带叶片的 工作轮,当工作轮转动时,叶片就带动气体运动或者使气体得到动能,然后使部 分动能转化为压力能从而提高气体的压力。
这种压缩机由于它工作时不断地将制 冷剂蒸汽吸入,又不断地沿半径方向被甩出去,所以称这种型式的压缩机为离心 式压缩机。压缩机工作时制冷剂蒸汽由吸汽口轴向进入吸汽室,并在吸汽室的导 流作用引导由蒸发器(或中间冷却器)来的制冷剂蒸汽均匀地进入高速旋转的工 作轮(工作轮也称叶轮,它是离心式制冷压缩机的重要部件,因为只有通过工作 轮才能将能量传给气体)。
气体在叶片作用下,一边跟着工作轮作高速旋转,一 边由于受离心力的作用,在叶片槽道中作扩压流动,从而使气体的压力和速度都 得到提高。由工作轮出来的气体再进入截面积逐渐扩大的扩压器(因为气体从工 作轮流出时具有较高的流速,扩压器便把动能部分地转化为压力能,从而提高气 体的压力)。气体流过扩压器时速度减小,而压力则进一步提高。经扩压器后气 体汇集到蜗壳中,再经排气口引导至中间冷却器或冷凝器中。
水冷冷冻机组的工作原理如下:
1. 冷冻水侧:一般冷冻水回水温度为 12°C,进入冷冻器与冷媒做热交换后, 出水温度为 7°C。 冷冻水一般通过风机盘管、组合式空调机组或水冷精密空调 机向 IT 设备提供冷气。由于数据中心的制冷量大,要求温差小风量大且湿度需 要控制,一般采用水冷精密空调机。
2. 冷却水侧:一般冷却水进水温度为 30°C,进入冷凝器与冷媒做热交换后, 出水温度为 35°C。 冷却水一般使用蒸发式冷却塔通过水蒸发来散热降温。
3. 冷媒侧: 冷媒以低温低压过热状态进入压缩机,经压缩后成为高温高压 过热状态冷媒。高温高压过热状态冷媒进入冷凝器后,将热传给冷却水而凝结成 高压中温液态冷媒。高压中温液态冷媒经膨胀装置,成为低压低温液气混合状态 冷媒。低温低压液气混合状态冷媒进入蒸发器后,与冷冻水进行热交换,冷冻水 在此处被冷却,而冷媒则因吸收热量而蒸发,之后以低温低压过热蒸气状态进入 压缩机。
离心式制冷压缩机具有下列优点:
1. 单机制冷量大(350 到 35000KW 之间),在制冷量相同时它的体积小,占地面积少,重量较活塞式轻 5~8 倍。
2. 由于它没有汽阀活塞环等易损部件,又没有曲柄连杆机构,因而工作可靠、 运转平稳、噪音小、操作简单、维护费用低。
3. 工作轮和机壳之间没有摩擦,无需润滑。故制冷剂蒸汽与润滑油不接触, 从而提高了蒸发器和冷凝器的传热性能。
4. 能经济方便的调节制冷量且调节的范围较大。由于热量是通过水的蒸发 (在冷却塔中)来散发的,因此夏天室外的高温对其冷却能力影响很小。
离心式冷冻机组在小负荷时(满负荷的 20%以下)容易发生喘振,不能正常 运转。因此,在数据中心水冷空调系统的设计中一般先安装一台小型的螺杆式水 冷机组或风冷水冷机组作为过渡。
大型数据中心的水冷空调系统一般由以下五部分组成,示意图如下。
原理图如下:
1. 离心式冷冻机组,一般为 N+1 配置,有一台备机,安装在冷站机房。
2. 冷却塔,通常安装在室外或楼顶,一般一台冷冻机组对应一组冷却塔(便于维修和保证备机系统正常待机)。冷却水通过冷却塔来降温,由于水在大气中 蒸发,因此要设计安装水处理系统来除垢、除沙尘、除钠镁离子和病菌等,否则 将大大降低制冷效率。另外,由于数据中心是全年连续运行,还要设计冬季防结 冰措施。
3. 环形冷冻水管道。由于数据中心需要连续运行,因此冷冻水的进水和回水管道都要设计成环路,大型数据中心可能设计成二级或三级环路,这样在局部冷 冻水管道或阀门发生故障时可以关闭相邻的阀门进行在线维护和维修。为了便于 日后的维护、维修、更换和扩展,需要安装设计相当多的阀门。为了防止漏水和提高使用寿命,需要选择优质的阀门,有些工程使用优质无缝钢管,甚至不锈钢管。冷冻水管和冷却水管不允许经过机房区域。在水管经过的区域需要设置下水 道和漏水报警设备。为了节能和防止冷凝水,冷冻水管和冷却水管都要采取严格 的保温措施。
4. 水冷精密空调机。其实就是一个温差小风量大的大型风机盘管,一般推荐采用地板下送风和天花板上回风。为了保证IT设备的绝对安全和便于设备检修, 推荐设置物理上独立的空调设备间,四周做拦水坝,地面做防水处理和设置排水 管道,安装漏水报警设备。推荐采用 N+1 或 N+2 的冗余配置方案。
5. 水泵。冷冻水和冷却水的循环都是通过水泵进行的。水泵的节能除采用变频装置外,应采用较大直径的管道、尽量减少管道长度和弯头、采用大半径弯头、 减少换热器的压降等。冷冻机房、水泵、冷却塔、板式换热器和精密空调尽量设 计安装在相近的高度以减少水泵扬程。
由于大型数据中心的水冷空调系统的电力负荷很大,一般需要为水冷空调系 统设计独立的配电室。
由上述可以看出,水冷空调系统比较复杂,成本也比较高,维护也有难度, 但是能满足大型数据中心的冷却和节能要求。
2.2 水冷精密空调系统的节能运行维护
免费冷却(Free Colling)技术指全部或部分使用自然界的免费冷源进行制冷
从而减少压缩机或冷冻机消耗的能量。常见的免费能源有:
1. 中北部地区的冬季甚至春秋季,室外空气中储存大量冷量;
2. 部分海域、河流、地下水水温较低,储存大量冷量;
3. 部分地区的自来水中也储存了大量冷量;
4. 压缩燃气在汽化过程中产生大量冷量。 目前常用的免费冷源主要是冬季或春秋季的室外空气。因此,如果可能的话,
数据中心的选址应该在天气比较寒冷或低温时间比较长的地区。在中国,北方地 区都是非常适合采用免费制冷技术。
数据中心在环境温度较低的季节,将室外空气经过过滤后直接送入机房作为冷源,也能节省大量能源,称为风冷自然冷却。这种自然冷却方式原理比较简单, 成本也比较低,但存在以下不足之处:
1. 要保证空气的洁净度不是一件容易的事。虽然可以通过高质量的过滤网保
证空气的洁净度,但由于风量特别大,需要经常清洗更换,同时巨大的阻力也要 消耗相当的能源。
2. 湿度不好控制。加湿和除湿都是相当的消耗能源。如果采用简单的工业加湿设备,需要对加湿的水源进行高度净化(成本比较高),简单的软化水不能满 足要求(对设备有害,长时间会在设备内部形成一层白色物质)。
3. 温度过低,容易结露并除湿。因此需要进行细致严格的保温处理。
4. 对于大型数据中心,由于距离远,风量特别大,这样就需要很大的风道, 风机的电能消耗也非常的大。实际的设计和安装也是很困难的事。
5. 不可能实现全年自然冷却,夏季的制冷方式还需要安装单独的空调设备。
因此,在大型数据中心中对自然环境要求较高,因此不推荐使用风冷自然冷 却方式。
采用水冷空调系统,当室外环境温度较低时,可以关闭制冷机组,采用板式换热器进行换热,称为水冷自然冷却。这样减少了开启冷机的时间,减少大量能 源消耗。湿球温度在 4°C以下时可以满足完全自然冷却,在湿球温度 4 到 10°C之 间可是实现部分自然冷却。在北京,一年内平均有 5 个月左右可以实现完全自然 冷却,有 2 个月左右可以实现部分自然冷却。节能效果将是非常明显的。
水冷精密空调系统中具有以下三种工作方式:
- 夏天完全靠冷冻机制冷,通过阀门控制使得板式换热器不工作。
- 冬天完全自然冷却,冷冻机关闭,通过阀门控制冷冻水和冷却水只通过
板式换热器。
- 春秋季节部分自然冷却。这时冷却水和冷冻水要首先经过板式换热器,
然后再经过冷冻机组。
由于天气在不断的变化,上述三种工作方式也将不断进行转化。为了减轻运维人员的工作和精确控制,在所有阀门采用电动阀的情况下,在空调系统管道若 干位置加装可以自动采集数据的温度计、流量计和压力表等,通过一套自动化控 制系统全年按最佳参数自动运行。但这套最佳运行参数的获取需要一定时间的经 验积累。
对于大型数据中心,由于制冷量特别的大,同时考虑到降低 N+1 备机的成本, 一般采用 2+1、3+1 或 4+1 系统,为了便于检修和提高整个系统的可靠性,蒸发 式冷却塔、水泵、板式换热器和冷冻机组应一对一配置。
2.3 采用变频电机节省能源 我们知道,空调系统的制冷能力和环境密切相关,夏天室外温度越高,制冷能力越低,因此大型数据中心空调系统的制冷量都是按最差(夏天最热)工况设 计的(空调的制冷量一般要比其在理想工况下的额定值低,这时建筑物本身不但 不散热,反而吸热。)。
这样,全年绝大部分时间空调系统运行在负荷不饱满状态。 另外,大型数据中心的 IT 负荷从零到满载也需要相当的时间,一般也在一到三 年之间。还有,IT 负载的能耗和网络访问量或运行状态相关,根据其应用的特 点,每天 24 小时的能耗都在变化,一年 365 天的能耗也都在变化。比如,游戏 服务器在早上的负载和能耗都比较低,但在晚上就比较高;视频服务器在遇到重 大事件时的负载和能耗就比较高。
因此,我们强烈建议在水冷空调系统中所有电机采用变频系统,这样可以节约大量的能量,其增加的投资一般在一年内节省的电费中就可以收回(基本满负 荷情况下)。要注意的是在选用变频器时,要求谐波系数一般小于 5%,不然将对 电网造成不良影响。对于风机和水泵,输入功率和这些设备的转速的三次方成正 比。例如,如果风机或水泵的转速为正常转速的 50%,仅需要同一设备运行在 100%额定转速时理论功率的 12.5%。因此,当设备运行在部分负荷时,变速装 置的节能潜力十分明显。
1. 变频冷水机组,冷水机组采用变频电机并作相应的特殊设计,节能效果非 常明显。下表是一台典型的制冷量 1000 冷吨的变频冷水机组相对常规定频机组 不同负荷的节能效果,负荷越低,节能效果越明显。
负荷百分比 |
定频机组 COP |
变频机组 |
变频机组节能效 |
100% |
5.959 |
5.850 |
果 -1.83% |
90% |
6.458 |
6.704 |
3.81% |
80% |
6.877 |
7.706 |
12.05% |
70% |
7.218 |
8.885 |
23.10% |
60% |
7.534 |
10.341 |
37.26% |
50% |
7.779 |
12.124 |
55.86% |
40% |
7.402 |
11.720 |
58.34% |
30% |
6.354 |
10.763 |
69.39% |
20% |
5.409 |
8.901 |
64.56% |
15% |
4.807 |
8.011 |
66.65% |
即便是数据中心处于满负荷状态,但由于数据中心的冷水机组需要常年运行,而室外的气温不断变化,对应冷却塔的供水温度也在不断变化,压缩机的工 作压头也随之变化,在这种情况下,采用变频驱动的离心机组能够不断的根据压 头的变化调节转速,达到节能效果。下表为机组在室内负荷恒定,机组 100%满 负荷运行状态下,定频机组与变频机组的节能比较。
2. 变频冷却塔。冷却塔采用变频电机可以在部分负荷和满负荷的不同气象条件下实现节能效果。一般冷却塔的变频电机根据冷却水的温差进行控制,温差一 般为 5 度,若高于 5 度,将降低频率减少冷量来降低温差,若低于 5 度,将增加 频率加大风量来提高温差。另外,冷却水的温度越低,冷水机组的效率就越高。 根据 YORK 公司在网络上公布的材料,冷却水温度每提高一度,冷水机组的效 率就要下降 4%左右。因此,在进行冷却塔的变频控制时还要考虑这个因素。
3. 变频水泵。冷却水和冷冻水的水泵由于常年运转,耗能相当的惊人。变频水泵可以在部分负荷时降低水的流速来节能。一般变频水泵的变频电机根据冷却 水或冷冻水的温差进行控制,温差一般为 5 度,若高于 5 度,将降低频率减少流 量来降低温差,若低于 5 度,将增加频率加大流量来提高温差。为了降低水泵的 扬程和能耗,建议冷冻机房、冷却塔和机房的垂直距离越小越好。
4. 水冷精密空调采用调速(EC)风机。调速风机一般根据回风温度控制风机的功率,若回风温度较低,就降低调速风机的功率减少风量,若回风温度较高, 就提高调速风机的功率增加风量。根据艾默生公司提供的材料,采用下沉方式安 装调速风机还可以进一步节省能耗,对于能够提供 16400CFM(每分钟立方英尺) 风量的精密空调设计安装三台风机,采用普通风机、普通 EC 风机和下沉式 EC 风机分别对应的风机功率为 8.6KW、6.9KW 和 5.5KW。
2.4 提高冷冻水的温度节省能源
冷水机组标准的冷冻水温度为 7 到 12°C,水冷空调的标准工况也是认为冷冻
水温度为 7 到 12°C。但是这个温度范围对于数据中心来说有点低,带来以下两个不利因素:
1. 这个温度大大低于数据中心正常运行在 40%左右相对湿度的露点温度,将 在风机盘管上形成大量的冷凝水,需要进一步加湿才能保持机房的环境湿度。这 个除湿和加湿过程都是非常消耗能量的过程。
2. 冷冻水的温度和冷水机组的效率成正比关系,也就是说冷冻水的温度越高,冷水机组的效率也就越高。典型的水冷式精密空调,冷冻水温度每提高一度, 冷水机组的效率就可以提高大约 3%。
目前,在模块化数据中心和高功率密度的冷水背板制冷技术中都把冷冻水的温度设计为 12 到 18°C,已经高于露点温度,完全不会除湿,也就不需要加湿。 冷冻水的温度提高后,水冷精密空调的制冷能力会下降,实际的制冷能力需要厂 家提供的电脑选型软件来确定,一般会下降 10%到 15%。但是由于冷冻水温度 提高后很少或基本不除湿和加湿,加上采用EC调速风机,电机产生的热量减少, 整个水冷精密空调的实际制冷能力(显冷)下降并不多。
三、数据中心的节能管理
对于数据中心而言,数据中心基础设施的 10 年总拥有成本(TCO)中,电能消耗占相当大的比重。典型的数据中心电能消耗占总成本的 20%。一个值得注 意的问题是,所消耗的电能转变成了热量被浪费掉了,而我们还要消耗另外的电 能来冷却其带来的热量,实际上,相当一部分浪费是可以避免的。
有关数据中心效率的典型的简单化模型完全低估了数据中心的电能浪费。本文介绍一个能够提供较准确的数据中心损耗数据的计算模型,并指出哪些方面有 改进能耗的机会。
3.1 数据中心的能源使用效率 任何设备或系统的效率都来自其能源输入(电能、燃料及任何使其“运转”的能源)中转化为有效结果的那一部分(未获得有效结果的能源输入一律呗视为 “浪费”)。这一“有效输出”占“总输入”的比例通常以百分比表示。
在数据中心的范畴内,效率被定义为总设施功率与 IT 设备消耗功率的比值。 这个参数成为数据中心的能源使用效率(Power Usage Effectiveness,简称 PUE)。
PUE 等于 1 相当于 100%效率的数据中心。PUE 的值越高,数据中心的整体 效率越低。目前,PUE 值已经成为国际上比较通行的数据中心电力使用效率的
衡量指标。PUE 值越接近于 1,表示一个数据中心的绿色化程度越高。当前,国 外先进的数据中心机房 PUE 值通常小于 2,而我国的大多数数据中心的 PUE 值 在 2-3 之间。也就是说,国内机房内芯片级主设备 1W 的功耗会导致总体耗电量 达到 2-3W,而国外机房内芯片级主设备 1W 的功耗只会导致总体耗电量为 2W 以下。
3.2 数据中心效率模型中的“有效”和“浪费”概念 在上述数据中心的模型中,“浪费”是指所有不属于 IT 设备所消耗能量。不 言而喻,数据中心基础设施除了为 IT 设备提供能量之外,还需进行其他有效的工作,这些工作称为“辅助支持”。下图是一个典型的数据中心能源消耗分布。
从上图的例子可知,这个数据中心基础设施能耗占 53%,IT 设备耗电量仅为 47%,由此可计算该数据中心的能源使用效率(PUE 值)为(53%+47%)/47% =2.13%。
在上述例子中,数据中心基础设施能耗的比例(53%)中,暖通系统能耗占 41%(其中冷水系统占 23%,加湿系统占 3%,精密空调占 15%),配电系统占 9%(其中 UPS 能耗占 9%,PDU 能耗占 3%),照明及辅助设备占 2%,开关装 置/发电机占 1%。
3.3 对数据中心基础设施进行科学管理,提高数据中心效率 原则上讲,提高数据中心效率的方法有三种:
1. 改进数据中心基础设施的内部设计,减少工作时的能耗;
2. 使数据中心基础设施组件的规划与实际 IT 负载更好地匹配(适度规划), 提高组件的工作效率;
3. 开发新技术,减少提供数据中心基础设施各项功能所需的能耗。
虽然数据中心的效率可以凭经验来确定,即将所有 IT 设备的能耗相加并与数据中心的电能输入总量相除,提出的做法是依据制造商提供的 UPS 和精密空 调等主要组件的效率声明。这比较省事,但获得的效率参数常常被严重夸大(比 如乘以一个系数),掩盖了可能有助于发现省电成本的机会的任何信息。
UPS 制造商提供的 UPS 电源设备的效率,通常以输出电能与输入电能的百分比来表示;同样,冷却设备制造商提供的效率通常以“性能系数”(排出的热 量与输入的电能之比)的相关参数来表示。
不同制造商发布的同类设备的效率值相差并不大,这导致人们简单地认为, 只需将各个组件的无效耗电量相加便可获得数据中心的效率损耗数字。实际上, 这种方法无法获得真实的数据中心的准确数据。
UPS 电源设备与冷却系统在以低于设备额定值使用时效率会显著下降,这意味着对数据中心效率进行的任何分析都必须将负载适当地表示为设计容量的一 部分。
对于每种 UPS 电源及冷却设备而言,设备在低于额定容量的状态下工作的原 因主要包括:
1. 数据中心 IT 负载低于系统设计容量。研究结果表明,一般的数据中心都在低于设计值 65%的状态下工作。不能物尽其用是数据中心效率地下的一个非常 重要的原因。
2. 有意使用过度规划的组件,以提供安全容限。设计通常会将组件进行过度规划,其目的是避免组件以接近其容量极限的状态工作。可以在没有任何降额的 情况下运行设备,但为高可用性设施推荐的设计实践是采用 10-20%的降额值。
3. 组件以 N+1 或 2N 配置的形式与其他组件协同工作。通常做法是以 N+1 甚至 2N 配置形式来使用设备,以提高可靠性以及/或允许对徐建进行同步维护,
而无需关闭系统。以这种配置来运行数据中心意味着IT负载由更多的设备分担, 从而有效地降低每台设备的负担。对于 2N 系统,任何单一设备的负载都小于其 设计值的一半。数据中心的效率受到以 N+1 或 2N 配置形式工作的设备的严重影 响。
4. 组件过度规划以适应负载的多样性。这种影响很微妙,距离来说:假如一 个数据中心的负载为 1MW,由一个 1.1MW 的 UPS 提供支持,在 UPS 与 IT 负 载之间有 10 台配电装置(PDU),每台都为该 IT 负载提供部分电能。乍看起来, 似乎选用额定值 100KW 的 PDU 就能满足系统设计要求。但实际上,由于现实 中的数据装修不可能保证每台 PDU 均匀的负载平衡、平均分配。具体一台 PDU 的负载取决于该 PDU 所在机柜内的 IT 设备,通常一个数据中心各 PDU 的负载 存在数倍的差异。也就是说,我们需要选用额定值不少于 200KW 的 PDU。
在数据中心运行维护过程中,人们往往产生这样一个概念:UPS 电源及冷却设备的热输出(无效耗电量)占 IT 负载的比例是微不足道的,因此可以忽略不 计。事实上,数据中心内 UPS 电源和冷却设备产生的热量与 IT 设备本身产生的 热量并无不同,都需要用冷却系统加以消除。这给冷却系统带来了额外的负担。
通过以上讨论,经过对数据中心运维经验数据分析,可以发现减少损耗和提高数据中心工作效率的措施:
1. 最大的节省能源措施是采用允许 UPS 电源和冷却基础设施随着负载的增加二增加的适应性、模块化结构,以减少数据中心的过度规划;这种措施降低损 耗的潜力约为 50%。
2. 提高冷却系统的效率,这种措施降低损耗的潜力约为 30%。
3. 降低数据中心 UPS 电源和冷却设备的空载损耗,这种措施降低损耗的潜力约为 10%。
【作者简介】
骆洪德,1982 年毕业于郑州大学物理系,1989 年于美国肯塔基大学获得物理学博士学位,1991 年于美国肯塔基大学获得计算机科学硕士学位。1991 年 参加美国洛克菲勒基金会的 LEAD 项目;1995 回国后就职于吉通通信有限公司, 任副总工程师,负责中国金桥 Internet 网络的设计、实施和运营管理;2000 年开 始从事信息系统工程监理工作至今。