数据中心运维的起点——基础设施测试验证

近年来,随着通信、互联网+、智慧城市的发展实施,数据中心的规模从几百平方米的单一机房,发展到几十万平米的数据中心园区。其主要特点是设备密集、耗电量极大、发热量大,可靠性要求和安全性要求极高。

为确保数据中心建成后安全、可靠运行,测试验证是必不可少的一部分。它是保障系统设计、安装、功能测试、系统联调、运行状态与设计意图相符合的过程,亦是设施获得良好功能和可靠运行过程中的重要组成部分。

一个好的测试验证不应只满足“测试”相关的设备功能指标,更重要的是“验证”系统是否可以满足运行阶段的要求。运维人员也应利用测试验证的过程,熟悉未来的管理对象,验证设备操作流程的正确性,增加实操和应对突发事件的经验。

数据中心全生命周期包括需求分析、规划设计、施工安装、检测验收、运维管理。数据中心的规划、设计、建设阶段投资大、周期长,测试验证是确保投资达到预期目标的重要把控,可以看做是数据中心建设的终点。与此同时,测试验证也是数据中心运维的起点。一个专业和完善的测试验证可以极大降低数据中心在运行早期的故障率,并为其生命周期的稳健运行奠定基础。

数据中心运维的起点——基础设施测试验证

测试验证的核心目标

  1. 验证数据中心是否满足国家数据中心设计、施工与验收相关规范的要求,是否达到数据中心的国家及行业内标准;
  2. 检验数据中心实际可用性。通过搭建数据中心假负载测试平台,最大限度接近实际 IT 负载和使用环境。全方位测试设备及整个系统在各种状况下的工作性能及冗余性能,并提供数据中心电力、暖通空调系统实际运行能力和容量分析数据作为高效运维的基准;
  3. 发现设计缺陷及工程隐患。使用机柜级别的带载模拟测试平台技术,通过满载在线测试,可以弥补传统验收手段的缺陷和盲区,及时发现和纠正工程施工错误;
  4. 风险认知。高效运维的保障基于模拟测试平台,通过应急切换及运维演练,针对性进行运维流程检验,并通过实战演练操作有效提升运维团队能力。

通过模拟实际运行场景,用测试数据评价设计能耗目标(PUE/WUE)是否实现、产品质量是否达标、施工质量是否合规、运行应急流程是否有效;

通过验证测试,检测项目实际可用性,识别和消除关键基础设施压力测试下的故障隐患,为项目运行维护提供客观真实的基准数据,降低项目运行风险和运维成本,提升项目运行水平和运维团队的工作能力,保证项目建设与运维的无缝衔接。

测试验证方法及主要测试内容

测试验证方法
在数据中心测试验证过程中,需要采取不同的测试方法,检验施工质量、设备性能,系统联动配合和抗故障能力等。主要测试方法包括目测法、仪表测量、带载测试(假负载)、故障模拟测试4大类。

验证测试主要内容
测试验证遵循从末端到上端的原则,按照安装检查-功能测试-性能测试-满载- 发热检查-参数比对-综合调试-应急演练的步骤,对数据中心进行全面的验证测试,以此发现系统中可能存在的故障和隐患。数据中心的规模越大、相对应的设备越多、设备配置越复杂,需要测试验证的内容也就越多。

下面按实施的顺序来分解:

  1. IDC机房设计方案审核
  2. 机房整体测试方案沟通,测试期间应急预案建立
  3. 机房安装工艺检查及维护性检查
  4. 机房设备功能检测
  5. 机房设备满载测试
  6. 暖通系统群控测试
  7. 综合测试验收(故障模拟测试)
  8. 提供验收文档,机房交接

系统综合测试及故障模拟是测试验证工作中的最后一个环节,也是验证数据中心机房作为一个整体,能否满足设计要求及运行要求的最主要手段,这个阶段要求测试机构对机房的设计有深刻理解,对于运行中可能出现的故障有丰富经验,对于应对特殊情况的回退措施有充分了解,是保证验证效果难度最大的阶段。

系统联调及故障模拟的主要工作包括:1、验证数据中心的各个子系统是否能在不同设计的负载下正常匹配运行;2、验证各系统对不同动作、故障所作出的反应是否满足设计和运行要求。

综合测试验收是在本次数据中心基础设施的单项设备或系统完成验收后,为了检验数据中心作为一个整体,运作时是否能够满足IDC机房技术规范及验收标准的要求,验收团队通过模拟数据中心正式运营可能的各种场景,来验证整个数据中心基础设施的可靠性。同时,在各种故障情况下,对运维过程进行检验和演练。

测试验证中出现的常见问题

  1. ATS 切换时间设置为同一数值,易造成断电重启时冲击电流过大,引起上级开关跳闸
  2. 设备电缆或铜排虚接导致配电柜发热及电池烧毁
  3. 柴油发电机伴热采用发电机本身电源,导致冬季不能正常启动
  4. 室外发电机无接地,可能会导致人员伤亡
  5. Ups上端及下端采用相同开关及相同整定值,整定值应考虑充电负载及UPS效率
  6. UPS与地板之间缝隙过大,导致漏风,不利于散热
  7. 电池开关柜采用交流开关,造成分断短路电流困难,引起电池爆炸。开关灭弧功能较差容易发热烧毁
  8. 机柜无接地,如有漏电造成人员伤亡
  9. 机柜冷通道正面安装机柜门,容易造成机柜内服务器温度过高,引起宕机
  10. 电缆标签与实际不符,维护时容易误操作,引起设备断电。

联系我们

010-67890090

service@tenglonghd.com

周一至周五,9:00-17:30

QR code