数据中心运维操作标准及流程

随着信息技术和网络的快速发展,同时也加速了数据中心建设的发展。数据中心对于像垂直层级较多的政府单位来说,是信息处理的中心。随着企业IT架构的不断扩展,服务器、存储设备数量越来越多,加之云架构的出现和普及,数据中心的复杂程度越来越高,运维管理的复杂程度急剧攀升,一个更加稳定且高效的数据中心可以为政企的管理和发展提供强大的支持,这就使得数据中心的运维管理显得尤为重要。

下面我们就来聊聊数据中心有哪些运维操作标准与流程?

机房运维管理前期准备

1.1 管理目标

机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的机房,可设定不同等级的机房基础设施的运维管理目标。

1.2 参与数据中心建设过程

机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房,应尽早参与机房基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。

1.2.1 应参与规划设计

机房的规划设计是一个谨慎和严谨的过程,需要所有参与机房建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。

1.2.2 应参与相关供应商遴选

机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数, 使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出要求。

1.2.3 应参与建造管理

机房的基础设施运维团队应积极参与机房基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。 机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。

1.3 测试验证

机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。

1.3.1 时间和预算

机房的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测机房基础设施交付投产的日期。

1.3.2 测试验证参与方

项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。

机房关键设备提供商及工程总包商,应积极配合测试验证工作, 应在供应商合同中对此项有明确要求。

1.3.3 测试验证内容

验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。

测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。

1.3.4 设施健康评估

当接手已在运行的机房基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。

1.4 技术文档

完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前,应从施工单位得到场地基础设施的全套相关文档,包括但不限于:机房的规划设计资料及竣工图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。

整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。

1.5 管理边界

为了明确管理责任,机房基础设施运维团队应将可能影响机房基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。

安全管理和质量管理建议

2.1 人员安全

机房基础设施运维团队要编制正式的机房生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以确保机房运维人员的人身安全。

相关安全生产规范主要包括:

  • 机房生产环境安全管理规范;
  • 机房基础设施各系统安全管理手册;
  • 机房基础设施涉及安全的应急预案;
  • 机房基础设施管理过程涉及的技术方案中的安全管理策略。

机房基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。

相关国家、行业规程包括但不限于:

  • GB 26860电力安全工作规程 发电厂和变电站电气部分;
  • DL 408 电业安全工作规程。

2.2 物理环境安全

应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。

应了解机房所在地的历史自然灾害情况。包含但不限于GB50174TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。

应建立并执行严格的机房设备、人员、车辆进出管理制度。

应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。

2.3 质量管理

在机房基础设施运维过程中建立完善的质量管理体系,是保障以上机房基础设施运维趋于卓越的重要因素和手段。机房基础设施运维团队的所有关键工作应包括以下的质量管理要素:

2.3.1 质量保证

  • 过程制定;
  • 程序制定;
  • 过程审核和批准;
  • 过程和程序培训。

2.3.2 质量控制

  • 事件回顾;
  • 质量检查和检验;
  • 定期质量审核。

2.3.3 质量改进

  • 故障分析;
  • 经验教训;
  • 优化及创新计划。

人员管理建议

3.1 组织及人员

3.1.1 组织架构

机房运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:

  • 运维巡检团队

主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。

  • 技术管理团队

主要职责:对机房基础设施提供运维技术支持,解决技术问题,承担机房基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。

  • 物理环境安全管理团队

主要职责:对物理环境安全进行管理,进行安全巡检等工作。

3.1.2 人员配制

机房基础设施运维人员的配备应根据运维管理目标或SLA来确定。中高等级的机房,可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质等级与操作权限的一致性。

高等级以及具有一定规模的机房,每个班组应配备具有电力、 暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。

运维团队的关键岗位应有人员备份和储备。

机房基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B 角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。

3.1.3 绩效管理

为了提高机房运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护机房基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。

3.1.4 人员管理制度

为了保障机房基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含(但不限于):

  • 《日常活动管理制度》;
  • 《人员安全操作制度》;
  • 《运维人员基本素质养成管理制度》;
  • 《安全运行奖惩制度》;
  • 《节能运行奖惩制度》;
  • 《技术创新奖励制度》;
  • 《人员晋升制度》;
  • 《人才储备制度》;

3.2 培训及认证

3.2.1 员工培训及资格认证计划

对于机房基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。培训内容应包括机房基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等。

对于所有运维人员宜设定以知识更新、技能提高为目标的年度培训及认证计划。宜要求运维人员不断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。

可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。

3.2.2 历史事件分析学习

运维团队应将机房基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以避免相同的事件再次发生。

3.2.3 组织学习

运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。

3.3 运维外包服务商

3.3.1 基础设施运维外包服务商的选择

机房基础设施属于关键性设施,选择外包运维团队时应考察其机房基础设施的运维服务的资质、能力和经验。如机房作为商业物业的一部分整体外包运维,应要求外包运维机构针对机房基础设施设施部分设立专门的有机房基础设施运维经验的团队,并严格按机房基础设施的运维规程规范执行。

3.3.2 运维外包服务商的管理

对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。

外包服务商需要严格遵循数机房基础设施既定的操作流程和安全守则。

机房基础设施运维管理的最终责任承担者是机房管理者,责任无法外包。因此,机房应保留运维核心管理人员,对于外包团队的工作进行审核、监督和绩效评估管理。

设施管理建议

4.1 资产数据库

数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。

资产数据库应最少包括以下信息:

资产ID:每个资产的唯一标识号

种   类:一级分类(如电气、制冷、消防系统)

子   类:二级分类(如 UPS、电池、PDU等)

描   述:资产的文字说明

制   造:资产的制造厂家

型   号:制造厂家的产品型号

规   格:资产的规格或者标称值

位   置:位置 ID(房间或区域)

购 买 人:资产维护的负责人

序 列 号:制造厂家的序列号

安装日期:资产的投产日期

保修期限:保修到期的日期

更    换:预计的资产更换日期

维护频次:年检、季检、月检等

4.2 预防性维护

4.2.1 预防性维护计划

预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。

运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。

预防性维护包括并不限于以下系统设备或内容:

  • 冷水机组、精密空调;
  • UPS,开关、和发电机组;
  • 消防系统和监控系统检验;
  • 蓄电池放电测试;
  • 配电装置(高低压配电装置)的绝缘性定期试验;
  • 二次保护定值实验;
  • 每年雨季之前进行的数据中心防雷接地装置测试等。

4.2.2 工单管理

运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。

计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。

4.3 操作流程

机房基础设施的所有操作, 均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。

4.3.1 维护作业程序MOP

对机房关键基础设施设备的每次维护、维修、安装操作, 都应事先制定一份MOP。可要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。

4.3.2 标准操作流程SOP

所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。

4.3.3 应急操作流程EOP

应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的例子:

  • 一路市电供电时中断;
  • 双路市电供电时同时中断;
  • 单个精密空调时故障停机;
  • 全部精密空调都故障停机;
  • 单台UPS时故障停机。

4.4 工具及备件管理

运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。

测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。

应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。

4.5 供应商管理

应该按照机房基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。

所有供应商到达机房执行维护程序之前,应通过机房相关规程的培训,获得机房运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。

供应商的每次机房维护活动都应该提交现场服务报告并存档。

运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档,记录所有供应商的联系方式、服务承诺(SLA)、工作范围、针对设施的培训和认证情况等信息。

4.6 生命周期管理

应基于设施设备的合理生命周期,结合风险评估,制定设备维护、 升级或更换的计划及预算,及时报告给运维管理部门。

风险评估主要评估内容包括:

  • 资产重要性识别;
  • 资产威胁识别;
  • 资产脆弱性识别;
  • 风险值的计算;
  • 在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综合投资回报分析;
  • 对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。

4.7 运维管理系统

机房可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。

 

运行管理建议

5.1 运行管理制度

机房基础设施运维团队应建立并严格执行运行管理制度,包括: 5.1.1   巡检相关管理制度

  • 日常巡视巡检管理制度;
  • 值班管理制度;
  • 交接班管理制度;
  • 通知矩阵。

5.1.2 工作流程相关管理制度

  • 工单处理流程;
  • 例会制度;
  • 工作总结报告制度(日、周、月、季、年总结报告);
  • 交付管理规范;
  • 运维质量管理办法文档管理制度;
  • 工具备件管理制度。

5.1.3 安全相关管理制度

  • 机房出入管理制度;
  • 机房现场管理制度;
  • 机房卫生管理制度;
  • 信息安全相关管理制度。

5.1.4 故障处理管理制度

  • 设备操作管理制度;
  • 设备故障处理流程;
  • 应急准备和应急响应流程;
  • 维护作业计划管理制度;
  • 故障隐患跟踪反馈管理制度;
  • 紧急事件汇报流程。

5.1.5 经营相关管理制度

  • 员工行为规范;
  • 考勤管理制度;
  • 人员管理考核制度。

5.2 设施监控、巡检、及交接班管理

应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。

应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。

运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。

5.3 机房清洁管理

应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。

5.4 标签标识管理

应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括:

  • 设备标识:包括设备名称、型号、编号、资产编号等;
  • 线缆标识:包括起始端信息、终止端信息、设备名称等;
  • 警示标识:如“设备已带电/危险”、“禁止合闸”、“禁止分闸”等;
  • 物理环境标识:如位置标识、区域标识等;
  • 系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。

5.5 变更管理

任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范围的告知。变更结束后,应向相应范围部门通报变更结果。

5.6 事件管理

应制定事件管理流程,明确不同等级事件下相应的处理流程。

5.6.1 事件等级定义

一般事件:任何没有达到机房设计和运行标准的异常事件;

严重事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断的事件;

重大事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断,且影响范围大的事件。

5.6.2 事件升级

当事件暂时无法排除,需要逐级报告,进入事件升级流程。

如遇特殊情况,与直接主管联系不上时,可越级向上一级主管报告。

5.7 应急响应

5.7.1 设施应急预案演练

运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括:

  • 沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;
  • 跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。

应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。

5.7.2 人员安全应急流程

机房基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。

5.8 容量管理

容量管理可包括但不限于以下方面:

5.8.1 空间容量

  • IT设备摆放空间;
  • 基础设备设施摆放空间;
  • 综合布线线路空间,配线架管理。

5.8.2 能力容量

  • 电力供应容量;
  • 空调供应容量;
  • 综合布线信息点容量;
  • 互联网接入容量。

设施运维团队应与IT 部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。

当机房基础设施不能满足IT增长的需求时, 应提前制定并上报扩容或者新建机房的计划。

5.9 能效管理

5.9.1 能效监测

机房基础设施运维团队应了解并记录机房在不同工况及不同外界气候条件下的电力使用效率 PUE 的变化情况,从中发现趋势,以不断优化运行方案。

5.9.2 了解IT设备运行特征

机房基础设施运维人员应具备一定的IT设备相关知识,了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况,了解IT 设备的运行峰谷期。

应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。

5.9.3 管理气流组织

应封堵设施建筑所有可能的漏风口,维持设施的正压。

应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。

5.9.4 运行阈值设定

应基于安全性及运行效率的综合考虑,建立运行阈值设定指南, 设置监控报警阈值、空调回风温度等。

5.10 预算管理

运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。

预算应包括但不限于以下内容:

  • 基于SLA的人力预算;
  • 备件及工具、仪器采购费用;
  • 应急维护材料费用;
  • 专业外包维保和应急服务费用;
  • 政策性等强制检测服务费用;
  • 整改或节能改造预算;
  • 突发问题备用金。

联系我们

010-67890090

service@tenglonghd.com

周一至周五,9:00-17:30

QR code