首页 >白皮书

白皮书

监测数据中心内的物理威胁

摘要

传统方法已不足以满足数据中心环境监测的需求。随着刀片式服务器等技术对制冷的需求不断升高、萨班斯-奥克斯利法案等规章对数据安全提出了更高的要求,数据中心内的物理环境必须得到更为密切的监测。尽管对监测诸如UPS系统、计算机房空调机以及消防系统等物理设备的协议已广为人知,但仍然有一类分布式的监测点经常被忽略。本文将介绍此类威胁,提出部署监测设备的方式,并提供如何利用所采集数据缩短停机时间的极好实践。

引言

当今常用的数据中心环境监测技术可以追溯到集中式大型主机时代,监测的方式包括需要IT人员携带温度计四处巡视,需要依靠IT人员来“感知”机房内的环境等。但随着数据中心的分布式处理和服务器技术的持续发展,对供电和制冷需求不断增加,因而必须对其环境进行更为密切的监测。

功率密度提高和功率动态变化是推动IT环境监测方法变革的两大主因。刀片式服务器使功率密度大大提升,显著改变了周围环境的供电和制冷动态模式。供电管理技术使服务器和通信设备的功耗能够随计算负荷而变化(继而改变热消散)。这一问题在APC白皮书#43“数据中心和网络机房内动态功率变化”中详述。

尽管在UPS、计算机房空调(CRAC)及消防系统等物理设备中配备复杂的监测和告警功能已经很常见,但物理环境的其他方面却经常被忽视。仅对设备进行监测并不足够,还必须全面查看周围环境并主动监视威胁和入侵。这些威胁包括服务器进气温度过高、漏水以及未经授权的人员进入数据中心,或者是人员在数据中心内进行不当操作。

远程网络场所,比如分支机构、资料室等,以及本地销售点进一步增强了对自动化监测的需求,因为在这些地方由人来现场检查温度和湿度等场地条件不现实也不可靠。随着可无人值守网络前哨设备的引入,IT管理员必须有相应的可靠的系统来了解情况。

应用当今的技术可以详尽地配置监测系统以满足数据中心对环境和安保的具体要求:每一机柜都可看作是一个迷你“数据中心”,它们自身都各有所求,都需要可能包括多个数据采集点的监测策略。

本文将讨论可通过分布式监测策略加以缓解的物理威胁,并给出在数据中心内部署传感器的准则和实践。文中还将讨论如何使用数据中心设计工具来简化分布式监测系统的规格和设计过程。

什么是分布式物理威胁?

本文所论述的分布式物理威胁是威胁的一个子集,由于需要通过精心而专业的设计方可防御它们,所以需要特别关注。为了确定该子集,需对数据中心所受威胁的范围进行简要的归类描述。

数据中心威胁可被归为两个大类,依据是其属于IT软件和网络范畴(数字威胁)还是数据中心物理支持基础设施范畴(物理威胁)。

数字威胁

数字威胁是诸如黑客、病毒、网络瓶颈以及其他针对数据安全性或数据流的意外或恶意攻击等威胁。数字威胁在业界和媒体上广为人知,而且多数数据中心均有强大的主动维护系统,如防火墙和杀毒程序等,对其进行防范。APC白皮书# 101“网络安全的基本原理”回顾了针对数字威胁的基本保护措施。数字威胁不是本文的主题。

物理威胁

IT设备的物理威胁包括供电和制冷问题、人为错误或恶意破坏、火灾、泄漏及空气质量等威胁。其中一部分,包括一些涉及供电、制冷和火灾的威胁是由供电、制冷和消防设备的自有功能进行常规监测的。例如,UPS系统将监测供电质量、负载和蓄电池健康程度;PDU将监测电路负载;制冷机组将监测回风和送风温度以及过滤器状态;消防系统(楼宇规范所要求的)将监测有无烟雾或过热等。这些监测是通过一些为人熟知的通讯协议由软件自动地对信息加以汇集、记录、解释并显示。这种监测威胁的方式,是由在设备中预先设计好的功能来完成的,不需要用户具有任何专门技能或为了获得有效管理而进行任何规划,只要监测和编译系统经过良好的工程设计即可。这些可自动监测的物理威胁是全面管理系统的一个关键部分,但不是本文的主题。

然而,对于数据中心内某些类型的物理威胁,通常是一些严重的威胁,用户并不能通过内置的预先设计的解决方案进行监测。例如,湿度水平不佳的威胁可以存在于数据中心内的任何地方,因此在对此威胁的管理中,湿度传感器的数量和位置将是重要的考虑因素。这样的潜在威胁可能分布式的位于整个数据中心的任何地方,随着机房布局和设备位置的不同而位于各种不同的位置。

本文所涉及的分布式物理威胁分为以下大类:

· 威胁 IT 设备的空气质量(温度、湿度)

· 液体泄漏

· 人员在场或异常活动

· 威胁人员的空气质量(空气中携带的杂质)

· 因数据中心事故产生的烟和火

图1显示了数字威胁与物理威胁之间的区别,以及在物理威胁中,通过预先设计基于设备来监测的供电/制冷物理威胁与本文主题—

—分布式物理威胁之间的区别。后一种物理威胁需要进行评估、决策和规划来确定用于监测的传感器的类型、位置和数量,并且可能由于在有效监测策略的设计方面缺乏知识和专业技能而有疏漏的风险。

1.jpg

表1归纳了分布式物理威胁、它对数据中心的影响以及用于对其监测的传感器类型。

传感器布置

可采用多种类型的传感器来实现对上述威胁所致问题的预警。尽管传感器的具体类型和数量可能根据预算、威胁风险和破坏所致企业成本而有所不同,但仍然有一套基本的传感器可以满足绝大多数数据中心的要求。表2是这套推荐的基本传感器得选择指南。

除表2中所示的基本传感器之外,根据具体的机房配置、威胁程度以及可用性要求,还有其他传感器可作为备选。表3列出了这些附加传感器以及优方法准则。

汇集传感器数据

在选择并布置了传感器之后,下一步是对传感器接收到的数据进行收集和分析。相比于将所有传感器数据直接发送至一个中央收集点的方式,数据中心内采用分布式的汇集点的方式会更好,每一汇集点均具备告警和通知功能。这不仅可以消除单一中央汇集点的单点故障风险,而且还支持对远程服务器机房和电信设备间等端点的监测。各汇集器通过IP网络技术与中央监控系统通信(图2)

8.jpg

单个传感器通常不会独自连接至IP网络,而是由汇集器诠释传感器数据,并将告警信息发送至中央系统,并/或直接发送至通知列表(见下一节)。这一分布式监测体系结构显著减少了所需网络接口的数量,并可降低系统总体成本和管理负担。汇集器通常分布在数据中心内的不同的物理区域,汇集各有限区域内传感器的信息,限制传感器连线的复杂程度。

“智能”行动

传感器提供原始数据,但对数据的诠释同样重要,从而可以执行通知、告警和校正。随着监测策略日益变得复杂,一个有良好监测的数据中心布满传感器,对这种潜在的大量数据的“智能”处理至关重要。收集和分析传感器数据并触发适当行动的有效且高效的方式就是采用前一节所述的“汇集器”。能够通过对数据的过滤、关联和评估来以确定当超限事件出现时的佳行动是很重要的。有效的行动是能够通过正确的方式向正确的人员提供正确的告警信息。行动采用以下3种方式之一:

 · 可能威胁指定设备、机柜或整个数据中心的超限告警

 · 基于指定的警告及阈值的自动行动

 · 分析和报告,以方便进行改进、优化和对错误/故障的测量

告警

在设置警告时需要确定3方面事项:警报阈值 – 在达到什么值时应触发警告;告警方式 – 警告应如何发送、发送给谁;以及警告升级 – 某些类型的警报是否需要升级到不同级别来加以解决?

警报阈值 – 对于每一传感器,应确定可接受的工作条件并配置阈值,以便在读数超出这些工作条件时生成警报。理想情况下,监测系统应具备对每一传感器配置多个阈值的灵活性,以便给出提示、警告、严重及故障等不同级别的告警。除单一 数值阈值之外,还应有诸如在规定时间范围内超出阈值、增长率和下降率超出阈值等触发条件。就温度而言,针对变化率的告警可以比某点的温度值更快地标识故障。

必须谨慎的设置阈值以大可能地确保有效性。根据事故的严重程度,应该基于不同的阈值提供不同的告警。例如,由湿度阈值触发的事件可以向IT管理员发送电子邮件,而烟感传感器则可给消防部门自动拨打电话。类似地,不同的阈值水平也将作为不同升级路径的依据。例如,未经授权访问机柜的事件会升级至IT管理员处,而强行进入的事件则会升级到IT主管。

阈值应先总体设置为缺省值,然后根据IP设备规格以及对应于设备位置的传感器的安装位置进行个别调整(例如,靠近服务器电源的传感器的阈值应该比靠近服务器进风口传感器的阈值要设置的高)。表4列出了根据ASHRAE TC9.9规范要求所推荐的温度和湿度的缺省阈值。除这些阈值之外,温度变化率的监测也很重要。在5分钟内温度改变10 °F(5.6 °C)说明CRAC可能有故障。

9.jpg

告警方式 – 警告信息应能够采用多种不同方式进行发送,如电子邮件、SMS文本消息、SNMP陷阱以及发布至HTTP服务器。重要的是,告警系统应灵活且可定制,以确保正确的数量的信息能够成功地传递给预期的接收者。警告通知应包含用户定义的传感器名称、传感器位置以及报警日期/时间等信息。

警告升级 – 某些报警可能需要立即引起注意。如果在规定时间内问题没有得到解决,智能监测系统应能够将特定的报警升级至更高的职权水平。警告升级有助于确保在小问题升级成大问题之前对其进行及时处理。

以下是有用的和不太有用的告警的示例:

温度传感器#48超出阈值 – 不太有用,因为它没有提示传感器#48所处的位置

Web服务器X存在过热危险 – 较为有用,因为确定了具体的服务器

门传感器被激活 – 不太有用,因为没有确定具体的门

位置Y处的X门被打开,并拍摄到了一张开门人的照片 – 非常有用,因为它包括了门的标识、门的位置以及事故照片

依据数据采取行动

收集传感器数据只是第1步,如果数据中心管理员单纯依靠手动响应,数据将不会发挥大优势。有一种系统能够根据用户指定告和阈值进行自动操作。为实现这种“聪明的”自动化,必须从以下几方面加以评估:

告警行动 – 根据警告的严重程度,应自动采取何种行动?这些自动的行动可以是通知相关人员,也可以是矫正行动,如触发干接点接通或断开设备,如风机或泵等。

传感器数据持续实时可见 – 查看每个传感器某点读数的能力是一项基本要求,而实时查看每个传感器趋势的能力则有助于更好的了解情况。对这些趋势的诠释让管理员可以探查更广范围的问题,并关联来自多个传感器的数据。

告警系统应不限于提供基本的违反阈值的通知。例如,一些监测系统可以允许管理员在警告中附加数据。这些附加数据可以是捕捉的视频、录制的音频、图片以及地图。此类内容丰富的告警系统由于在警告中包含了相关背景数据,使管理员可以做出更明智的决策。有些时候,需要从大量的信息中提取有用信息。例如,在一个人流密集的数据中心内,如果对数据中心内的每次一移动都告警将让人不胜其烦。有时候会出现为安全起见而阻塞或“掩盖”特定信息的情况。例如,包含键盘图像的视频可能会屏蔽掉键入密码的图像。

以下是“智能”诠释和操作的示例:

· 在达到温度阈值时,自动开启风机或机房空调

· 根据实时视频监视中出现的人员,对带电子门禁的特定机柜远程提供的访问控制

· 当在一远程数据中心内检测到有水时,自动开启排水泵

· 当在正常工作时间之后检测到数据中心内有移动时,自动拍摄视频并向保安人员告警

· 当在工作时间以外检测到玻璃破裂时,通知保安人员并发出报警提示音

· 当一个机柜门禁提示机柜门已开启超过30分钟(说明门未正常关闭)时,向管理员发出检查门的报警

分析和报告

智能监测系统不仅应包含传感器数据的短期趋势,还应有长期历史数据。监测系统应能访问以往数周、数月乃至数年的传感器读数,并能按此数据生成图表和报告。该图表应能在同一份报告上呈现各类型传感器的数据以供比较和分析。报告应能够提供在所

选时段内各组传感器低、高和平均读数。

传感器长期的历史信息可以有各种不同的用途,例如,用以说明数据中心达到容量极限并非由于物理空间不够,而是由于制冷不足。在越来越多的设备加装到数据中心的时侯,这类信息可以用于推断未来趋势,并可协助预测数据中心何时将达到容量极限。长期的趋势分析可以应用在机柜级,用以比较不同制造商的设备放在不同的机柜中是如何变得更热,或更凉等,比较结果将可能影响未来的采购。监测系统所采集的传感器读数应可导出为业界标准格式,使得数据能够像定制的报告和分析程序一样可以现成使用。

设计方法

尽管威胁监测系统的规格和设计可能看起来很复杂,该过程可采用数据中心设计工具加以自动化,如APC的InfraStruXuresigner。此类设计工具让用户可以输入一个简单的偏好列表,并可自动布置相应数量的传感器和汇集设备。汇总报告将提供推荐传感器的备件列表和安装说明。这些数据中心设计工具采用基于佳实践和行业标准创建的规则和算法,依据密度、机房布局、机房门禁策略以及用户特定的监测要求来提供具体的配置建议。

例如,根据数据中心不同的人流量和访问控制,以下由用户指定的偏好会影响到威胁监测系统的设计:

高人流量/访问控制 – 如果数据中心有许多个人进入,每个人都负责数据中心内不同的应用和功能,则设计工具会建议每一机柜安装机柜门禁,仅允许需要的人访问该机柜。

低人流量/访问控制 – 如果数据中心仅指定的少数几个人进入,每个人均对数据中心所有功能负责,则设计工具将不会建议安装机柜门禁来控制对单个机柜的访问;一个机房门禁将足以限制其他人员进入机房。

传感器布置示例

10.jpg

图3中给出了一个数据中心布置示例,其中根据本文所述优方法示出了监测设备的位置。

结论

保护免受分布式物理威胁的侵害是全面安保策略的关键。尽管传感设备的布置和方法需要进行评估、决策和设计,但实践和设计工具可以协助进行有效的传感器部署。

除了要有合适类型、位置和数量的传感器之外,还必须有软件系统来管理所收集的数据,并提供日志记录、趋势分析、智能告警通知以及在可能的情况下提供自动矫正行动。

上一篇:精密空调与家用空调的区别
下一篇:瓦特与伏安的区别  
网站首页  |  公司简介  |  产品展示  |  资质证书  |  新闻动态  |  技术支持与服务  |   典型行业案例  |   典型设计案例  |  白皮书  |   联系我们

版权所有©南昌金博科实业有限公司  地址:南昌市红谷滩赣江中大道1218号新地中心1901室

电话:0791-86297515 86297671 83887686 83887687(赵先生 李先生)    

传真:0791-86297515-888  E-mail: ajye6526@vip.sina.com  赣ICP备20000747号-1  技术支持:江西华邦.JPG

ga.PNG赣公网安备 36010802000670号