当前背景下,推进交通大数据发展已经成为新时代交通运输信息化发展的核心内容。大数据时代的数据中心应该如何建设?又应如何运营?福建省高速公路信息科技有限公司运营部主任王阳生在第22届中国高速公路信息化大会上表达了自己的观点,他认为,大数据时代数据中心建设需要包括电力系统保障、网络系统保障、网络与信息安全保障、虚拟化技术应用、灾备系统应用、配套系统应用、智能化运行监测平台。
电力系统保障需要六套互相备份的电源接入供电保护方案。在日常运维中需要做到以下几点:定期检查、保养柴油发电机、应急发电车;
定期检查外供电线路杆塔情况;
定期检查UPS运行情况;
互联网区所有安全设备都配置主模式且桥接到网络中,所有设备都做了接口联动。由外而内首先经过出口防火墙,在出口防火墙上做了大量的策略,只放行必要的业务、服务、端口和应用,剩下的访问全部拒绝;接着经过入侵防御设备,入侵防御设备能够过滤和抵挡各种网络攻击,并统计相关的数据。WAF的作用就是网页安全检测、防网页篡改;最后到达互联网核心,在互联网核心交换会将所有流量镜像到天眼探针和分析平台,进行流量分析和攻击分析。同时设置VPN设备和漏洞扫描设备确保授权访问和定期扫描及时发现操作系统、中间件、数据库、应用系统漏洞。各网之间设置网闸物理隔离,设置必要的放行策略。数据中心还有综合网、视频网和收费网三张专网,且三张专网通过OTN设备连接各地市管理公司。
三张专网的网络拓扑基本一致,这里以收费网为例,收费网已经通过安全等保三级测评,所有安全设备都符合国标要求。
收费网防火墙处于数据中心收费网边界,目前以堆叠主主桥接的方式接入网络只放行相关的端口和业务,其它一律拒绝访问。
收费网VPN设备、漏扫设备、日志审计设备、数据库审计设备、堡垒机、天眼探针和分析平台旁挂到收费网核心下,实现相关设备的功能,具体功能和作用和互联网区安全设备一致。
相关业务应用系统都部署运行在虚拟化系统中的虚拟机之上。而用户数据的存储和管理则使用各类数据库系统。对数据中心的容灾需求总体来说分为两大部分,即数据容灾和应用容灾,分别对数据中心进行数据库的容灾和虚拟化应用的容灾。在容灾架构中,建议同城双中心有条件的异地双中心的灾备方案。配套系统应用包括空调系统、消防系统、门禁系统、监控系统、综合布线、监控室。机房环境监控系统是一个综合利用计算机网络技术、数据库技术、通信技术、自动控制技术、新型传感技术等构成的计算机网络,提供集中管理监控模式的自动化、智能化和高效率的技术手段,系统监控对象主要是机房动力和环境设备等。配电系统:主要对配电系统的三相相电压、相电流、线电压、线电流、有功无功、频率、功率因数等参数和配电开关的状态监视进行监视。当一些重要参数超过危险界限后进行报警。UPS电源:通过由UPS厂家提供的通讯协议及智能通讯接口对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视,一旦有部件发生故障,机房动力环境监控系统自动报警。系统中对于UPS的监控一律采用只监视,不控制的模式。空调设备:通过实时监控,能够全面诊断空调运行状况,监控空调各部件(如压缩机、风机、加热器、加湿器、去湿器、滤网等)的运行状态与参数,并能够通过机房动力环境监控系统管理功能远程修改空调设置参数(温度、湿度、温度上下限、湿度上下限等),以及对精密空调的重启。空调机组即便有微小的故障,也可以通过机房动力环境监控系统检测出来,及时采取措施防止空调机组进一步损坏。机房温湿度:在机房的各个重要位置,需要装设温湿度检测模块,记录温湿度曲线供管理人员查询。一旦温湿度超出范围,即刻启动报警,提醒管理人员及时调整空调的工作设置值或调整机房内的设备分布情况。漏水检测:漏水检测系统分定位和不定位两种。所谓定位式,就是指可以准确报告具体漏水地点的测漏系统。不定位系统则相反,只能报告发现漏水,但不能指明位置。系统由传感器和控制器组成。控制器监视传感器的状态,发现水情立即将信息上传给监控PC。测漏传总器有线检测和面检测两类,机房内主要采用线检测。烟雾报警:烟雾探测器内置微电脑控制,故障自检,能防止漏报误报。当有烟尘进入电离室会破坏烟雾探测器的电场平衡关系,报警电路检测到浓度超过设定的阈值进行报警。视频监控:机房环境监控系统集成了视频监控,图像采用MPEG4视频压缩方式,集多画面测览、录像回放、视频远传、触发报警、云台控制、设备联动于一体,视频系统还可与其他的输入信号进行联动,视频一旦报警,可同时与其它设备进行联动如双鉴探头、门磁进行录像。门禁监控:门禁系统由控制器、感应式读卡器、电控锁和开门按钮等组成(联网系统外加通讯转换器。读卡方式属于非接触读卡方式,系统对出人人员进行有效监控管理。防雷系统:通过开关量采集模块来实现对防雷模块工作情况的实时监测,通常只有开和关两种监测状态。消防系统:对消防系统的监控主要是消防报警信号、气体喷洒信号的采集,不对消防系统进行控制。监测目标主要包括对系统不间断的实时监控、实时反馈系统当前状态、保证服务可靠性安全性、保证业务持续稳定运行。数据采集:通过SNMP、Agent、ICMP、SSH、IPMI等协议对系统进行数据采集。
数据存储:数据存储在MySQL上,也可以存储在其他数据库服务。
数据分析:当我们事后需要复盘分析故障时,能给我们提供图形以及时间等相关信息,方面我们确定故障所在。
数据展示:Web界面展示、移动APP。
监控报警:电话报警、邮件报警、短信报警、报警升级机制等。
- 报警处理:当接收到报警,我们需要根据故障的级别进行处理,比如:紧急、一般等。根据故障的级别,配合相关的人员进行快速处理。
硬件监控:早期我们通过机房巡检的方式,查看硬件设备灯光闪烁情况判断是否故障,这样非常浪费人力,并且是重复性无技术含量的工作。系统监控:通过服务器远程管理口IPMI等,对硬件详细情况进行监控,并对CPU、内存、磁盘、温度、风扇、电压等设置报警设置报警阈值(自行对监控报警内容编写合理的报警范围) 。应用监控:硬件监控和系统监控部署后,我们进一步操作是需要登陆到服务器上查看服务器运行了哪些服务,都需要监控起来。应用服务监控也是监控体系中比较重要的内容,例如:Oracle、MySQL、JBoss、Tomcat、Nginx、Redis、RabbitMQ等,相关的服务根据具体应用系统部署情况都需要监控起来。网络监控:网络监控是我们构建监控平台是必须要考虑的,作为下连各地市路段收费站,上连接交通部联网中心的联网收费系统,需要时刻掌握各地市到数据中心机房的网络状态。尤其是针对移动支付、闽通宝、ETC门户等使用场景,其互联网出口多路由链路的网络状态都是我们需要重点关注的对象。日志监控:通常情况下,随着系统的运行,操作系统会产生系统日志,应用程序会产生应用程序的访问日志、错误日志,运行日志,网络日志,我们对这些日志进行收集、过滤、存储、查询、展示,通过日志监控分析发现系统潜在问题。安全监控:安全监控是数据中心系统监控重中之重,我们主要通过接入第三方服务厂商,第三方厂商提供全面的漏洞库,涵盖服务、后门、数据库、配置检测、CGI、SMTP等多种类型。全面检测主机、Web应用漏洞自主挖掘和行业共享相结合第一时间更新0-day漏洞,杜绝最新安全隐患。性能监控:全面监控网页性能,DNS响应时间、HTTP建立连接时间、页面性能指数、响应时间、可用率、元素大小等。网页性能主要应用在集团公司外网门站、ETC门户、协同办公门户、12122路网监测系统等。业务监控:重要的业务指标进行监控,并设置阈值进行告警通知。比如驿佳购服务区零售系统:每分钟产生多少订单、每天有多少活跃用户、每天有多少推广活动、推广活动引入多少用户、推广活动引入多少流量、推广活动引入多少利润等,重要指标都可以加入业务监控系统上,然后通过大屏展示。一般报警后故障如何处理,首先我们可以通过告警升级机制先自动处理,比如Nginx服务down了,可以设置告警升级自动启动Nginx。但是如果一般业务出现了严重故障,我们通常根据故障的级别、业务,来指派不同的运维人员进行处理。当然不同业务形态、不同架构、不同服务可能采用的方式都不同,这个没有一个固定的模式套用。