Este artículo fue publicado originalmente en el blog de APC por Jeff Chabot.
Los cortes de energía, comunmente conocidos como apagones, se han vuelto más frecuentes y severos en los últimos años. Mientras escribo esto, comunidades en Texas y en todo el sur de EE. UU. están recuperándose después del mayor apagón forzado y falla en la red eléctrica de la historia.
Como profesional de TI, es posible que conozca bien las formas de preparar y proteger los equipos de TI (fuentes de alimentación ininterrumpida, generadores, etc.) en caso de un apagón o corte de energía. (Si necesita un repaso, esta publicación de blog es un buen lugar para comenzar).
Pero, ¿qué pasa cuando vuelve la energía? ¿Cuáles son las preguntas que debe hacer para evaluar su infraestructura de TI durante la etapa de recuperación?
En esta publicación, describo cuatro preguntas que debe hacer al evaluar su equipo de TI después de un corte de energía.
Lista de verificación de recuperación de equipos de TI
1. ¿Planeé en consecuencia a un apagón?
Incluso la instalación más avanzada no puede garantizar el 100% de disponibilidad de su infraestructura de TI: siempre existe el riesgo de una interrupción.
Una de las mejores maneras de garantizar una respuesta rápida y eficaz cuando se produce un apagón es contar con un plan de emergencia.
¿Ningún plan?
Si no tenía un plan establecido, es hora de crear uno. Este documento: «Cómo prepararse y responder a las emergencias del centro de datos» es un recurso útil. Incluye información detallada sobre los elementos esenciales que debe incluir en su plan, considerando los procedimientos de respuesta ante emergencias, simulacros de emergencia e información sobre gestión de incidentes.
Tenga en cuenta que este documento es específico para los centros de datos, pero puede aplicarlo a cualquier instalación con infraestructura de TI crítica.
¿Tiene un plan?
Genial. Revise su plan de emergencia y determine si satisface sus necesidades. La pregunta más importante a responder es: ¿Funcionó todo según lo previsto? Si todo funcionó según lo planeado, lo que significa que no hubo daños a los activos/instalaciones o pérdida de datos, las personas adecuadas se movilizaron rápidamente y no haría nada diferente, entonces felicitaciones para usted.
Pero debido a la naturaleza de los cortes de energía, las respuestas de emergencia no siempre son perfectas. Si notó algunas áreas de mejora, profundice más en el problema pasando a la siguiente pregunta.
2. ¿Funcionó el sistema implementado como se esperaba?
Es probable que su plan de emergencia incluya muchos elementos para mantener protegida su infraestructura de TI durante una interrupción. Por ejemplo, puede detallar qué hacer durante una falla de un servicio público, o de un transformador, o cómo solucionar problemas de generadores de reserva y sistemas de alimentación ininterrumpida.
Debido a que ha determinado que había áreas para mejorar con su plan de emergencia, vaya a la raíz de los problemas. Los problemas comunes que afectan la infraestructura de TI, durante y después de una interrupción, involucran circuitos, energía de respaldo, enfriamiento y software, así que comience allí.
- ¿Se protegieron los circuitos y dispositivos correctos?
- ¿Fue adecuado el tiempo de funcionamiento del sistema de alimentación ininterrumpible?
- ¿Se encendieron mis generadores de respaldo?
- ¿Mi software apagó de forma segura los sistemas críticos antes de que el sistema de alimentación ininterrumpida se quedara sin batería?
- ¿Todos los procedimientos de mantenimiento preventivo de los equipos (sistema de alimentación ininterrumpida, generadores, etc.) estaban actualizados?
Un «no» a cualquiera de estas preguntas justifica una inmersión más profunda en el problema.
Por ejemplo, si la fuente de alimentación ininterrumpida no funcionó lo suficiente, es posible que deba trabajar con un proveedor de soluciones de TI para reemplazar las baterías viejas, o cambiar su gabinete de batería por uno más grande para aumentar el tiempo de ejecución.
3. ¿Hubo daños por un corte de energía?
Los cortes de energía a menudo son el resultado de desastres naturales. Durante estos eventos, los fuertes vientos, el agua y el fuego, junto con cambios ambientales aparentemente menores, como una fluctuación de temperatura, pueden dañar el equipo de TI y causar tiempo de inactividad.
En esta etapa del proceso de recuperación, identifique la ubicación y el alcance del daño. Y a medida que usted, o un proveedor de servicios, corrijan roturas o problemas, también recuerde abordar la causa raíz.
Digamos que un servidor se dañó debido a un pico de voltaje. En ese caso, es posible que desee buscar soluciones mejoradas de protección contra sobretensiones.
4. ¿Qué haría diferente la próxima vez?
Concluya su lista de verificación midiendo su sentimiento general sobre la respuesta al corte de energía.
Si se sintió cómodo con su plan y ejecución, anótelo y detalle las lecciones aprendidas. Así podrá tener la seguridad de que está listo para la próxima interrupción.
En caso de que observe áreas evidentes de mejora, es hora de revisar su estrategia de corte de energía.
A medida que elabora un plan renovado, considere tanto los errores claros como los casi inaccesibles. Y una vez completada la nueva versión, realice simulacros de emergencia para evaluar y ajustar el proceso.
Soporte adicional para la infraestructura de TI
Los cortes de energía son un hecho. Pero una recuperación rápida no lo es. Seguir la lista de verificación de cuatro pasos descrita en este blog lo ayudará a evaluar su equipo y su plan, y le brindará orientación sobre cómo prepararse mejor para la próxima interrupción.
¿Necesita apoyo adicional? Podemos ayudar.
Haga clic aquí para explorar más recursos sobre cortes de energía.
Este informe de NEMA describe los estándares para evaluar, reemplazar y/o reacondicionar equipos eléctricos dañados por el agua.
Si tiene preguntas específicas sobre su equipo APC™ o Schneider Electric™, comuníquese con el Centro de atención al cliente: 1-800-555-2725 o deje un comentario y le contactaremos.
Añadir comentario