Planificación de recuperación ante desastres

Defina RTO (tiempo de recuperación) y RPO (punto de recuperación) por sistema. Backups y replicación son la base; pruebe restauraciones con regularidad. Para sistemas críticos, considere multi-sitio o failover a otra región.

RTO y RPO

RTO: Tiempo máximo aceptable de indisponibilidad (qué tan rápido debe volver).
RPO: Pérdida de datos máxima aceptable (hasta dónde puede restaurar).
Defina por sistema o capa; BD crítico puede tener RTO/RPO más estrictos.

Backups y replicación

Backups: Programados, cifrados, almacenados fuera del servidor o en otra región. Pruebe restauración al menos trimestralmente.
Replicación: BD y a veces estado de la app replicados a un sitio secundario para failover rápido.
Snapshots: Punto en el tiempo rápido en el mismo almacenamiento; complemente con backups off-site para DR.

Failover y multi-sitio

Failover: Cambio automático o manual a standby cuando falla el primario. Requiere actualización de DNS o balanceador.
Multi-sitio: Ejecutar activo o pasivo en más de una región; añade coste y complejidad pero mejora resiliencia.
Runbooks: Documente pasos para declarar failover, restaurar desde backup y verificar. Ejecute simulacros.

Resumen

Defina RTO/RPO; use backups y replicación; pruebe restauraciones. Para sistemas críticos planee failover o multi-sitio y mantenga runbooks actualizados.