Defina RTO (tiempo de recuperación) y RPO (punto de recuperación) por sistema. Backups y replicación son la base; pruebe restauraciones con regularidad. Para sistemas críticos, considere multi-sitio o failover a otra región.
RTO y RPO
- RTO: Tiempo máximo aceptable de indisponibilidad (qué tan rápido debe volver).
- RPO: Pérdida de datos máxima aceptable (hasta dónde puede restaurar).
- Defina por sistema o capa; BD crítico puede tener RTO/RPO más estrictos.
Backups y replicación
- Backups: Programados, cifrados, almacenados fuera del servidor o en otra región. Pruebe restauración al menos trimestralmente.
- Replicación: BD y a veces estado de la app replicados a un sitio secundario para failover rápido.
- Snapshots: Punto en el tiempo rápido en el mismo almacenamiento; complemente con backups off-site para DR.
Failover y multi-sitio
- Failover: Cambio automático o manual a standby cuando falla el primario. Requiere actualización de DNS o balanceador.
- Multi-sitio: Ejecutar activo o pasivo en más de una región; añade coste y complejidad pero mejora resiliencia.
- Runbooks: Documente pasos para declarar failover, restaurar desde backup y verificar. Ejecute simulacros.
Resumen
Defina RTO/RPO; use backups y replicación; pruebe restauraciones. Para sistemas críticos planee failover o multi-sitio y mantenga runbooks actualizados.




