Planejamento de recuperação de desastres

Defina RTO (tempo de recuperação) e RPO (ponto de recuperação) por sistema. Backups e replicação são a base; teste restaurações com frequência. Para sistemas críticos, considere multi-site ou failover para outra região.

RTO e RPO

RTO: Tempo máximo aceitável de indisponibilidade (quão rápido você precisa voltar).
RPO: Perda de dados máxima aceitável (até onde pode restaurar).
Defina por sistema ou camada; DB crítico pode ter RTO/RPO mais apertados.

Backups e replicação

Backups: Agendados, criptografados, armazenados fora do servidor ou em outra região. Teste restore pelo menos trimestralmente.
Replicação: DB e às vezes estado da app replicados para um site secundário para failover rápido.
Snapshots: Ponto no tempo rápido no mesmo storage; complemente com backups off-site para DR.

Failover e multi-site

Failover: Troca automática ou manual para standby quando o primário falha. Exige atualização de DNS ou load balancer.
Multi-site: Rodar ativo ou passivo em mais de uma região; aumenta custo e complexidade mas melhora resiliência.
Runbooks: Documente passos para declarar failover, restaurar de backup e verificar. Faça simulacros.

Resumo

Defina RTO/RPO; use backups e replicação; teste restaurações. Para sistemas críticos, planeje failover ou multi-site e mantenha runbooks atualizados.