Defina RTO (tempo de recuperação) e RPO (ponto de recuperação) por sistema. Backups e replicação são a base; teste restaurações com frequência. Para sistemas críticos, considere multi-site ou failover para outra região.
RTO e RPO
- RTO: Tempo máximo aceitável de indisponibilidade (quão rápido você precisa voltar).
- RPO: Perda de dados máxima aceitável (até onde pode restaurar).
- Defina por sistema ou camada; DB crítico pode ter RTO/RPO mais apertados.
Backups e replicação
- Backups: Agendados, criptografados, armazenados fora do servidor ou em outra região. Teste restore pelo menos trimestralmente.
- Replicação: DB e às vezes estado da app replicados para um site secundário para failover rápido.
- Snapshots: Ponto no tempo rápido no mesmo storage; complemente com backups off-site para DR.
Failover e multi-site
- Failover: Troca automática ou manual para standby quando o primário falha. Exige atualização de DNS ou load balancer.
- Multi-site: Rodar ativo ou passivo em mais de uma região; aumenta custo e complexidade mas melhora resiliência.
- Runbooks: Documente passos para declarar failover, restaurar de backup e verificar. Faça simulacros.
Resumo
Defina RTO/RPO; use backups e replicação; teste restaurações. Para sistemas críticos, planeje failover ou multi-site e mantenha runbooks atualizados.




