EIVUS

Planejamento de recuperação de desastres

RTO, RPO, backups e failover. Monte um plano de DR alinhado ao negócio.

Voltar ao blog

Defina RTO (tempo de recuperação) e RPO (ponto de recuperação) por sistema. Backups e replicação são a base; teste restaurações com frequência. Para sistemas críticos, considere multi-site ou failover para outra região.

RTO e RPO

  • RTO: Tempo máximo aceitável de indisponibilidade (quão rápido você precisa voltar).
  • RPO: Perda de dados máxima aceitável (até onde pode restaurar).
  • Defina por sistema ou camada; DB crítico pode ter RTO/RPO mais apertados.

Backups e replicação

  • Backups: Agendados, criptografados, armazenados fora do servidor ou em outra região. Teste restore pelo menos trimestralmente.
  • Replicação: DB e às vezes estado da app replicados para um site secundário para failover rápido.
  • Snapshots: Ponto no tempo rápido no mesmo storage; complemente com backups off-site para DR.

Failover e multi-site

  • Failover: Troca automática ou manual para standby quando o primário falha. Exige atualização de DNS ou load balancer.
  • Multi-site: Rodar ativo ou passivo em mais de uma região; aumenta custo e complexidade mas melhora resiliência.
  • Runbooks: Documente passos para declarar failover, restaurar de backup e verificar. Faça simulacros.

Resumo

Defina RTO/RPO; use backups e replicação; teste restaurações. Para sistemas críticos, planeje failover ou multi-site e mantenha runbooks atualizados.

Clientes que confiam na gente