Backup e recuperação de desastres em Kubernetes

Faça backup do etcd (estado do cluster) e dos dados em PVC. Use Velero ou similar para backups no nível da app. Teste restore em cluster separado. Documente a ordem de restauração (etcd, depois PVs, depois workloads).

O que fazer backup

etcd: Contém o estado do cluster (namespaces, deployments, services, secrets, etc.). Sem isso você não restaura a topologia do cluster. Faça snapshot do etcd com frequência (muitos K8s gerenciados fazem isso; para self-managed, use etcdctl ou Velero).
Volumes persistentes (PV/PVC): Dados da aplicação ficam aqui. Faça backup conforme o driver de storage (snapshot, export para object storage ou Velero). Garanta consistência.
Manifests e config: GitOps (Git como fonte da verdade) ou YAML exportado. Velero pode fazer backup de recursos; ter manifests no Git dá uma segunda forma de recriar objetos.

Velero e backup no nível da app

Velero: Faz backup de recursos do cluster e opcionalmente dados de PV (via restic ou CSI snapshot). Agende backups; armazene em object storage (S3-compatível). Restaure no mesmo ou em outro cluster.
Ordem de restore: Normalmente restaure etcd (ou estado do cluster) primeiro se reconstruir um cluster, depois PVs, depois workloads. Com Velero, um restore completo pode fazer recursos e volumes juntos; teste a ordem em um simulacro.
DR: Tenha um runbook: restaurar etcd (se aplicável), PVs, workloads. Teste em cluster separado periodicamente.

Resumo

Faça backup do etcd e dos dados em PVC; use Velero para backup de app e volumes. Teste restore em cluster separado; documente a ordem. Faça simulacros de DR.