Operações
Guias para operação e manutenção do Sinapse em produção
Esta seção contém guias essenciais para operar e manter o Sinapse em ambientes de produção.
Guias Operacionais
Monitoramento
Métricas, logs e observabilidade
Backup
Estratégias de backup e recuperação
Scaling
Escalabilidade horizontal e vertical
Troubleshooting
Solução de problemas comuns
Visão Geral Operacional
Métricas Chave (KPIs)
- Disponibilidade: 99.9% SLA
- Latência P95: < 200ms
- Taxa de Erro: < 0.1%
- RPS: 1000+ requests/sec
Stack de Monitoramento
Carregando diagrama...
Alertas Críticos
P1 - Crítico (Resposta: 15min)
- API down completamente
- Database connection lost
- Taxa de erro > 10%
- Latência P95 > 1s
P2 - Alto (Resposta: 1h)
- Taxa de erro > 5%
- CPU/Memory > 80%
- Disk space < 20%
- Queue backlog > 1000
P3 - Médio (Resposta: 4h)
- Taxa de erro > 1%
- Slow queries detected
- Certificate expiring < 30d
Processos Operacionais
Deploy
- Blue-Green Deployment
- Canary Releases (10% → 50% → 100%)
- Rollback automático se erros > threshold
Manutenção
- Janelas: Domingos 02:00-06:00 BRT
- Notificação: 7 dias de antecedência
- Rollback Plan: Sempre preparado
Incident Response
Carregando diagrama...
Backup e DR
Estratégia 3-2-1
- 3 cópias dos dados
- 2 tipos diferentes de mídia
- 1 cópia offsite
RPO/RTO
- RPO (Recovery Point Objective): 1 hora
- RTO (Recovery Time Objective): 4 horas
Tipos de Backup
- Full: Domingos 00:00
- Incremental: Diário 00:00
- Snapshots: A cada 6 horas
Capacity Planning
Métricas para Scaling
# HPA Configuration
metrics:
- type: Resource
resource:
name: cpu
target:
type: Utilization
averageUtilization: 70
- type: Resource
resource:
name: memory
target:
type: Utilization
averageUtilization: 80
- type: Pods
pods:
metric:
name: http_requests_per_second
target:
type: AverageValue
averageValue: "1000"Segurança Operacional
Patches de segurança aplicados mensalmente Certificados SSL renovados automaticamente Logs de auditoria retidos por 1 ano Pen-test trimestral Disaster recovery testado semestralmente Secrets rotacionados a cada 90 dias
Runbooks
Problemas Comuns
- API Timeout → Runbook #001 [Em breve]
- DB Connection Pool → Runbook #002 [Em breve]
- High Memory Usage → Runbook #003 [Em breve]
- Queue Backlog → Runbook #004 [Em breve]
Comandos Úteis
# Status dos pods
kubectl get pods -n sinapse
# Logs em tempo real
kubectl logs -f deployment/sinapse-api -n sinapse
# Métricas do banco
kubectl exec -it postgres-0 -- psql -U sinapse -c "SELECT * FROM pg_stat_activity;"
# Cache status
kubectl exec -it redis-0 -- redis-cli INFO stats
# Force restart
kubectl rollout restart deployment/sinapse-api -n sinapseImportante: Sempre siga o processo de Change Management para mudanças em produção!
Continue com os guias específicos através dos cards acima.