Logo

Operações

Guias para operação e manutenção do Sinapse em produção

Esta seção contém guias essenciais para operar e manter o Sinapse em ambientes de produção.

Guias Operacionais

Visão Geral Operacional

Métricas Chave (KPIs)

  • Disponibilidade: 99.9% SLA
  • Latência P95: < 200ms
  • Taxa de Erro: < 0.1%
  • RPS: 1000+ requests/sec

Stack de Monitoramento

Carregando diagrama...

Alertas Críticos

P1 - Crítico (Resposta: 15min)

  • API down completamente
  • Database connection lost
  • Taxa de erro > 10%
  • Latência P95 > 1s

P2 - Alto (Resposta: 1h)

  • Taxa de erro > 5%
  • CPU/Memory > 80%
  • Disk space < 20%
  • Queue backlog > 1000

P3 - Médio (Resposta: 4h)

  • Taxa de erro > 1%
  • Slow queries detected
  • Certificate expiring < 30d

Processos Operacionais

Deploy

  1. Blue-Green Deployment
  2. Canary Releases (10% → 50% → 100%)
  3. Rollback automático se erros > threshold

Manutenção

  • Janelas: Domingos 02:00-06:00 BRT
  • Notificação: 7 dias de antecedência
  • Rollback Plan: Sempre preparado

Incident Response

Carregando diagrama...

Backup e DR

Estratégia 3-2-1

  • 3 cópias dos dados
  • 2 tipos diferentes de mídia
  • 1 cópia offsite

RPO/RTO

  • RPO (Recovery Point Objective): 1 hora
  • RTO (Recovery Time Objective): 4 horas

Tipos de Backup

  • Full: Domingos 00:00
  • Incremental: Diário 00:00
  • Snapshots: A cada 6 horas

Capacity Planning

Métricas para Scaling

# HPA Configuration
metrics:
- type: Resource
  resource:
    name: cpu
    target:
      type: Utilization
      averageUtilization: 70
- type: Resource
  resource:
    name: memory
    target:
      type: Utilization
      averageUtilization: 80
- type: Pods
  pods:
    metric:
      name: http_requests_per_second
    target:
      type: AverageValue
      averageValue: "1000"

Segurança Operacional

Patches de segurança aplicados mensalmente Certificados SSL renovados automaticamente Logs de auditoria retidos por 1 ano Pen-test trimestral Disaster recovery testado semestralmente Secrets rotacionados a cada 90 dias

Runbooks

Problemas Comuns

  1. API Timeout → Runbook #001 [Em breve]
  2. DB Connection Pool → Runbook #002 [Em breve]
  3. High Memory Usage → Runbook #003 [Em breve]
  4. Queue Backlog → Runbook #004 [Em breve]

Comandos Úteis

# Status dos pods
kubectl get pods -n sinapse

# Logs em tempo real
kubectl logs -f deployment/sinapse-api -n sinapse

# Métricas do banco
kubectl exec -it postgres-0 -- psql -U sinapse -c "SELECT * FROM pg_stat_activity;"

# Cache status
kubectl exec -it redis-0 -- redis-cli INFO stats

# Force restart
kubectl rollout restart deployment/sinapse-api -n sinapse

Importante: Sempre siga o processo de Change Management para mudanças em produção!


Continue com os guias específicos através dos cards acima.

On this page