Monitorar os serviços em tempo real, através de ferramentas, identificando e reagindo rapidamente via procedimentos operacionais a quaisquer anomalias ou falhas;
Analisar os alertas gerados pelas ferramentas de monitoramento e tomar as ações necessárias para resolver através de procedimentos ou escalar os incidentes;
Atuar na resolução de incidentes, acionando times especialistas multidisciplinares visando garantir o devido tratamento da ocorrência e garantir a rápida recuperação dos serviços;
Buscar colaborar com equipes de desenvolvimento, infraestrutura e dados para garantir a rápida resolução dos problemas;
Analisar painéis de controle (dashboards) e relatórios de desempenho, garantindo a visibilidade dos principais indicadores de performance (KPIs);
Analisar e contribuir para a melhoria continua nas práticas de observabilidade, incluindo o uso de logs, métricas e traces;
Participar na definição e aprimoramento dos processos de incidentes e gestão de problemas;
Propor melhorias contínuas nos processos e ferramentas de monitoramento para aumentar a eficiência e reduzir o tempo de resposta;
Garantir a conformidade com as regulamentações, políticas e procedimentos do cliente;
Analisar dados de monitoramento para identificar e diagnosticar problemas, propondo soluções eficazes e rápidas;
Analisar e desenvolver senso crítico para métricas e alertas, buscando a otimização contribuir de forma contínua com a eficiência dos processos e a redução do tempo de detecção e resolução de problemas.
Lakera
SynergisticIT
Coinbase
Danaher Corporation
The Hershey Company