Métricas SRE
Contenido
SRE key metrics
-
SLO (Service Level Objetive)
- Objetivos establecidos para cada servicio, no define el equipo técnico
- Busca satisfacer la Reliability (fiabilidad) para el cliente. Lo ideal es que lo ponga el Product Owner, que es quien conoce el producto y como debiera funcionar. Ej: 99% de la veces el servicio funciona.
- Las más comunes son de los servicios que son del tipo Request y Response:
- Request-driven: Disponibilidad, Latencia, Calidad
-
SLI (Service Level Indicator)
- Métrica que usamos para medir SLO (qué? , cómo?, en donde?)
-
SLA (Service Level Agreement)
- Acuerdo establecido sobre la disponibilidad del servicio.
- Métrica orientada al usuario. Que pasa si el SLA no se cumple, ej: te doy plata, te doy un servicio gratis.
-
Error Budget = 1-SLO
- Nuestro permitido para romper el produccion
Cómo definirlas con el equipo:
- Identificamos la metrica que define al SLO (SLI)
- Seteamos el SLO. (100% esta mal)
- Definimos las ventanas de tiempo.
- Calculamos el Error Budget.
- Usamos el Error Budget.
Ej:
SLI: Response no 500 en 1 mes -> 99.9% SLO: Ratio no 500 && Response > 300ms en el LB (Load Balancer) Error Budget: 1 - SLO