Métricas SRE

Contenido

SRE key metrics

  • SLO (Service Level Objetive)

    • Objetivos establecidos para cada servicio, no define el equipo técnico
    • Busca satisfacer la Reliability (fiabilidad) para el cliente. Lo ideal es que lo ponga el Product Owner, que es quien conoce el producto y como debiera funcionar. Ej: 99% de la veces el servicio funciona.
    • Las más comunes son de los servicios que son del tipo Request y Response:
      • Request-driven: Disponibilidad, Latencia, Calidad
  • SLI (Service Level Indicator)

    • Métrica que usamos para medir SLO (qué? , cómo?, en donde?)
  • SLA (Service Level Agreement)

    • Acuerdo establecido sobre la disponibilidad del servicio.
    • Métrica orientada al usuario. Que pasa si el SLA no se cumple, ej: te doy plata, te doy un servicio gratis.
  • Error Budget = 1-SLO

    • Nuestro permitido para romper el produccion

Cómo definirlas con el equipo:

  1. Identificamos la metrica que define al SLO (SLI)
  2. Seteamos el SLO. (100% esta mal)
  3. Definimos las ventanas de tiempo.
  4. Calculamos el Error Budget.
  5. Usamos el Error Budget.

Ej:

SLI: Response no 500 en 1 mes -> 99.9% SLO: Ratio no 500 && Response > 300ms en el LB (Load Balancer) Error Budget: 1 - SLO

0%