1. Métriques : mesurer ce qui compte vraiment
Nous commençons par définir des SLI (Service Level Indicators) alignés sur l’expérience réelle de vos utilisateurs, et non sur la simple santé d’un serveur.
- Latence P95 / P99 par endpoint critique.
- Taux d’erreurs (4xx / 5xx) par type de client ou d’intégration.
- Débit de requêtes en période de pointe et en régime nominal.
- Fraîcheur des données : délai entre l’événement métier et sa prise en compte.
Ces métriques sont ensuite corrélées avec vos traces et vos logs pour comprendre l’impact concret de chaque incident sur le parcours utilisateur.