De la requête utilisateur à la base de données, chaque événement est corrélé via un trace-id. Dashboards, alertes et runbooks vous aident à réagir vite et à prévenir les incidents.
Événements structurés (JSON), niveaux (info/warn/error), champs clés (trace-id, user-id, route).
Compteurs, jauges, histogrammes (latence P95/P99), taux d’erreur, saturation et capacité.
Contexte distribué, spans par service, propagation du trace-id, timings de bout-en-bout.
timestamp, level, service, trace_id, span_idEnrichissement automatique côté middleware/adaptateurs.
Collecte côté agent, parsing, indexation par service/env, règles de rétention et compression.
W3C Trace Context, injection/extraction d’en-têtes, liens parent/enfant, spans pour IO lents.
Chemins critiques, ventilations par service, comparaison avant/après déploiement (canary).
Disponibilité, latence P95, taux d’erreur, fraîcheur des données.
Objectifs par service, tolérance d’incident, priorisation des correctifs.
Saturation CPU/mémoire, file d’attente, pics saisonniers, autoscaling.
Vue exécutive (SLO), vue run (service health), vue dev (traces lents, erreurs récentes).
Seuils dynamiques, regroupement d’incidents, routes d’alerte (jour/nuit), on-call & escalade.
SDKs unifiés pour logs/metrics/traces, collector central, export vers vos outils préférés.
Moins de vendor lock-in, plus de portabilité.
Politiques par type de donnée, anonymisation, cycle chaud→tiède→froid.
Accès par rôle, chiffrement au repos/en transit, journalisation d’accès.
Minimisation, masquage PII, localisation des données, clauses de sous-traitance.
Atelier 1 journée : design des SLI/SLO, pipeline OpenTelemetry, dashboards et alertes actionnables. Repartez avec une observabilité opérationnelle.