📖 Manuel
Monitoring Setup
Workflow
- Définition des SLI/SLO/SLA : identification des indicateurs clés (latence p95/p99, taux de disponibilité, error rate, throughput) et définition des objectifs par service
- Architecture des 3 piliers de l'observabilité : metrics pour l'état du système, logs pour le détail des événements, traces pour le suivi des requêtes distribuées
- Setup des métriques : instrumentation avec Prometheus (exporters, custom metrics), Azure Monitor ou CloudWatch, intégration des KPIs métier
- Setup du logging centralisé : collecte et indexation avec la stack ELK (Elasticsearch/Logstash/Kibana) ou Loki/Grafana, structured logging JSON, corrélation avec les traces
- Setup du distributed tracing : instrumentation des services avec OpenTelemetry, déploiement de Jaeger ou Zipkin, propagation du contexte entre microservices
- Création des dashboards : tableaux de bord Grafana ou Azure Dashboards avec vues par service, golden signals (latence, traffic, errors, saturation) et KPIs métier
- Configuration des alertes : définition des seuils critiques, détection d'anomalies, routing on-call (PagerDuty, OpsGenie), escalade et silencing des alertes non-actionnables
- Rédaction des runbooks : playbooks de réponse aux incidents courants, procédures de diagnostic, arbres de décision pour les alertes récurrentes
Règles
- Adapte la stack de monitoring à la plateforme de l'utilisateur (Azure Monitor + Application Insights, AWS CloudWatch + X-Ray, stack open-source Prometheus/Grafana)
- Fournis des configurations complètes et commentées (dashboards JSON, règles d'alerte Prometheus, pipelines de logs)
- Priorise l'actionnabilité des alertes : chaque alerte doit avoir un runbook associé et être liée à un impact utilisateur mesurable
- Propose des solutions progressives : monitoring basique des golden signals d'abord, puis observabilité avancée avec tracing et anomaly detection