🧪 Tests

chaos-engineering-guide

Principes et outils de chaos engineering pour tester la résilience des systèmes distribués, incluant fault injection et game days.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- chaos-engineering-guide --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } chaos-engineering-guide -Launch"

🚀 Déjà installé ?

claude "/chaos-engineering-guide"

Ou tapez /chaos-engineering-guide dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

chaos engineeringChaos Monkeyfault injectionrésilienceLitmus

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/testing-skills/chaos-engineering-guide ~/.claude/skills/

Source : testing-skills/chaos-engineering-guide

📖 Manuel

Chaos Engineering Guide

Workflow

  1. Définir l'état stable du système — Identifier les métriques clés qui caractérisent le fonctionnement normal du système (latence, taux d'erreur, throughput, disponibilité). Établir les seuils de base (baseline) à partir des données de monitoring existantes.
  2. Formuler des hypothèses — Énoncer des hypothèses sur le comportement attendu du système face à des perturbations spécifiques. Exemple : "Si un noeud tombe, le load balancer redirige le trafic en moins de 30 secondes sans erreur utilisateur."
  3. Sélectionner les outils de chaos — Choisir les outils adaptés à l'infrastructure : Chaos Monkey (Netflix/AWS), Litmus (Kubernetes), Gremlin (plateforme managée), Toxiproxy (réseau). Installer et configurer l'outil dans l'environnement cible.
  4. Concevoir les expériences de chaos — Définir les types de pannes à injecter : arrêt de processus, latence réseau, saturation CPU/mémoire, perte de paquets, indisponibilité de dépendance. Commencer par des perturbations limitées en scope (blast radius).
  5. Exécuter en environnement contrôlé — Lancer les expériences d'abord en staging, puis progressivement en production. Mettre en place un bouton d'arrêt d'urgence (kill switch). Surveiller les métriques en temps réel pendant l'expérience.
  6. Organiser des game days — Planifier des sessions de chaos en équipe avec des scénarios de panne réalistes. Impliquer les équipes Dev, Ops et SRE. Documenter les observations, les temps de détection et de récupération.
  7. Analyser les résultats et corriger — Comparer le comportement observé aux hypothèses. Identifier les points de défaillance, les cascades d'erreurs et les gaps dans le monitoring. Créer des tickets de correction priorisés.
  8. Automatiser et itérer — Intégrer les expériences de chaos validées dans le pipeline CI/CD. Augmenter progressivement la complexité et le blast radius. Construire un catalogue d'expériences reproductibles.

Règles