🤖 Agents IA

agent-prompt-tuner

Optimisation systématique des prompts d'agents pour améliorer performance et fiabilité.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- agent-prompt-tuner --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } agent-prompt-tuner -Launch"

🚀 Déjà installé ?

claude "/agent-prompt-tuner"

Ou tapez /agent-prompt-tuner dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

optimiser prompt agentagent promptaméliorer mon agentprompt tuningagent accuracyagent qui se trompecalibrer agentaffiner prompt

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/agent-skills/prompt-tuner ~/.claude/skills/

Source : agent-skills/prompt-tuner

📖 Manuel

Agent Prompt Tuner

Quand utiliser ce skill

Utilise ce skill lorsqu'un agent produit des résultats incorrects, incohérents ou sous-optimaux et que tu dois diagnostiquer et corriger ses prompts. Il s'applique aussi lors de la création d'un nouvel agent pour structurer ses instructions dès le départ, ou lors d'une migration vers un nouveau modèle LLM nécessitant une recalibration.

Workflow

  1. Mesure de la baseline — Définir et mesurer les métriques de performance actuelles avant toute modification : taux de succès par type de tâche, fréquence des erreurs, coût moyen par requête, latence P50/P95. Constituer un dataset d'évaluation de 50 à 200 exemples représentatifs. Cette baseline est le point de référence absolu pour toute amélioration.
  1. Analyse des erreurs — Classifier les échecs observés en catégories distinctes : erreurs de formatage (sortie mal structurée), erreurs de raisonnement (logique incorrecte), hallucinations (faits inventés), mauvais usage des outils (appel au mauvais outil ou mauvais arguments), hors-domaine (refus inapproprié ou réponse hors-scope). Quantifier chaque catégorie pour prioriser les corrections.
  1. Structure du system prompt — Revoir l'architecture du system prompt selon l'ordre optimal : définition du rôle et de la persona, liste des capacités disponibles, contraintes et interdictions explicites, format de sortie attendu avec exemples, gestion des cas d'erreur. Chaque section doit être délimitée clairement. Supprimer les instructions redondantes ou contradictoires.
  1. Ingénierie des few-shot examples — Sélectionner les exemples les plus représentatifs et diversifiés : couvrir les variations d'input, les cas difficiles et les edge cases critiques. Format recommandé : 3 à 8 exemples pour les tâches complexes, 1 à 3 pour les tâches simples. Chaque exemple doit illustrer exactement le comportement désiré, incluant la structure de la réponse et le niveau de détail attendu.
  1. Chain-of-thought tuning — Décider quand imposer un raisonnement explicite (scratchpad, étapes numérotées) vs réponse directe. Pour les tâches de raisonnement multi-étapes : forcer <thinking>...</thinking> avant la réponse finale. Pour les tâches de classification simples : réponse directe plus efficace. Calibrer la profondeur du raisonnement selon la complexité de la tâche.
  1. Optimisation des descriptions d'outils — Réécrire chaque description d'outil pour maximiser la clarté : nom explicite, description en une phrase, paramètres documentés avec types et exemples, indication explicite des cas d'usage et de non-usage. Exemple : "Utilise search_web UNIQUEMENT pour des informations récentes ou factuelles externes. N'utilise PAS pour des calculs ou des tâches de transformation de données."
  1. Guardrails dans le prompt — Intégrer des instructions de validation et de récupération d'erreur directement dans le prompt : "Si tu n'es pas sûr, réponds UNCERTAIN plutôt que d'inventer", "Vérifie toujours le format JSON avant de retourner", "En cas d'outil non disponible, explique ce que tu aurais fait". Définir le comportement attendu pour chaque classe d'erreur anticipée.
  1. A/B testing systématique — Créer des variantes de prompt (généralement 2 à 4) et les évaluer sur le dataset de référence. Mesurer la significativité statistique des différences (test de Student, intervalle de confiance à 95 %). Ne déployer une variante que si l'amélioration est statistiquement significative ET si le gain justifie l'éventuelle augmentation de coût ou latence.
  1. Versionnage des prompts — Gérer les prompts comme du code : commits git avec messages explicatifs, branches pour les expérimentations, tags pour les versions stables. Maintenir un CHANGELOG.md des prompts avec : date, auteur, modification, métriques avant/après. Permettre le rollback immédiat vers n'importe quelle version précédente en cas de régression.
  1. Amélioration continue — Mettre en place une boucle de feedback : collecter les échecs en production via logging, les analyser hebdomadairement, identifier les patterns, mettre à jour le dataset d'évaluation et relancer un cycle d'optimisation. Planifier des réévaluations périodiques lors des mises à jour de modèles LLM ou des changements de cas d'usage.

Règles