🧠 AI / ML

model-optimization-guide

Optimisation de modèles ML pour l'inférence (quantization, pruning, distillation, ONNX)

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- model-optimization-guide --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } model-optimization-guide -Launch"

🚀 Déjà installé ?

claude "/model-optimization-guide"

Ou tapez /model-optimization-guide dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/ai-ml-skills/model-optimization-guide ~/.claude/skills/

Source : ai-ml-skills/model-optimization-guide

📖 Manuel

Model Optimization Guide

Guide complet pour l'optimisation de modèles de machine learning en vue du déploiement : réduction de taille, accélération de l'inférence et préservation des performances.

Workflow

1. Profiler le modèle et établir les objectifs

2. Appliquer la quantification

3. Implémenter le pruning (élagage)

4. Mettre en oeuvre la distillation de connaissances

5. Exporter et optimiser avec ONNX

6. Appliquer les optimisations spécifiques au hardware

7. Valider et benchmarker le modèle optimisé

Rules

  1. Mesurer avant d'optimiser : Toujours profiler le modèle pour identifier les vrais goulots d'étranglement. Optimiser sans mesurer conduit à des efforts inutiles sur des composants qui ne sont pas limitants.
  1. Optimiser de manière incrémentale : Appliquer une technique à la fois et mesurer l'impact. Combiner quantification, pruning et distillation simultanément rend impossible l'identification de la source d'une dégradation.
  1. Valider numériquement chaque étape : Après chaque transformation (export ONNX, quantification, pruning), comparer les sorties du modèle optimisé avec l'original sur un jeu de référence. Des écarts silencieux peuvent apparaître lors des conversions.
  1. Adapter l'optimisation au hardware cible : Une optimisation performante sur GPU peut être contre-productive sur CPU. Toujours benchmarker sur le hardware réel de déploiement, pas uniquement sur la machine de développement.
  1. Documenter les compromis : Chaque optimisation implique un trade-off entre taille, vitesse et qualité. Documenter précisément ces compromis pour permettre une prise de décision éclairée lors du déploiement.