🧠 AI / ML

dataset-builder

Construction et curation de datasets pour l'entraînement ML (nettoyage, augmentation, annotation, split)

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- dataset-builder --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } dataset-builder -Launch"

🚀 Déjà installé ?

claude "/dataset-builder"

Ou tapez /dataset-builder dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/ai-ml-skills/dataset-builder ~/.claude/skills/

Source : ai-ml-skills/dataset-builder

📖 Manuel

Dataset Builder

Guide complet pour la construction, la curation et la gestion de datasets de qualité pour l'entraînement de modèles de machine learning.

Workflow

1. Définir les besoins du dataset

2. Collecter les données brutes

3. Nettoyer et prétraiter les données

4. Annoter et labelliser les données

5. Augmenter les données si nécessaire

6. Créer les splits train/validation/test

7. Valider et documenter le dataset

8. Maintenir et itérer le dataset

Rules

  1. La qualité prime sur la quantité : Un petit dataset propre et bien annoté produira de meilleurs résultats qu'un grand dataset bruité. Investir dans le nettoyage et l'annotation de qualité est toujours prioritaire.
  1. Interdiction absolue de fuite de données : Les données de test ne doivent jamais influencer l'entraînement, ni directement ni indirectement. Vérifier systématiquement l'absence de data leakage entre les splits, y compris via les transformations et l'augmentation.
  1. Documenter la provenance et les transformations : Chaque étape de construction du dataset doit être traçable et reproductible. Sans documentation, le dataset perd sa valeur scientifique et rend le débogage impossible.
  1. Évaluer et corriger les biais : Analyser systématiquement les biais de représentation dans le dataset (genre, ethnie, géographie, etc.). Un modèle entraîné sur des données biaisées reproduira et amplifiera ces biais en production.
  1. Versionner le dataset comme du code : Chaque version du dataset doit être identifiable et récupérable. Utiliser DVC, Git LFS ou un système équivalent pour garantir la reproductibilité des expériences.