💻 Développement

feature-engineering-guide

Techniques de feature engineering pour améliorer les modèles ML.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- feature-engineering-guide --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } feature-engineering-guide -Launch"

🚀 Déjà installé ?

claude "/feature-engineering-guide"

Ou tapez /feature-engineering-guide dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

feature engineeringfeaturestransformation de donnéesencodingnormalisationfeature selectionfeature store

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/dev-skills/feature-engineering-guide ~/.claude/skills/

Source : dev-skills/feature-engineering-guide

📖 Manuel

Feature Engineering Guide

Workflow

  1. Exploration des données — Analyser les distributions (histogrammes, boxplots), calculer les corrélations (Pearson, Spearman), quantifier les valeurs manquantes par colonne, détecter les outliers (IQR, z-score) et comprendre la sémantique métier de chaque variable.
  2. Nettoyage — Traiter les valeurs manquantes (imputation par médiane/mode/KNN/MICE selon le mécanisme de manque) ; gérer les outliers (capping, winsorisation ou suppression selon l'impact) ; corriger les types (dates, catégories, numériques) ; dédupliquer les lignes.
  3. Encoding catégoriel — Appliquer la bonne stratégie selon la cardinalité et le modèle : one-hot encoding (faible cardinalité, modèles linéaires), label encoding (arbres de décision), target encoding (haute cardinalité, attention au data leakage), ordinal encoding (catégories ordonnées), embeddings (très haute cardinalité).
  4. Features numériques — Normaliser/standardiser selon le modèle (StandardScaler, MinMaxScaler, RobustScaler) ; discrétiser en bins (qcut, cut) ; appliquer des transformations logarithmiques pour réduire la skewness ; créer des features polynomiales ou d'interaction pour les modèles linéaires.
  5. Features temporelles — Extraire les composantes calendaires (heure, jour, mois, trimestre, jour de semaine, jours fériés) ; créer des lag features (valeur à t-1, t-7, t-30) ; calculer des rolling window statistics (moyenne mobile, std, min, max) ; encoder la cyclicité (sin/cos pour heures, jours).
  6. Features textuelles — Vectoriser avec TF-IDF (bag-of-words pondéré), word embeddings (Word2Vec, GloVe, FastText), sentence embeddings (BERT, Sentence Transformers) ; extraire des statistiques textuelles (longueur, nombre de mots, ratio majuscules) ; générer des n-grams pour les modèles classiques.
  7. Feature selection — Éliminer les features redondantes via la corrélation (seuil > 0.95) ; mesurer l'importance via mutual information (non-linéaire), permutation importance, valeurs SHAP (interprétabilité) ou RFE (Recursive Feature Elimination) ; valider avec cross-validation pour éviter le surapprentissage.
  8. Feature store — Centraliser les features réutilisables dans un feature store (Feast, Tecton, Hopsworks) ; distinguer le serving online (faible latence, Redis/DynamoDB) et offline (entraînement, Parquet/BigQuery) ; versionner les feature pipelines pour la reproductibilité des expériences.

Règles