💻 Développement

feature-engineering-guide

Techniques de feature engineering pour améliorer les modèles ML.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux

curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- feature-engineering-guide --launch

Windows (PowerShell)

iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } feature-engineering-guide -Launch"

🚀 Déjà installé ?

claude "/feature-engineering-guide"

Ou tapez /feature-engineering-guide dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

feature engineeringfeaturestransformation de donnéesencodingnormalisationfeature selectionfeature store

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/dev-skills/feature-engineering-guide ~/.claude/skills/

Source : dev-skills/feature-engineering-guide

📖 Manuel

Feature Engineering Guide

Workflow

Exploration des données — Analyser les distributions (histogrammes, boxplots), calculer les corrélations (Pearson, Spearman), quantifier les valeurs manquantes par colonne, détecter les outliers (IQR, z-score) et comprendre la sémantique métier de chaque variable.
Nettoyage — Traiter les valeurs manquantes (imputation par médiane/mode/KNN/MICE selon le mécanisme de manque) ; gérer les outliers (capping, winsorisation ou suppression selon l'impact) ; corriger les types (dates, catégories, numériques) ; dédupliquer les lignes.
Encoding catégoriel — Appliquer la bonne stratégie selon la cardinalité et le modèle : one-hot encoding (faible cardinalité, modèles linéaires), label encoding (arbres de décision), target encoding (haute cardinalité, attention au data leakage), ordinal encoding (catégories ordonnées), embeddings (très haute cardinalité).
Features numériques — Normaliser/standardiser selon le modèle (StandardScaler, MinMaxScaler, RobustScaler) ; discrétiser en bins (qcut, cut) ; appliquer des transformations logarithmiques pour réduire la skewness ; créer des features polynomiales ou d'interaction pour les modèles linéaires.
Features temporelles — Extraire les composantes calendaires (heure, jour, mois, trimestre, jour de semaine, jours fériés) ; créer des lag features (valeur à t-1, t-7, t-30) ; calculer des rolling window statistics (moyenne mobile, std, min, max) ; encoder la cyclicité (sin/cos pour heures, jours).
Features textuelles — Vectoriser avec TF-IDF (bag-of-words pondéré), word embeddings (Word2Vec, GloVe, FastText), sentence embeddings (BERT, Sentence Transformers) ; extraire des statistiques textuelles (longueur, nombre de mots, ratio majuscules) ; générer des n-grams pour les modèles classiques.
Feature selection — Éliminer les features redondantes via la corrélation (seuil > 0.95) ; mesurer l'importance via mutual information (non-linéaire), permutation importance, valeurs SHAP (interprétabilité) ou RFE (Recursive Feature Elimination) ; valider avec cross-validation pour éviter le surapprentissage.
Feature store — Centraliser les features réutilisables dans un feature store (Feast, Tecton, Hopsworks) ; distinguer le serving online (faible latence, Redis/DynamoDB) et offline (entraînement, Parquet/BigQuery) ; versionner les feature pipelines pour la reproductibilité des expériences.

Règles

Fournis des exemples de code Python concrets (scikit-learn Pipeline, pandas, Feature-engine) pour chaque transformation mentionnée.
Préviens systématiquement contre le data leakage : toute transformation apprise (encoders, scalers) doit être fit sur le train set uniquement.
Priorise la qualité des features sur la quantité : 10 features bien construites surpassent souvent 100 features bruitées.
Adapte les techniques au type de modèle : les arbres de décision (XGBoost, LightGBM) nécessitent moins de preprocessing que les modèles linéaires ou les réseaux de neurones.
Pense toujours à la reproductibilité : encapsuler les transformations dans des pipelines scikit-learn ou des feature pipelines versionnés.