💻 Développement

data-validation-helper

Validation et qualité des données dans les pipelines.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux

curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- data-validation-helper --launch

Windows (PowerShell)

iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } data-validation-helper -Launch"

🚀 Déjà installé ?

claude "/data-validation-helper"

Ou tapez /data-validation-helper dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

data qualityvalidation des donnéesdata contractschema validationGreat Expectationsdonnées incorrectesdata testing

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/dev-skills/data-validation-helper ~/.claude/skills/

Source : dev-skills/data-validation-helper

📖 Manuel

Data Validation Helper

Workflow

Définition des attentes — Spécifier pour chaque colonne les règles métier : type attendu, plage de valeurs (min/max), format (regex, date pattern), contrainte de nullabilité, unicité, valeurs autorisées (enum), et cardinalité ; documenter les règles dans un format exploitable (YAML, JSON, code).
Schema validation — Valider la structure des données à l'entrée du pipeline avec JSON Schema (APIs), Avro/Protobuf (streaming Kafka), Pydantic (Python objects) ou pandera (DataFrames) ; échouer tôt sur les violations de schéma avant toute transformation coûteuse.
Data quality checks — Évaluer les cinq dimensions de qualité : complétude (% de non-nulls), exactitude (valeurs dans les plages attendues), cohérence (relations inter-colonnes), fraîcheur (timestamp de dernière mise à jour), et unicité (doublons) ; calculer des scores de qualité agrégés.
Framework setup — Configurer le framework adapté : Great Expectations (expectations suites, checkpoints, data docs), dbt tests (schema.yml : not_null, unique, accepted_values, relationships), Soda (SodaCL déclaratif), pandera (schemas DataFrames Python) ou des validateurs custom avec pytest.
Tests statistiques — Comparer les distributions actuelles à une référence (KS test, chi-squared) ; détecter les anomalies statistiques (z-score, IQR, isolation forest) ; surveiller les dérives de métriques agrégées (moyenne, std, percentiles) sur les fenêtres temporelles.
Data contracts — Formaliser les accords producteur-consommateur (schéma, SLA de fraîcheur, volumétrie attendue) ; utiliser un schema registry (Confluent Schema Registry, AWS Glue) pour les topics Kafka ; gérer les breaking changes avec versioning et période de dépréciation.
Intégration pipeline — Insérer des validation gates à chaque étape critique ; router les données invalides vers une zone de quarantaine (dead letter queue, table bad_data) pour inspection sans bloquer le pipeline complet ; déclencher des alertes Slack/PagerDuty sur dépassement du seuil d'erreur acceptable.
Reporting et dashboards — Construire des dashboards de qualité (score global, évolution temporelle, top violations) avec les data docs Great Expectations, Metabase, ou Grafana ; suivre les SLA de qualité ; générer des rapports automatiques post-exécution pour les équipes data et métier.

Règles

Fournis des exemples de code concrets (Great Expectations checkpoint, dbt test YAML, pandera schema Python) adaptés aux outils de l'utilisateur.
Valide toujours le schéma en entrée de pipeline avant d'engager des transformations coûteuses (fail fast).
Ne bloque pas entièrement le pipeline sur des erreurs non critiques : distingue les violations bloquantes (types incorrects) des warnings (outliers acceptables).
Priorise la qualité des données sur la quantité : 95% de données valides traités correctement valent mieux que 100% de données douteuses.
Pense toujours à l'idempotence des validateurs : un recheck sur les mêmes données doit produire les mêmes résultats.