💻 Développement

data-pipeline-builder

Conception de pipelines de données robustes et scalables.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- data-pipeline-builder --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } data-pipeline-builder -Launch"

🚀 Déjà installé ?

claude "/data-pipeline-builder"

Ou tapez /data-pipeline-builder dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

data pipelinepipeline de donnéesbatch processingstream processingApache SparkAirflowdbtdata engineering

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/dev-skills/data-pipeline-builder ~/.claude/skills/

Source : dev-skills/data-pipeline-builder

📖 Manuel

Data Pipeline Builder

Workflow

  1. Analyse des sources de données — Identifier les formats (CSV, JSON, Parquet, Avro), volumes (Mo à To), fréquence de mise à jour, et qualité initiale des données ; documenter les contraintes de latence et de SLA.
  2. Choix de l'architecture — Évaluer batch vs streaming vs architecture lambda/kappa selon les besoins de fraîcheur ; décider entre ELT (transformation dans le warehouse) et ETL (transformation avant chargement).
  3. Orchestration — Choisir et configurer l'outil d'orchestration : Apache Airflow (DAGs Python), Dagster (asset-based), Prefect (flow/task), Azure Data Factory (cloud-native) ou dbt Cloud selon l'écosystème existant.
  4. Ingestion — Mettre en place les connecteurs source (JDBC, REST, Kafka) ; implémenter le Change Data Capture (CDC avec Debezium) pour les bases relationnelles, l'API polling avec pagination, ou les file watchers pour les dépôts de fichiers.
  5. Transformation — Appliquer les transformations avec SQL/dbt (models, tests, snapshots), Apache Spark (PySpark) ou Pandas selon le volume ; intégrer des data quality checks à chaque étape (contraintes de schéma, plages de valeurs, unicité).
  6. Storage layer — Structurer le stockage en data lake (S3/ADLS/GCS avec Delta Lake ou Iceberg), data warehouse (Snowflake, BigQuery, Redshift) ou lakehouse ; définir la stratégie de partitioning (par date, région) et de compactage.
  7. Monitoring et alerting — Suivre la fraîcheur des données (data freshness SLA), la santé du pipeline (taux d'erreur, durée d'exécution), les métriques de qualité (null rate, anomalies) ; configurer des alertes PagerDuty/Slack sur dépassement de seuils.
  8. Scalabilité et résilience — Garantir l'idempotence de chaque étape (upsert plutôt qu'insert, checksums) ; implémenter les retry avec backoff exponentiel, le backfill pour le replay historique, et gérer l'évolution de schéma (schema evolution avec compatibilité backward/forward).

Règles