đź§  AI / ML

nlp-pipeline-designer

Conception de pipelines NLP (tokenization, embeddings, NER, sentiment, summarization)

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- nlp-pipeline-designer --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } nlp-pipeline-designer -Launch"

🚀 Déjà installé ?

claude "/nlp-pipeline-designer"

Ou tapez /nlp-pipeline-designer dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/ai-ml-skills/nlp-pipeline-designer ~/.claude/skills/

Source : ai-ml-skills/nlp-pipeline-designer

đź“– Manuel

NLP Pipeline Designer

Guide complet pour la conception et l'implémentation de pipelines de traitement du langage naturel, de la tokenization aux tâches avancées comme la NER, l'analyse de sentiment et la summarization.

Workflow

1. Analyser la tâche NLP et définir le pipeline

2. Préparer et prétraiter le corpus textuel

3. Configurer la tokenization et les embeddings

4. Sélectionner et configurer le modèle

5. Entraîner ou fine-tuner le modèle

6. Construire le pipeline de bout en bout

7. Évaluer et itérer

Rules

  1. Choisir le bon niveau de complexité : Ne pas utiliser un Transformer de 340M de paramètres quand un TF-IDF + régression logistique suffit. Commencer simple, complexifier seulement si les performances l'exigent. La complexité ajoutée doit être justifiée par un gain mesurable.
  1. Respecter les spécificités linguistiques : Pour le français, utiliser CamemBERT ou FlauBERT plutôt qu'un modèle anglais. Pour le multilingue, utiliser XLM-RoBERTa ou mBERT. Un modèle entraîné sur la bonne langue surpasse systématiquement un modèle générique.
  1. Ne jamais évaluer sur les données d'entraînement : Toujours maintenir un set de test strictement séparé. Pour la NER, s'assurer que les mêmes entités n'apparaissent pas dans le train et le test (entity-level split si possible).
  1. Gérer la longueur des textes explicitement : Définir une stratégie claire pour les textes dépassant la limite du tokenizer (troncation, sliding window, hierarchical approach). Ignorer ce problème cause des pertes silencieuses d'information.
  1. Versionner le pipeline complet : Le modèle seul ne suffit pas. Versionner ensemble le code de prétraitement, le tokenizer, le modèle et le post-traitement. Un changement dans n'importe quel composant peut modifier les résultats.