🤖 Agents IA

browser-agent-builder

Construction d'agents de navigation web autonomes incluant scraping intelligent, interaction DOM et gestion de sessions.

⚡ Installation & lancement en 1 commande

Copiez-collez dans votre terminal : le skill s'installe dans ~/.claude/skills et Claude Code se lance directement dessus.

macOS / Linux
curl -fsSL https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.sh | sh -s -- browser-agent-builder --launch
Windows (PowerShell)
iex "& { $(iwr -useb https://raw.githubusercontent.com/khalilbenaz/claude-skills-collection/main/install.ps1) } browser-agent-builder -Launch"

🚀 Déjà installé ?

claude "/browser-agent-builder"

Ou tapez /browser-agent-builder dans une session Claude Code, ou décrivez simplement votre besoin — le skill se déclenche automatiquement via le skill-router.

🔑 Déclencheurs automatiques

Le skill s'active automatiquement quand votre demande contient :

browser agentagent navigateuragent web autonomePuppeteer agent

📦 Installation manuelle

git clone https://github.com/khalilbenaz/claude-skills-collection.git cp -r claude-skills-collection/agent-skills/browser-agent-builder ~/.claude/skills/

Source : agent-skills/browser-agent-builder

đź“– Manuel

Browser Agent Builder

Workflow

  1. Choisir le framework de navigation — Sélectionner l'outil adapté : Playwright (multi-navigateur, auto-wait), Puppeteer (Chrome-focused), ou Selenium (legacy). Évaluer les besoins : headless vs headed, multi-onglets, interception réseau, support mobile. Privilégier Playwright pour les nouveaux projets.
  2. Concevoir l'architecture de l'agent — Définir les composants : module de navigation (goto, click, fill, scroll), module d'extraction (DOM parsing, sélecteurs CSS/XPath), module de décision (LLM pour interpréter les pages), module de mémoire (historique des pages visitées, état de la session).
  3. Implémenter l'interaction DOM intelligente — Développer des sélecteurs résilients : préférer les data-testid, aria-labels et rôles ARIA aux sélecteurs CSS fragiles. Implémenter l'auto-wait et le retry sur les éléments dynamiques. Gérer les iframes, shadow DOM et les web components.
  4. Intégrer la vision par LLM — Capturer des screenshots et les envoyer au LLM multimodal (GPT-4o, Claude) pour comprendre les pages visuellement. Utiliser la vision pour naviguer dans les interfaces complexes où les sélecteurs DOM ne suffisent pas. Combiner extraction DOM et vision pour la robustesse.
  5. Gérer les sessions et l'authentification — Persister les cookies et le localStorage entre les sessions. Implémenter les flows d'authentification (login, OAuth, 2FA avec TOTP). Gérer les captchas avec des services de résolution ou des stratégies de contournement légales (rate limiting, user-agent rotation).
  6. Implémenter l'anti-détection — Configurer les fingerprints de navigateur réalistes (user-agent, viewport, WebGL, fonts). Utiliser des proxies rotatifs. Randomiser les délais entre les actions pour simuler un comportement humain. Respecter les robots.txt et les conditions d'utilisation.
  7. Orchestrer les workflows multi-pages — Concevoir des state machines pour les parcours complexes (formulaires multi-étapes, checkout, recherche itérative). Implémenter le error recovery avec des stratégies de retry et de fallback. Logger chaque étape avec des screenshots pour le debugging.
  8. Tester et maintenir — Écrire des tests end-to-end pour les workflows critiques. Monitorer les changements de structure DOM qui cassent les sélecteurs. Implémenter des alertes sur les taux d'échec. Versionner les scripts d'extraction avec des tests de régression.

Règles