robots.txt pour les IA : guide et exemples

L'équipe Olenx7 min9 juin 2026

GEOTechnique

En bref — Votre robots.txt contrôle quels robots IA peuvent crawler votre site pour entraîner leurs modèles ou répondre aux requêtes des utilisateurs. La règle d'or en 2026 : ne bloquez pas par défaut. Bloquer GPTBot, ClaudeBot, PerplexityBot ou Google-Extended, c'est vous rendre invisible là où des centaines de millions de personnes cherchent désormais des marques. Autorisez largement, bloquez seulement ce qui est stratégique, et n'oubliez jamais : crawl autorisé ≠ citation garantie.

Pourquoi ce fichier est devenu critique pour le GEO

Pendant vingt ans, robots.txt servait à piloter Googlebot pour le SEO. Aujourd'hui, il arbitre aussi votre présence dans les réponses des assistants IA. Le basculement est massif : ChatGPT dépasse 900 millions d'utilisateurs actifs hebdomadaires (Search Engine Land, 2026), les AI Overviews de Google touchent plus de 2 milliards d'utilisateurs par mois (Digiday, 2026), et Gartner anticipe une baisse de 25 % du volume de recherche classique d'ici fin 2026 (Gartner, 2024).

900 M

utilisateurs hebdo de ChatGPT (Search Engine Land, 2026)

2 Mrd

utilisateurs/mois des AI Overviews (Digiday, 2026)

-25 %

de recherche classique prévue d'ici fin 2026 (Gartner, 2024)

Si un crawler IA ne peut pas lire vos pages, le modèle qui l'alimente n'aura aucune raison de vous mentionner. Bloquer un user-agent, c'est sortir de la course avant le départ. Pour comprendre le cadre global, lisez ce qu'est le GEO et en quoi il diffère du SEO traditionnel.

Crawler d'entraînement vs crawler de réponse : la distinction qui change tout

Tous les robots IA ne font pas la même chose. Confondre les deux types mène à des décisions de blocage absurdes.

Crawler d'entraînement

Aspire vos contenus pour entraîner les futurs modèles. Le bloquer ne réduit pas votre visibilité immédiate, mais prive le modèle de vos données sur le long terme.

Crawler de réponse (live)

Va chercher l'information en temps réel pour répondre à une question. Le bloquer, c'est se rendre invisible dans les réponses citées maintenant.

Indexation de recherche IA

Construit l'index qui alimente Perplexity ou les moteurs IA. Indispensable pour apparaître dans leurs résultats.

Agent utilisateur

Navigue à la demande explicite d'un utilisateur. Le bloquer dégrade l'expérience de vos visiteurs assistés par IA.

La conséquence pratique : même si vous refusez l'entraînement pour des raisons de propriété intellectuelle, vous devez impérativement laisser passer les crawlers de réponse et d'indexation. Sinon, vous coupez le canal qui génère du trafic réel — un trafic qui convertit environ 42 % mieux que la moyenne (Adobe Digital Insights, 2026).

Les principaux user-agents IA à connaître

OpenAI / ChatGPT

GPTBot (entraînement), OAI-SearchBot (indexation de ChatGPT Search), ChatGPT-User (navigation à la demande de l'utilisateur). Bloquer GPTBot ≠ bloquer les réponses live.

Perplexity

PerplexityBot (indexation) et Perplexity-User (récupération en réponse à une requête). Les deux nourrissent les citations affichées dans Perplexity.

Anthropic / Claude

ClaudeBot (entraînement et indexation), Claude-User et Claude-SearchBot selon l'usage. Pilote la présence dans les réponses de Claude.

Google

Google-Extended contrôle l'usage par Gemini et les modèles, sans affecter Googlebot ni votre SEO. Googlebot alimente aussi les AI Overviews.

Point capital sur Google : Google-Extended ne change rien à votre référencement classique ni à votre éligibilité aux AI Overviews, qui dépendent de Googlebot. Bloquer Google-Extended retire seulement vos contenus de l'entraînement Gemini. Avec une application Gemini à plus de 750 millions d'utilisateurs mensuels (TechCrunch, 2026), pesez bien ce renoncement. Détail complet des robots dans notre guide dédié aux crawlers IA et robots.txt.

Exemples de directives prêts à copier

1. Tout autoriser (recommandé par défaut pour le GEO) — vous ne touchez pas à robots.txt, ou vous gardez vos seules règles SEO existantes. Aucune ligne de blocage IA = visibilité maximale.

2. Autoriser la réponse live, refuser l'entraînement — le bon compromis si vous tenez à votre propriété intellectuelle sans sacrifier le trafic :

User-agent: GPTBot → Disallow: / (refuse l'entraînement OpenAI)
User-agent: Google-Extended → Disallow: / (refuse l'entraînement Gemini)
User-agent: ChatGPT-User → Allow: / (garde les réponses live)
User-agent: PerplexityBot → Allow: / (garde l'indexation Perplexity)

3. Protéger une zone précise — laissez tout ouvert sauf un répertoire sensible :

User-agent: *
Disallow: /comptes-clients/
Disallow: /tarifs-internes/

Listez vos user-agents cibles et décidez, pour chacun, entraînement vs réponse.

Par défaut, laissez tout ouvert ; n'ajoutez une règle Disallow que si elle a une vraie justification business.

Déclarez votre sitemap (Sitemap: https://votre-site.com/sitemap.xml) pour faciliter le crawl.

Testez le rendu, puis surveillez vos citations IA pour mesurer l'impact réel.

Les erreurs à éviter

Bloquer « par sécurité ». Beaucoup d'équipes copient un robots.txt restrictif sans comprendre qu'elles s'excluent des réponses IA. Le réflexe défensif coûte cher : le trafic IA vers l'e-commerce US a bondi de +393 % en un an (Adobe Digital Insights, 2026).
Confondre Google-Extended et Googlebot. Bloquer le premier ne « protège » rien de votre SEO et n'a aucun effet sur les AI Overviews.
Croire que robots.txt force la citation. Autoriser le crawl est nécessaire mais pas suffisant. À l'inverse, llms.txt reste marginal : seulement 10,13 % des sites en ont un, sans corrélation prouvée avec les citations IA (SE Ranking, nov. 2025). Voir notre analyse llms.txt est-il mort ?
Oublier que robots.txt n'est pas une barrière légale. C'est une consigne respectée par les robots conformes, pas un pare-feu. Pour bloquer réellement, il faut des mesures serveur.

Une fois votre fichier en règle, le vrai travail commence : produire le type de contenu que les IA citent et mesurer votre présence.

Votre robots.txt vous rend-il visible ou invisible ?

Découvrez en quelques minutes si les IA peuvent vous crawler — et si elles vous citent réellement.

Lancer mon audit gratuit →

FAQ

Bloquer GPTBot empêche-t-il ChatGPT de me citer ?

Pas forcément. GPTBot sert surtout à l'entraînement. Les réponses en temps réel de ChatGPT s'appuient sur d'autres agents comme OAI-SearchBot et ChatGPT-User. Pour rester citable dans les réponses live, laissez ces derniers autorisés même si vous bloquez GPTBot.

Faut-il bloquer Google-Extended ?

Seulement si vous refusez explicitement que vos contenus entraînent Gemini. Ce blocage n'affecte ni Googlebot, ni votre SEO, ni votre éligibilité aux AI Overviews. Pour la plupart des marques qui veulent de la visibilité, le laisser ouvert est préférable.

robots.txt suffit-il pour être cité par les IA ?

Non. Autoriser le crawl est une condition d'entrée, pas une garantie. La citation dépend de la qualité, de la structure et de l'autorité de votre contenu. Combinez robots.txt ouvert, données structurées et contenu citable.

Quelle différence entre robots.txt et llms.txt ?

robots.txt dit aux robots ce qu'ils peuvent crawler ; llms.txt propose un résumé du site aux modèles. Le premier est un standard universellement respecté, le second reste expérimental et peu adopté (10,13 % des sites).

Sources

ChatGPT à 900 M d'utilisateurs hebdomadaires — searchengineland.com
AI Overviews à plus de 2 milliards d'utilisateurs/mois — digiday.com
Gemini à plus de 750 M d'utilisateurs mensuels — techcrunch.com
Gartner : -25 % de recherche classique d'ici fin 2026 — gartner.com
Trafic IA e-commerce +393 % et conversion +42 % — business.adobe.com
10,13 % des sites avec llms.txt — seranking.com

Prêt à optimiser votre visibilité IA ?

Recevez votre audit de visibilité IA gratuit et découvrez votre taux de mention.

Voir si ChatGPT me cite

L'équipe Olenx

Ingénieurs en Generative Engine Optimization. Olenx mesure la visibilité des marques sur ChatGPT, Claude, Perplexity et Gemini.

Articles liés

Building Brand Authority That LLMs Cite

Learn how to build the off-site brand authority that makes LLMs like ChatGPT, Claude, and Perplexity cite your brand — from third-party coverage to consistent entity signals.

How to Track Your Brand's AI Visibility

Learn how to track your brand's AI visibility across ChatGPT, Perplexity, and Google AI Overviews—measuring mention rate, share of voice, citations, and automating prompt monitoring.

Structured Data for AI Citations: A Practical Schema.org Guide

Schema markup for AI search is no longer optional. Learn which Schema.org types—Organization, Product, FAQ, Article—drive AI citations in ChatGPT, Perplexity, and Google AI Overviews, plus how to implement them right.