robots.txt pour les IA : guide et exemples

En bref — Votre robots.txt contrôle quels robots IA peuvent crawler votre site pour entraîner leurs modèles ou répondre aux requêtes des utilisateurs. La règle d'or en 2026 : ne bloquez pas par défaut. Bloquer GPTBot, ClaudeBot, PerplexityBot ou Google-Extended, c'est vous rendre invisible là où des centaines de millions de personnes cherchent désormais des marques. Autorisez largement, bloquez seulement ce qui est stratégique, et n'oubliez jamais : crawl autorisé ≠ citation garantie.
Pourquoi ce fichier est devenu critique pour le GEO
Pendant vingt ans, robots.txt servait à piloter Googlebot pour le SEO. Aujourd'hui, il arbitre aussi votre présence dans les réponses des assistants IA. Le basculement est massif : ChatGPT dépasse 900 millions d'utilisateurs actifs hebdomadaires (Search Engine Land, 2026), les AI Overviews de Google touchent plus de 2 milliards d'utilisateurs par mois (Digiday, 2026), et Gartner anticipe une baisse de 25 % du volume de recherche classique d'ici fin 2026 (Gartner, 2024).
utilisateurs hebdo de ChatGPT (Search Engine Land, 2026)
utilisateurs/mois des AI Overviews (Digiday, 2026)
de recherche classique prévue d'ici fin 2026 (Gartner, 2024)
Si un crawler IA ne peut pas lire vos pages, le modèle qui l'alimente n'aura aucune raison de vous mentionner. Bloquer un user-agent, c'est sortir de la course avant le départ. Pour comprendre le cadre global, lisez ce qu'est le GEO et en quoi il diffère du SEO traditionnel.
Crawler d'entraînement vs crawler de réponse : la distinction qui change tout
Tous les robots IA ne font pas la même chose. Confondre les deux types mène à des décisions de blocage absurdes.
Aspire vos contenus pour entraîner les futurs modèles. Le bloquer ne réduit pas votre visibilité immédiate, mais prive le modèle de vos données sur le long terme.
Va chercher l'information en temps réel pour répondre à une question. Le bloquer, c'est se rendre invisible dans les réponses citées maintenant.
Construit l'index qui alimente Perplexity ou les moteurs IA. Indispensable pour apparaître dans leurs résultats.
Navigue à la demande explicite d'un utilisateur. Le bloquer dégrade l'expérience de vos visiteurs assistés par IA.
La conséquence pratique : même si vous refusez l'entraînement pour des raisons de propriété intellectuelle, vous devez impérativement laisser passer les crawlers de réponse et d'indexation. Sinon, vous coupez le canal qui génère du trafic réel — un trafic qui convertit environ 42 % mieux que la moyenne (Adobe Digital Insights, 2026).
Les principaux user-agents IA à connaître
GPTBot (entraînement), OAI-SearchBot (indexation de ChatGPT Search), ChatGPT-User (navigation à la demande de l'utilisateur). Bloquer GPTBot ≠ bloquer les réponses live.
PerplexityBot (indexation) et Perplexity-User (récupération en réponse à une requête). Les deux nourrissent les citations affichées dans Perplexity.
ClaudeBot (entraînement et indexation), Claude-User et Claude-SearchBot selon l'usage. Pilote la présence dans les réponses de Claude.
Google-Extended contrôle l'usage par Gemini et les modèles, sans affecter Googlebot ni votre SEO. Googlebot alimente aussi les AI Overviews.
Point capital sur Google : Google-Extended ne change rien à votre référencement classique ni à votre éligibilité aux AI Overviews, qui dépendent de Googlebot. Bloquer Google-Extended retire seulement vos contenus de l'entraînement Gemini. Avec une application Gemini à plus de 750 millions d'utilisateurs mensuels (TechCrunch, 2026), pesez bien ce renoncement. Détail complet des robots dans notre guide dédié aux crawlers IA et robots.txt.
Exemples de directives prêts à copier
1. Tout autoriser (recommandé par défaut pour le GEO) — vous ne touchez pas à robots.txt, ou vous gardez vos seules règles SEO existantes. Aucune ligne de blocage IA = visibilité maximale.
2. Autoriser la réponse live, refuser l'entraînement — le bon compromis si vous tenez à votre propriété intellectuelle sans sacrifier le trafic :
User-agent: GPTBot→Disallow: /(refuse l'entraînement OpenAI)User-agent: Google-Extended→Disallow: /(refuse l'entraînement Gemini)User-agent: ChatGPT-User→Allow: /(garde les réponses live)User-agent: PerplexityBot→Allow: /(garde l'indexation Perplexity)
3. Protéger une zone précise — laissez tout ouvert sauf un répertoire sensible :
User-agent: *Disallow: /comptes-clients/Disallow: /tarifs-internes/
Listez vos user-agents cibles et décidez, pour chacun, entraînement vs réponse.
Par défaut, laissez tout ouvert ; n'ajoutez une règle Disallow que si elle a une vraie justification business.
Déclarez votre sitemap (Sitemap: https://votre-site.com/sitemap.xml) pour faciliter le crawl.
Testez le rendu, puis surveillez vos citations IA pour mesurer l'impact réel.
Les erreurs à éviter
- Bloquer « par sécurité ». Beaucoup d'équipes copient un
robots.txtrestrictif sans comprendre qu'elles s'excluent des réponses IA. Le réflexe défensif coûte cher : le trafic IA vers l'e-commerce US a bondi de +393 % en un an (Adobe Digital Insights, 2026). - Confondre Google-Extended et Googlebot. Bloquer le premier ne « protège » rien de votre SEO et n'a aucun effet sur les AI Overviews.
- Croire que robots.txt force la citation. Autoriser le crawl est nécessaire mais pas suffisant. À l'inverse,
llms.txtreste marginal : seulement 10,13 % des sites en ont un, sans corrélation prouvée avec les citations IA (SE Ranking, nov. 2025). Voir notre analyse llms.txt est-il mort ? - Oublier que robots.txt n'est pas une barrière légale. C'est une consigne respectée par les robots conformes, pas un pare-feu. Pour bloquer réellement, il faut des mesures serveur.
Une fois votre fichier en règle, le vrai travail commence : produire le type de contenu que les IA citent et mesurer votre présence.
Votre robots.txt vous rend-il visible ou invisible ?
Découvrez en quelques minutes si les IA peuvent vous crawler — et si elles vous citent réellement.
Lancer mon audit gratuit →FAQ
Bloquer GPTBot empêche-t-il ChatGPT de me citer ?
Pas forcément. GPTBot sert surtout à l'entraînement. Les réponses en temps réel de ChatGPT s'appuient sur d'autres agents comme OAI-SearchBot et ChatGPT-User. Pour rester citable dans les réponses live, laissez ces derniers autorisés même si vous bloquez GPTBot.
Faut-il bloquer Google-Extended ?
Seulement si vous refusez explicitement que vos contenus entraînent Gemini. Ce blocage n'affecte ni Googlebot, ni votre SEO, ni votre éligibilité aux AI Overviews. Pour la plupart des marques qui veulent de la visibilité, le laisser ouvert est préférable.
robots.txt suffit-il pour être cité par les IA ?
Non. Autoriser le crawl est une condition d'entrée, pas une garantie. La citation dépend de la qualité, de la structure et de l'autorité de votre contenu. Combinez robots.txt ouvert, données structurées et contenu citable.
Quelle différence entre robots.txt et llms.txt ?
robots.txt dit aux robots ce qu'ils peuvent crawler ; llms.txt propose un résumé du site aux modèles. Le premier est un standard universellement respecté, le second reste expérimental et peu adopté (10,13 % des sites).
Sources
- ChatGPT à 900 M d'utilisateurs hebdomadaires — searchengineland.com
- AI Overviews à plus de 2 milliards d'utilisateurs/mois — digiday.com
- Gemini à plus de 750 M d'utilisateurs mensuels — techcrunch.com
- Gartner : -25 % de recherche classique d'ici fin 2026 — gartner.com
- Trafic IA e-commerce +393 % et conversion +42 % — business.adobe.com
- 10,13 % des sites avec llms.txt — seranking.com
Prêt à optimiser votre visibilité IA ?
Recevez votre audit de visibilité IA gratuit et découvrez votre taux de mention.
Voir si ChatGPT me citeL'équipe Olenx
Ingénieurs en Generative Engine Optimization. Olenx mesure la visibilité des marques sur ChatGPT, Claude, Perplexity et Gemini.
Articles liés
Recherche IA : les chiffres clés et la courbe de 2026
ChatGPT de 100 M à 900 M d'utilisateurs en 2,5 ans, AI Overviews à 2 Md/mois, Gartner −25 % : les chiffres vérifiés de la bascule vers la recherche IA, et ce qu'ils changent.
Alternatives à ZipTie : 5 outils de visibilité IA comparés
Alternatives à ZipTie pour suivre la visibilité de marque dans les IA : Otterly AI, Peec AI, Profound, Semrush, Olenx comparés (moteurs, RGPD, budget). Comparatif factuel.
Étude de cas : 61 % de mention IA, face à un leader à 89 %
Étude de cas réelle (données Olenx) : un acteur des fontaines à eau cité dans 61 % des requêtes IA, mais derrière Culligan (89 %). 3 leçons transposables sur la visibilité IA.