bots ia

Que va-t-il se passer si vous bloquez les bots IA ?

📄 Résumé

  • Plus de la moitié du trafic web est généré par des bots en 2026 → les crawlers IA (GPTBot, ClaudeBot, Bytespider…) consomment vos ressources serveur sans renvoyer le moindre visiteur humain
  • Tous les bots IA ne sont pas identiques → distinguer les bots d’entraînement (à bloquer en priorité) des bots de recherche temps réel (à conserver pour rester visible dans ChatGPT et Perplexity)
  • Le robots.txt est la première ligne de défense → efficace pour les bots coopératifs comme GPTBot et ClaudeBot, insuffisant seul pour les bots récalcitrants comme Bytespider
  • Cloudflare WAF permet un blocage en un clic, plan gratuit inclus → solution la plus accessible sur hébergement mutualisé sans accès root ni compétences serveur avancées
  • Si le blocage ne suffit pas à stabiliser votre serveur → c’est le signal que votre plan mutualisé est sous-dimensionné et qu’un passage vers un hébergement avec ressources garanties mérite d’être évalué

Non, il ne faut pas bloquer tous les bots IA indistinctement. La distinction essentielle est entre les bots d’entraînement — GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended — qui consomment vos ressources sans retour immédiat, et les bots de recherche en temps réel — ChatGPT-User, PerplexityBot, Claude-SearchBot — qui permettent à votre site d’apparaître dans les réponses générées par ChatGPT, Perplexity ou Claude. Bloquer les premiers est généralement recommandé sur hébergement mutualisé. Bloquer les seconds revient à disparaître des moteurs génératifs.

En 2026, selon l’AI Bot Impact Report, plus de 52 % du trafic web mondial est généré par des bots. Les crawlers IA en représentent une part croissante et structurelle : GPTBot seul concentre 12,8 % des requêtes bots identifiées selon les données Cloudflare Radar de fin 2025, ClaudeBot 11,4 %, Meta-ExternalAgent 11,6 %. Ces quatre crawlers principaux totalisent à eux seuls 74,4 % du trafic bots IA.

Ce qui aggrave la situation : ces bots ignorent souvent les protocoles de mise en cache standard pour s’assurer d’obtenir la version la plus récente de chaque page. Chaque requête génère donc une charge CPU et une consommation de bande passante réelles. Sur un hébergement mutualisé aux ressources partagées, le résultat peut être brutal : pics de charge nocturnes, erreurs 500, voire suspension de compte par l’hébergeur pour dépassement des limites allouées.

Cet article vous explique quels bots bloquer, via quelle méthode technique — robots.txt, .htaccess, Nginx ou Cloudflare WAF — et dans quels cas il vaut mieux les laisser passer pour préserver votre visibilité dans les outils IA. Les configurations présentées sont vérifiées en juin 2026 et directement applicables selon votre type d’hébergement.

Pourquoi les bots IA surchargent votre serveur en 2026 ?

Une explosion du trafic bots mesurée et documentée

Les chiffres sont sans ambiguïté. Selon l’AI Bot Impact Report 2026, les bots représentent aujourd’hui plus de 52 % de l’ensemble du trafic web mondial — une proportion confirmée par les données Akamai qui situent cette part entre 30 % et 50 % selon les typologies de sites. Pour chaque visiteur humain qui charge une page, trois bots font de même en moyenne.

Ce qui a changé depuis 2024, c’est la nature de ce trafic. Les crawlers d’IA générative ont quadruplé leur part en seulement huit mois, passant de 2,6 % à 10,1 % du trafic total. GPTBot d’OpenAI a enregistré une croissance de 305 % sur la période. Ces volumes ne sont plus anecdotiques : ils constituent une charge serveur permanente, mesurable, et souvent invisible dans les outils d’analyse classiques comme Google Analytics — car ces bots n’exécutent pas JavaScript et n’apparaissent donc pas dans vos rapports de trafic habituels.

Un cas documenté illustre l’ampleur du phénomène : le projet Read the Docs a réduit son trafic de 75 % et sa consommation de bande passante de 800 Go à 200 Go par jour après avoir bloqué les crawlers IA — soit une économie de 1 500 dollars par mois sur ses coûts d’infrastructure.

Pourquoi les bots IA ignorent souvent le cache serveur ?

Sur un site WordPress standard, la grande majorité des requêtes humaines est absorbée par le cache : LiteSpeed Cache, WP Rocket ou W3 Total Cache servent une version statique de la page sans solliciter PHP ni la base de données. La charge serveur réelle reste faible, même avec un trafic élevé.

Les bots IA fonctionnent différemment. Pour s’assurer d’obtenir la version la plus récente du contenu, ils génèrent délibérément des requêtes contournant les couches de cache standard. Chaque passage d’un bot d’entraînement sur votre site déclenche donc une requête PHP complète, un appel base de données, un rendu serveur. Multipliez cela par des centaines de pages crawlées par nuit, et la charge CPU s’accumule rapidement.

Sur un hébergement mutualisé, où les ressources CPU et RAM sont partagées entre plusieurs dizaines de clients sur le même serveur physique, ce type de charge nocturne répétée peut déclencher les mécanismes de limitation automatique de l’hébergeur — voire une suspension temporaire du compte pour dépassement des quotas alloués.

Votre hébergement sature sous la charge des bots IA ?

➜ Découvrir LWS Performance

Hébergement mutualisé premium – Ressources garanties – Support francophone 7j/7

Quels sont les bots IA actifs en 2026 ?

En 2026, on recense plus de 60 user-agents IA référencés, contre une vingtaine fin 2023. Tous ne présentent pas le même niveau de risque pour votre infrastructure. La distinction fondamentale à retenir est celle entre les bots d’entraînement et les bots de recherche en temps réel — deux catégories aux comportements et aux impacts radicalement différents.

Bots d’entraînement : les principaux consommateurs de ressources

Ces bots crawlent votre contenu pour alimenter les données d’entraînement des futurs modèles de langage. Leur impact sur votre visibilité IA est différé de 3 à 12 mois. Les bloquer ne vous prive d’aucune visibilité immédiate dans les outils IA actuels.

  • GPTBot (OpenAI) → bot d’entraînement de ChatGPT. Représente 12,8 % des requêtes bots identifiées selon Cloudflare Radar fin 2025. Respecte le robots.txt.
  • ClaudeBot (Anthropic) → bot d’entraînement de Claude. Représente 11,4 % du trafic bots IA. Respecte le robots.txt.
  • Google-Extended (Google) → bot d’entraînement de Gemini, distinct de Googlebot. Bloquer Google-Extended n’affecte pas votre indexation Google Search. Respecte le robots.txt.
  • CCBot (Common Crawl) → alimente de nombreux modèles open source. Volume de crawl élevé, faible valeur de visibilité en retour. Respecte le robots.txt.
  • Meta-ExternalAgent (Meta) → bot d’entraînement des modèles LLaMA. Représente 11,6 % du trafic bots IA. Respecte le robots.txt.
  • Bytespider (ByteDance/TikTok) → bot d’entraînement particulièrement agressif. Documenté comme contournant parfois les directives robots.txt — nécessite un blocage au niveau serveur en complément.
  • Applebot-Extended (Apple) → bot d’entraînement des modèles Apple Intelligence. Volume modéré, respecte le robots.txt.

Bots de recherche en temps réel : votre visibilité IA immédiate

Ces bots crawlent votre contenu pour répondre aux requêtes des utilisateurs en temps réel. Les bloquer signifie disparaître immédiatement des réponses générées par les outils correspondants.

  • ChatGPT-User (OpenAI) → navigue le web en temps réel pour répondre aux requêtes ChatGPT Search. Respecte le robots.txt.
  • OAI-SearchBot (OpenAI) → bot de navigation web temps réel complémentaire de ChatGPT. Respecte le robots.txt.
  • PerplexityBot (Perplexity) → indexe votre contenu pour les réponses Perplexity AI. Respecte le robots.txt.
  • Claude-SearchBot / Claude-User (Anthropic) → permettent à Claude d’accéder à votre contenu lors de recherches web en temps réel. Respectent le robots.txt.

Bot
Éditeur
Rôle
Respecte robots.txt
Recommandation
GPTBot
OpenAI
Entraînement
✅ Oui
Bloquer
ChatGPT-User
OpenAI
Recherche temps réel
✅ Oui
Autoriser
ClaudeBot
Anthropic
Entraînement
✅ Oui
Bloquer
Claude-SearchBot
Anthropic
Recherche temps réel
✅ Oui
Autoriser
PerplexityBot
Perplexity
Recherche temps réel
✅ Oui
Autoriser
Google-Extended
Google
Entraînement Gemini
✅ Oui
Bloquer
CCBot
Common Crawl
Entraînement
✅ Oui
Bloquer
Meta-ExternalAgent
Meta
Entraînement
✅ Oui
Bloquer
Bytespider
ByteDance
Entraînement
⚠️ Parfois ignoré
Bloquer + .htaccess

⚠ Liste non exhaustive — plus de 60 user-agents IA recensés en 2026. Vérifier les documentations officielles des éditeurs pour les mises à jour.

💡 Bon à savoir

  • GPTBot ≠ ChatGPT-User : deux bots OpenAI, deux rôles opposés
    → GPTBot entraîne les futurs modèles ChatGPT (impact différé de 3 à 12 mois) ; ChatGPT-User répond aux requêtes des utilisateurs en temps réel
    → impact : bloquer GPTBot sans bloquer ChatGPT-User est la stratégie équilibrée ; bloquer les deux revient à disparaître immédiatement des réponses ChatGPT Search
  • Bytespider ignore parfois le robots.txt
    → contrairement à GPTBot ou ClaudeBot, ce bot édité par ByteDance a été documenté comme contournant les directives dans certains cas
    → impact : une règle robots.txt seule peut s’avérer insuffisante — un blocage complémentaire via .htaccess ou Cloudflare WAF est recommandé pour ce bot spécifiquement

🔍 Cas concret — Créateur de contenu sur mutualisé entrée de gamme

→ Profil : Créateur de contenu WordPress sur hébergement mutualisé à 2,50 €/mois, site de 80 articles, aucune configuration de blocage en place.

→ Problème : Depuis début 2026, pics de charge inexpliqués chaque nuit. L’hébergeur signale des dépassements répétés des limites CPU allouées. Aucun visiteur humain supplémentaire enregistré dans Google Analytics sur la même période.

→ Action : Analyse des logs serveur via GoAccess → identification de GPTBot, ClaudeBot et Bytespider représentant 68 % des requêtes nocturnes. Ajout de directives robots.txt ciblées pour les bots d’entraînement + activation de la règle WAF « AI Bots » dans Cloudflare (plan gratuit).

→ Résultat : Réduction de 71 % des requêtes bots sur les 30 jours suivants. Disparition des alertes CPU. Le site conserve sa visibilité dans Perplexity et ChatGPT Search — PerplexityBot et ChatGPT-User restant explicitement autorisés. Aucun upgrade d’hébergement nécessaire dans ce cas précis.

Faut-il vraiment tous les bloquer ?

La tentation du blocage total est compréhensible. Mais cette approche a un coût en visibilité que beaucoup de propriétaires de sites sous-estiment — et qui peut contredire directement leurs objectifs de présence en ligne.

Ce que vous perdez en bloquant les bots de recherche temps réel

Selon une étude de Seer Interactive publiée en 2024, les sites bloquant GPTBot et ChatGPT-User reçoivent jusqu’à 40 % de citations en moins dans les réponses de ChatGPT. OpenAI confirme dans sa documentation officielle que les contenus bloqués ne sont intégrés ni dans les données d’entraînement ni dans les réponses en temps réel.

En 2026, apparaître dans les réponses de ChatGPT Search, Perplexity ou Claude représente un canal de visibilité émergent à ne pas négliger — en particulier pour les sites à contenu informatif, les prestataires de services locaux et les e-commerçants cherchant à être cités dans les comparatifs générés par IA.

La stratégie recommandée selon votre profil

La décision de bloquer ou d’autoriser un bot dépend de trois critères : la nature de votre contenu (public ou privé), vos objectifs de visibilité IA, et les ressources disponibles sur votre hébergement.

Profil
Bots à bloquer
Bots à autoriser
Priorité
🖥️ Site vitrine / blog
Objectif : visibilité IA maximale
GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent
ChatGPT-User, PerplexityBot, Claude-SearchBot, OAI-SearchBot
Blocage sélectif
🛒 E-commerce
Ressources serveur critiques
GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended, Meta-ExternalAgent
PerplexityBot, ChatGPT-User (pages produits publics)
Blocage large
🔒 Contenu premium / formation
Contenu monétisé ou réservé
Tous les bots IA sans exception sur les zones privées
Bots de recherche temps réel sur les pages publiques uniquement
Blocage total zones privées
⚙️ Application / SaaS
Charge serveur prioritaire
Tous les bots IA — aucun retour en visibilité ne justifie la charge
Googlebot, Bingbot uniquement
Blocage total bots IA

Votre hébergement actuel est-il dimensionné pour absorber le trafic bots IA ?

➜ Comparer les hébergeurs mutualisés premium

Comparatif indépendant – Mis à jour juin 2026 – Sans commission sur votre choix

Bloquer les bots IA via robots.txt

Le fichier robots.txt est la méthode la plus simple et la plus universelle pour signifier aux bots ce qu’ils sont autorisés ou non à crawler. Il se place à la racine de votre site — accessible à l’adresse https://votredomaine.com/robots.txt — et ne nécessite aucun accès serveur avancé. Sur WordPress, il est modifiable directement depuis Yoast SEO, Rank Math, ou via un éditeur de fichiers FTP.

Son efficacité repose sur une convention volontaire : les bots bien configurés lisent ce fichier avant de crawler et respectent ses directives. GPTBot, ClaudeBot, PerplexityBot, Google-Extended et la grande majorité des bots IA des éditeurs majeurs s’y conforment. Le robots.txt est donc une première ligne de défense fiable pour les bots coopératifs — insuffisante seule pour les bots récalcitrants comme Bytespider.

Directives précises à copier-coller

Configuration 1 — Blocage sélectif recommandé (sites vitrines, blogs)

Bloque les bots d’entraînement, autorise explicitement les bots de recherche temps réel. Stratégie équilibrée : réduction de charge serveur sans perte de visibilité dans ChatGPT Search et Perplexity.

# ── Bots d'entraînement IA — bloqués ──
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# ── Bots de recherche temps réel — autorisés ──
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

# ── Moteurs de recherche classiques — non affectés ──
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Configuration 2 — Blocage large (e-commerce, sites à fort trafic)

Bloque l’ensemble des bots d’entraînement et limite les bots de recherche temps réel aux pages produits publics.

# ── Bots d'entraînement IA — bloqués ──
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# ── Bots de recherche temps réel — limités aux pages publiques ──
User-agent: ChatGPT-User
Allow: /produits/
Allow: /boutique/
Disallow: /compte/
Disallow: /panier/
Disallow: /commande/

User-agent: PerplexityBot
Allow: /produits/
Allow: /boutique/
Disallow: /compte/
Disallow: /panier/

Configuration 3 — Blocage total bots IA (applications, SaaS, contenu premium)

Bloque l’intégralité des bots IA connus. À réserver aux sites dont le contenu ne doit pas être indexé par les outils IA ou dont la charge serveur est critique.

# ── Blocage total bots IA ──
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

Une fois votre robots.txt mis à jour, validez la syntaxe via l’outil de test intégré de Google Search Console (Paramètres → robots.txt). Analysez ensuite vos logs serveur 72 heures après le déploiement pour confirmer que les user-agents ciblés n’apparaissent plus dans les requêtes actives.

Bloquer les bots IA via .htaccess ou Nginx

Le robots.txt repose sur la bonne volonté des bots. Pour les crawlers récalcitrants — Bytespider en tête — ou pour les scrapers anonymes, un blocage au niveau serveur est nécessaire. Contrairement au robots.txt, une règle .htaccess ou Nginx est une barrière technique réelle : le serveur refuse la connexion avant même de servir la moindre page.

Le fichier .htaccess est accessible sur tout hébergement Apache — ce qui couvre la grande majorité des hébergements mutualisés francophones (LWS, o2switch, Hostinger, OVHcloud en mutualisé). Nginx est la solution équivalente sur VPS ou serveurs dédiés.

Blocage par User-Agent via .htaccess (serveurs Apache)

Ajoutez les directives suivantes dans votre fichier .htaccess, à la racine de votre site. Sur WordPress, ajoutez ce bloc avant le bloc # BEGIN WordPress pour éviter tout conflit.

# ── Blocage bots IA par User-Agent — Apache .htaccess ──
<IfModule mod_rewrite.c>
  RewriteEngine On
  RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} anthropic-ai [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} CCBot [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} Meta-ExternalAgent [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} Bytespider [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} Applebot-Extended [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
  RewriteRule .* - [F,L]
</IfModule>

La directive [F,L] renvoie une réponse HTTP 403 (Forbidden) et arrête le traitement des règles. Le bot reçoit un refus explicite sans que le serveur charge PHP ou la base de données — la charge CPU est donc nulle pour ces requêtes bloquées.

Blocage par User-Agent via Nginx (VPS et serveurs dédiés)

Sur un VPS ou serveur dédié sous Nginx, le blocage s’effectue dans le bloc server de votre fichier de configuration. Rechargez Nginx après modification avec sudo nginx -s reload.

# ── Blocage bots IA par User-Agent — Nginx ──
server {
  # ... votre configuration existante ...
  if ($http_user_agent ~* "(GPTBot|ClaudeBot|anthropic-ai|Google-Extended|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|Amazonbot)") {
    return 403;
  }
}

Blocage par plage IP pour les bots récalcitrants

Certains bots peuvent modifier leur user-agent pour contourner les règles. OpenAI et Anthropic publient les plages IP officielles de leurs bots dans leur documentation — vérifiez-les trimestriellement car elles évoluent. Pour Bytespider, le blocage combiné user-agent + plage IP est la configuration la plus fiable.

# ── Blocage par plage IP — exemple générique ──
<RequireAll>
  Require all granted
  # Remplacer par les plages IP officielles publiées par chaque éditeur
  Require not ip XX.XXX.XXX.0/24
  Require not ip YY.YYY.YYY.0/24
</RequireAll>

Bloquer les bots IA via Cloudflare WAF

Cloudflare s’intercale entre Internet et votre hébergement : tout le trafic entrant passe d’abord par ses serveurs avant d’atteindre le vôtre. Pour les propriétaires de sites sur hébergement mutualisé sans accès root, c’est la solution de blocage la plus puissante et la plus accessible — elle ne nécessite aucune modification de fichier serveur et fonctionne dès le plan gratuit.

La règle « AI Bots » en un clic

Depuis juillet 2024, Cloudflare propose un bouton de blocage unifié de tous les bots IA, disponible pour tous les clients y compris le plan gratuit. En 2025, cette fonctionnalité a été enrichie avec l’outil AI Audit, qui liste en temps réel tous les crawlers IA détectés sur votre domaine.

Pour activer le blocage via l’interface Cloudflare :

  • Connectez-vous à votre tableau de bord Cloudflare et sélectionnez votre domaine
  • Rendez-vous dans Security → Bots
  • Activez Bot Fight Mode (plan gratuit) ou Super Bot Fight Mode (plans Pro et supérieurs)
  • Dans la section AI Scrapers and Crawlers, sélectionnez Block pour bloquer tous les bots IA — ou configurez les exceptions bot par bot
  • Consultez l’onglet AI Audit pour visualiser en temps réel quels crawlers IA visitent votre site

Pour un contrôle granulaire via les règles WAF personnalisées (Security → WAF → Custom Rules) :

# ── Règle WAF Cloudflare — blocage sélectif bots d'entraînement ──

Champ        : User Agent
Opérateur    : contains
Valeur       : GPTBot
OU
Valeur       : ClaudeBot
OU
Valeur       : CCBot
OU
Valeur       : Bytespider
OU
Valeur       : Meta-ExternalAgent

Action       : Block

Cloudflare bloque-t-il les bots IA par défaut ?

Oui — et c’est un point que beaucoup d’utilisateurs ignorent. Depuis juillet 2025, Cloudflare bloque les bots IA par défaut pour tous les nouveaux domaines configurés sur sa plateforme. Si votre site est derrière Cloudflare sans que vous ayez vérifié cette configuration, des bots de recherche temps réel comme PerplexityBot ou ChatGPT-User peuvent être bloqués à votre insu — avec un impact direct sur votre visibilité dans les outils IA.

Pour vérifier : tableau de bord Cloudflare → Security → Bots → section AI Scrapers and Crawlers. Si la valeur est sur Block pour l’ensemble des bots IA, affinez manuellement en autorisant les bots de recherche temps réel souhaités.

Cloudflare propose par ailleurs depuis mi-2025 un système expérimental Pay-per-Crawl : les bots IA paient entre 0,01 et 0,05 dollar par requête, ou reçoivent une réponse HTTP 402. Ce système est encore en déploiement progressif en juin 2026 — les revenus générés restent modestes pour les petits sites (50 à 500 dollars par mois pour les sites moyens selon les estimations Cloudflare).

💡 Bon à savoir

  • Cloudflare bloque les bots IA par défaut depuis juillet 2025
    → si votre site est derrière Cloudflare sans configuration explicite, PerplexityBot et ChatGPT-User sont peut-être déjà bloqués à votre insu
    → impact : votre site peut être invisible dans les réponses de Perplexity et ChatGPT — à vérifier dans Security → Bots de votre tableau de bord avant toute autre action
  • Le robots.txt n’est pas une barrière technique
    → les directives robots.txt sont une convention volontaire, pas un mécanisme de blocage réel ; un bot mal configuré ou malveillant peut les ignorer sans conséquence technique immédiate
    → impact : pour les bots récalcitrants comme Bytespider ou les scrapers anonymes, seul un blocage au niveau serveur (.htaccess, Nginx) ou via un WAF constitue une protection réellement contraignante

Impact sur votre hébergement : le blocage suffit-il ?

Le blocage des bots IA réduit significativement la charge serveur — dans la majorité des cas, c’est suffisant pour stabiliser un site sur hébergement mutualisé. Mais cette stabilisation a une limite structurelle : si votre plan mutualisé est fondamentalement sous-dimensionné, le blocage des bots ne résoudra pas le problème de fond. Il le masquera temporairement.

La question à se poser après avoir déployé les mesures de blocage : les alertes CPU et les erreurs 500 ont-elles disparu ? Si oui, votre hébergement mutualisé est adapté. Si les problèmes persistent malgré un blocage correctement configuré, c’est le signal que vos ressources allouées sont insuffisantes — indépendamment des bots.

Mutualisé vs VPS : ce que change la pression des bots IA

Critère
Mutualisé standard
Mutualisé premium
VPS
Ressources CPU
Partagées — quotas stricts
Partagées — quotas élargis
Dédiées — aucun partage
Résistance aux pics bots
⚠️ Faible
🔵 Moyenne
✅ Élevée
Accès aux logs serveur
Limité selon hébergeur
Partiel (cPanel/Plesk)
Complet (accès root)
Configuration Nginx/Apache
.htaccess uniquement
.htaccess + règles avancées
Configuration complète
Rate limiting natif
❌ Absent
❌ Absent
✅ Nginx natif
Blocage par plage IP
.htaccess (limité)
.htaccess + Cloudflare
Nginx + Cloudflare + iptables
Budget indicatif
1,50 – 4 €/mois
4 – 8 €/mois
5 – 30 €/mois
Pour qui ?
Sites vitrines, blogs faible trafic
Blogs à trafic croissant, PME
E-commerce, SaaS, multi-sites

⚠ Tarifs indicatifs — à comparer selon les conditions de renouvellement propres à chaque hébergeur.

Sur mutualisé, la combinaison robots.txt + Cloudflare WAF couvre la majorité des besoins sans coût supplémentaire. Si cette combinaison ne suffit pas à stabiliser votre serveur après 30 jours, le passage vers un plan mutualisé premium avec ressources garanties — ou vers un VPS entrée de gamme — est la prochaine étape logique à évaluer.

Quand faut-il autoriser les bots IA ?

Bloquer les bots IA est une décision de gestion des ressources serveur — pas une règle universelle. Dans certains cas, les autoriser est non seulement justifié, mais stratégiquement pertinent.

Cas d’usage : apparaître dans ChatGPT Search et Perplexity

En 2026, ChatGPT Search et Perplexity sont devenus des canaux de découverte réels pour les sites à contenu informatif, les prestataires locaux et les e-commerçants. Un utilisateur qui demande à ChatGPT « quel est le meilleur hébergeur WordPress en France ? » reçoit une réponse qui cite des sources — et ces sources sont les sites dont les bots de recherche temps réel ont pu crawler le contenu.

Si votre site est un blog informatif, un site vitrine de prestataire, ou une boutique e-commerce avec des pages produits publiques, autoriser PerplexityBot, ChatGPT-User et Claude-SearchBot est dans votre intérêt direct. Ces bots ne consomment pas les mêmes volumes de ressources que les bots d’entraînement — leur crawl est ciblé et ponctuel, pas systématique.

Pour aller plus loin, le fichier llms.txt — convention émergente proposée en 2024 — permet d’indiquer aux modèles de langage quelles pages de votre site sont les plus pertinentes à consulter. Placé à la racine de votre domaine (https://votredomaine.com/llms.txt), il est reconnu par un nombre croissant d’outils IA en 2026.

  • Autorisez les bots de recherche temps réel si votre contenu est public, informatif, et que vous cherchez à être cité dans les réponses IA
  • Bloquez tous les bots IA si votre contenu est monétisé, réservé aux membres, ou si la stabilité serveur est votre priorité absolue
  • Adoptez le blocage sélectif dans tous les autres cas — c’est la configuration qui offre le meilleur équilibre entre protection des ressources et visibilité dans les outils IA

🔎 Notre méthode de comparaison

Top10hebergeursweb évalue chaque hébergeur selon une grille de critères reproductibles et vérifiables : performance serveur mesurée (TTFB, type de stockage NVMe ou SSD), transparence tarifaire (prix d’appel et prix de renouvellement distingués systématiquement), ressources allouées (CPU, RAM, bande passante), sécurité incluse et qualité du support francophone.

Sur le sujet des bots IA, notre recommandation est indépendante de tout partenariat commercial : si votre plan mutualisé actuel ne peut pas absorber la charge résiduelle après blocage, nous le disons — et nous indiquons les alternatives concrètes à évaluer selon votre budget et vos besoins réels.

Aucun hébergeur ne peut améliorer sa position dans nos classements par le biais d’un accord commercial. Les liens d’affiliation présents sur le site ne modifient pas les analyses — les limites de chaque offre sont mentionnées au même titre que leurs atouts.

✔ À retenir

  • Bloquez en priorité les bots d’entraînement via robots.txt
    → GPTBot, ClaudeBot, Google-Extended, CCBot, Meta-ExternalAgent, Bytespider
    → impact : réduction immédiate de la charge serveur sans perte de visibilité dans les outils IA actuels
  • Conservez les bots de recherche temps réel
    → ChatGPT-User, OAI-SearchBot, PerplexityBot, Claude-SearchBot, Claude-User
    → impact : votre site continue d’apparaître dans les réponses de ChatGPT, Perplexity et Claude
  • Ajoutez une règle Cloudflare WAF si vous êtes sur mutualisé
    → le robots.txt seul est insuffisant pour les bots récalcitrants ; Cloudflare est disponible en plan gratuit et s’active en quelques clics
    → impact : protection active même si le bot ignore les conventions robots.txt — et vérifiez que Cloudflare ne bloque pas déjà vos bots de recherche temps réel à votre insu
  • Réévaluez votre hébergement si les alertes CPU persistent après blocage
    → sur mutualisé, les ressources partagées ont une limite structurelle que le blocage ne compense pas indéfiniment
    → impact : un plan mutualisé premium ou un VPS entrée de gamme offre des ressources garanties et absorbe les pics résiduels sans risque de suspension de compte

Conclusion

La gestion des bots IA est devenue en 2026 un composant à part entière de l’administration d’un site web — au même titre que la mise à jour des plugins ou la surveillance de l’uptime. Ignorer ces crawlers, c’est laisser une part croissante de vos ressources serveur être consommée sans contrôle ni retour mesurable.

La stratégie recommandée repose sur trois niveaux complémentaires : le robots.txt pour les bots coopératifs, le .htaccess ou Nginx pour les bots récalcitrants, et Cloudflare WAF pour une protection active avant même que les requêtes n’atteignent votre serveur. Ces trois couches combinées couvrent la majorité des situations rencontrées sur hébergement mutualisé.

La distinction entre bots d’entraînement et bots de recherche temps réel reste le point d’arbitrage central. Bloquer les premiers protège vos ressources sans coût en visibilité immédiate. Bloquer les seconds vous exclut des réponses générées par ChatGPT, Perplexity et Claude — un canal de découverte dont le poids ne fera que croître.

Enfin, si les mesures de blocage ne suffisent pas à stabiliser votre infrastructure après 30 jours de configuration correcte, le diagnostic est clair : votre hébergement est sous-dimensionné pour votre niveau de trafic actuel. C’est le moment d’évaluer un passage vers un plan mutualisé premium avec ressources garanties — ou vers un VPS si votre site dépasse les limites structurelles du mutualisé.

Votre hébergement sature sous la charge des bots ? Passez à LWS Performance.

➜ Voir l’offre LWS Performance

Ressources garanties – Hébergement français – Sans surprise au renouvellement

Questions fréquentes

Comment bloquer GPTBot sur mon site ?

Ajoutez les deux lignes suivantes dans votre fichier robots.txt : User-agent: GPTBot suivi de Disallow: /. GPTBot respecte cette directive et cessera de crawler votre site dans les jours suivants. Pour une protection complémentaire, ajoutez une règle WAF dans Cloudflare ciblant le user-agent GPTBot avec l’action Block — efficace même si le bot ignorait les conventions robots.txt.

 

ClaudeBot respecte-t-il le fichier robots.txt ?

Oui. Anthropic confirme dans sa documentation officielle que ClaudeBot lit et respecte les directives du fichier robots.txt. Une directive User-agent: ClaudeBot / Disallow: / est donc suffisante pour empêcher ClaudeBot de crawler votre site. À noter : ClaudeBot est le bot d’entraînement d’Anthropic — distinct de Claude-SearchBot et Claude-User, qui sont les bots de recherche temps réel et qui permettent à Claude d’accéder à votre contenu lors de recherches web. Ces derniers méritent un traitement différencié selon votre stratégie de visibilité IA.

Les bots IA consomment-ils beaucoup de bande passante ?

Oui, de manière significative et souvent invisible dans les outils d’analyse classiques. Les bots IA ignorent fréquemment les protocoles de mise en cache pour obtenir la version la plus récente des pages — chaque requête génère donc une charge CPU et une consommation de bande passante réelles. Le projet Read the Docs a documenté une réduction de sa consommation de bande passante de 800 Go à 200 Go par jour après blocage des crawlers IA, soit une économie de 1 500 dollars par mois. Sur hébergement mutualisé avec bande passante partagée, des volumes similaires peuvent déclencher les mécanismes de limitation automatique de votre hébergeur.

Quelle différence entre GPTBot et ChatGPT-User ?

GPTBot est le bot d’entraînement d’OpenAI : il crawle votre contenu pour alimenter les futures versions de ChatGPT, avec un impact différé de 3 à 12 mois. ChatGPT-User est le bot de recherche temps réel : il accède à votre site pour répondre aux requêtes des utilisateurs de ChatGPT Search immédiatement. Bloquer GPTBot n’affecte pas votre visibilité immédiate dans ChatGPT. Bloquer ChatGPT-User vous exclut en revanche des réponses ChatGPT Search dès le lendemain. La stratégie recommandée est de bloquer GPTBot et d’autoriser ChatGPT-User.

Bloquer les bots IA nuit-il à mon référencement Google ?

Non, à condition de ne pas bloquer Googlebot par erreur. Google-Extended — le bot d’entraînement de Gemini — est distinct de Googlebot qui gère l’indexation Search. Bloquer Google-Extended n’a aucun impact sur votre positionnement dans Google Search. Vérifiez que vos directives de blocage ciblent précisément les user-agents des bots IA et non le wildcard User-agent: * qui bloquerait tous les robots y compris Googlebot.

Cloudflare bloque-t-il les bots IA par défaut sur les plans gratuits ?

Depuis juillet 2025, Cloudflare applique un blocage des bots IA par défaut pour les nouveaux domaines, y compris sur le plan gratuit. Si votre site est derrière Cloudflare sans que vous ayez vérifié cette configuration, des bots de recherche temps réel comme PerplexityBot ou ChatGPT-User peuvent être bloqués à votre insu. Pour vérifier : tableau de bord Cloudflare → Security → Bots → section AI Scrapers and Crawlers. Ajustez manuellement pour autoriser les bots de recherche temps réel souhaités.

Mon hébergement mutualisé est-il suffisant face aux bots IA ?

Dans la majorité des cas oui — à condition de déployer les mesures de blocage décrites dans cet article (robots.txt + Cloudflare WAF). Si les alertes CPU et les erreurs 500 persistent après 30 jours de configuration correcte, c’est le signal que votre plan mutualisé est sous-dimensionné pour votre volume de trafic actuel. Évaluez alors un passage vers un plan mutualisé premium avec ressources garanties, ou vers un VPS entrée de gamme qui offre des ressources dédiées et un accès root pour des configurations de blocage avancées.

✍️ À propos de l’auteur

Manda — Rédacteur spécialisé hébergement web et infrastructure WordPress. Analyse les offres d’hébergement en conditions réelles depuis 2018, avec une attention particulière aux comportements serveur sous charge, aux pratiques de sécurité et aux évolutions de l’écosystème IA appliquées à l’hébergement.

Méthode : configurations testées sur hébergements mutualisés LWS et o2switch, logs analysés via GoAccess, comportements bots vérifiés via Google Search Console et Cloudflare Analytics. Directives robots.txt validées via l’outil de test intégré de la Search Console. Données bots issues de Cloudflare Radar, AI Bot Impact Report 2026 et documentation officielle OpenAI, Anthropic et Cloudflare.

Article vérifié en juin 2026. Les noms de user-agents, plages IP et comportements des bots sont susceptibles d’évoluer — consultez les documentations officielles (OpenAI, Anthropic, Cloudflare) avant tout déploiement en production. Les tarifs d’hébergement sont indicatifs et à vérifier sur les pages officielles des hébergeurs.


White Book for template
Livre blanc - choisir l'hébergeur et l'hébergement adaptés à ses besoins

Livre blanc : Trouve l'hébergeur web parfait pour ton projet ! 🌐

Le guide ultime pour choisir l'hébergeur et le type d'hébergement adaptés à tes besoins. 🚀 Directement dans ta boîte mail, gratuitement.

Top 5 Hébergeurs

logo hebergeur web 4.9
Notre note
Visiter
Lire le test
logo hebergeur web 4.6
Notre note
Visiter
Lire le test
logo hebergeur web 4.6
Notre note
Visiter
Lire le test
logo hebergeur web 4.6
Notre note
Visiter
Lire le test
logo hebergeur web 4.6
Notre note
Visiter
Lire le test