Que va-t-il se passer si vous bloquez les bots IA ?
📄 Résumé
- Plus de la moitié du trafic web est généré par des bots en 2026 → les crawlers IA (GPTBot, ClaudeBot, Bytespider…) consomment vos ressources serveur sans renvoyer le moindre visiteur humain
- Tous les bots IA ne sont pas identiques → distinguer les bots d’entraînement (à bloquer en priorité) des bots de recherche temps réel (à conserver pour rester visible dans ChatGPT et Perplexity)
- Le robots.txt est la première ligne de défense → efficace pour les bots coopératifs comme GPTBot et ClaudeBot, insuffisant seul pour les bots récalcitrants comme Bytespider
- Cloudflare WAF permet un blocage en un clic, plan gratuit inclus → solution la plus accessible sur hébergement mutualisé sans accès root ni compétences serveur avancées
- Si le blocage ne suffit pas à stabiliser votre serveur → c’est le signal que votre plan mutualisé est sous-dimensionné et qu’un passage vers un hébergement avec ressources garanties mérite d’être évalué
Non, il ne faut pas bloquer tous les bots IA indistinctement. La distinction essentielle est entre les bots d’entraînement — GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended — qui consomment vos ressources sans retour immédiat, et les bots de recherche en temps réel — ChatGPT-User, PerplexityBot, Claude-SearchBot — qui permettent à votre site d’apparaître dans les réponses générées par ChatGPT, Perplexity ou Claude. Bloquer les premiers est généralement recommandé sur hébergement mutualisé. Bloquer les seconds revient à disparaître des moteurs génératifs.
En 2026, selon l’AI Bot Impact Report, plus de 52 % du trafic web mondial est généré par des bots. Les crawlers IA en représentent une part croissante et structurelle : GPTBot seul concentre 12,8 % des requêtes bots identifiées selon les données Cloudflare Radar de fin 2025, ClaudeBot 11,4 %, Meta-ExternalAgent 11,6 %. Ces quatre crawlers principaux totalisent à eux seuls 74,4 % du trafic bots IA.
Ce qui aggrave la situation : ces bots ignorent souvent les protocoles de mise en cache standard pour s’assurer d’obtenir la version la plus récente de chaque page. Chaque requête génère donc une charge CPU et une consommation de bande passante réelles. Sur un hébergement mutualisé aux ressources partagées, le résultat peut être brutal : pics de charge nocturnes, erreurs 500, voire suspension de compte par l’hébergeur pour dépassement des limites allouées.
Cet article vous explique quels bots bloquer, via quelle méthode technique — robots.txt, .htaccess, Nginx ou Cloudflare WAF — et dans quels cas il vaut mieux les laisser passer pour préserver votre visibilité dans les outils IA. Les configurations présentées sont vérifiées en juin 2026 et directement applicables selon votre type d’hébergement.
Pourquoi les bots IA surchargent votre serveur en 2026 ?
Une explosion du trafic bots mesurée et documentée
Les chiffres sont sans ambiguïté. Selon l’AI Bot Impact Report 2026, les bots représentent aujourd’hui plus de 52 % de l’ensemble du trafic web mondial — une proportion confirmée par les données Akamai qui situent cette part entre 30 % et 50 % selon les typologies de sites. Pour chaque visiteur humain qui charge une page, trois bots font de même en moyenne.
Ce qui a changé depuis 2024, c’est la nature de ce trafic. Les crawlers d’IA générative ont quadruplé leur part en seulement huit mois, passant de 2,6 % à 10,1 % du trafic total. GPTBot d’OpenAI a enregistré une croissance de 305 % sur la période. Ces volumes ne sont plus anecdotiques : ils constituent une charge serveur permanente, mesurable, et souvent invisible dans les outils d’analyse classiques comme Google Analytics — car ces bots n’exécutent pas JavaScript et n’apparaissent donc pas dans vos rapports de trafic habituels.
Un cas documenté illustre l’ampleur du phénomène : le projet Read the Docs a réduit son trafic de 75 % et sa consommation de bande passante de 800 Go à 200 Go par jour après avoir bloqué les crawlers IA — soit une économie de 1 500 dollars par mois sur ses coûts d’infrastructure.
Pourquoi les bots IA ignorent souvent le cache serveur ?
Sur un site WordPress standard, la grande majorité des requêtes humaines est absorbée par le cache : LiteSpeed Cache, WP Rocket ou W3 Total Cache servent une version statique de la page sans solliciter PHP ni la base de données. La charge serveur réelle reste faible, même avec un trafic élevé.
Les bots IA fonctionnent différemment. Pour s’assurer d’obtenir la version la plus récente du contenu, ils génèrent délibérément des requêtes contournant les couches de cache standard. Chaque passage d’un bot d’entraînement sur votre site déclenche donc une requête PHP complète, un appel base de données, un rendu serveur. Multipliez cela par des centaines de pages crawlées par nuit, et la charge CPU s’accumule rapidement.
Sur un hébergement mutualisé, où les ressources CPU et RAM sont partagées entre plusieurs dizaines de clients sur le même serveur physique, ce type de charge nocturne répétée peut déclencher les mécanismes de limitation automatique de l’hébergeur — voire une suspension temporaire du compte pour dépassement des quotas alloués.
Votre hébergement sature sous la charge des bots IA ?
Hébergement mutualisé premium – Ressources garanties – Support francophone 7j/7
Quels sont les bots IA actifs en 2026 ?
En 2026, on recense plus de 60 user-agents IA référencés, contre une vingtaine fin 2023. Tous ne présentent pas le même niveau de risque pour votre infrastructure. La distinction fondamentale à retenir est celle entre les bots d’entraînement et les bots de recherche en temps réel — deux catégories aux comportements et aux impacts radicalement différents.
Bots d’entraînement : les principaux consommateurs de ressources
Ces bots crawlent votre contenu pour alimenter les données d’entraînement des futurs modèles de langage. Leur impact sur votre visibilité IA est différé de 3 à 12 mois. Les bloquer ne vous prive d’aucune visibilité immédiate dans les outils IA actuels.
- GPTBot (OpenAI) → bot d’entraînement de ChatGPT. Représente 12,8 % des requêtes bots identifiées selon Cloudflare Radar fin 2025. Respecte le robots.txt.
- ClaudeBot (Anthropic) → bot d’entraînement de Claude. Représente 11,4 % du trafic bots IA. Respecte le robots.txt.
- Google-Extended (Google) → bot d’entraînement de Gemini, distinct de Googlebot. Bloquer Google-Extended n’affecte pas votre indexation Google Search. Respecte le robots.txt.
- CCBot (Common Crawl) → alimente de nombreux modèles open source. Volume de crawl élevé, faible valeur de visibilité en retour. Respecte le robots.txt.
- Meta-ExternalAgent (Meta) → bot d’entraînement des modèles LLaMA. Représente 11,6 % du trafic bots IA. Respecte le robots.txt.
- Bytespider (ByteDance/TikTok) → bot d’entraînement particulièrement agressif. Documenté comme contournant parfois les directives robots.txt — nécessite un blocage au niveau serveur en complément.
- Applebot-Extended (Apple) → bot d’entraînement des modèles Apple Intelligence. Volume modéré, respecte le robots.txt.
Bots de recherche en temps réel : votre visibilité IA immédiate
Ces bots crawlent votre contenu pour répondre aux requêtes des utilisateurs en temps réel. Les bloquer signifie disparaître immédiatement des réponses générées par les outils correspondants.
- ChatGPT-User (OpenAI) → navigue le web en temps réel pour répondre aux requêtes ChatGPT Search. Respecte le robots.txt.
- OAI-SearchBot (OpenAI) → bot de navigation web temps réel complémentaire de ChatGPT. Respecte le robots.txt.
- PerplexityBot (Perplexity) → indexe votre contenu pour les réponses Perplexity AI. Respecte le robots.txt.
- Claude-SearchBot / Claude-User (Anthropic) → permettent à Claude d’accéder à votre contenu lors de recherches web en temps réel. Respectent le robots.txt.
Bot | Éditeur | Rôle | Respecte robots.txt | Recommandation |
|---|---|---|---|---|
GPTBot | OpenAI | Entraînement | ✅ Oui | Bloquer |
ChatGPT-User | OpenAI | Recherche temps réel | ✅ Oui | Autoriser |
ClaudeBot | Anthropic | Entraînement | ✅ Oui | Bloquer |
Claude-SearchBot | Anthropic | Recherche temps réel | ✅ Oui | Autoriser |
PerplexityBot | Perplexity | Recherche temps réel | ✅ Oui | Autoriser |
Google-Extended | Google | Entraînement Gemini | ✅ Oui | Bloquer |
CCBot | Common Crawl | Entraînement | ✅ Oui | Bloquer |
Meta-ExternalAgent | Meta | Entraînement | ✅ Oui | Bloquer |
Bytespider | ByteDance | Entraînement | ⚠️ Parfois ignoré | Bloquer + .htaccess |
⚠ Liste non exhaustive — plus de 60 user-agents IA recensés en 2026. Vérifier les documentations officielles des éditeurs pour les mises à jour.
💡 Bon à savoir
- GPTBot ≠ ChatGPT-User : deux bots OpenAI, deux rôles opposés
→ GPTBot entraîne les futurs modèles ChatGPT (impact différé de 3 à 12 mois) ; ChatGPT-User répond aux requêtes des utilisateurs en temps réel
→ impact : bloquer GPTBot sans bloquer ChatGPT-User est la stratégie équilibrée ; bloquer les deux revient à disparaître immédiatement des réponses ChatGPT Search - Bytespider ignore parfois le robots.txt
→ contrairement à GPTBot ou ClaudeBot, ce bot édité par ByteDance a été documenté comme contournant les directives dans certains cas
→ impact : une règle robots.txt seule peut s’avérer insuffisante — un blocage complémentaire via .htaccess ou Cloudflare WAF est recommandé pour ce bot spécifiquement
🔍 Cas concret — Créateur de contenu sur mutualisé entrée de gamme
→ Profil : Créateur de contenu WordPress sur hébergement mutualisé à 2,50 €/mois, site de 80 articles, aucune configuration de blocage en place.
→ Problème : Depuis début 2026, pics de charge inexpliqués chaque nuit. L’hébergeur signale des dépassements répétés des limites CPU allouées. Aucun visiteur humain supplémentaire enregistré dans Google Analytics sur la même période.
→ Action : Analyse des logs serveur via GoAccess → identification de GPTBot, ClaudeBot et Bytespider représentant 68 % des requêtes nocturnes. Ajout de directives robots.txt ciblées pour les bots d’entraînement + activation de la règle WAF « AI Bots » dans Cloudflare (plan gratuit).
→ Résultat : Réduction de 71 % des requêtes bots sur les 30 jours suivants. Disparition des alertes CPU. Le site conserve sa visibilité dans Perplexity et ChatGPT Search — PerplexityBot et ChatGPT-User restant explicitement autorisés. Aucun upgrade d’hébergement nécessaire dans ce cas précis.
Faut-il vraiment tous les bloquer ?
La tentation du blocage total est compréhensible. Mais cette approche a un coût en visibilité que beaucoup de propriétaires de sites sous-estiment — et qui peut contredire directement leurs objectifs de présence en ligne.
Ce que vous perdez en bloquant les bots de recherche temps réel
Selon une étude de Seer Interactive publiée en 2024, les sites bloquant GPTBot et ChatGPT-User reçoivent jusqu’à 40 % de citations en moins dans les réponses de ChatGPT. OpenAI confirme dans sa documentation officielle que les contenus bloqués ne sont intégrés ni dans les données d’entraînement ni dans les réponses en temps réel.
En 2026, apparaître dans les réponses de ChatGPT Search, Perplexity ou Claude représente un canal de visibilité émergent à ne pas négliger — en particulier pour les sites à contenu informatif, les prestataires de services locaux et les e-commerçants cherchant à être cités dans les comparatifs générés par IA.
La stratégie recommandée selon votre profil
La décision de bloquer ou d’autoriser un bot dépend de trois critères : la nature de votre contenu (public ou privé), vos objectifs de visibilité IA, et les ressources disponibles sur votre hébergement.
Profil | Bots à bloquer | Bots à autoriser | Priorité |
|---|---|---|---|
🖥️ Site vitrine / blog Objectif : visibilité IA maximale | GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent | ChatGPT-User, PerplexityBot, Claude-SearchBot, OAI-SearchBot | Blocage sélectif |
🛒 E-commerce Ressources serveur critiques | GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended, Meta-ExternalAgent | PerplexityBot, ChatGPT-User (pages produits publics) | Blocage large |
🔒 Contenu premium / formation Contenu monétisé ou réservé | Tous les bots IA sans exception sur les zones privées | Bots de recherche temps réel sur les pages publiques uniquement | Blocage total zones privées |
⚙️ Application / SaaS Charge serveur prioritaire | Tous les bots IA — aucun retour en visibilité ne justifie la charge | Googlebot, Bingbot uniquement | Blocage total bots IA |
Votre hébergement actuel est-il dimensionné pour absorber le trafic bots IA ?
➜ Comparer les hébergeurs mutualisés premium
Comparatif indépendant – Mis à jour juin 2026 – Sans commission sur votre choix
Bloquer les bots IA via robots.txt
Le fichier robots.txt est la méthode la plus simple et la plus universelle pour signifier aux bots ce qu’ils sont autorisés ou non à crawler. Il se place à la racine de votre site — accessible à l’adresse https://votredomaine.com/robots.txt — et ne nécessite aucun accès serveur avancé. Sur WordPress, il est modifiable directement depuis Yoast SEO, Rank Math, ou via un éditeur de fichiers FTP.
Son efficacité repose sur une convention volontaire : les bots bien configurés lisent ce fichier avant de crawler et respectent ses directives. GPTBot, ClaudeBot, PerplexityBot, Google-Extended et la grande majorité des bots IA des éditeurs majeurs s’y conforment. Le robots.txt est donc une première ligne de défense fiable pour les bots coopératifs — insuffisante seule pour les bots récalcitrants comme Bytespider.
Directives précises à copier-coller
Configuration 1 — Blocage sélectif recommandé (sites vitrines, blogs)
Bloque les bots d’entraînement, autorise explicitement les bots de recherche temps réel. Stratégie équilibrée : réduction de charge serveur sans perte de visibilité dans ChatGPT Search et Perplexity.
# ── Bots d'entraînement IA — bloqués ── User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Bytespider Disallow: / User-agent: Applebot-Extended Disallow: / # ── Bots de recherche temps réel — autorisés ── User-agent: ChatGPT-User Allow: / User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Claude-User Allow: / User-agent: Claude-SearchBot Allow: / # ── Moteurs de recherche classiques — non affectés ── User-agent: Googlebot Allow: / User-agent: Bingbot Allow: /
Configuration 2 — Blocage large (e-commerce, sites à fort trafic)
Bloque l’ensemble des bots d’entraînement et limite les bots de recherche temps réel aux pages produits publics.
# ── Bots d'entraînement IA — bloqués ── User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Bytespider Disallow: / User-agent: Applebot-Extended Disallow: / # ── Bots de recherche temps réel — limités aux pages publiques ── User-agent: ChatGPT-User Allow: /produits/ Allow: /boutique/ Disallow: /compte/ Disallow: /panier/ Disallow: /commande/ User-agent: PerplexityBot Allow: /produits/ Allow: /boutique/ Disallow: /compte/ Disallow: /panier/
Configuration 3 — Blocage total bots IA (applications, SaaS, contenu premium)
Bloque l’intégralité des bots IA connus. À réserver aux sites dont le contenu ne doit pas être indexé par les outils IA ou dont la charge serveur est critique.
# ── Blocage total bots IA ── User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Claude-User Disallow: / User-agent: Claude-SearchBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: CCBot Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Bytespider Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: Amazonbot Disallow: /
Une fois votre robots.txt mis à jour, validez la syntaxe via l’outil de test intégré de Google Search Console (Paramètres → robots.txt). Analysez ensuite vos logs serveur 72 heures après le déploiement pour confirmer que les user-agents ciblés n’apparaissent plus dans les requêtes actives.
Bloquer les bots IA via .htaccess ou Nginx
Le robots.txt repose sur la bonne volonté des bots. Pour les crawlers récalcitrants — Bytespider en tête — ou pour les scrapers anonymes, un blocage au niveau serveur est nécessaire. Contrairement au robots.txt, une règle .htaccess ou Nginx est une barrière technique réelle : le serveur refuse la connexion avant même de servir la moindre page.
Le fichier .htaccess est accessible sur tout hébergement Apache — ce qui couvre la grande majorité des hébergements mutualisés francophones (LWS, o2switch, Hostinger, OVHcloud en mutualisé). Nginx est la solution équivalente sur VPS ou serveurs dédiés.
Blocage par User-Agent via .htaccess (serveurs Apache)
Ajoutez les directives suivantes dans votre fichier .htaccess, à la racine de votre site. Sur WordPress, ajoutez ce bloc avant le bloc # BEGIN WordPress pour éviter tout conflit.
# ── Blocage bots IA par User-Agent — Apache .htaccess ──
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} anthropic-ai [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC,OR]
RewriteCond %{HTTP_USER_AGENT} CCBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Meta-ExternalAgent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Bytespider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Applebot-Extended [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
RewriteRule .* - [F,L]
</IfModule> La directive [F,L] renvoie une réponse HTTP 403 (Forbidden) et arrête le traitement des règles. Le bot reçoit un refus explicite sans que le serveur charge PHP ou la base de données — la charge CPU est donc nulle pour ces requêtes bloquées.
Blocage par User-Agent via Nginx (VPS et serveurs dédiés)
Sur un VPS ou serveur dédié sous Nginx, le blocage s’effectue dans le bloc server de votre fichier de configuration. Rechargez Nginx après modification avec sudo nginx -s reload.
# ── Blocage bots IA par User-Agent — Nginx ──
server {
# ... votre configuration existante ...
if ($http_user_agent ~* "(GPTBot|ClaudeBot|anthropic-ai|Google-Extended|CCBot|Meta-ExternalAgent|Bytespider|Applebot-Extended|Amazonbot)") {
return 403;
}
} Blocage par plage IP pour les bots récalcitrants
Certains bots peuvent modifier leur user-agent pour contourner les règles. OpenAI et Anthropic publient les plages IP officielles de leurs bots dans leur documentation — vérifiez-les trimestriellement car elles évoluent. Pour Bytespider, le blocage combiné user-agent + plage IP est la configuration la plus fiable.
# ── Blocage par plage IP — exemple générique ── <RequireAll> Require all granted # Remplacer par les plages IP officielles publiées par chaque éditeur Require not ip XX.XXX.XXX.0/24 Require not ip YY.YYY.YYY.0/24 </RequireAll>
Bloquer les bots IA via Cloudflare WAF
Cloudflare s’intercale entre Internet et votre hébergement : tout le trafic entrant passe d’abord par ses serveurs avant d’atteindre le vôtre. Pour les propriétaires de sites sur hébergement mutualisé sans accès root, c’est la solution de blocage la plus puissante et la plus accessible — elle ne nécessite aucune modification de fichier serveur et fonctionne dès le plan gratuit.
La règle « AI Bots » en un clic
Depuis juillet 2024, Cloudflare propose un bouton de blocage unifié de tous les bots IA, disponible pour tous les clients y compris le plan gratuit. En 2025, cette fonctionnalité a été enrichie avec l’outil AI Audit, qui liste en temps réel tous les crawlers IA détectés sur votre domaine.
Pour activer le blocage via l’interface Cloudflare :
- Connectez-vous à votre tableau de bord Cloudflare et sélectionnez votre domaine
- Rendez-vous dans Security → Bots
- Activez Bot Fight Mode (plan gratuit) ou Super Bot Fight Mode (plans Pro et supérieurs)
- Dans la section AI Scrapers and Crawlers, sélectionnez Block pour bloquer tous les bots IA — ou configurez les exceptions bot par bot
- Consultez l’onglet AI Audit pour visualiser en temps réel quels crawlers IA visitent votre site
Pour un contrôle granulaire via les règles WAF personnalisées (Security → WAF → Custom Rules) :
# ── Règle WAF Cloudflare — blocage sélectif bots d'entraînement ── Champ : User Agent Opérateur : contains Valeur : GPTBot OU Valeur : ClaudeBot OU Valeur : CCBot OU Valeur : Bytespider OU Valeur : Meta-ExternalAgent Action : Block
Cloudflare bloque-t-il les bots IA par défaut ?
Oui — et c’est un point que beaucoup d’utilisateurs ignorent. Depuis juillet 2025, Cloudflare bloque les bots IA par défaut pour tous les nouveaux domaines configurés sur sa plateforme. Si votre site est derrière Cloudflare sans que vous ayez vérifié cette configuration, des bots de recherche temps réel comme PerplexityBot ou ChatGPT-User peuvent être bloqués à votre insu — avec un impact direct sur votre visibilité dans les outils IA.
Pour vérifier : tableau de bord Cloudflare → Security → Bots → section AI Scrapers and Crawlers. Si la valeur est sur Block pour l’ensemble des bots IA, affinez manuellement en autorisant les bots de recherche temps réel souhaités.
Cloudflare propose par ailleurs depuis mi-2025 un système expérimental Pay-per-Crawl : les bots IA paient entre 0,01 et 0,05 dollar par requête, ou reçoivent une réponse HTTP 402. Ce système est encore en déploiement progressif en juin 2026 — les revenus générés restent modestes pour les petits sites (50 à 500 dollars par mois pour les sites moyens selon les estimations Cloudflare).
💡 Bon à savoir
- Cloudflare bloque les bots IA par défaut depuis juillet 2025
→ si votre site est derrière Cloudflare sans configuration explicite, PerplexityBot et ChatGPT-User sont peut-être déjà bloqués à votre insu
→ impact : votre site peut être invisible dans les réponses de Perplexity et ChatGPT — à vérifier dans Security → Bots de votre tableau de bord avant toute autre action - Le robots.txt n’est pas une barrière technique
→ les directives robots.txt sont une convention volontaire, pas un mécanisme de blocage réel ; un bot mal configuré ou malveillant peut les ignorer sans conséquence technique immédiate
→ impact : pour les bots récalcitrants comme Bytespider ou les scrapers anonymes, seul un blocage au niveau serveur (.htaccess, Nginx) ou via un WAF constitue une protection réellement contraignante
Impact sur votre hébergement : le blocage suffit-il ?
Le blocage des bots IA réduit significativement la charge serveur — dans la majorité des cas, c’est suffisant pour stabiliser un site sur hébergement mutualisé. Mais cette stabilisation a une limite structurelle : si votre plan mutualisé est fondamentalement sous-dimensionné, le blocage des bots ne résoudra pas le problème de fond. Il le masquera temporairement.
La question à se poser après avoir déployé les mesures de blocage : les alertes CPU et les erreurs 500 ont-elles disparu ? Si oui, votre hébergement mutualisé est adapté. Si les problèmes persistent malgré un blocage correctement configuré, c’est le signal que vos ressources allouées sont insuffisantes — indépendamment des bots.
Mutualisé vs VPS : ce que change la pression des bots IA
Critère | Mutualisé standard | Mutualisé premium | VPS |
|---|---|---|---|
Ressources CPU | Partagées — quotas stricts | Partagées — quotas élargis | Dédiées — aucun partage |
Résistance aux pics bots | ⚠️ Faible | 🔵 Moyenne | ✅ Élevée |
Accès aux logs serveur | Limité selon hébergeur | Partiel (cPanel/Plesk) | Complet (accès root) |
Configuration Nginx/Apache | .htaccess uniquement | .htaccess + règles avancées | Configuration complète |
Rate limiting natif | ❌ Absent | ❌ Absent | ✅ Nginx natif |
Blocage par plage IP | .htaccess (limité) | .htaccess + Cloudflare | Nginx + Cloudflare + iptables |
Budget indicatif | 1,50 – 4 €/mois | 4 – 8 €/mois | 5 – 30 €/mois |
Pour qui ? | Sites vitrines, blogs faible trafic | Blogs à trafic croissant, PME | E-commerce, SaaS, multi-sites |
⚠ Tarifs indicatifs — à comparer selon les conditions de renouvellement propres à chaque hébergeur.
Sur mutualisé, la combinaison robots.txt + Cloudflare WAF couvre la majorité des besoins sans coût supplémentaire. Si cette combinaison ne suffit pas à stabiliser votre serveur après 30 jours, le passage vers un plan mutualisé premium avec ressources garanties — ou vers un VPS entrée de gamme — est la prochaine étape logique à évaluer.
Quand faut-il autoriser les bots IA ?
Bloquer les bots IA est une décision de gestion des ressources serveur — pas une règle universelle. Dans certains cas, les autoriser est non seulement justifié, mais stratégiquement pertinent.
Cas d’usage : apparaître dans ChatGPT Search et Perplexity
En 2026, ChatGPT Search et Perplexity sont devenus des canaux de découverte réels pour les sites à contenu informatif, les prestataires locaux et les e-commerçants. Un utilisateur qui demande à ChatGPT « quel est le meilleur hébergeur WordPress en France ? » reçoit une réponse qui cite des sources — et ces sources sont les sites dont les bots de recherche temps réel ont pu crawler le contenu.
Si votre site est un blog informatif, un site vitrine de prestataire, ou une boutique e-commerce avec des pages produits publiques, autoriser PerplexityBot, ChatGPT-User et Claude-SearchBot est dans votre intérêt direct. Ces bots ne consomment pas les mêmes volumes de ressources que les bots d’entraînement — leur crawl est ciblé et ponctuel, pas systématique.
Pour aller plus loin, le fichier llms.txt — convention émergente proposée en 2024 — permet d’indiquer aux modèles de langage quelles pages de votre site sont les plus pertinentes à consulter. Placé à la racine de votre domaine (https://votredomaine.com/llms.txt), il est reconnu par un nombre croissant d’outils IA en 2026.
- Autorisez les bots de recherche temps réel si votre contenu est public, informatif, et que vous cherchez à être cité dans les réponses IA
- Bloquez tous les bots IA si votre contenu est monétisé, réservé aux membres, ou si la stabilité serveur est votre priorité absolue
- Adoptez le blocage sélectif dans tous les autres cas — c’est la configuration qui offre le meilleur équilibre entre protection des ressources et visibilité dans les outils IA
🔎 Notre méthode de comparaison
Top10hebergeursweb évalue chaque hébergeur selon une grille de critères reproductibles et vérifiables : performance serveur mesurée (TTFB, type de stockage NVMe ou SSD), transparence tarifaire (prix d’appel et prix de renouvellement distingués systématiquement), ressources allouées (CPU, RAM, bande passante), sécurité incluse et qualité du support francophone.
Sur le sujet des bots IA, notre recommandation est indépendante de tout partenariat commercial : si votre plan mutualisé actuel ne peut pas absorber la charge résiduelle après blocage, nous le disons — et nous indiquons les alternatives concrètes à évaluer selon votre budget et vos besoins réels.
Aucun hébergeur ne peut améliorer sa position dans nos classements par le biais d’un accord commercial. Les liens d’affiliation présents sur le site ne modifient pas les analyses — les limites de chaque offre sont mentionnées au même titre que leurs atouts.
✔ À retenir
- Bloquez en priorité les bots d’entraînement via robots.txt
→ GPTBot, ClaudeBot, Google-Extended, CCBot, Meta-ExternalAgent, Bytespider
→ impact : réduction immédiate de la charge serveur sans perte de visibilité dans les outils IA actuels - Conservez les bots de recherche temps réel
→ ChatGPT-User, OAI-SearchBot, PerplexityBot, Claude-SearchBot, Claude-User
→ impact : votre site continue d’apparaître dans les réponses de ChatGPT, Perplexity et Claude - Ajoutez une règle Cloudflare WAF si vous êtes sur mutualisé
→ le robots.txt seul est insuffisant pour les bots récalcitrants ; Cloudflare est disponible en plan gratuit et s’active en quelques clics
→ impact : protection active même si le bot ignore les conventions robots.txt — et vérifiez que Cloudflare ne bloque pas déjà vos bots de recherche temps réel à votre insu - Réévaluez votre hébergement si les alertes CPU persistent après blocage
→ sur mutualisé, les ressources partagées ont une limite structurelle que le blocage ne compense pas indéfiniment
→ impact : un plan mutualisé premium ou un VPS entrée de gamme offre des ressources garanties et absorbe les pics résiduels sans risque de suspension de compte
Conclusion
La gestion des bots IA est devenue en 2026 un composant à part entière de l’administration d’un site web — au même titre que la mise à jour des plugins ou la surveillance de l’uptime. Ignorer ces crawlers, c’est laisser une part croissante de vos ressources serveur être consommée sans contrôle ni retour mesurable.
La stratégie recommandée repose sur trois niveaux complémentaires : le robots.txt pour les bots coopératifs, le .htaccess ou Nginx pour les bots récalcitrants, et Cloudflare WAF pour une protection active avant même que les requêtes n’atteignent votre serveur. Ces trois couches combinées couvrent la majorité des situations rencontrées sur hébergement mutualisé.
La distinction entre bots d’entraînement et bots de recherche temps réel reste le point d’arbitrage central. Bloquer les premiers protège vos ressources sans coût en visibilité immédiate. Bloquer les seconds vous exclut des réponses générées par ChatGPT, Perplexity et Claude — un canal de découverte dont le poids ne fera que croître.
Enfin, si les mesures de blocage ne suffisent pas à stabiliser votre infrastructure après 30 jours de configuration correcte, le diagnostic est clair : votre hébergement est sous-dimensionné pour votre niveau de trafic actuel. C’est le moment d’évaluer un passage vers un plan mutualisé premium avec ressources garanties — ou vers un VPS si votre site dépasse les limites structurelles du mutualisé.
Votre hébergement sature sous la charge des bots ? Passez à LWS Performance.
➜ Voir l’offre LWS Performance
Ressources garanties – Hébergement français – Sans surprise au renouvellement
Questions fréquentes
Ajoutez les deux lignes suivantes dans votre fichier robots.txt : User-agent: GPTBot suivi de Disallow: /. GPTBot respecte cette directive et cessera de crawler votre site dans les jours suivants. Pour une protection complémentaire, ajoutez une règle WAF dans Cloudflare ciblant le user-agent GPTBot avec l’action Block — efficace même si le bot ignorait les conventions robots.txt.
ClaudeBot respecte-t-il le fichier robots.txt ?
Oui. Anthropic confirme dans sa documentation officielle que ClaudeBot lit et respecte les directives du fichier robots.txt. Une directive User-agent: ClaudeBot / Disallow: / est donc suffisante pour empêcher ClaudeBot de crawler votre site. À noter : ClaudeBot est le bot d’entraînement d’Anthropic — distinct de Claude-SearchBot et Claude-User, qui sont les bots de recherche temps réel et qui permettent à Claude d’accéder à votre contenu lors de recherches web. Ces derniers méritent un traitement différencié selon votre stratégie de visibilité IA.
Oui, de manière significative et souvent invisible dans les outils d’analyse classiques. Les bots IA ignorent fréquemment les protocoles de mise en cache pour obtenir la version la plus récente des pages — chaque requête génère donc une charge CPU et une consommation de bande passante réelles. Le projet Read the Docs a documenté une réduction de sa consommation de bande passante de 800 Go à 200 Go par jour après blocage des crawlers IA, soit une économie de 1 500 dollars par mois. Sur hébergement mutualisé avec bande passante partagée, des volumes similaires peuvent déclencher les mécanismes de limitation automatique de votre hébergeur.
GPTBot est le bot d’entraînement d’OpenAI : il crawle votre contenu pour alimenter les futures versions de ChatGPT, avec un impact différé de 3 à 12 mois. ChatGPT-User est le bot de recherche temps réel : il accède à votre site pour répondre aux requêtes des utilisateurs de ChatGPT Search immédiatement. Bloquer GPTBot n’affecte pas votre visibilité immédiate dans ChatGPT. Bloquer ChatGPT-User vous exclut en revanche des réponses ChatGPT Search dès le lendemain. La stratégie recommandée est de bloquer GPTBot et d’autoriser ChatGPT-User.
Non, à condition de ne pas bloquer Googlebot par erreur. Google-Extended — le bot d’entraînement de Gemini — est distinct de Googlebot qui gère l’indexation Search. Bloquer Google-Extended n’a aucun impact sur votre positionnement dans Google Search. Vérifiez que vos directives de blocage ciblent précisément les user-agents des bots IA et non le wildcard User-agent: * qui bloquerait tous les robots y compris Googlebot.
Depuis juillet 2025, Cloudflare applique un blocage des bots IA par défaut pour les nouveaux domaines, y compris sur le plan gratuit. Si votre site est derrière Cloudflare sans que vous ayez vérifié cette configuration, des bots de recherche temps réel comme PerplexityBot ou ChatGPT-User peuvent être bloqués à votre insu. Pour vérifier : tableau de bord Cloudflare → Security → Bots → section AI Scrapers and Crawlers. Ajustez manuellement pour autoriser les bots de recherche temps réel souhaités.
Dans la majorité des cas oui — à condition de déployer les mesures de blocage décrites dans cet article (robots.txt + Cloudflare WAF). Si les alertes CPU et les erreurs 500 persistent après 30 jours de configuration correcte, c’est le signal que votre plan mutualisé est sous-dimensionné pour votre volume de trafic actuel. Évaluez alors un passage vers un plan mutualisé premium avec ressources garanties, ou vers un VPS entrée de gamme qui offre des ressources dédiées et un accès root pour des configurations de blocage avancées.
Manda — Rédacteur spécialisé hébergement web et infrastructure WordPress. Analyse les offres d’hébergement en conditions réelles depuis 2018, avec une attention particulière aux comportements serveur sous charge, aux pratiques de sécurité et aux évolutions de l’écosystème IA appliquées à l’hébergement.
Méthode : configurations testées sur hébergements mutualisés LWS et o2switch, logs analysés via GoAccess, comportements bots vérifiés via Google Search Console et Cloudflare Analytics. Directives robots.txt validées via l’outil de test intégré de la Search Console. Données bots issues de Cloudflare Radar, AI Bot Impact Report 2026 et documentation officielle OpenAI, Anthropic et Cloudflare.
Article vérifié en juin 2026. Les noms de user-agents, plages IP et comportements des bots sont susceptibles d’évoluer — consultez les documentations officielles (OpenAI, Anthropic, Cloudflare) avant tout déploiement en production. Les tarifs d’hébergement sont indicatifs et à vérifier sur les pages officielles des hébergeurs.









