Aller au contenu
indexurl.fr

// guide pilier · technique avancé

Crawl budget : optimiser le passage de Googlebot.

Pour les gros sites e-commerce, médias et enterprises au-delà de 10 000 URLs. Comprendre comment Google alloue son crawl, mesurer le waste actuel, identifier les killers (faceted navigation, paramètres, paginations) et corriger pour améliorer le ratio crawled / indexed.

Par Léa Vasseur Lecture 16 min

// sommaire (9 sections)

Crawl budget : définition et seuils.

Le crawl budget est la quantité de ressources que Googlebot alloue à votre site pour le crawler sur une période donnée. Concrètement : combien de pages Googlebot va télécharger par jour. C'est une enveloppe finie, déterminée par les serveurs Google selon plusieurs critères.

// à retenir

Sous 10 000 pages, le crawl budget n'est PAS un sujet pour la majorité des sites. Google le confirme officiellement. Si votre site fait moins de 10 000 URLs et que Google ne crawle pas tout, le problème est ailleurs (qualité, signaux d'autorité, blocages techniques).

Qui est réellement concerné

  • Sites e-commerce de plus de 1 000 produits : faceted navigation explose le nombre d'URLs réelles (filtres × catégories × variantes × pagination).
  • Médias et magazines en ligne avec archives profondes : 10 ans d'articles + pagination + tags + auteurs = facilement 50 000+ URLs.
  • Marketplaces et agrégateurs : volume d'annonces, recherche interne, géolocalisation. Crawl budget = enjeu existentiel.
  • Sites SaaS avec génération automatique : pages d'aide auto-générées, documentations API, profils utilisateurs publics.

Comment Google calcule le crawl budget.

Selon la documentation officielle Google, deux composantes se multiplient.

Crawl capacity limit

Combien Googlebot PEUT crawler sans dégrader votre serveur. Augmente avec : vitesse de réponse rapide, absence d'erreurs 5xx, capacité serveur élevée. Baisse avec : timeouts, erreurs 5xx, temps de réponse > 1 seconde.

levier : performance serveur

Crawl demand

Combien Googlebot VEUT crawler. Augmente avec : popularité (backlinks), fraîcheur du contenu, pages neuves découvertes via sitemap. Baisse avec : pages obsolètes, contenu rarement mis à jour, faible autorité.

levier : autorité + fraîcheur

// nouveauté 2026

L'IA intervient désormais dans la décision de crawl. Google priorise les URLs jugées probablement utiles selon des signaux contextuels (thématique du domaine, qualité historique des templates similaires). Ne pas confondre crawl prédictif avec ranking : c'est un filtre amont qui décide où dépenser le crawl, pas un facteur de positionnement direct.

Mesurer son crawl budget actuel.

Trois niveaux de granularité, du plus simple au plus précis. Au-delà de 50 000 URLs, GSC seul est insuffisant : passage obligatoire à l'analyse de logs serveur.

  1. 01

    Search Console > Statistiques sur l'exploration

    Paramètres > Statistiques sur l'exploration. Vue agrégée : requêtes par jour, taille moyenne téléchargée, temps de réponse moyen, répartition par code HTTP, par type de fichier (HTML/image/CSS/JS), par objectif (découverte vs actualisation). Suffisant pour les sites < 50 000 URLs.

  2. 02

    Logs serveur filtrés sur Googlebot

    La vérité absolue. Pull des access logs (Apache/Nginx/CloudFront), filtre sur user-agent Googlebot. Permet de voir QUELLES URLs sont crawlées, à quelle fréquence, avec quel code retour. Vérification anti-spoof : croiser avec les plages IP officielles Googlebot. Outils : Screaming Frog Log File Analyser (50 €/an, suffit pour la plupart), Botify et OnCrawl (enterprise, $$$$), Jet Octopus.

  3. 03

    Cross-référence avec sitemaps

    Comparer la liste des URLs du sitemap vs celle des URLs effectivement crawlées (logs). Le delta révèle : URLs prioritaires non crawlées (problème) et URLs hors sitemap massivement crawlées (waste évident, souvent paramètres de tri ou filtres).

Les 5 killers du crawl budget.

Cinq sources qui consomment 30-40 % du crawl sur les sites non optimisés. Identifiables via log analysis en quelques heures.

30-40%

part typique du crawl Googlebot allouée à des URLs sans valeur business sur les sites e-commerce non optimisés (faceted nav, paramètres, paginations).

10 000

URLs : seuil officiel Google au-delà duquel le crawl budget devient un sujet à monitorer.

01 Faceted navigation (filtres combinés e-commerce)

Le killer n°1 sur les sites e-commerce. Une catégorie qui devrait être 1 URL devient des milliers de variantes via filtres : couleur × taille × marque × prix × tri × pagination. Solution : robots.txt Disallow sur les patterns clairs (?sort=, ?orderby=) + canonical sur les variantes restantes.

02 URLs paramétrées de session ou tracking

UTM, sessions PHP, IDs de tracking. Génèrent des "duplicates" du point de vue Google. Solution : robots.txt sur les paramètres connus + canonical sur la version sans paramètre. Pour UTM : Google ignore généralement, pas de problème majeur.

03 Pagination profonde non maîtrisée

Page 47 d'un listing produit qui ne contient plus que des fonds de catalogue obsolètes. Google y consacre du crawl alors que personne n'y va. Solution : limiter la profondeur de pagination (max 10 pages indexables, le reste en noindex), consolider via "tout afficher" ou catégories enfants.

04 Pages d'erreur 4xx massives

Anciennes URLs qui retournent 404 sont quand même crawlées par Googlebot pendant des mois. Les retirer du sitemap, configurer 410 (gone) au lieu de 404 si c'est définitif (Google retire plus vite). Vérifier via GSC > Pages > "Introuvable (404)".

05 Chaînes de redirection

A → B → C → D. Chaque hop coûte du crawl budget. Google peut abandonner après 5 hops. Solution : tester avec un crawler interne (Screaming Frog), mettre à plat les chaînes vers la destination directe.

Optimisations e-commerce (faceted navigation).

Le sujet n°1 sur les sites enterprise. Quatre stratégies par ordre d'efficacité.

  1. 01

    Empêcher la création d'URL en amont

    Pour les filtres à faible valeur (combinaisons rares), gérer côté JS sans changer d'URL : l'utilisateur filtre, le DOM se met à jour, l'URL reste statique. Aucun crawl supplémentaire. Réservé aux filtres jamais cherchés en SEO.

  2. 02

    robots.txt Disallow sur les patterns

    Pattern Disallow: /*?sort=, Disallow: /*?orderby=, Disallow: /*?session_id=. Préserve directement le crawl budget car Googlebot ne crawle même pas ces URLs. Attention : ne JAMAIS bloquer les filtres à fort volume de recherche (ex. "robe rouge" si c'est une query commerciale).

  3. 03

    Canonical vers la version principale

    Sur les variantes filtrées légitimes mais redondantes (ex. /robes/?color=rouge&page=2), pointer canonical vers /robes/?color=rouge. Économise l'index, pas le crawl (Google crawle quand même pour découvrir le canonical), mais évite la duplication d'index.

  4. 04

    Pages catégorie enrichies pour les filtres à fort volume

    Pour les filtres qui correspondent à des queries commerciales (ex. "robe rouge taille S"), créer une URL propre type /robes/rouges-taille-s/ avec contenu éditorial unique, meta dédié, et liens internes. Google comprend que c'est une page distincte intentionnelle et la crawle en priorité.

Optimisations contenu : consolidation et suppression.

Le crawl budget est dépensé sur des URLs ; moins d'URLs (ou plus d'URLs prioritaires) = meilleure allocation. Trois actions sur le contenu existant.

Consolider les pages thin similaires

5 articles de 400 mots qui traitent de variantes du même sujet → 1 article pilier de 2 000 mots. Économise 4 URLs crawlées et concentre l'autorité sur 1 URL forte.

redirect 301 anciennes URLs

Supprimer les URLs orphelines obsolètes

URLs qui ne reçoivent ni trafic ni liens depuis 12+ mois. Identifier via croisement Analytics + Logs + GSC. Retirer du sitemap, configurer 410 si suppression définitive.

410 plutôt que 404

Noindex les pages templates à faible valeur

Archives auteur sur blog mono-auteur, archives date, tags peu utilisés. Noindex préserve l'index ; pour préserver le crawl budget, combiner avec robots.txt Disallow.

noindex + Disallow combinés

Mettre à jour les pages stratégiques

Refresh régulier des pages money (au moins 1×/an) : ajout de stats récentes, mise à jour du sitemap avec lastmod. Augmente la crawl demand de Google sur ces URLs prioritaires.

sitemap lastmod à jour

Optimisations techniques.

Quatre leviers techniques qui augmentent directement la crawl capacity ou réduisent le waste.

  • Améliorer le TTFB (time to first byte). Sous 600 ms idéal, sous 1 s acceptable. Cache serveur, CDN, optimisation BDD. Un serveur lent fait baisser le crawl capacity limit.
  • Éliminer les erreurs 5xx. Toute erreur 5xx fait baisser temporairement le crawl rate de Google (signal de surcharge). Monitoring uptime + alertes.
  • Sitemap segmenté avec lastmod précis. Pour les sites > 50 000 URLs, utiliser un sitemap-index avec sitemaps thématiques (produits, articles, catégories). Google priorise les sitemaps avec lastmod récent.
  • HTTP/2 ou HTTP/3 pour le multiplexing. Permet à Googlebot de paralléliser les requêtes, augmentant le débit de crawl effectif.
  • Compression Brotli ou Gzip sur le HTML. Réduit la taille téléchargée, donc plus de pages crawlées dans le même budget.

Workflow d'audit crawl budget.

Process en 5 étapes pour un audit complet, applicable trimestriellement sur un site enterprise.

  1. 01

    Pull des logs serveur sur 30 jours

    Access logs Apache/Nginx/CloudFront sur 30 derniers jours. Filtrer Googlebot (validation IP via Google\'s ranges). Importer dans Screaming Frog Log File Analyser ou équivalent.

  2. 02

    Cartographier le crawl par template

    Grouper les URLs par template (home, catégorie produit, fiche produit, blog post, filtres, paginations). Calculer la part de crawl par template. Identifier les templates qui consomment le plus.

  3. 03

    Identifier le waste

    URLs crawlées qui sont noindex, redirigées, ou sans valeur business : c'est du waste. Calculer le pourcentage. Au-delà de 20 %, prioriser les actions correctives.

  4. 04

    Appliquer les corrections par familles

    Une famille = une action en masse. Filtres à faible volume : robots.txt Disallow. URLs orphelines : retirer du sitemap + 410. Templates thin : noindex + Disallow. Documenter chaque action pour le rollback éventuel.

  5. 05

    Re-mesurer à 4 semaines

    Re-pull des logs. Vérifier que la part de crawl sur les templates prioritaires a augmenté. Vérifier dans GSC que le ratio "crawled / indexed" s'améliore. Itérer.

Quand un service d'indexation aide en complément

Pour pousser des URLs prioritaires (lancements produits, pages saisonnières, articles money) sans attendre le passage naturel de Googlebot, un service d'indexation envoie un signal direct. Combine bien avec une optimisation crawl budget : on libère le budget puis on dirige les nouveaux signaux vers les pages voulues.

Questions fréquentes.

À partir de quelle taille de site le crawl budget devient-il un sujet ?

Au-delà de 10 000 URLs selon Google. Sous ce seuil, Googlebot a largement les ressources pour tout couvrir. Au-dessus, et particulièrement sur les architectures qui génèrent beaucoup d'URLs auto (faceted navigation e-commerce, paramètres de tri, pagination profonde, archives temporelles), le crawl devient sélectif. Documentation officielle Google.

Comment Google calcule mon crawl budget ?

Deux composantes selon Google. (1) Crawl capacity limit : combien Googlebot peut crawler sans dégrader votre serveur. Augmente avec la vitesse de réponse, baisse en cas d'erreurs 5xx ou de temps de réponse élevés. (2) Crawl demand : combien Googlebot veut crawler. Dépend de la fréquence de mise à jour, de la popularité (backlinks), et de la nouveauté détectée. Capacity × demand = budget effectif. Améliorer les deux maximise le budget.

Comment mesurer mon crawl budget actuel ?

Trois sources. (1) Search Console > Paramètres > Statistiques sur l'exploration : nombre de requêtes par jour, par type, par code de réponse. Vue agrégée mais limitée. (2) Logs serveur filtrés sur Googlebot : la vérité absolue. Permet de voir QUELLES URLs sont crawlées et à quelle fréquence. Outils : Screaming Frog Log File Analyser, Botify, OnCrawl, Jet Octopus. (3) Site:requête dans Google : pour estimer le ratio "URLs connues / URLs indexées" sur des templates spécifiques.

Mon crawl waste est de 35%. C'est grave ?

C'est dans la norme avant optimisation. Les analyses sectorielles montrent que 30 à 40 % du crawl Googlebot sur les sites e-commerce non optimisés concerne des URLs sans valeur business (filtres combinés rares, pages d'erreur, paramètres de tri, paginations profondes). Au-dessous de 20 % : excellent. Au-dessus de 50 % : urgence d'audit. La bonne métrique à suivre n'est pas le waste absolu mais l'évolution dans le temps + la part de crawl sur les templates prioritaires.

Faceted navigation : noindex, robots.txt, ou nofollow sur les filtres ?

Hiérarchie d'efficacité. (1) Empêcher la création de l'URL en amont : si possible techniquement, gérer les filtres via JS sans changer d'URL pour les combinaisons à faible valeur. (2) robots.txt Disallow : empêche le crawl, donc préserve directement le crawl budget. À utiliser sur les patterns clairs (?sort=, ?orderby=). (3) noindex : empêche l'indexation mais Googlebot crawle quand même la page pour découvrir le noindex. Économise l'index, pas le crawl. (4) nofollow sur les liens internes vers ces filtres : signal faible, Google peut ignorer.

Le crawl budget impacte-t-il le ranking ?

Indirectement. Google précise officiellement que le crawl budget n'est pas un facteur de ranking. En revanche, un crawl budget mal géré dégrade indirectement le SEO : les nouvelles pages mettent plus de temps à être découvertes (ranking retardé), les pages mises à jour ne sont pas re-crawlées rapidement (signaux freshness perdus), et le ratio crawled/indexed se dégrade (signal qualité algorithmique). Sur un gros site, l'optimisation crawl budget se traduit par des gains de trafic mesurables 2-3 mois après mise en place.

Comment prioriser les URLs à fort crawl pour Google ?

Quatre signaux principaux. (1) Liens internes : plus une URL reçoit de liens internes depuis pages autoritaires, plus elle est priorisée. (2) Sitemap.xml avec lastmod récent : signal explicite de fraîcheur, pousse Google à re-crawler en priorité. (3) Profondeur de clic : URLs accessibles en moins de 3 clics depuis la home sont crawlées plus souvent. (4) Backlinks externes : signal d'autorité qui augmente la demande de crawl. Combiner les 4 = priorisation maximale.

Les services d'indexation aident-ils sur le crawl budget ?

Pour des cas spécifiques oui. SpeedyIndex et autres services envoient un signal direct à Googlebot pour découvrir une URL, ce qui contourne en partie le crawl budget naturel. Utile pour pousser des URLs prioritaires (lancements, pages saisonnières) sans attendre le passage naturel de Googlebot. Limite : ne contourne pas le verdict éditorial Google ; si la page n'est pas indexée parce que jugée mince, le service ne changera rien.

// passer à l'action

Diagnostiquer une URL prioritaire.

L'optimisation crawl budget se fait sur la durée. En attendant, vérifier que les URLs critiques n'ont aucun blocage technique d'indexabilité.