Aller au contenu
indexurl.fr

// transparence

IndexURL-Bot.

Le crawler utilisé par notre outil de diagnostic. Cette page documente son comportement, à destination des administrateurs de sites qui le verraient passer dans leurs logs.

User-agent

IndexURL-Bot/1.0 (+https://indexurl.fr/bot)

Comportement

  • Une requête HTTP GET sur l'URL testée par l'utilisateur, plus une requête sur /robots.txt et le ou les sitemaps déclarés.
  • Timeout strict de 10 secondes par requête. Lecture du HTML plafonnée à 2 Mo.
  • Aucune exécution de JavaScript. L'analyse porte sur le HTML brut renvoyé par le serveur, comme la première passe de Googlebot.
  • Respect des directives robots.txt, signalé dans le résultat (la requête au robots.txt elle-même n'est pas restreinte, c'est le check d'indexabilité qui en dépend).
  • Cache 1 heure côté serveur : si plusieurs personnes testent la même URL dans la fenêtre, votre site n'est crawlé qu'une seule fois.
  • Limite de 5 analyses par heure et par adresse IP visiteur, ce qui plafonne la charge sur tout site analysé.

Bloquer le bot

Pour empêcher l'outil de crawler votre site, ajouter cette directive à votre robots.txt :

User-agent: IndexURL-Bot
Disallow: /

Le bot honore cette directive. Les utilisateurs qui tenteraient d'analyser une URL de votre domaine recevront alors un signalement explicite (URL bloquée par robots.txt).

Données conservées

  • Le résultat de chaque analyse est mis en cache 1 heure en mémoire serveur (LRU, capacité limitée). Aucune persistance disque.
  • L'adresse IP des utilisateurs est hashée (SHA-256) uniquement pour le rate-limiting, et expire automatiquement après 1 heure.
  • Aucune donnée personnelle, email ou identifiant n'est demandé à l'utilisateur pour utiliser l'outil.

Contact

Question, remontée d'abus, demande de retrait : hello@indexurl.fr.