// transparence

IndexURL-Bot.

Le crawler utilisé par notre outil de diagnostic. Cette page documente son comportement, à destination des administrateurs de sites qui le verraient passer dans leurs logs.

User-agent

IndexURL-Bot/1.0 (+https://indexurl.fr/bot)

Comportement

Une requête HTTP GET sur l'URL testée par l'utilisateur, plus une requête sur /robots.txt et le ou les sitemaps déclarés.
Timeout strict de 10 secondes par requête. Lecture du HTML plafonnée à 2 Mo.
Aucune exécution de JavaScript. L'analyse porte sur le HTML brut renvoyé par le serveur, comme la première passe de Googlebot.
Respect des directives robots.txt, signalé dans le résultat (la requête au robots.txt elle-même n'est pas restreinte, c'est le check d'indexabilité qui en dépend).
Cache 1 heure côté serveur : si plusieurs personnes testent la même URL dans la fenêtre, votre site n'est crawlé qu'une seule fois.
Limite de 5 analyses par heure et par adresse IP visiteur, ce qui plafonne la charge sur tout site analysé.

Bloquer le bot

Pour empêcher l'outil de crawler votre site, ajouter cette directive à votre robots.txt :

User-agent: IndexURL-Bot
Disallow: /

Le bot honore cette directive. Les utilisateurs qui tenteraient d'analyser une URL de votre domaine recevront alors un signalement explicite (URL bloquée par robots.txt).

Données conservées

Le résultat de chaque analyse est mis en cache 1 heure en mémoire serveur (LRU, capacité limitée). Aucune persistance disque.
L'adresse IP des utilisateurs est hashée (SHA-256) uniquement pour le rate-limiting, et expire automatiquement après 1 heure.
Aucune donnée personnelle, email ou identifiant n'est demandé à l'utilisateur pour utiliser l'outil.

Contact

Question, remontée d'abus, demande de retrait : hello@indexurl.fr.