// transparence
IndexURL-Bot.
Le crawler utilisé par notre outil de diagnostic. Cette page documente son comportement, à destination des administrateurs de sites qui le verraient passer dans leurs logs.
User-agent
IndexURL-Bot/1.0 (+https://indexurl.fr/bot) Comportement
- Une requête HTTP GET sur l'URL testée par l'utilisateur, plus une requête sur
/robots.txtet le ou les sitemaps déclarés. - Timeout strict de 10 secondes par requête. Lecture du HTML plafonnée à 2 Mo.
- Aucune exécution de JavaScript. L'analyse porte sur le HTML brut renvoyé par le serveur, comme la première passe de Googlebot.
- Respect des directives
robots.txt, signalé dans le résultat (la requête au robots.txt elle-même n'est pas restreinte, c'est le check d'indexabilité qui en dépend). - Cache 1 heure côté serveur : si plusieurs personnes testent la même URL dans la fenêtre, votre site n'est crawlé qu'une seule fois.
- Limite de 5 analyses par heure et par adresse IP visiteur, ce qui plafonne la charge sur tout site analysé.
Bloquer le bot
Pour empêcher l'outil de crawler votre site, ajouter cette directive à votre robots.txt :
User-agent: IndexURL-Bot
Disallow: / Le bot honore cette directive. Les utilisateurs qui tenteraient d'analyser une URL de votre domaine recevront alors un signalement explicite (URL bloquée par robots.txt).
Données conservées
- Le résultat de chaque analyse est mis en cache 1 heure en mémoire serveur (LRU, capacité limitée). Aucune persistance disque.
- L'adresse IP des utilisateurs est hashée (SHA-256) uniquement pour le rate-limiting, et expire automatiquement après 1 heure.
- Aucune donnée personnelle, email ou identifiant n'est demandé à l'utilisateur pour utiliser l'outil.
Contact
Question, remontée d'abus, demande de retrait : hello@indexurl.fr.