Robots.txt

Le robots.txt est un fichier présent à la racine d’un site (au même titre que le sitemap.xml). Ce dernier constitue une liste de consignes données aux moteurs de recherche pour leur interdire l’accès à certaines informations sensibles (on peut par exemple bloquer l’accès à un site en cours de développement).

Le fichier robots.txt n’est pas très difficile à comprendre. Il faudra indiquer le robot de moteur de recherche à qui est destinée l’instruction (Googlebot, bingbot pour Bing, Slurp pour Yahoo etc.) On utilise principalement le terme disallow pour indiquer au robot que vous ne permettez pas l’indexation. Le terme allow signifie le contraire. Toutes les étapes seront à indiquer jusqu’à l’atteinte de la page. Après que le robot ait parcouru le fichier, il saura comment crawler le site web. Il faut quand même noter que le robots.txt n’interdit pas l’indexation de l’URL et il peut toujours apparaître dans les résultats de recherche d’un moteur de recherche.

Comments are closed.
Rechercher
Concepts