Crawler

Le crawl consiste à simuler le passage du robot d’un moteur de recherche afin de comprendre l’architecture du site, le nombre d’URL indéxée, la nature des liens entrants et sortants ; de vérifier l’existence de contenus dupliqués, d’erreur 404. En somme, le crawl permet d’avoir une vue d’ensemble d’un site à un instant T.

Toutes les ressources dont le crawler aurait collectées (vidéos, documents, images…) vont servir dans l’indexation par le moteur de recherche. Cette indexation peut se faire par soumission de requête ou via une liste ou suivant un lien organique. Actuellement, plusieurs crawlers vont analyser le contenu d’une page web en se basant sur des objectifs bien précis : Googlebot, VoilaBot pour Orange, Heritrix, ou encore Slurp, MSNBot et Scooter. Des frameworks vont architecturer chacun de ces robots. Ils sont surtout très utilisés dans le domaine du web marketing et c’est ainsi que l’on peut bénéficier des atouts des comparateurs de prix ou de performances.

Comments
Comments are closed.
Rechercher
Concepts