Français

Qu'est-ce qu'un robot d'exploration Web et comment fonctionne-t-il ?

Jul 12, 2021

204

Avez-vous déjà cherché pour quelque chose sur Google et je me suis demandé : “Comment sait-il où chercher ?” La réponse est “les robots d'exploration Web,” qui recherchent sur le Web et l'indexent afin que vous puissiez trouver facilement des choses en ligne. Nous vous expliquerons.

Moteurs de recherche et robots d'exploration

Lorsque vous effectuez une recherche à l'aide d'un mot-clé sur un moteur de recherche comme Google ou Bing, le site passe au crible des milliers de milliards de pages pour générer une liste de résultats liés à ce terme. Comment exactement ces moteurs de recherche enregistrent-ils toutes ces pages, savent-ils comment les rechercher et génèrent-ils ces résultats en quelques secondes ?

La réponse est les robots d'exploration Web, également connus sous le nom d'araignées. Ce sont des programmes automatisés (souvent appelés “robots” ou “bots”) qui “explorent” ou naviguez sur le Web afin qu'ils puissent être ajoutés aux moteurs de recherche. Ces robots indexent les sites Web pour créer une liste de pages qui finiront par apparaître dans vos résultats de recherche.

Les robots d'exploration créent et stockent également des copies de ces pages dans la base de données du moteur, ce qui vous permet de faire des recherches presque immédiatement. C'est aussi la raison pour laquelle les moteurs de recherche incluent souvent des versions mises en cache des sites dans leurs bases de données.

CONNEXES : Comment accéder à une page Web lorsqu'elle est en panne< /strong>

Plans et sélection du site

Griboedov/Shutterstock

Alors, comment les robots d'exploration choisissent-ils les sites Web à explorer ? Eh bien, le scénario le plus courant est que les propriétaires de sites Web souhaitent que les moteurs de recherche explorent leurs sites. Ils peuvent y parvenir en demandant à Google, Bing, Yahoo ou un autre moteur de recherche d'indexer leurs pages. Ce processus varie d'un moteur à l'autre. En outre, les moteurs de recherche sélectionnent fréquemment des sites Web populaires et bien liés à explorer en suivant le nombre de fois qu'une URL est liée sur d'autres sites publics.

Les propriétaires de sites Web peuvent utiliser certains processus pour aider les moteurs de recherche à indexer leurs sites Web. , comme
le téléchargement d'un plan de site. Il s'agit d'un fichier contenant tous les liens et pages qui font partie de votre site Web. Il est normalement utilisé pour indiquer les pages que vous souhaitez indexer.

Publicité

Une fois que les moteurs de recherche ont déjà exploré un site Web une fois, ils l'exploreront automatiquement à nouveau. La fréquence varie en fonction de la popularité d'un site Web, entre autres mesures. Par conséquent, les propriétaires de sites mettent fréquemment à jour des plans de site pour indiquer aux moteurs quels nouveaux sites Web indexer.

Les robots et le facteur de politesse

Devenorr/Shutterstock

Que faire si un site Web ne souhaite pas que certaines ou toutes ses pages apparaissent sur un moteur de recherche ? Par exemple, vous pourriez ne pas vouloir que les gens recherchent une page réservée aux membres ou voient votre page d'erreur 404. C'est là que la liste d'exclusion de crawl, également connue sous le nom de robots.txt, entre en jeu. Il s'agit d'un simple fichier texte qui dicte aux robots d'exploration les pages Web à exclure de l'indexation.

Une autre raison pour laquelle robots.txt est important est que les robots d'exploration Web peuvent avoir un effet significatif sur les performances du site. Étant donné que les robots téléchargent essentiellement toutes les pages de votre site Web, ils consomment des ressources et peuvent provoquer des ralentissements. Ils arrivent à des moments imprévisibles et sans approbation. Si vous n'avez pas besoin que vos pages soient indexées à plusieurs reprises, l'arrêt des robots d'exploration peut aider à réduire une partie de la charge de votre site Web. Heureusement, la plupart des robots d'exploration arrêtent d'explorer certaines pages en fonction des règles du propriétaire du site.

Metadata Magic

Sous l'URL et le titre de chaque résultat de recherche dans Google, vous trouverez une brève description de la page. Ces descriptions sont appelées extraits. Vous remarquerez peut-être que l'extrait d'une page dans Google ne correspond pas toujours au contenu réel du site Web. En effet, de nombreux sites Web ont ce qu'on appelle des balises “méta,” qui sont des descriptions personnalisées que les propriétaires de sites ajoutent à leurs pages.

Les propriétaires de sites proposent souvent des descriptions de métadonnées attrayantes écrites pour vous donner envie de cliquer sur un site Web. Google répertorie également d'autres méta-informations, telles que les prix et la disponibilité des stocks. Ceci est particulièrement utile pour ceux qui gèrent des sites Web de commerce électronique.

Vos recherches

La recherche Web est un élément essentiel de l'utilisation d'Internet . La recherche sur le Web est un excellent moyen de découvrir de nouveaux sites Web, magasins, communautés et centres d'intérêt. Chaque jour, les robots d'exploration Web visitent des millions de pages et les ajoutent aux moteurs de recherche. Bien que les robots d'exploration présentent certains inconvénients, comme l'utilisation des ressources du site, ils sont inestimables à la fois pour les propriétaires de sites et les visiteurs.

CONNEXION : Comment supprimer les 15 derniers Minutes de l'historique des recherches Google

LIRE LA SUITE

› Comment positionner les images derrière ou devant le texte dans Google Docs

› Comment désactiver les notifications de réussite de jeu sur Xbox Series X|S

› Comment voir vos applications les plus utilisées sur iPhone

› Comment se déconnecter de YouTube

› Ce que vous devez savoir sur la théorie des couleurs pour de superbes photos

Facebook
Twitter
Pinterest
WhatsApp

Previous articleComment afficher les badges de notification sur les icônes de la barre des tâches dans Windows 11
Next articleComment surveiller l'utilisation du processeur sous Linux au fil du temps

admin