Wat is een webcrawler en hoe werkt het?

Enzozo/Shutterstock

Heb je ooit naar iets op Google gezocht en je afgevraagd: “Hoe weet het waar het moet zoeken?” Het antwoord is “webcrawlers,” die het web doorzoeken en indexeren zodat u dingen gemakkelijk online kunt vinden. We leggen het uit.

Zoekmachines en crawlers

Wanneer u zoekt met een trefwoord in een zoekmachine zoals Google of Bing, doorzoekt de site biljoenen pagina's om een ​​lijst met resultaten te genereren die verband houden met die term. Hoe hebben deze zoekmachines precies al deze pagina's in hun bestand, weten ze hoe ze ernaar moeten zoeken en genereren ze deze resultaten binnen enkele seconden?

Het antwoord zijn webcrawlers, ook wel bekend als spiders. Dit zijn geautomatiseerde programma's (vaak “robots” of “bots” genoemd) die “crawlen” of blader over het web zodat ze kunnen worden toegevoegd aan zoekmachines. Deze robots indexeren websites om een ​​lijst met pagina's te maken die uiteindelijk in uw zoekresultaten verschijnen.

Crawlers maken ook kopieën van deze pagina's en slaan deze op in de database van de engine, waardoor u bijna zoekopdrachten kunt uitvoeren. onmiddellijk. Het is ook de reden waarom zoekmachines vaak gecachte versies van sites in hun databases opnemen.

GERELATEERD: Hoe toegang te krijgen tot een webpagina wanneer deze niet beschikbaar is< /strong>

Sitemaps en selectie

Gribojedov/Shutterstock

Dus, hoe kiezen crawlers welke websites ze willen crawlen? Welnu, het meest voorkomende scenario is dat website-eigenaren willen dat zoekmachines hun sites crawlen. Ze kunnen dit bereiken door Google, Bing, Yahoo of een andere zoekmachine te vragen hun pagina's te indexeren. Dit proces verschilt van motor tot motor. Zoekmachines selecteren ook vaak populaire, goed gelinkte websites om te crawlen door bij te houden hoe vaak een URL is gelinkt op andere openbare sites.

Website-eigenaren kunnen bepaalde processen gebruiken om zoekmachines te helpen hun websites te indexeren , zoals
het uploaden van een sitemap. Dit is een bestand met alle links en pagina's die deel uitmaken van uw website. Het wordt normaal gesproken gebruikt om aan te geven welke pagina's u wilt laten indexeren.

Advertentie

Zodra zoekmachines een website al één keer hebben gecrawld, zullen ze die site automatisch opnieuw crawlen. De frequentie varieert onder andere op basis van hoe populair een website is. Daarom houden site-eigenaren regelmatig bijgewerkte sitemaps om motoren te laten weten welke nieuwe websites ze moeten indexeren.

Robots en de beleefdheidsfactor

Devenorr/Shutterstock

Wat als een website niet wil dat sommige of alle pagina's in een zoekmachine worden weergegeven? U wilt bijvoorbeeld niet dat mensen naar een pagina voor alleen leden zoeken of uw 404-foutpagina zien. Dit is waar de lijst met crawl-uitsluitingen, ook wel robots.txt genoemd, in het spel komt. Dit is een eenvoudig tekstbestand dat crawlers dicteert welke webpagina's moeten worden uitgesloten van indexering.

Een andere reden waarom robots.txt belangrijk is, is dat webcrawlers een aanzienlijk effect kunnen hebben op de prestaties van de site. Omdat crawlers in wezen alle pagina's van uw website downloaden, verbruiken ze bronnen en kunnen ze vertragingen veroorzaken. Ze komen op onvoorspelbare tijden en zonder goedkeuring. Als u uw pagina's niet herhaaldelijk wilt laten indexeren, kan het stoppen van crawlers helpen om een ​​deel van uw websitebelasting te verminderen. Gelukkig stoppen de meeste crawlers met het crawlen van bepaalde pagina's op basis van de regels van de site-eigenaar.

Metadata Magic

Onder de URL en titel van elk zoekresultaat in Google vind je een korte beschrijving van de pagina. Deze beschrijvingen worden snippets genoemd. Het is u misschien opgevallen dat het fragment van een pagina in Google niet altijd overeenkomt met de daadwerkelijke inhoud van de website. Dit komt omdat veel websites iets hebben dat “metatags” dit zijn aangepaste beschrijvingen die site-eigenaren aan hun pagina's toevoegen.

Site-eigenaren bedenken vaak verleidelijke metadatabeschrijvingen die zijn geschreven om ervoor te zorgen dat u op een website wilt klikken. Google somt ook andere meta-informatie op, zoals prijzen en voorraadbeschikbaarheid. Dit is vooral handig voor degenen die e-commerce websites beheren.

Uw zoekopdrachten

Zoeken op het web is een essentieel onderdeel van het gebruik van internet . Zoeken op internet is een geweldige manier om nieuwe websites, winkels, communities en interesses te ontdekken. Elke dag bezoeken webcrawlers miljoenen pagina's en voegen deze toe aan zoekmachines. Hoewel crawlers enkele nadelen hebben, zoals het in beslag nemen van sitebronnen, zijn ze van onschatbare waarde voor zowel site-eigenaren als bezoekers.

GERELATEERD: De laatste 15 verwijderen Minuten van de Google-zoekgeschiedenis

LEES VOLGENDE

  • › Afbeeldingen achter of voor tekst plaatsen in Google Documenten
  • › Meldingen over gameprestaties uitschakelen op Xbox Series X|S
  • › Hoe u uw meest gebruikte apps op iPhone kunt zien
  • › Uitloggen bij YouTube
  • › Wat u moet weten over kleurentheorie voor geweldige foto's

Posted

in

by

Tags: