Was ist ein Web-Crawler und wie funktioniert er?

0
164
Enzozo/Shutterstock

Haben Sie schon einmal bei Google nach etwas gesucht und sich gefragt, “Woher weiß es, wo es suchen muss?” Die Antwort lautet “Webcrawler” die das Web durchsuchen und indizieren, damit Sie Dinge leicht online finden können. Wir erklären es dir.

Suchmaschinen und Crawler

Wenn Sie mit einem Schlüsselwort in einer Suchmaschine wie Google oder Bing suchen, durchsucht die Website Billionen von Seiten, um eine Liste mit Ergebnissen zu diesem Begriff zu erstellen. Wie genau haben diese Suchmaschinen all diese Seiten gespeichert, wissen, wie sie danach suchen und generieren diese Ergebnisse innerhalb von Sekunden?

Die Antwort sind Webcrawler, auch Spider genannt. Dies sind automatisierte Programme (oft als “Roboter” oder “Bots” bezeichnet), die “kriechen” oder durchsuchen Sie das Web, um sie zu Suchmaschinen hinzuzufügen. Diese Robots indizieren Websites, um eine Liste von Seiten zu erstellen, die schließlich in Ihren Suchergebnissen erscheinen.

Crawler erstellen und speichern auch Kopien dieser Seiten in der Datenbank der Engine, sodass Sie fast eine Suche durchführen können sofort. Dies ist auch der Grund, warum Suchmaschinen häufig zwischengespeicherte Versionen von Websites in ihre Datenbanken aufnehmen.

VERWANDTE: So greifen Sie auf eine Webseite zu, wenn sie nicht verfügbar ist< /strong>

Sitemaps und Auswahl

Griboedov/Shutterstock

Wie wählen Crawler aus, welche Websites gecrawlt werden sollen? Nun, das häufigste Szenario ist, dass Website-Besitzer möchten, dass Suchmaschinen ihre Websites crawlen. Sie können dies erreichen, indem sie Google, Bing, Yahoo oder eine andere Suchmaschine auffordern, ihre Seiten zu indizieren. Dieser Vorgang ist von Motor zu Motor unterschiedlich. Außerdem wählen Suchmaschinen häufig beliebte, gut verlinkte Websites zum Crawlen aus, indem sie nachverfolgen, wie oft eine URL auf anderen öffentlichen Websites verlinkt wurde.

Website-Inhaber können bestimmte Verfahren verwenden, um Suchmaschinen bei der Indexierung ihrer Websites zu unterstützen , z. B.
das Hochladen einer Sitemap. Dies ist eine Datei, die alle Links und Seiten enthält, die Teil Ihrer Website sind. Es wird normalerweise verwendet, um anzugeben, welche Seiten Sie indexieren möchten.

Werbung

Sobald Suchmaschinen eine Website bereits einmal gecrawlt haben, crawlen sie diese Website automatisch erneut. Die Häufigkeit hängt unter anderem davon ab, wie beliebt eine Website ist. Daher führen Websitebesitzer häufig aktualisierte Sitemaps, um Suchmaschinen mitzuteilen, welche neuen Websites indiziert werden sollen.

Roboter und der Faktor Höflichkeit

Devenorr/Shutterstock

Was ist, wenn eine Website nicht möchte, dass einige oder alle Seiten in einer Suchmaschine angezeigt werden? Sie möchten beispielsweise nicht, dass Nutzer nach einer Nur-Mitglieder-Seite suchen oder Ihre 404-Fehlerseite sehen. Hier kommt die Crawl-Ausschlussliste, auch bekannt als robots.txt, ins Spiel. Dies ist eine einfache Textdatei, die Crawlern vorschreibt, welche Webseiten von der Indexierung ausgeschlossen werden sollen.

Ein weiterer Grund, warum robots.txt wichtig ist, besteht darin, dass Webcrawler einen erheblichen Einfluss auf die Leistung der Website haben können. Da Crawler im Wesentlichen alle Seiten Ihrer Website herunterladen, verbrauchen sie Ressourcen und können zu Verlangsamungen führen. Sie kommen zu unvorhersehbaren Zeiten und ohne Genehmigung an. Wenn Ihre Seiten nicht wiederholt indiziert werden müssen, kann das Stoppen von Crawlern dazu beitragen, die Auslastung Ihrer Website zu reduzieren. Glücklicherweise beenden die meisten Crawler das Crawlen bestimmter Seiten gemäß den Regeln des Websitebesitzers.

Metadata Magic

Unter URL und Titel jedes Suchergebnisses in Google finden Sie eine kurze Beschreibung der Seite. Diese Beschreibungen werden Snippets genannt. Möglicherweise stellen Sie fest, dass das Snippet einer Seite in Google nicht immer mit dem tatsächlichen Inhalt der Website übereinstimmt. Dies liegt daran, dass viele Websites sogenannte “Meta-Tags” Dabei handelt es sich um benutzerdefinierte Beschreibungen, die Websitebesitzer zu ihren Seiten hinzufügen.

Websitebesitzer lassen sich oft verlockende Metadatenbeschreibungen einfallen, die Sie dazu bringen, auf eine Website zu klicken. Google listet auch andere Metainformationen wie Preise und Lagerverfügbarkeit auf. Dies ist besonders nützlich für diejenigen, die E-Commerce-Websites betreiben.

Ihre Suche

Die Websuche ist ein wesentlicher Bestandteil der Nutzung des Internets . Das Durchsuchen des Webs ist eine großartige Möglichkeit, neue Websites, Geschäfte, Communities und Interessen zu entdecken. Jeden Tag besuchen Webcrawler Millionen von Seiten und fügen sie zu Suchmaschinen hinzu. Crawler haben zwar einige Nachteile, z. B. den Verbrauch von Website-Ressourcen, sind jedoch sowohl für Website-Inhaber als auch für Besucher von unschätzbarem Wert.

VERWANDTE: So löschen Sie die letzten 15 Minuten des Google-Suchverlaufs

WEITER LESEN

  • › So ändern Sie das Zifferblatt einer Samsung Galaxy Watch
  • › So betten Sie Dateien und Kalendertermine in Google Docs ein
  • › So schalten Sie die Xbox Series X|S aus
  • › So hinterlassen Sie eine Google-Bewertung
  • › Was bedeutet “RGB” Bedeutend und warum ist alles über Technologie?