Was ist ein Web-Crawler und wie funktioniert er?

Eine Spinne aus Einsen und Nullen.

Haben Sie schon einmal bei Google nach etwas gesucht und sich gefragt: „Woher weiß es, wo es suchen muss?“ Die Antwort lautet „Webcrawler“, die das Web durchsuchen und indizieren, damit Sie Dinge online leicht finden können. Wir werden es erklären.

Suchmaschinen und Crawler

Wenn Sie mit einem Schlüsselwort in einer Suchmaschine wie Google oder Bing suchen, durchsucht die Website Billionen von Seiten, um eine Liste mit Ergebnissen zu diesem Begriff zu erstellen. Wie genau haben diese Suchmaschinen all diese Seiten gespeichert, wissen, wie sie danach suchen und wie sie diese Ergebnisse innerhalb von Sekunden generieren?

Die Antwort sind Webcrawler, auch Spider genannt. Dabei handelt es sich um automatisierte Programme (oft als „Roboter“ oder „Bots“ bezeichnet), die das Web „kriechen“ oder durchsuchen, damit sie Suchmaschinen hinzugefügt werden können. Diese Robots indizieren Websites, um eine Liste von Seiten zu erstellen, die schließlich in Ihren Suchergebnissen erscheinen.

Crawler erstellen und speichern auch Kopien dieser Seiten in der Datenbank der Engine, sodass Sie fast sofort suchen können. Dies ist auch der Grund, warum Suchmaschinen häufig zwischengespeicherte Versionen von Websites in ihre Datenbanken aufnehmen.

VERBUNDEN: So greifen Sie auf eine Webseite zu, wenn sie nicht verfügbar ist

Sitemaps und Auswahl

Eine Illustration eines Mannes vor einem Flussdiagramm.

Wie wählen Crawler aus, welche Websites gecrawlt werden sollen? Nun, das häufigste Szenario ist, dass Website-Besitzer möchten, dass Suchmaschinen ihre Websites crawlen. Sie können dies erreichen, indem sie Google, Bing, Yahoo oder eine andere Suchmaschine auffordern, ihre Seiten zu indizieren. Dieser Vorgang ist von Motor zu Motor unterschiedlich. Außerdem wählen Suchmaschinen häufig beliebte, gut verlinkte Websites zum Crawlen aus, indem sie verfolgen, wie oft eine URL auf anderen öffentlichen Websites verlinkt wird.

Website-Besitzer können bestimmte Prozesse verwenden, um Suchmaschinen dabei zu helfen, ihre Websites zu indizieren, wie z
eine Sitemap hochladen. Dies ist eine Datei, die alle Links und Seiten enthält, die Teil Ihrer Website sind. Es wird normalerweise verwendet, um anzugeben, welche Seiten Sie indexieren möchten.

Sobald Suchmaschinen eine Website bereits einmal gecrawlt haben, crawlen sie diese Website automatisch erneut. Die Häufigkeit hängt unter anderem davon ab, wie beliebt eine Website ist. Daher führen Websitebesitzer häufig aktualisierte Sitemaps, um Suchmaschinen mitzuteilen, welche neuen Websites zu indizieren sind.

Roboter und der Höflichkeitsfaktor

Was ist, wenn eine Website nicht möchten, dass einige oder alle Seiten in einer Suchmaschine angezeigt werden? Sie möchten beispielsweise nicht, dass Nutzer nach einer Nur-Mitglieder-Seite suchen oder Ihre 404-Fehlerseite sehen. Hier kommt die Crawl-Ausschlussliste, auch bekannt als robots.txt, ins Spiel. Dies ist eine einfache Textdatei, die Crawlern vorschreibt, welche Webseiten von der Indizierung ausgeschlossen werden sollen.

Verwandt :  Australian Open 2022: Iga Swiatek vs. Harriet Dart Vorhersage, Vorschau, Head-to-Head und Live-Stream

Ein weiterer Grund, warum robots.txt wichtig ist, besteht darin, dass Webcrawler einen erheblichen Einfluss auf die Leistung der Website haben können. Da Crawler im Wesentlichen alle Seiten Ihrer Website herunterladen, verbrauchen sie Ressourcen und können zu Verlangsamungen führen. Sie kommen zu unvorhersehbaren Zeiten und ohne Genehmigung an. Wenn Ihre Seiten nicht wiederholt indiziert werden müssen, kann das Stoppen von Crawlern dazu beitragen, die Auslastung Ihrer Website zu reduzieren. Glücklicherweise stoppen die meisten Crawler das Crawlen bestimmter Seiten basierend auf den Regeln des Websitebesitzers.

Metadaten-Magie

Google-Suche HowToGeek

Unter URL und Titel jedes Suchergebnisses in Google finden Sie eine kurze Beschreibung der Seite. Diese Beschreibungen werden Snippets genannt. Möglicherweise stellen Sie fest, dass das Snippet einer Seite in Google nicht immer mit dem tatsächlichen Inhalt der Website übereinstimmt. Dies liegt daran, dass viele Websites etwas namens „Meta-Tags“, das sind benutzerdefinierte Beschreibungen, die Websitebesitzer zu ihren Seiten hinzufügen.

Websitebesitzer lassen sich oft verlockende Metadatenbeschreibungen einfallen, die Sie dazu bringen, auf eine Website zu klicken. Google listet auch andere Metainformationen wie Preise und Lagerverfügbarkeit auf. Dies ist besonders nützlich für diejenigen, die E-Commerce-Websites betreiben.

Ihre Suche

Die Suche im Internet ist ein wesentlicher Bestandteil der Nutzung des Internets. Das Durchsuchen des Webs ist eine großartige Möglichkeit, neue Websites, Geschäfte, Communities und Interessen zu entdecken. Jeden Tag besuchen Webcrawler Millionen von Seiten und fügen sie zu Suchmaschinen hinzu. Crawler haben zwar einige Nachteile, wie z. B. den Verbrauch von Website-Ressourcen, sind jedoch sowohl für Website-Besitzer als auch für Besucher von unschätzbarem Wert.

VERBUNDEN: So löschen Sie die letzten 15 Minuten des Google-Suchverlaufs

Moyens Staff
Moyens I/O-Personal. motivierte Sie und gab Ratschläge zu Technologie, persönlicher Entwicklung, Lebensstil und Strategien, die Ihnen helfen werden.