Website Crawler

Was ist ein Website Crawler?

Als Website Crawler, Webcrawler, Robot oder Spider wird ein Programm bezeichnet, welches im Internet selbstständig nach Informationen sucht, indem es Webseiten ausliest, analysiert, kategorisiert und indexiert.

Dabei geht dieser auf seiner Suche "spinnennetzartig" vor; daher stammt auch die Bezeichnung "Spider".

Aufgrund der wiederholten, automatisierten Vorgehensweise handelt es sich bei einem Crawler um ein spezielles Bot.

Crawler

Wonach sucht ein Crawler?

Eine wichtige Funktion kennen wir vom sogenannten Googlebot: Crawler werden unter anderem von Suchmaschinen eingesetzt, um ihre Suchergebnisse zu erweitern und aktuell zu halten.

Ein weiteres Einsatzgebiet für Webcrawler ist ihre Nutzung als sogenannte Harvester-Programme. In diesem Fall besteht das Ziel darin, E-Mail-Adressen zu sammeln. Um dem vermehrten Empfang von Spam-E-Mails vorzubeugen, findet man die E-Mail-Adressen auf vielen Websites in mehr oder weniger "verschlüsselter" Form, zum Beispiel als eingefügte Grafik oder indem ein (at) anstelle von @ und ein (dot) anstelle des Punktes verwendet wird. In der Folge taucht die E-Mail-Adresse nicht als Zeichenkette im Quelltext auf. Diese Maßnahme soll verhindern, dass Webcrawler die E-Mail-Adresse als solche erkennen können.

Crawler werden ferner auch zum illegalen Ausspähen von Daten eingesetzt.

Wie funktioniert ein Crawler?

Der Webcrawler durchsucht das Internet nach Websites und diese wiederum nach Inhalten sowie weiteren Weblinks. Die Informationen werden anschließend heruntergeladen und in Form einer Kopie im Cache gespeichert. Im Rahmen der Suchmaschinenpflege werden diese analysiert, nach vorgegebenen Definitionen kategorisiert und als Kopien in den Index der Suchmaschine aufgenommen. Fortan erscheinen sie dem Internetnutzer als Suchergebnisse.

Jede Suchmaschine verfügt über ihren eigenen Algorithmus für die Indexierung.

Wonach kategorisieren Webcrawler die Inhalte?

Je nach Ziel des Crawlings kommen unterschiedliche Vorgehensweisen in Betracht. Ein Focused Crawler durchsucht Webseiten hinsichtlich ihrer thematischen Relevanz. Beim Data Mining sammelt der Webcrawler öffentliche Kontaktdaten, zum Beispiel E-Mail- und Postadressen sowie Telefonnummern. Preisvergleichsportale nutzen Crawler, um das Internet speziell nach bestimmten Angeboten zu durchsuchen. Nachrichtenseiten beziehen über Webcrawler umfangreiche Informationen zu aktuellen Themen.

Inwiefern profitieren Webseitenbetreiber von einem Crawler?

Das Ziel der meisten Webseitenbetreiber besteht darin, die Besucheranzahl und den Bekanntheitsgrad ihrer Seite zu erhöhen. Hierzu spielt es eine entscheidende Rolle, dass die entsprechende Seite von Suchmaschinen gefunden wird und dort ein möglichst gutes Ranking aufweist. Ein durchdachtes Crawler-Management ist also ein Teil der SEO (Suchmaschinenoptimierung).

Wie kann ich einen Crawler beeinflussen?

Um das Potenzial der Webcrawler optimal zu nutzen, solltest Du mehrere Dinge beachten:

Die meisten Suchmaschinen verwenden User Agents als Kennung. Diese Kennung ermöglicht eine Steuerung der Webseite. Als Webseitenanbieter kannst Du Crawlern bestimmte Anweisungen geben; etwa, welche Deiner Unterseiten im Suchmaschinenindex auftauchen sollen. Bereiche, deren Inhalte für den Seitenbesucher nicht von Bedeutung sind, kannst Du gezielt aussparen. Dadurch "lenkst" Du den Webcrawler zu den relevanten Bereichen und lässt ihn die Zeit, die ihm für das Auslesen Deiner Seite zur Verfügung steht, besonders effektiv nutzen.

Die Steuerung erfolgt anhand der Datei robots.txt sowie über Meta-Tags. Mit Befehlen in robots.txt teilst Du den Crawlern mit, welche Deiner Seiten er auslesen darf und welche nicht. Mit Meta-Tags gibst Du an, welche Deiner Pages in den Index von Suchmaschinen aufgenommen werden sollen. Seriöse Webcrawler halten sich an das von Dir vorgegebene Protokoll.

Sensible Informationen sollten allerdings zusätzlich geschützt werden, zum Beispiel mit einem Passwort; dadurch verhinderst Du ein Ausspähen durch illegale Crawler, die sich nicht an Deine Anweisungen halten. In der Google Search Console kannst Du durch Hinterlegung Deiner Sitemap den Crawler steuern und die Indizierung kontrollieren.

Wie wird eine Webseite Crawler-freundlich?

Grundsätzlich ordnen Suchmaschinen den verschiedenen Internetseiten individuelle Crawling Budgets zu. Von der Höhe dieses Budgets ist es abhängig, wann, wie lange, wie oft und wie intensiv die entsprechende Seite durchsucht wird. Da Websites mit einem hohen Beliebtheitsgrad sich für die Suchmaschine "mehr lohnen", sind Bots dort aktiver als auf weniger bekannten Seiten.

Eine sinnvolle Menüführung und interne Verlinkungen tragen dazu bei, das Crawling Budget Deiner Seite zu erhöhen. Dies wird weiterhin durch eine möglichst große Anzahl sinnvoller Backlinks erzielt. Hierbei handelt es sich um Verlinkungen von externen Internetseiten auf Deine Website. Allerdings muss ein thematischer Zusammenhang gegeben sein, damit der Backlink zur SEO Deiner Seite beiträgt. Ein Crawling Tool wie der Screaming Frog deckt Crawling-Fehler Deiner Website auf und macht nach Korrektur Search Engines die Indizierung einfacher.

Ist meine Seite bei Google indexiert?

Die wichtigste Frage nach dem Einstellen oder Ändern einer Webseite lautet: Ist diese Seite bei Google indexiert? Das lässt sich mit der Anfrage info:adresse-der-seite überprüfen. Wenn die Scraper von Google schon die Daten der Seite ausgelesen haben und sie schon indexiert wurde, ist sie mit dieser Anfrage zu finden. Allerdings muss sie noch nicht per normaler Suchanfrage auf Google gefunden werden. Es führen wahrscheinlich anfangs noch keine externen Links auf diese Seite, die daher im Google-Index manchmal zunächst ganz weit hinten steht – so weit, dass sie Google bei den ersten Suchanfragen noch nicht anzeigt. Die Suchmaschine fragt Dich in so einem Fall aber, ob sie die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen soll. Bestätige diese Anfrage, dann findest Du meistens Deine Seite auf Anhieb, wenn auch anfangs sehr weit hinten.

Wie lange dauert es, bis man bei Google gefunden wird?

Das kann 24 bis 48 Stunden dauern, doch lass die Scraper in Ruhe ihre Arbeit machen. Deine Position in der Suchmaschine hängt davon ab, wie viele externe Links auf Deine Seite führen, wie gut diese strukturiert ist, welche Keywords und welchen Content sie enthält und wie schnell sie lädt. Dies sind alles Faktoren der OffPage- und OnPage-Optimierung Deiner Seite. Je günstiger diese Faktoren beschaffen sind, desto schneller zeigt Google diese an. Vom Grundsatz her gilt: Eine korrekt aufgebaute Seite erkennen die Scraper innerhalb der ersten 24 Stunden nach Einstellen, sie gelangt dann in den Google-Index und ist zumindest bei der Eingabe ihrer URL auch auf Google zu finden. Wenn Du ihre Sichtbarkeit verbessern willst, solltest Du mit externen Links arbeiten.

Häufige Fragen und Antworten

Warum sind Webcrawler für Deine erfolgreiche Homepage im Online-Marketing so wichtig?
Crawler durchsuchen das Internet und damit auch Deine Webseiten und verknüpfen die wichtigsten Schlüsselbegriffe mit der URL Deiner Website. Auf diese Indexierungen greifen wiederum Suchmaschinen bei der Generierung von Suchergebnissen zu einem bestimmten Suchbegriff (Schlüsselwort/Keyword) zurück.
Wie unterscheiden sich freundliche Crawler von schädlichen Bots?
Ein großes Ärgernis stellen Programme dar, die elektronische Daten sammeln, um diese missbräuchlich zu verwenden. Ein solcher schädigender Use besteht beispielsweise im Sammeln von E-Mail-Adressen, die anschließend mit Spam überhäuft werden.

Jetzt den SEO Doktor kontaktieren und die eigene Seite für den Google Crawler optimieren lassen.