Was ist, wenn die Datei robots.txt nicht verfügbar ist?Was ist, wenn eine Datei sitemaps.xml nicht verfügbar ist?Kann ich anstelle von Amazon EC2 oder Amazon ECS eine serverlose Lösung verwenden?Warum erhält der Crawler einen 403-Statuscode?

Häufig gestellte Fragen

Was ist, wenn die Datei robots.txt nicht verfügbar ist?

Das Fehlen einer Datei robots.txt bedeutet nicht unbedingt, dass Sie eine Website nicht crawlen können oder sollten. Das Crawlen sollte immer verantwortungsbewusst durchgeführt werden, wobei die Ressourcen der Website und die impliziten Rechte des Eigentümers der Website zu respektieren sind.

Was ist, wenn eine Datei sitemaps.xml nicht verfügbar ist?

Je nach Anforderung können Sie einen der folgenden Schritte ausführen:

Suchen Sie nach HTML-Sitemaps — Suchen Sie nach einer HTML-Sitemap-Seite, auf der die wichtigen Seiten der Website aufgeführt sind. Diese sind oft in der Fußzeile verlinkt.
Von der Startseite aus crawlen — Beginne mit dem Crawlen von der Startseite aus und folge internen Links, um andere Seiten zu entdecken.
URL-Muster analysieren — Analysieren Sie die URL-Struktur der Website, um Muster zu identifizieren und programmatisch Potenzial zu generieren. URLs
Überprüfen Sie die Datei robots.txt — Überprüfen Sie die Datei robots.txt auf unzulässige Seiten oder Verzeichnisse. Diese können Hinweise auf die Seitenstruktur geben.
API-Endpunkte überprüfen — Einige Websites bieten API-Endpunkte, die zum Abrufen von Inhalts- und Strukturinformationen verwendet werden können.
Suchmaschinenergebnisse überprüfen — Verwenden Sie Suchmaschinen, um indizierte Seiten der Website mithilfe des Suchoperators site: zu finden, z. B. site:example.com
Backlinks analysieren — Analysieren Sie Backlinks zur Website, um wichtige Seiten zu entdecken, auf die andere Websites verweisen.
Webarchive überprüfen — Suchen Sie in Internetarchiven wie der Wayback Machine nach älteren Versionen der Website, die möglicherweise Sitemaps oder andere Strukturen hatten.
Suchen Sie nach Mustern für das Content Management System (CMS) — Wenn Sie das CMS identifizieren können, verwenden Sie gängige URL-Muster, die mit diesem System verknüpft sind.
Bestätigen Sie das JavaScript Rendern — Wenn die Website stark davon abhängig ist JavaScript, stellen Sie sicher, dass Ihr Crawler rendern kann JavaScript , um dynamisch geladene Inhalte zu erkennen. Bei einigen Websites wird die Datei sitemap.xml geladen, nachdem das JavaScript Rendern aktiviert wurde.

Kann ich anstelle von Amazon EC2 oder Amazon ECS eine serverlose Lösung verwenden?

Ja. AWS LambdaFunktionen für das Webcrawlen können eine praktikable Option sein, insbesondere für kleinere oder modularere Crawling-Aufgaben. Für groß angelegte, lang andauernde Crawling-Operationen könnte jedoch ein traditionellerer Ansatz besser geeignet sein, der Amazon Elastic Compute Cloud (Amazon EC2) -Instances oder Amazon Elastic Container Service (Amazon ECS) verwendet. Es ist wichtig, dass Sie Ihre spezifischen Anforderungen und Kompromisse sorgfältig abwägen, wenn Sie den richtigen Compute-Service für Ihre Web-Crawling-Anforderungen auswählen.

Warum erhält der Crawler einen 403-Statuscode?

HTTP 403 ist ein HTTP-Statuscode, der bedeutet, dass der Zugriff auf die angeforderte Ressource verboten ist. Wenn die Anfrage korrekt war, hat der Server die Anfrage verstanden und wird sie nicht erfüllen. Um einen 403-Statuscode zu verhindern, können Sie Folgendes tun:

Beschränken Sie Ihre Crawling-Rate.
Prüfen Sie, ob die Sitemap oder die Datei robots.txt dem Crawler den Zugriff auf die URL ermöglicht.
Versuchen Sie es mit einem mobilen Benutzeragenten anstelle eines Desktop-Benutzeragenten.

Wenn keiner der oben genannten Schritte funktioniert, sollten Sie die Entscheidung der Eigentümer der Website respektieren und die Seite nicht crawlen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bewährte Methoden

Nächste Schritte und Ressourcen