Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Crawlen von Webseiten für Ihre Wissensdatenbank
Der von Amazon Bedrock bereitgestellte Webcrawler stellt eine Verbindung zu URLs her, die Sie für die Verwendung in Ihrer Amazon-Bedrock-Wissensdatenbank ausgewählt haben, und crawlt diese. Sie können Webseiten gemäß Ihrem festgelegten Bereich oder den von Ihnen festgelegten Grenzwerten für Ihre ausgewählten URLs crawlen. Sie können Webseiten entweder mit der AWS-Managementkonsole für Amazon Bedrock
Anmerkung
Der Webcrawler-Datenquellen-Connector befindet sich in der Vorversion und kann sich ändern.
Bei der Auswahl der zu Crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung
Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309
Die Anzahl der Inhaltselemente der Webseite und die Anzahl der MB pro Inhaltselement, die gecrawlt werden können, ist begrenzt. Weitere Informationen finden Sie unter Kontingente für Wissensdatenbanken.
Unterstützte Features
Der Webcrawler stellt ausgehend von der Seed-URL eine Verbindung zu HTML-Seiten her und crawlt diese. Dabei werden alle untergeordneten Links unter derselben primären Top-Domain und demselben Pfad durchlaufen. Wenn eine der HTML-Seiten auf unterstützte Dokumente verweist, ruft der Webcrawler diese Dokumente ab, unabhängig davon, ob sie sich innerhalb derselben obersten primären Domain befinden. Sie können das Crawling-Verhalten ändern, indem Sie eine andere Crawling-Konfiguration vornehmen. Weitere Informationen finden Sie unter Konfiguration der Verbindung.
Die Ausführung der folgenden Schritte wird unterstützt:
-
Wählen Sie mehrere Quell-URLs für das Crawlen aus und legen Sie den URL-Bereich so fest, dass nur der Host gecrawlt wird oder auch Subdomains einbezogen werden.
-
Crawlen Sie statische Webseiten, die Teil Ihrer Quell-URLs sind.
-
Geben Sie ein angepasstes Suffix für Benutzeragenten an, um Regeln für Ihren eigenen Crawler festzulegen.
-
Schließen Sie bestimmte URLs, die einem Filtermuster entsprechen, ein oder aus.
-
Beachten Sie die Standardanweisungen von robots.txt wie „Zulassen“ und „Nicht zulassen“.
-
Begrenzen Sie den Bereich der zu crawlenden URLs und schließen Sie optional URLs aus, die einem Filtermuster entsprechen.
-
Begrenzen Sie die Crawling-Rate von URLs und die maximale Anzahl der zu crawlenden Seiten.
-
Anzeigen des Status gecrawlter URLs in Amazon CloudWatch
Voraussetzungen
Führen Sie die folgenden Schritte aus, um den Webcrawler zu verwenden:.
-
Vergewissern Sie sich, dass Sie berechtigt sind, Ihre Quell-URLs zu crawlen.
-
Vergewissern Sie sich, dass der Pfad zu robots.txt, der Ihren Quell-URLs entspricht, nicht verhindert, dass die URLs gecrawlt werden. Der Webcrawler hält sich an die Standards von robots.txt: standardmäßig
disallow, wenn robots.txt für die Website nicht gefunden wird. Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309. Sie können auch ein angepasstes Suffix für Benutzeragenten angeben, um Regeln für Ihren eigenen Crawler festzulegen. Weitere Informationen finden Sie unter „Zugriff auf die Webcrawler-URL“ in den Anleitungen zu Konfiguration der Verbindung auf dieser Seite. -
Aktivieren Sie die Bereitstellung von CloudWatch Logs und folgen Sie den Beispielen von Webcrawler-Protokollen, um den Status Ihres Datenerfassungsauftrags für die Aufnahme von Webinhalten zu überprüfen und zu ermitteln, ob bestimmte URLs nicht abgerufen werden können.
Anmerkung
Bei der Auswahl der zu Crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung
Konfiguration der Verbindung
Wählen Sie Folgendes aus, um weitere Informationen zum Synchronisierungsbereich für das Crawling von URLs, zu Einschluss-/Ausschlussfiltern, zum URL-Zugriff, zur inkrementellen Synchronisierung und zu deren Funktionsweise zu erhalten:
Sie können den Bereich der zu crawlenden URLs basierend auf der spezifischen Beziehung der einzelnen Seed-URLs begrenzen. Um Crawl-Vorgänge zu beschleunigen, können Sie die URLs auf diejenigen beschränken, die denselben Host und denselben ursprünglichen URL-Pfad wie die Seed-URL aufweisen. Für umfassendere Crawl-Vorgänge können Sie auswählen, ob URLs mit demselben Host oder innerhalb einer beliebigen Subdomain der Seed-URL gecrawlt werden sollen.
Sie können aus den folgenden Optionen auswählen.
-
Standard: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören und über denselben ursprünglichen URL-Pfad verfügen. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann nur dieser Pfad und die Webseiten gecrawlt, die sich aus diesem Pfad ergeben, z. B. „https://aws.amazon.com/bedrock/agents/“. Gleichgeartete URLs wie „https://aws.amazon.com/ec2/“ werden beispielsweise nicht gecrawlt.
-
Nur Host: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „https://aws.amazon.com“ gecrawlt, z. B. „https://aws.amazon.com/ec2“.
-
Subdomains: Schließt das Crawling aller Webseiten ein, deren primäre Domain mit der der Seed-URL identisch ist. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „amazon.com“ (Subdomain) gecrawlt, z. B. „https://www.amazon.com“.
Anmerkung
Stellen Sie sicher, dass Sie keine potenziell überlastete Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbegrenzung zu crawlen. Das Crawling großer Websites nimmt sehr viel Zeit in Anspruch.
Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist.
Der Webcrawler unterstützt statische Websites.
Sie können auch die Crawling-Rate für URLs begrenzen, um die Drosselung der Crawling-Geschwindigkeit zu steuern. Sie legen die maximale Anzahl von URLs fest, die pro Host pro Minute gecrawlt werden. Darüber hinaus können Sie auch die maximale Anzahl (bis zu 25 000) aller Webseiten festlegen, die gecrawlt werden sollen. Beachten Sie, dass der Synchronisierungs-/Erfassungsauftrag für Ihre Datenquelle fehlschlägt, wenn die Gesamtzahl der Webseiten aus Ihren Quell-URLs das von Ihnen festgelegte Maximum überschreitet.
Sie können je nach Bereich bestimmte URLs ein- oder ausschließen. Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide mit einer URL übereinstimmen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht gecrawlt.
Wichtig
Problematische Musterfilter mit regulären Ausdrücken, die zu einer katastrophalen Rückverfolgung und Vorausschau führen, werden abgelehnt.
Ein Beispiel für ein Filtermuster für reguläre Ausdrücke zum Ausschließen von URLs, die mit „.pdf“ enden, oder von PDF-Webseitenanhängen: „.*\.pdf$“
Sie können den Webcrawler verwenden, um die Seiten von Websites zu crawlen, für deren Crawling Sie autorisiert sind.
Bei der Auswahl der zu crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung
Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309
Sie können festlegen, dass bestimmte Benutzer-Agent-Bots dem Benutzeragenten das Crawlen Ihrer Quell-URLs entweder erlauben oder verbieten. Sie können die Datei „robots.txt“ Ihrer Website ändern, um zu steuern, wie der Webcrawler Ihre Quell-URLs crawlt. Der Crawler sucht zuerst nach bedrockbot-UUID -Regeln und dann nach generischen bedrockbot-Regeln in der Datei „robots.txt“.
Sie können auch ein Suffix für Benutzeragenten hinzufügen, mit dem Sie Ihren Crawler in Bot-Schutzsystemen auf die Zulassungsliste setzen können. Beachten Sie, dass dieses Suffix der robots.txt-Datei nicht hinzugefügt werden muss, um sicherzustellen, dass niemand die Zeichenfolge „Benutzeragent“ nachahmen kann. Verwenden Sie beispielsweise die folgende Richtlinie, um dem Webcrawler das Crawling aller Webseiteninhalte zu ermöglichen und es allen anderen Robotern zu verbieten:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Bei jeder Ausführung des Webcrawlers werden Inhalte für alle URLs abgerufen, die über die Quell-URLs erreichbar sind und dem Bereich und den Filtern entsprechen. Bei inkrementellen Synchronisierungen aktualisiert Amazon Bedrock Ihre Wissensdatenbank nach der ersten Synchronisierung aller Inhalte mit neuen und geänderten Inhalten und entfernt alte Inhalte, die nicht mehr vorhanden sind. Gelegentlich kann der Crawler möglicherweise nicht erkennen, ob Inhalte von der Website entfernt wurden. In diesem Fall versucht er, alte Inhalte in Ihrer Wissensdatenbank beizubehalten.
Um die Datenquelle mit der Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJob-API; wählen Sie alternativ die Wissensdatenbank in der Konsole und dann im Bereich „Datenquellenübersicht“ die Option Synchronisieren aus.
Wichtig
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der bedrock:Retrieve-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Berechtigungen für die Wissensdatenbank.