Crawlen von Webseiten für Ihre Wissensdatenbank - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Crawlen von Webseiten für Ihre Wissensdatenbank

Der von Amazon Bedrock bereitgestellte Webcrawler stellt eine Verbindung zu URLs her, die Sie für die Verwendung in Ihrer Amazon-Bedrock-Wissensdatenbank ausgewählt haben, und crawlt diese. Sie können Webseiten gemäß Ihrem festgelegten Bereich oder den von Ihnen festgelegten Grenzwerten für Ihre ausgewählten URLs crawlen. Sie können Webseiten entweder mit der AWS-Managementkonsole für Amazon Bedrock oder der CreateDataSource-API crawlen (siehe von Amazon Bedrock unterstützte SDKs und AWS CLI). Derzeit ist nur der Vektorspeicher von Amazon OpenSearch Serverless für die Verwendung mit dieser Datenquelle verfügbar.

Anmerkung

Der Webcrawler-Datenquellen-Connector befindet sich in der Vorversion und kann sich ändern.

Bei der Auswahl der zu Crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung und alle anderen Amazon-Bedingungen einhalten. Beachten Sie, dass Sie den Webcrawler nur zum Indizieren Ihrer eigenen Webseiten oder von Webseiten verwenden dürfen, für deren Crawling Sie autorisiert sind, und dass Sie die Konfigurationen in der Datei robots.txt berücksichtigen müssen.

Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309

Die Anzahl der Inhaltselemente der Webseite und die Anzahl der MB pro Inhaltselement, die gecrawlt werden können, ist begrenzt. Weitere Informationen finden Sie unter Kontingente für Wissensdatenbanken.

Unterstützte Features

Der Webcrawler stellt ausgehend von der Seed-URL eine Verbindung zu HTML-Seiten her und crawlt diese. Dabei werden alle untergeordneten Links unter derselben primären Top-Domain und demselben Pfad durchlaufen. Wenn eine der HTML-Seiten auf unterstützte Dokumente verweist, ruft der Webcrawler diese Dokumente ab, unabhängig davon, ob sie sich innerhalb derselben obersten primären Domain befinden. Sie können das Crawling-Verhalten ändern, indem Sie eine andere Crawling-Konfiguration vornehmen. Weitere Informationen finden Sie unter Konfiguration der Verbindung.

Die Ausführung der folgenden Schritte wird unterstützt:

  • Wählen Sie mehrere Quell-URLs für das Crawlen aus und legen Sie den URL-Bereich so fest, dass nur der Host gecrawlt wird oder auch Subdomains einbezogen werden.

  • Crawlen Sie statische Webseiten, die Teil Ihrer Quell-URLs sind.

  • Geben Sie ein angepasstes Suffix für Benutzeragenten an, um Regeln für Ihren eigenen Crawler festzulegen.

  • Schließen Sie bestimmte URLs, die einem Filtermuster entsprechen, ein oder aus.

  • Beachten Sie die Standardanweisungen von robots.txt wie „Zulassen“ und „Nicht zulassen“.

  • Begrenzen Sie den Bereich der zu crawlenden URLs und schließen Sie optional URLs aus, die einem Filtermuster entsprechen.

  • Begrenzen Sie die Crawling-Rate von URLs und die maximale Anzahl der zu crawlenden Seiten.

  • Anzeigen des Status gecrawlter URLs in Amazon CloudWatch

Voraussetzungen

Führen Sie die folgenden Schritte aus, um den Webcrawler zu verwenden:.

  • Vergewissern Sie sich, dass Sie berechtigt sind, Ihre Quell-URLs zu crawlen.

  • Vergewissern Sie sich, dass der Pfad zu robots.txt, der Ihren Quell-URLs entspricht, nicht verhindert, dass die URLs gecrawlt werden. Der Webcrawler hält sich an die Standards von robots.txt: standardmäßig disallow, wenn robots.txt für die Website nicht gefunden wird. Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309. Sie können auch ein angepasstes Suffix für Benutzeragenten angeben, um Regeln für Ihren eigenen Crawler festzulegen. Weitere Informationen finden Sie unter „Zugriff auf die Webcrawler-URL“ in den Anleitungen zu Konfiguration der Verbindung auf dieser Seite.

  • Aktivieren Sie die Bereitstellung von CloudWatch Logs und folgen Sie den Beispielen von Webcrawler-Protokollen, um den Status Ihres Datenerfassungsauftrags für die Aufnahme von Webinhalten zu überprüfen und zu ermitteln, ob bestimmte URLs nicht abgerufen werden können.

Anmerkung

Bei der Auswahl der zu Crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung und alle anderen Amazon-Bedingungen einhalten. Beachten Sie, dass Sie den Webcrawler nur zum Indizieren Ihrer eigenen Webseiten oder von Webseiten verwenden dürfen, für deren Crawling Sie autorisiert sind.

Konfiguration der Verbindung

Wählen Sie Folgendes aus, um weitere Informationen zum Synchronisierungsbereich für das Crawling von URLs, zu Einschluss-/Ausschlussfiltern, zum URL-Zugriff, zur inkrementellen Synchronisierung und zu deren Funktionsweise zu erhalten:

Sie können den Bereich der zu crawlenden URLs basierend auf der spezifischen Beziehung der einzelnen Seed-URLs begrenzen. Um Crawl-Vorgänge zu beschleunigen, können Sie die URLs auf diejenigen beschränken, die denselben Host und denselben ursprünglichen URL-Pfad wie die Seed-URL aufweisen. Für umfassendere Crawl-Vorgänge können Sie auswählen, ob URLs mit demselben Host oder innerhalb einer beliebigen Subdomain der Seed-URL gecrawlt werden sollen.

Sie können aus den folgenden Optionen auswählen.

  • Standard: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören und über denselben ursprünglichen URL-Pfad verfügen. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann nur dieser Pfad und die Webseiten gecrawlt, die sich aus diesem Pfad ergeben, z. B. „https://aws.amazon.com/bedrock/agents/“. Gleichgeartete URLs wie „https://aws.amazon.com/ec2/“ werden beispielsweise nicht gecrawlt.

  • Nur Host: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „https://aws.amazon.com“ gecrawlt, z. B. „https://aws.amazon.com/ec2“.

  • Subdomains: Schließt das Crawling aller Webseiten ein, deren primäre Domain mit der der Seed-URL identisch ist. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „amazon.com“ (Subdomain) gecrawlt, z. B. „https://www.amazon.com“.

Anmerkung

Stellen Sie sicher, dass Sie keine potenziell überlastete Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbegrenzung zu crawlen. Das Crawling großer Websites nimmt sehr viel Zeit in Anspruch.

Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist.

Der Webcrawler unterstützt statische Websites.

Sie können auch die Crawling-Rate für URLs begrenzen, um die Drosselung der Crawling-Geschwindigkeit zu steuern. Sie legen die maximale Anzahl von URLs fest, die pro Host pro Minute gecrawlt werden. Darüber hinaus können Sie auch die maximale Anzahl (bis zu 25 000) aller Webseiten festlegen, die gecrawlt werden sollen. Beachten Sie, dass der Synchronisierungs-/Erfassungsauftrag für Ihre Datenquelle fehlschlägt, wenn die Gesamtzahl der Webseiten aus Ihren Quell-URLs das von Ihnen festgelegte Maximum überschreitet.

Sie können je nach Bereich bestimmte URLs ein- oder ausschließen. Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide mit einer URL übereinstimmen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht gecrawlt.

Wichtig

Problematische Musterfilter mit regulären Ausdrücken, die zu einer katastrophalen Rückverfolgung und Vorausschau führen, werden abgelehnt.

Ein Beispiel für ein Filtermuster für reguläre Ausdrücke zum Ausschließen von URLs, die mit „.pdf“ enden, oder von PDF-Webseitenanhängen: „.*\.pdf$“

Sie können den Webcrawler verwenden, um die Seiten von Websites zu crawlen, für deren Crawling Sie autorisiert sind.

Bei der Auswahl der zu crawlenden Websites müssen Sie die Amazon-Richtlinie zur zulässigen Nutzung und alle anderen Amazon-Bedingungen einhalten. Beachten Sie, dass Sie den Webcrawler nur zum Indizieren Ihrer eigenen Webseiten oder von Webseiten verwenden dürfen, für deren Crawling Sie autorisiert sind.

Der Webcrawler berücksichtigt robots.txt gemäß RFC 9309

Sie können festlegen, dass bestimmte Benutzer-Agent-Bots dem Benutzeragenten das Crawlen Ihrer Quell-URLs entweder erlauben oder verbieten. Sie können die Datei „robots.txt“ Ihrer Website ändern, um zu steuern, wie der Webcrawler Ihre Quell-URLs crawlt. Der Crawler sucht zuerst nach bedrockbot-UUID -Regeln und dann nach generischen bedrockbot-Regeln in der Datei „robots.txt“.

Sie können auch ein Suffix für Benutzeragenten hinzufügen, mit dem Sie Ihren Crawler in Bot-Schutzsystemen auf die Zulassungsliste setzen können. Beachten Sie, dass dieses Suffix der robots.txt-Datei nicht hinzugefügt werden muss, um sicherzustellen, dass niemand die Zeichenfolge „Benutzeragent“ nachahmen kann. Verwenden Sie beispielsweise die folgende Richtlinie, um dem Webcrawler das Crawling aller Webseiteninhalte zu ermöglichen und es allen anderen Robotern zu verbieten:

User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Bei jeder Ausführung des Webcrawlers werden Inhalte für alle URLs abgerufen, die über die Quell-URLs erreichbar sind und dem Bereich und den Filtern entsprechen. Bei inkrementellen Synchronisierungen aktualisiert Amazon Bedrock Ihre Wissensdatenbank nach der ersten Synchronisierung aller Inhalte mit neuen und geänderten Inhalten und entfernt alte Inhalte, die nicht mehr vorhanden sind. Gelegentlich kann der Crawler möglicherweise nicht erkennen, ob Inhalte von der Website entfernt wurden. In diesem Fall versucht er, alte Inhalte in Ihrer Wissensdatenbank beizubehalten.

Um die Datenquelle mit der Wissensdatenbank zu synchronisieren, verwenden Sie die StartIngestionJob-API; wählen Sie alternativ die Wissensdatenbank in der Konsole und dann im Bereich „Datenquellenübersicht“ die Option Synchronisieren aus.

Wichtig

Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der bedrock:Retrieve-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter Berechtigungen für die Wissensdatenbank.

Console
Verbinden einer Webcrawler-Datenquelle mit Ihrer Wissensdatenbank
  1. Befolgen Sie die Schritte unter So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen und wählen Sie Webcrawler als Datenquelle aus.

  2. Geben Sie den Namen und eine optionale Beschreibung für die Datenquelle an.

  3. Geben Sie die Quell-URLs der URLS AN, die Sie crawlen möchten. Sie können bis zu 9 zusätzliche URLs hinzufügen, indem Sie Quell-URLs hinzufügen auswählen. Durch die Bereitstellung einer Quell-URL bestätigen Sie, dass Sie zum Crawlen ihrer Domain berechtigt sind.

  4. Im Abschnitt Erweiterte Einstellungen können Sie optional Folgendes konfigurieren:

    • KMS-Schlüssel für den transienten Datenspeicher. – Sie können die transienten Daten verschlüsseln und gleichzeitig Ihre Daten mit dem Standard-Von AWS verwalteter Schlüssel oder einem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung.

    • Richtlinie zum Löschen von Daten – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.

  5. (Optional) Geben Sie ein Suffix für Benutzeragenten für bedrock-UUID- an, das den Crawler oder Bot beim Zugriff auf einen Webserver identifiziert.

  6. Konfigurieren Sie im Abschnitt Synchronisierungsbereich Folgendes:

    1. Wählen Sie einen Website-Domainbereich für das Crawling Ihrer Quell-URLs aus:

      • Standard: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören und über denselben ursprünglichen URL-Pfad verfügen. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann nur dieser Pfad und die Webseiten gecrawlt, die sich aus diesem Pfad ergeben, z. B. „https://aws.amazon.com/bedrock/agents/“. Gleichgeartete URLs wie „https://aws.amazon.com/ec2/“ werden beispielsweise nicht gecrawlt.

      • Nur Host: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „https://aws.amazon.com“ gecrawlt, z. B. „https://aws.amazon.com/ec2“.

      • Subdomains: Schließt das Crawling aller Webseiten ein, deren primäre Domain mit der der Seed-URL identisch ist. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „amazon.com“ (Subdomain) gecrawlt, z. B. „https://www.amazon.com“.

      Anmerkung

      Stellen Sie sicher, dass Sie keine potenziell überlastete Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbegrenzung zu crawlen. Das Crawling großer Websites nimmt sehr viel Zeit in Anspruch.

      Unterstützte Dateitypen werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist.

    2. Geben Sie Maximale Drosselung der Crawling-Geschwindigkeit ein. Erfassen Sie zwischen 1 und 300 URLs pro Host und Minute. Eine höhere Crawling-Geschwindigkeit erhöht die Last, nimmt jedoch weniger Zeit in Anspruch.

    3. Geben Sie für Maximale Anzahl Seiten für die Datenquellensynchronisierung einen Wert zwischen 1 und 25000 ein. Beschränken Sie die maximale Anzahl von Webseiten, die über Ihre Quell-URLs gecrawlt werden. Wenn Webseiten diese Anzahl überschreiten, schlägt die Datenquellensynchronisierung fehl und es werden keine Webseiten erfasst.

    4. Für URL-Regex-Muster (optional) können Sie Muster einbeziehen oder Muster ausschließen hinzufügen, indem Sie das Muster für reguläre Ausdrücke in das Feld eingeben. Sie können bis zu 25 Einschlussfiltermuster und 25 Ausschlussfiltermuster hinzufügen, indem Sie Neues Muster hinzufügen auswählen. Die Ein- und Ausschlussmuster werden entsprechend Ihrem Bereich gecrawlt. Wenn ein Konflikt besteht, hat das Ausschlussmuster Vorrang.

  7. (Optional) Im Abschnitt Parsing und Chunking von Inhalten können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:

  8. Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Um die verbleibenden Schritte zu sehen, kehren Sie zu So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

API

Zum Herstellen einer Verbindung zwischen einer Wissensdatenbank und einer Datenquelle mithilfe von WebCrawler, senden Sie eine CreateDataSource-Anfrage mit einem Build-Time-Endpunkt von Agenten für Amazon Bedrock, geben Sie WEB in das Feld type der DataSourceConfiguration ein und fügen Sie das Feld webConfiguration hinzu. Im Folgenden finden Sie ein Beispiel für eine Konfiguration von Webcrawler für Ihre Amazon-Bedrock-Wissensdatenbank.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50, "maxPages": 100 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ], "userAgent": "CustomUserAgent" } }, "type": "WEB" }

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale vectorIngestionConfiguration-Feld einbeziehen, finden Sie unter So passen Sie die Aufnahme für eine Datenquelle an.