Amazon Kendra Web Crawler-Konnektor v1.0 - Amazon Kendra

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Kendra Web Crawler-Konnektor v1.0

Sie können Amazon Kendra Web Crawler verwenden, um Webseiten zu crawlen und zu indizieren.

Sie können nur öffentlich zugängliche Websites und Websites crawlen, die das sichere Kommunikationsprotokoll Hypertext Transfer Protocol Secure (HTTPS) verwenden. Wenn Sie beim Crawling einer Website einen Fehler erhalten, kann es sein, dass die Website für das Crawling gesperrt ist. Um interne Websites zu crawlen, können Sie einen Webproxy einrichten. Der Web-Proxy muss öffentlich zugänglich sein.

Bei der Auswahl der zu indizierenden Websites müssen Sie die Amazon Acceptable Use Policy (Richtlinie zur zulässigen Nutzung) und alle anderen Amazon-Bedingungen einhalten. Denken Sie daran, dass Sie Amazon Kendra Web Crawler nur verwenden dürfen, um Ihre eigenen Webseiten oder Webseiten zu indizieren, für deren Indexierung Sie autorisiert sind. Informationen dazu, wie Sie verhindern können, dass Amazon Kendra Web Crawler Ihre Website (s) indexiert, finden Sie unter. Konfiguration der robots.txt Datei für Amazon Kendra Web Crawler

Anmerkung

Der Missbrauch von Amazon Kendra Web Crawler zum aggressiven Crawlen von Websites oder Webseiten, die Ihnen nicht gehören, gilt nicht als zulässige Nutzung.

Informationen zur Problembehandlung Ihres Amazon Kendra Webcrawler-Datenquellen-Connectors finden Sie unter. Problembehandlung bei Datenquellen

Unterstützte Features

  • Web-Proxy

  • Einschluss-/Ausschlussfilter

Voraussetzungen

Bevor Sie Ihre Websites Amazon Kendra indexieren können, überprüfen Sie die Details Ihrer Websites und Konten. AWS

Stellen Sie für Ihre Websites sicher, dass Sie über Folgendes verfügen:

  • Sie haben den Startwert oder die Sitemap URLs der Websites kopiert, die Sie indexieren möchten.

  • Für Websites, die eine Standardauthentifizierung erfordern: Notiert den Benutzernamen und das Passwort und kopiert den Hostnamen der Website und die Portnummer.

  • Optional: Der Hostname der Website und die Portnummer wurden kopiert, wenn Sie einen Webproxy verwenden möchten, um eine Verbindung zu internen Websites herzustellen, die Sie crawlen möchten. Der Web-Proxy muss öffentlich zugänglich sein. Amazon Kendra unterstützt die Verbindung zu Web-Proxyservern, die über eine Standardauthentifizierung verfügen, oder Sie können eine Verbindung ohne Authentifizierung herstellen.

  • Vergewissert, dass jedes Webseitendokument, das Sie indexieren möchten, einzigartig ist und auch für andere Datenquellen gilt, die Sie für denselben Index verwenden möchten. Jede Datenquelle, die Sie für einen Index verwenden möchten, darf nicht dasselbe Dokument in allen Datenquellen enthalten. Dokumente IDs gelten für einen Index global und müssen pro Index eindeutig sein.

Stellen Sie in Ihrem AWS Konto sicher, dass Sie über Folgendes verfügen:

  • Hat einen Amazon Kendra Index erstellt und bei Verwendung der API die Index-ID notiert.

  • Sie haben eine IAM Rolle für Ihre Datenquelle erstellt und, falls Sie die API verwenden, den ARN der IAM Rolle notiert.

    Anmerkung

    Wenn Sie Ihren Authentifizierungstyp und Ihre Anmeldeinformationen ändern, müssen Sie Ihre IAM Rolle aktualisieren, um auf die richtige AWS Secrets Manager geheime ID zugreifen zu können.

  • Für Websites, die eine Authentifizierung erfordern, oder wenn Sie einen Webproxy mit Authentifizierung verwenden, haben Sie Ihre Authentifizierungsdaten AWS Secrets Manager geheim gespeichert und, falls Sie die API verwenden, den ARN des Geheimnisses notiert.

    Anmerkung

    Wir empfehlen Ihnen, Ihre Anmeldeinformationen und Ihr Geheimnis regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die Zugriffsebene bereit, die erforderlich ist. Wir raten davon ab, Anmeldeinformationen und geheime Daten für alle Datenquellen und Connector-Versionen 1.0 und 2.0 (sofern zutreffend) wiederzuverwenden.

Wenn Sie noch keine IAM Rolle oder keinen Schlüssel haben, können Sie die Konsole verwenden, um eine neue IAM Rolle und ein neues Secrets Manager Geheimnis zu erstellen, wenn Sie eine Verbindung herstellen web crawler Datenquelle zu Amazon Kendra. Wenn Sie die API verwenden, müssen Sie den ARN einer vorhandenen IAM Rolle und eines Secrets Manager Geheimnisses sowie eine Index-ID angeben.

Anweisungen zur Verbindung

Um eine Verbindung Amazon Kendra zu Ihrem herzustellen web crawler Datenquelle, Sie müssen die erforderlichen Angaben zu Ihrem web crawler Datenquelle, damit Amazon Kendra Sie auf Ihre Daten zugreifen können. Wenn Sie noch nicht konfiguriert haben web crawler zu Amazon Kendra sehenVoraussetzungen.

Console

Um eine Verbindung Amazon Kendra herzustellen web crawler

  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die Amazon Kendra Konsole.

  2. Wählen Sie im linken Navigationsbereich Indizes und dann den Index, den Sie verwenden möchten, aus der Indexliste aus.

    Anmerkung

    Sie können Ihre Einstellungen für die Benutzerzugriffskontrolle unter Indexeinstellungen konfigurieren oder bearbeiten.

  3. Wählen Sie auf der Seite Erste Schritte die Option Datenquelle hinzufügen aus.

  4. Wählen Sie auf der Seite Datenquelle hinzufügen die Option Webcrawler-Connector und dann Connector hinzufügen aus. Wenn Sie Version 2 verwenden (falls zutreffend), wählen Sie den Webcrawler-Connector mit dem Tag „V2.0".

  5. Geben Sie auf der Seite „Datenquellendetails angeben“ die folgenden Informationen ein:

    1. Geben Sie im Feld Name und Beschreibung für Datenquellenname einen Namen für Ihre Datenquelle ein. Sie können Bindestriche, aber keine Leerzeichen verwenden.

    2. (Optional) Beschreibung — Geben Sie eine optionale Beschreibung für Ihre Datenquelle ein.

    3. In Standardsprache — Wählen Sie eine Sprache aus, um Ihre Dokumente nach dem Index zu filtern. Sofern Sie nichts anderes angeben, ist die Standardsprache Englisch. Die in den Metadaten des Dokuments angegebene Sprache hat Vorrang vor der ausgewählten Sprache.

    4. Unter Tags für Neues Tag hinzufügen — Fügen Sie optionale Tags hinzu, um Ihre Ressourcen zu durchsuchen und zu filtern oder Ihre Kosten nachzuverfolgen. AWS

    5. Wählen Sie Weiter.

  6. Geben Sie auf der Seite Zugriff und Sicherheit definieren die folgenden Informationen ein:

    1. Wählen Sie für Quelle je nach Anwendungsfall zwischen Quell URLs - und Quell-Sitemaps und geben Sie die Werte für jede Sitemaps ein.

      Sie können bis zu 10 Quell URLs - und drei Sitemaps hinzufügen.

      Anmerkung

      Wenn du eine Sitemap crawlen möchtest, überprüfe, ob die Basis- oder Stamm-URL mit der auf deiner Sitemap-Seite URLs angegebenen URL übereinstimmt. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, die auf dieser Sitemap-Seite URLs aufgeführte Seite sollte auch die Basis-URL verwenden“https://example.com/".

    2. (Optional) Geben Sie für Web-Proxy die folgenden Informationen ein:

      1. Hostname — Der Hostname, für den ein Webproxy erforderlich ist.

      2. Portnummer — Der vom Host-URL-Transportprotokoll verwendete Port. Die Portnummer sollte ein numerischer Wert zwischen 0 und 65535 sein.

      3. Für Web-Proxy-Anmeldeinformationen — Wenn Ihre Web-Proxyverbindung eine Authentifizierung erfordert, wählen Sie ein vorhandenes Geheimnis oder erstellen Sie ein neues Geheimnis, um Ihre Authentifizierungsdaten zu speichern. Wenn Sie ein neues Geheimnis erstellen möchten, wird ein AWS Secrets Manager geheimes Fenster geöffnet.

      4. Geben Sie die folgenden Informationen in das Fenster Create an AWS Secrets Manager Secrets Manager Secret ein:

        1. Geheimer Name — Ein Name für Ihr Geheimnis. Das Präfix 'AmazonKendra-WebCrawler-'wird automatisch zu Ihrem geheimen Namen hinzugefügt.

        2. Für Benutzername und Passwort — Geben Sie diese grundlegenden Authentifizierungsdaten für Ihre Websites ein.

        3. Wählen Sie Save (Speichern) aus.

    3. (Optional) Hosts mit Authentifizierung — Wählen Sie diese Option, um weitere Hosts mit Authentifizierung hinzuzufügen.

    4. IAM Rolle — Wählen Sie eine bestehende IAM Rolle oder erstellen Sie eine neue IAM Rolle, um auf Ihre Repository-Anmeldeinformationen und Indexinhalte zuzugreifen.

      Anmerkung

      IAM Rollen, die für Indizes verwendet werden, können nicht für Datenquellen verwendet werden. Wenn Sie sich nicht sicher sind, ob eine vorhandene Rolle für einen Index oder eine häufig gestellte Frage verwendet wird, wählen Sie Neue Rolle erstellen, um Fehler zu vermeiden.

    5. Wählen Sie Weiter.

  7. Geben Sie auf der Seite „Synchronisierungseinstellungen konfigurieren“ die folgenden Informationen ein:

    1. Crawlbereich — Wählen Sie die Art der Webseiten aus, die Sie crawlen möchten.

    2. Crawl-Tiefe — Wählen Sie aus der Seed-URL die Anzahl der Ebenen aus, die gecrawlt werden sollen. Amazon Kendra

    3. In den erweiterten Crawling-Einstellungen und der Option Zusätzliche Konfiguration werden die folgenden Informationen eingegeben:

      1. Maximale Dateigröße — Die maximale Webseite- oder Anhangsgröße für das Crawlen. Mindestens 0,000001 MB (1 Byte). Maximal 50 MB.

      2. Maximale Anzahl an Links pro Seite — Die maximale Anzahl von Links, die pro Seite gecrawlt wurden. Links werden in der Reihenfolge ihres Auftretens gecrawlt. Mindestens 1. link/page. Maximum 1000 links/page

      3. Maximale Drosselung — Die maximale Anzahl von URLs Crawlern pro Hostname pro Minute. Mindestens 1 /host. URLs name/minute. Maximum 300 URLs/host name/minute

      4. Regex-Muster — Fügen Sie Muster für reguläre Ausdrücke hinzu, um bestimmte Muster ein- oder auszuschließen. URLs Sie können bis zu 100 Muster hinzufügen.

    4. Wählen Sie im Zeitplan für die Synchronisierungsausführung für Häufigkeit aus, wie oft mit Ihrer Datenquelle synchronisiert Amazon Kendra werden soll.

    5. Wählen Sie Weiter.

  8. Überprüfen Sie auf der Seite Überprüfen und erstellen, ob die von Ihnen eingegebenen Informationen korrekt sind, und wählen Sie dann Datenquelle hinzufügen aus. Sie können Ihre Informationen auch auf dieser Seite bearbeiten. Ihre Datenquelle wird auf der Seite Datenquellen angezeigt, nachdem die Datenquelle erfolgreich hinzugefügt wurde.

API

Um eine Verbindung Amazon Kendra herzustellen web crawler

Mithilfe der WebCrawlerConfigurationAPI müssen Sie Folgendes angeben:

  • URLs— Geben Sie den Startpunkt oder den Startpunkt URLs der Websites oder die Sitemap URLs der Websites an, die Sie beim Crawlen verwenden möchten SeedUrlConfiguration und SiteMapsConfiguration.

    Anmerkung

    Wenn Sie eine Sitemap crawlen möchten, überprüfen Sie, ob die Basis- oder Stamm-URL mit der URL auf Ihrer URLs Sitemap-Seite übereinstimmt. Wenn Ihre Sitemap-URL beispielsweise lautet https://example.com/sitemap-page.html, die auf dieser Sitemap-Seite URLs aufgeführte Seite sollte auch die Basis-URL verwenden“https://example.com/".

  • Geheimer Amazon-Ressourcenname (ARN) — Wenn für eine Website eine Standardauthentifizierung erforderlich ist, geben Sie den Hostnamen, die Portnummer und ein Geheimnis an, in dem Ihre grundlegenden Authentifizierungsdaten mit Ihrem Benutzernamen und Passwort gespeichert werden. Sie geben den geheimen ARN mit dem AuthenticationConfigurationAPI. Das Geheimnis wird in einer JSON-Struktur mit den folgenden Schlüsseln gespeichert:

    { "username": "user name", "password": "password" }

    Sie können Webproxy-Anmeldeinformationen auch mithilfe eines AWS Secrets Manager Geheimnisses angeben. Sie verwenden den ProxyConfigurationAPI zur Bereitstellung des Hostnamens und der Portnummer der Website sowie optional des geheimen Schlüssels, in dem Ihre Web-Proxy-Anmeldeinformationen gespeichert werden.

  • IAM role — Geben Sie anRoleArn, wann Sie anrufenCreateDataSource, um einer IAM Rolle Berechtigungen für den Zugriff auf Ihr Secrets Manager Secret und für das Aufrufen der erforderlichen öffentlichen Daten APIs für den Webcrawler-Connector und zuzuweisen. Amazon Kendra Weitere Informationen finden Sie unter IAM Rollen für Webcrawler-Datenquellen.

Sie können auch die folgenden optionalen Funktionen hinzufügen:

  • Crawlmodus — Wählen Sie aus, ob nur Hostnamen von Websites oder Hostnamen mit Subdomänen oder auch andere Domains gecrawlt werden sollen, auf die die Webseiten verweisen.

  • Die „Tiefe“ oder Anzahl der Ebenen von der Seed-Ebene bis zum Crawl. Beispielsweise hat die Seed-URL-Seite Tiefe 1 und alle Hyperlinks auf dieser Seite, die ebenfalls gecrawlt werden, haben Tiefe 2.

  • Die maximale Anzahl URLs auf einer einzelnen Webseite, die gecrawlt werden sollen.

  • Die maximale Größe einer Webseite, die gecrawlt werden soll, in MB.

  • Die maximale Anzahl von URLs Crawlern pro Website-Host pro Minute.

  • Der Web-Proxy-Host und die Portnummer für die Verbindung zu internen Websites und das Crawlen. Zum Beispiel der Hostname von https://a.example.com/page1.htmlist“a.example.com"und die Portnummer ist 443, der Standardport für HTTPS. Wenn Web-Proxy-Anmeldeinformationen erforderlich sind, um eine Verbindung zu einem Website-Host herzustellen, können Sie eine AWS Secrets Manager erstellen, in der die Anmeldeinformationen gespeichert werden.

  • Die Authentifizierungsinformationen für den Zugriff auf und das Crawlen von Websites, für die eine Benutzerauthentifizierung erforderlich ist.

  • Mit dem Tool Custom Document Enrichment können Sie HTML-Metatags als Felder extrahieren. Weitere Informationen finden Sie unter Anpassen der Metadaten von Dokumenten während des Erfassungsprozesses. Ein Beispiel für das Extrahieren von HTML-Metatags finden Sie unter CDE-Beispiele.

  • Inklusions- und Ausschlussfilter — Geben Sie an, ob bestimmte Filter ein- oder ausgeschlossen werden sollen. URLs

    Anmerkung

    Die meisten Datenquellen verwenden Muster mit regulären Ausdrücken, bei denen es sich um Ein- oder Ausschlussmuster handelt, die als Filter bezeichnet werden. Wenn Sie einen Einschlussfilter angeben, werden nur Inhalte indexiert, die dem Einschlussfilter entsprechen. Jedes Dokument, das nicht dem Einschlussfilter entspricht, wird nicht indexiert. Wenn Sie einen Ein- und Ausschlussfilter angeben, werden Dokumente, die dem Ausschlussfilter entsprechen, nicht indexiert, auch wenn sie dem Einschlussfilter entsprechen.

Weitere Informationen

Um mehr über die Integration Amazon Kendra mit Ihrem zu erfahren web crawler Datenquelle finden Sie unter: