Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Verbinden einer Datenquelle mit der Wissensdatenbank
<a name="data-source-connectors"></a>

Nachdem Sie die Konfigurationen für Ihre Wissensdatenbank abgeschlossen haben, verbinden Sie eine unterstützte Datenquelle mit der Wissensdatenbank.

Amazon-Bedrock-Wissensdatenbanken unterstützen die Verbindung zu unstrukturierten Datenquellen oder strukturierten Datenspeichern über eine Abfrage-Engine. Wählen Sie ein Thema aus, um zu erfahren, wie Sie eine Verbindung zu dieser Art von Datenquelle herstellen können:

**Unterstützung multimodaler Inhalte**  
Multimodaler Inhalt (Bilder, Audio- und Videodateien) wird nur mit Amazon S3 und benutzerdefinierten Datenquellen unterstützt. Bei anderen Datenquellentypen werden multimodale Dateien bei der Aufnahme übersprungen. Umfassende Anleitungen zur Arbeit mit multimodalen Inhalten finden Sie unter. [Aufbau einer Wissensdatenbank für multimodale Inhalte](kb-multimodal.md)

Um zu erfahren, wie Sie mithilfe der Amazon-Bedrock-Konsole eine Verbindung zu einer Datenquelle herstellen, wählen Sie unten auf dieser Seite das Thema für Ihren Datenquellentyp aus:

Um mithilfe der Amazon Bedrock-API eine Verbindung zu einer Datenquelle herzustellen, senden Sie eine [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)Anfrage mit einem [Runtime-Endpunkt von Agents for Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-rt).

Die folgenden Felder sind erforderlich:


****  

| Feld | Grundlegende Beschreibung | 
| --- | --- | 
| knowledgeBaseId | Die Kennung der Wissensdatenbank. | 
| Name | Ein Name für die Wissensdatenbank. | 
| dataSourceConfiguration | Geben Sie den Datenquellenservice oder -typ in das Feld type ein und nehmen Sie das entsprechende Feld auf. Für weitere Informationen zu servicespezifischen Konfigurationen wählen Sie das Thema für den Service aus den Themen unten auf dieser Seite aus. | 

Die folgenden Felder sind optional:


****  

| Feld | Anwendungsfall | 
| --- | --- | 
| description | Zur Beschreibung der Datenquelle. | 
| vectorIngestionConfiguration | Enthält Konfigurationen zum Anpassen des Erfassungsprozesses. Weitere Informationen finden Sie unter [So passen Sie die Aufnahme für eine Datenquelle an](kb-data-source-customize-ingestion.md). | 
| dataDeletionPolicy | Zur Angabe, ob die Vektor-Einbettungen im Vektorspeicher beibehalten (RETAIN) oder gelöscht (DELETE) werden sollen. | 
| serverSideEncryptionKonfiguration | Um transiente Daten während der Datensynchronisierung mit einem kundenseitig verwalteten Schlüssel zu verschlüsseln, geben Sie den zugehörigen ARN in das Feld kmsKeyArn ein. | 
| clientToken | Zur Sicherstellung, dass die API-Anfrage nur einmal durchgeführt wird. Weitere Informationen finden Sie unter [Sicherstellen von Idempotenz](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 

Wählen Sie ein Thema aus, um mehr über einen Service und seine Konfiguration zu erfahren.

**Topics**
+ [Verbinden mit Amazon S3 für Ihre Wissensdatenbank](s3-data-source-connector.md)
+ [Verbindung zu Confluence für die Wissensdatenbank](confluence-data-source-connector.md)
+ [Connect zu Microsoft her, SharePoint um Ihre Wissensdatenbank zu erhalten](sharepoint-data-source-connector.md)
+ [Verbinden mit Salesforce für Ihre Wissensdatenbank](salesforce-data-source-connector.md)
+ [Crawlen von Webseiten für Ihre Wissensdatenbank](webcrawl-data-source-connector.md)
+ [Verknüpfen der Wissensdatenbank mit einer benutzerdefinierten Datenquelle](custom-data-source-connector.md)

# Verbinden mit Amazon S3 für Ihre Wissensdatenbank
<a name="s3-data-source-connector"></a>

Amazon S3 ist ein Objektspeicherdienst, der Daten als Objekte in Buckets speichert. Sie können eine Verbindung zu Ihrem Amazon S3 S3-Bucket für Ihre Amazon Bedrock-Wissensdatenbank herstellen, indem Sie entweder die [AWSManagement-Konsole für Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) oder die [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API verwenden (siehe Amazon Bedrock [unterstützt SDKs ](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) und). AWS CLI

**Unterstützung multimodaler Inhalte**  
Amazon S3 S3-Datenquellen unterstützen multimodale Inhalte wie Bilder, Audio- und Videodateien. Umfassende Anleitungen zur Arbeit mit multimodalen Inhalten finden Sie unter. [Aufbau einer Wissensdatenbank für multimodale Inhalte](kb-multimodal.md)

Sie können einen kleinen Stapel von Dateien über die Amazon-S3-Konsole oder die API in einen Amazon-S3-Bucket hochladen. Sie können es auch verwenden [AWS DataSync](https://docs.aws.amazon.com/datasync/latest/userguide/create-s3-location.html), um mehrere Dateien kontinuierlich auf S3 hochzuladen und Dateien nach einem Zeitplan von der lokalen Infrastruktur, dem Edge, einer anderen Cloud oder AWS einem Speicher zu übertragen.

Derzeit werden nur S3-Buckets für allgemeine Zwecke unterstützt.

Anzahl und Größe der durchsuchbaren Dateien sind beschränkt. Weitere Informationen finden Sie unter [Kontingente für Wissensdatenbanken](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Unterstützte Features](#supported-features-s3-connector)
+ [Voraussetzungen](#prerequisites-s3-connector)
+ [Konfiguration der Verbindung](#configuration-s3-connector)

## Unterstützte Features
<a name="supported-features-s3-connector"></a>
+ Dokument-Metadatenfelder
+ Einschlusspräfixe
+ Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte

## Voraussetzungen
<a name="prerequisites-s3-connector"></a>

**Stellen Sie in Amazon S3 Folgendes sicher**:
+ Notieren Sie sich den URI des Amazon-S3-Buckets, den Amazon-Ressourcennamen (ARN) und die AWS-Konto-ID für den Eigentümer des Buckets. Sie finden den URI und den ARN im Eigenschaftenbereich der Amazon-S3-Konsole. Ihr Bucket muss sich in derselben Region wie Ihre Amazon-Bedrock-Wissensdatenbank befinden. Sie müssen über die Zugriffsberechtigung für diesen Bucket verfügen.

Stellen **Sie in Ihrem AWS Konto sicher, dass Sie**:
+ Nehmen Sie die erforderlichen Berechtigungen für die Verbindung mit Ihrer Datenquelle in Ihre AWS Identity and Access Management (IAM) role/permissions -Richtlinie für Ihre Wissensdatenbank auf. Informationen zu den erforderlichen Berechtigungen für diese Datenquelle, um sie Ihrer IAM Wissensdatenbank-Rolle hinzuzufügen, finden Sie unter [Berechtigungen für den Zugriff auf Datenquellen](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Anmerkung**  
Wenn Sie die Konsole verwenden, kann die IAM Rolle mit allen erforderlichen Berechtigungen im Rahmen der Schritte zum Erstellen einer Wissensdatenbank für Sie erstellt werden. Nachdem Sie die Datenquelle konfiguriert und andere Konfigurationen vorgenommen haben, wird die IAM-Rolle mit allen erforderlichen Berechtigungen auf die jeweilige Wissensdatenbank angewendet.

## Konfiguration der Verbindung
<a name="configuration-s3-connector"></a>

Zum Herstellen einer Verbindung mit Ihrem Amazon-S3-Bucket müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und nach ihnen suchen kann. Befolgen Sie zudem [Voraussetzungen](#prerequisites-s3-connector).

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zur Einschlussfiltern, zu Dokument-Metadatenfeldern, zur inkrementellen Synchronisierung und zu deren Funktionsweise finden Sie unter:

### Dokument-Metadatenfelder
<a name="ds-s3-metadata-fields"></a>

Sie können eine separate Datei hinzufügen, die die Dokumentmetadaten fields/attributes für jede Datei in Ihrer Amazon S3 S3-Datenquelle angibt und angibt, ob sie bei der Indizierung der Datenquelle im Vector Store in die Einbettungen aufgenommen werden sollen. Sie können beispielsweise eine Datei im folgenden Format erstellen, sie benennen *fileName.extension.metadata.json* und in Ihren S3-Bucket hochladen.

```
{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}
```

Die Metadatendatei muss denselben Namen wie die zugehörige Quelldokumentdatei verwenden, wobei `.metadata.json` an das Ende des Dateinamens angehängt wird. Die Metadatendatei muss im selben Ordner oder Speicherort wie die Quelldatei in Ihrem Amazon-S3-Bucket gespeichert werden. Die Datei darf das Limit von 10 KB nicht überschreiten. Informationen zu den unterstützten attribute/field Datentypen und den Filteroperatoren, die Sie auf Ihre Metadatenfelder anwenden können, finden Sie unter [Metadaten und Filterung](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html).

### Einschlusspräfixe
<a name="ds-s3-inclusion-exclusion"></a>

Sie können ein Einschlusspräfix angeben, bei dem es sich um ein Amazon-S3-Pfadpräfix handelt. Dabei können Sie eine S3-Datei oder einen Ordner anstelle des gesamten Buckets verwenden, um den S3-Datenquellen-Connector zu erstellen.

### Inkrementelle Synchronisierung
<a name="ds-s3-incremental-sync"></a>

Der Datenquellen-Connector crawlt neue, geänderte und gelöschte Inhalte jedes Mal, wenn Ihre Datenquelle mit Ihrer Wissensdatenbank synchronisiert wird. Amazon Bedrockkann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu crawlen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie die Datenquelle zum ersten Mal mit der Wissensdatenbank synchronisieren, werden standardmäßig alle Inhalte synchronisiert.

Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API oder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option **Synchronisieren** aus.

**Wichtig**  
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der `bedrock:Retrieve`-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter [Berechtigungen für die Wissensdatenbank](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Verbinden eines Amazon-S3-Buckets mit Ihrer Wissensdatenbank**

1. Befolgen Sie die Schritte unter [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) und wählen Sie **Amazon S3** als Datenquelle aus.

1. Geben Sie einen Namen für die Datenquelle an.

1. Geben Sie an, ob sich der Amazon S3 S3-Bucket in Ihrem aktuellen AWS Konto oder einem anderen AWS Konto befindet. Ihr Bucket muss sich in derselben Region wie die Wissensdatenbank befinden.

1. (Optional) Wenn der Amazon-S3-Bucket mit einem KMS-Schlüssel verschlüsselt ist, geben Sie den Schlüssel an. Weitere Informationen finden Sie unter [Berechtigungen zum Entschlüsseln Ihres AWS KMS Schlüssels für Ihre Datenquellen in Amazon S3](encryption-kb.md#encryption-kb-ds).

1. (Optional) Im Abschnitt **Parsing und Chunking von Inhalten** können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:
   + Weitere Informationen zu den Parsing-Optionen finden Sie unter [Parsing-Optionen für Ihre Datenquelle](kb-advanced-parsing.md).
   + Weitere Informationen zu Aufteilungsstrategien finden Sie unter [So funktioniert das Inhalts-Chunking für Wissensdatenbanken](kb-chunking.md).
**Warnung**  
Die Aufteilungsstrategie kann nach dem Herstellen einer Verbindung zur Datenquelle nicht mehr geändert werden.
   + Weitere Informationen zum Anpassen der Aufteilung Ihrer Daten und der Verarbeitung Ihrer Metadaten mit einer Lambda-Funktion finden Sie unter [So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden](kb-custom-transformation.md).

1. Im Abschnitt **Erweiterte Einstellungen** können Sie optional Folgendes konfigurieren:
   + **KMS-Schlüssel für den transienten Datenspeicher.** — Sie können die transienten Daten verschlüsseln, während Sie Ihre Daten mit dem Standard Von AWS verwalteter Schlüssel - oder Ihrem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter [Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung](encryption-kb.md#encryption-kb-ingestion).
   + **Richtlinie zum Löschen von Daten** – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.

1. Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Wenn Sie die verbleibenden Schritte sehen möchten, kehren Sie zu [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

------
#### [ API ]

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung mit Amazon S3 für die Amazon-Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle mithilfe der API mit dem AWS CLI oder einem unterstützten SDK, z. B. Python. Nach dem Aufruf rufen Sie auf [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)um Ihre Datenquelle mit Ihren Verbindungsinformationen zu erstellen`dataSourceConfiguration`.

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale `vectorIngestionConfiguration`-Feld einbeziehen, finden Sie unter [So passen Sie die Aufnahme für eine Datenquelle an](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}
```

------

# Verbindung zu Confluence für die Wissensdatenbank
<a name="confluence-data-source-connector"></a>

Atlassian Confluence ist ein zusammenarbeitsorientiertes Arbeitsmanagement-Tool zum Freigeben, Speichern und Arbeiten an Projektplanung, Softwareentwicklung und Produktmanagement. Sie können mit der [AWS-Managementkonsole für Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) oder der [CreateDataSource-API](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) eine Verbindung zur Confluence-Instance für die Amazon-Bedrock-Wissensdatenbank herstellen (siehe von Amazon Bedrock [unterstützte SDKs und AWS CLI](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html)).

**Anmerkung**  
Beim Datenquellen-Connector Confluence handelt es sich um eine Vorversion, bei der Änderungen vorbehalten sind.  
Confluence-Datenquellen unterstützen keine multimodalen Daten wie Tabellen, Diagramme, Diagramme oder andere Bilder.

Amazon Bedrock unterstützt die Verbindung zu Confluence-Cloud-Instances. Derzeit steht nur der Vektorspeicher von Amazon OpenSearch Serverless für die Verwendung mit dieser Datenquelle zur Verfügung.

Anzahl und Größe der durchsuchbaren Dateien sind beschränkt. Weitere Informationen finden Sie unter [Kontingente für Wissensdatenbanken](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Unterstützte Features](#supported-features-confluence-connector)
+ [Voraussetzungen](#prerequisites-confluence-connector)
+ [Konfiguration der Verbindung](#configuration-confluence-connector)

## Unterstützte Features
<a name="supported-features-confluence-connector"></a>
+ Automatische Erkennung der wichtigsten Dokumentfelder
+ Filter zum Einschließen und Ausschließen von Inhalten
+ Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte
+ OAuth-2.0-Authentifizierung, Authentifizierung mit Confluence-API-Token

## Voraussetzungen
<a name="prerequisites-confluence-connector"></a>

**Stellen Sie in Confluence Folgendes sicher**:
+ Notieren Sie die URL der Confluence-Instance. Für Confluence Cloud lautet diese beispielsweise *https://example.atlassian.net*. Die URL für Confluence Cloud muss die Basis-URL sein und auf *.atlassian.net* enden.
+ Konfigurieren Sie grundlegende Anmeldeinformationen für die Authentifizierung, die einen Benutzernamen (E-Mail des Administratorkontos) und ein Passwort (Confluence-API-Token) enthalten, sodass eine Verbindung zwischen Amazon Bedrock und Ihrer Confluence Cloud-Instance hergestellt werden kann. Informationen zum Erstellen eines Confluence-API-Tokens finden Sie auf der Atlassian-Website unter [API-Token für Ihr Atlassian-Konto verwalten](https://support.atlassian.com/atlassian-account/docs/manage-api-tokens-for-your-atlassian-account/#Create-an-API-token).
+ (Optional) Konfigurieren Sie eine OAuth 2.0-Anwendung mit den Anmeldeinformationen eines App-Schlüssels, eines geheimen App-Schlüssels, eines Zugriffstokens und eines Aktualisierungstokens. Weitere Informationen finden Sie unter [OAuth-2.0-Apps](https://developer.atlassian.com/cloud/confluence/oauth-2-3lo-apps/) auf der Atlassian-Website.
+ Es müssen bestimmte Leseberechtigungen oder Bereiche aktiviert sein, damit eine Verbindung zwischen der OAuth 2.0-App und Confluence möglich wird.

  Confluence-API:
  + offline\$1access
  + read:content:confluence – Detaillierte Inhalte anzeigen 
  + read:content:confluence – Inhaltsdetails anzeigen 
  + read:space-details:confluence – Bereichsdetails anzeigen
  + read:audit-log:confluence – Audit-Aufzeichnungen anzeigen 
  + read:page:confluence – Seiten anzeigen 
  + read:attachment:confluence – Inhaltsanhänge ansehen und herunterladen 
  + read:blogpost:confluence – Blogbeiträge ansehen 
  + read:custom-content:confluence – Benutzerdefinierten Inhalt anzeigen 
  + read:comment:confluence – Kommentare anzeigen 
  + read:template:confluence – Inhaltsvorlagen anzeigen 
  + read:label:confluence – Labels anzeigen 
  + read:watcher:confluence – Inhaltsbeobachter anzeigen 
  + read:relation:confluence – Entitätsbeziehungen anzeigen 
  + read:user:confluence – Benutzerdetails anzeigen 
  + read:configuration:confluence – Confluence-Einstellungen anzeigen 
  + read:space-details:confluence – Bereichsdetails anzeigen 
  + read:space.property:confluence – Bereichseigenschaften anzeigen 
  + read:user.property:confluence – Benutzereigenschaften anzeigen 
  + read:space.setting:confluence – Bereichseinstellungen anzeigen 
  + read:analytics.content:confluence – Analytik für Inhalte anzeigen
  + read:content.property:confluence – Inhaltseigenschaften anzeigen
  + read:content.metadata:confluence – Inhaltszusammenfassungen anzeigen 
  + read:inlinetask:confluence – Aufgaben anzeigen 
  + read:task:confluence – Aufgaben anzeigen 
  + read:whiteboard:confluence – Whiteboards anzeigen 
  + read:app-data:confluence – App-Daten lesen 
  + read:folder:confluence – Ordner anzeigen
  + read:embed:confluence – Smart-Link-Daten anzeigen

**Stellen Sie in Ihrem AWS-Konto Folgendes sicher**:
+ Speichern Sie Ihre Anmeldeinformationen für die Authentifizierung in einem [AWS Secrets Manager-Secret](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) und notieren Sie sich dessen Amazon-Ressourcennamen (ARN). Folgen Sie den Anweisungen zur **Verbindungskonfiguration** auf dieser Seite, um die Schlüssel-Wert-Paare aufzunehmen, die in Ihrem Secret enthalten sein müssen.
+ Nehmen Sie die erforderlichen Berechtigungen für die Verbindung mit der Datenquelle in die AWS Identity and Access Management (IAM)-Rollen-/Berechtigungsrichtlinie für die Wissensdatenbank auf. Informationen zu den Berechtigungen, die erforderlich sind, um diese Datenquelle der IAM-Rolle für die Wissensdatenbank hinzuzufügen, finden Sie unter [Berechtigungen für den Zugriff auf Datenquellen](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Anmerkung**  
Wenn Sie die Konsole verwenden, können Sie Ihr Secret über AWS Secrets Manager hinzufügen oder ein vorhandenes Secret als Teil des Konfigurationsschritts für die Datenquelle verwenden. Die IAM-Rolle kann mit allen erforderlichen Berechtigungen im Rahmen der in der Konsole ausgeführten Schritte zum Erstellen einer Wissensdatenbank für Sie angelegt werden. Nachdem Sie die Datenquelle konfiguriert und andere Konfigurationen vorgenommen haben, wird die IAM-Rolle mit allen erforderlichen Berechtigungen auf die jeweilige Wissensdatenbank angewendet.  
Wir empfehlen, die Anmeldeinformationen und Secrets regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die unbedingt erforderliche Zugriffsebene bereit. Wir raten davon ab, für mehrere Datenquellen identische Anmeldeinformationen und Secrets zu verwenden.

## Konfiguration der Verbindung
<a name="configuration-confluence-connector"></a>

Um eine Verbindung zur Confluence-Instance herzustellen, müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und nach ihnen suchen kann. Befolgen Sie zudem [Voraussetzungen](#prerequisites-confluence-connector).

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zur automatischen Erkennung von Dokumentfeldern, Einschluss-/Ausschlussfiltern, inkrementellen Synchronisierung, geheimen Anmeldeinformationen für die Authentifizierung und deren Funktionsweise finden Sie unter:

### Automatische Erkennung der wichtigsten Dokumentfelder
<a name="ds-confluence-document-fields"></a>

Der Datenquellen-Connector erkennt und durchsucht automatisch alle wichtigen Metadatenfelder von Dokumenten oder Inhalten. Der Datenquellen-Connector kann beispielsweise den Dokumenttext zu den Dokumenten, den Dokumenttitel, das Erstellungs- oder Änderungsdatum des Dokuments oder andere Kernfelder durchsuchen, die für die Dokumente gelten.

**Wichtig**  
Wenn der Inhalt vertrauliche Informationen enthält, kann Amazon Bedrock mit vertraulichen Informationen antworten.

Sie können Filteroperatoren auf Metadatenfelder anwenden, um die Relevanz von Antworten weiter zu verbessern. Zum Beispiel: Dokument „epoch\$1modification\$1time“ oder die Anzahl der Sekunden, die seit dem 1. Januar 1970 vergangen sind, als das Dokument zuletzt aktualisiert wurde. Sie können nach den neuesten Daten filtern, wobei „epoch\$1modification\$1time“ *größer als* eine bestimmte Zahl ist. Weitere Informationen zu den Filteroperatoren, die Sie auf die Metadatenfelder anwenden können, finden Sie unter [Metadaten und Filterung.](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html)

### Einschluss- und Ausschlussfilter
<a name="ds-confluence-inclusion-exclusion"></a>

Sie können das Crawling bestimmter Inhalte ein- oder ausschließen. Durch Angabe eines Ausschlusspräfixes oder eines Musters für reguläre Ausdrücke können Sie beispielsweise festlegen, dass alle Dateien, deren Name das Wort „privat” enthält, beim Crawling übersprungen werden. Sie können bestimmte Inhaltsentitäten oder Inhaltstypen durch Angabe von Einschlusspräfix/Mustern für reguläre Ausdrücke einbeziehen. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide auf ein Dokument zutreffen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht durchsucht.

Ein Beispiel für ein Muster für reguläre Ausdrücke zum Ausschließen oder Herausfiltern von PDF-Dateien, deren Dateiname das Wort „privat“ enthält: *".\$1privat.\$1\$1\$1.pdf"*

Einschluss-/Ausschlussfilter können auf die folgenden Inhaltstypen angewendet werden:
+ `Space`: Einzelnes Leerzeichen
+ `Page`: Haupttitel der Seite
+ `Blog`: Haupttitel des Blogs
+ `Comment`: Kommentare, die zu einer bestimmten Seite oder einem bestimmten Blog gehören. Geben Sie Folgendes an: *Betreff: Seiten-/Blogtitel*
+ `Attachment`: Name der Anhangsdatei mit Erweiterung

### Inkrementelle Synchronisierung
<a name="ds-confluence-incremental-sync"></a>

Der Datenquellen-Connector sucht bei jeder Synchronisierung der Datenquelle mit der Wissensdatenbank nach neuen, geänderten und gelöschten Inhalten. Amazon Bedrock kann den Mechanismus der Datenquelle verwenden, um geänderte Inhalte nachzuverfolgen und nach Inhalten zu suchen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie die Datenquelle zum ersten Mal mit der Wissensdatenbank synchronisieren, werden standardmäßig alle Inhalte synchronisiert.

Um die Datenquelle mit der Wissensdatenbank zu synchronisieren, verwenden Sie die [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)-API; wählen Sie alternativ die Wissensdatenbank in der Konsole und dann im Bereich „Datenquellenübersicht“ die Option **Synchronisieren** aus.

**Wichtig**  
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der `bedrock:Retrieve`-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter [Berechtigungen für die Wissensdatenbank](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Anmeldeinformationen für die Secret-Authentifizierung
<a name="ds-confluence-secret-auth-credentials"></a>

(Bei Verwendung der Standardauthentifizierung) Die Secret-Anmeldeinformationen für die Authentifizierung in AWS Secrets Manager sollten die folgenden Schlüssel-Wert-Paare enthalten:
+ `username`: *E-Mail-Adresse des Admin-Benutzers des Atlassian-Kontos*
+ `password`: *Confluence-API-Token*

(Bei Verwendung der OAuth-2.0-Authentifizierung) Die Secret-Anmeldeinformationen für die Authentifizierung in AWS Secrets Manager sollten die folgenden Schlüssel-Wert-Paare enthalten:
+ `confluenceAppKey`: *App-Schlüssel*
+ `confluenceAppSecret`: *App-Secret*
+ `confluenceAccessToken`*: App-Zugriffstoken*
+ `confluenceRefreshToken`: *App-Aktualisierungstoken*

**Anmerkung**  
Das **OAuth2.0-Zugriffstoken** von Confluence läuft standardmäßig nach 60 Minuten ab. Wenn dieses Token abläuft, während Ihre Datenquelle synchronisiert wird (Synchronisierungsauftrag), verwendet Amazon Bedrock das bereitgestellte **Aktualisierungstoken**, um dieses Token neu zu generieren. Bei dieser Regenerierung werden sowohl die Zugriffs- als auch die Aktualisierungstoken aktualisiert. Um die Token vom aktuellen Synchronisierungsauftrag bis zum nächsten Synchronisierungsauftrag auf dem neuesten Stand zu halten, benötigt Amazon Bedrock im Rahmen Ihrer IAM-Rolle in der Wissensdatenbank Schreib- und PUT-Berechtigungen für die Secret-Anmeldeinformationen.

**Anmerkung**  
Ihr Secret in AWS Secrets Manager muss dieselbe Region wie die Wissensdatenbank verwenden.

------
#### [ Console ]

**Herstellen einer Verbindung zwischen Confluence-Instance und Wissensdatenbank**

1. Folgen Sie den Schritten unter [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) und wählen Sie **Confluence** als Datenquelle aus.

1. Geben Sie den Namen und eine optionale Beschreibung für die Datenquelle an.

1. Geben Sie die URL der Confluence-Instance an. Für Confluence Cloud lautet diese beispielsweise *https://example.atlassian.net*. Die URL für Confluence Cloud muss die Basis-URL sein und auf *.atlassian.net* enden.

1. Im Abschnitt **Erweiterte Einstellungen** können Sie optional Folgendes konfigurieren:
   + **KMS-Schlüssel für den transienten Datenspeicher**. – Sie können die transienten Daten verschlüsseln und gleichzeitig Ihre Daten mit dem Standard-Von AWS verwalteter Schlüssel oder einem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter [Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung](encryption-kb.md#encryption-kb-ingestion).
   + **Richtlinie zum Löschen von Daten** – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.

1. Geben Sie die Authentifizierungsinformationen ein, um eine Verbindung zu Ihrer Confluence-Instance herzustellen:
   + Wechseln Sie für die Standardauthentifizierung zu AWS Secrets Manager, um Ihre geheimen Anmeldeinformationen für die Authentifizierung hinzuzufügen, oder verwenden Sie einen vorhandenen Amazon-Ressourcennamen (ARN) für das von Ihnen erstellte Secret. Ihr Secret muss die E-Mail-Adresse des Admin-Benutzers des Atlassian-Kontos als Benutzername und ein Confluence-API-Token anstelle eines Passworts enthalten. Informationen zum Erstellen eines Confluence-API-Tokens finden Sie auf der Atlassian-Website unter [API-Token für Ihr Atlassian-Konto verwalten](https://support.atlassian.com/atlassian-account/docs/manage-api-tokens-for-your-atlassian-account/#Create-an-API-token).
   + Wechseln Sie für die OAuth-2.0-Authentifizierung zu AWS Secrets Manager, um Ihre geheimen Anmeldeinformationen für die Authentifizierung hinzuzufügen, oder verwenden Sie einen vorhandenen Amazon-Ressourcennamen (ARN) für das von Ihnen erstellte Secret. Ihr Secret muss den Confluence-App-Schlüssel, das App-Secret, das Zugriffstoken und das Aktualisierungstoken enthalten. Weitere Informationen finden Sie unter [OAuth-2.0-Apps](https://developer.atlassian.com/cloud/confluence/oauth-2-3lo-apps/) auf der Atlassian-Website.

1. (Optional) Im Abschnitt **Parsing und Chunking von Inhalten** können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:
   + Weitere Informationen zu den Parsing-Optionen finden Sie unter [Parsing-Optionen für Ihre Datenquelle](kb-advanced-parsing.md).
   + Weitere Informationen zu Aufteilungsstrategien finden Sie unter [So funktioniert das Inhalts-Chunking für Wissensdatenbanken](kb-chunking.md).
**Warnung**  
Die Aufteilungsstrategie kann nach dem Herstellen einer Verbindung zur Datenquelle nicht mehr geändert werden.
   + Weitere Informationen zum Anpassen der Aufteilung der Daten und der Verarbeitung der Metadaten mit einer Lambda-Funktion finden Sie unter [So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden](kb-custom-transformation.md).

1. Sie können mithilfe von Filtern/regulären Ausdrücken bestimmte Inhalte ein- oder ausschließen. Andernfalls werden alle Standardinhalte gecrawlt.

1. Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Um die verbleibenden Schritte zu sehen, kehren Sie zu [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

------
#### [ API ]

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung mit Confluence Cloud für die Amazon-Bedrock-Wissensdatenbank. Sie konfigurieren die Datenquelle mithilfe der API mit der AWS CLI oder einem unterstützten SDK, z. B. Python. Nach dem Aufruf von [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html) rufen Sie [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) auf, um die Datenquelle mit Ihren Verbindungsinformationen in `dataSourceConfiguration` zu erstellen.

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale `vectorIngestionConfiguration`-Feld einbeziehen, finden Sie unter [So passen Sie die Aufnahme für eine Datenquelle an](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock create-data-source \
 --name "Confluence Cloud/SaaS connector" \
 --description "Confluence Cloud/SaaS data source connector for Amazon Bedrock to use content in Confluence" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://confluence-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'

confluence-bedrock-connector-configuration.json
{
    "confluenceConfiguration": {
        "sourceConfiguration": {
            "hostUrl": "https://example.atlassian.net",
            "hostType": "SAAS",
            "authType": "OAUTH2_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Confluence"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "Attachment",
                            "inclusionFilters": [
                                ".*\\.pdf"
                            ],
                            "exclusionFilters": [
                                ".*private.*\\.pdf"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "CONFLUENCE"
}
```

------

# Connect zu Microsoft her, SharePoint um Ihre Wissensdatenbank zu erhalten
<a name="sharepoint-data-source-connector"></a>

Microsoft SharePoint ist ein kollaborativer webbasierter Dienst für die Arbeit an Dokumenten, Webseiten, Websites, Listen und mehr. Sie können eine Verbindung zu Ihrer SharePoint Instance für Ihre Amazon Bedrock-Wissensdatenbank herstellen, indem Sie entweder die [AWS Management Console für Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) oder die [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)API verwenden (siehe Amazon Bedrock [unterstützt SDKs ](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html) und). AWS CLI

**Anmerkung**  
SharePoint Der Datenquellen-Connector befindet sich in der Vorschauversion und kann sich ändern.  
 SharePoint Microsoft-Datenquellen unterstützen keine multimodalen Daten wie Tabellen, Diagramme, Diagramme oder andere Bilder.

Amazon Bedrock unterstützt die Verbindung zu SharePoint Online-Instances. Das Crawlen von OneNote Dokumenten wird derzeit nicht unterstützt. Derzeit ist nur Amazon OpenSearch Serverless Vector Store für die Verwendung mit dieser Datenquelle verfügbar.

Anzahl und Größe der durchsuchbaren Dateien sind beschränkt. Weitere Informationen finden Sie unter [Kontingente für Wissensdatenbanken](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Unterstützte Features](#supported-features-sharepoint-connector)
+ [Voraussetzungen](#prerequisites-sharepoint-connector)
+ [Konfiguration der Verbindung](#configuration-sharepoint-connector)

## Unterstützte Features
<a name="supported-features-sharepoint-connector"></a>
+ Automatische Erkennung der wichtigsten Dokumentfelder
+ Filter zum Einschließen und Ausschließen von Inhalten
+ Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte
+ SharePoint Authentifizierung nur über Apps

## Voraussetzungen
<a name="prerequisites-sharepoint-connector"></a>

### SharePoint (Online)
<a name="prerequisites-sharepoint-connector-online"></a>

**Führen Sie in Ihrem SharePoint (Online) die folgenden Schritte aus, um die SharePoint reine App-Authentifizierung zu verwenden:**
+ Notieren Sie sich die URL/ Ihrer SharePoint Online-Site. URLs Beispiel, *https://yourdomain.sharepoint.com/sites/mysite*. Ihre URL muss mit *https* beginnen und *sharepoint.com* enthalten. Die URL Ihrer Website muss die tatsächliche SharePoint Website sein, nicht oder *sharepoint.com/* *sites/mysite/home.aspx*
+ Notieren Sie sich den Domainnamen Ihrer SharePoint Online-Instanz-URL/URLs.
+ Kopieren Sie Ihre Mandanten-ID von Microsoft 365. Sie finden Ihre Mandanten-ID in den Eigenschaften Ihres Portals von Microsoft Entra. Weitere Informationen finden Sie unter [Finden Sie Ihre Microsoft 365-Mandanten-ID](https://learn.microsoft.com/en-us/sharepoint/find-your-office-365-tenant-id).
**Anmerkung**  
Eine Beispielanwendung finden Sie unter [Registrieren einer Client-Anwendung in Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (früher bekannt als Azure Active Directory) auf der Microsoft Learn-Website. 
+ Konfigurieren Sie Anmeldeinformationen, die SharePoint nur für Apps bestimmt sind.
+ Kopieren Sie die Client-ID und den Wert für den geheimen Client-Schlüssel, wenn Sie App-Only die SharePoint Erlaubnis erteilen. Weitere Informationen finden Sie unter [Zugriff mit SharePoint App-Only gewähren](https://learn.microsoft.com/en-us/sharepoint/dev/solution-guidance/security-apponly-azureacs).
**Anmerkung**  
Sie müssen keine API-Berechtigungen für SharePoint App-Only einrichten. Sie müssen jedoch nebenbei APP-Berechtigungen konfigurieren. SharePoint Weitere Informationen zu den erforderlichen APP-Berechtigungen finden Sie in der Microsoft-Dokumentation zum [Gewähren von Zugriff mithilfe von SharePoint App-Only](https://learn.microsoft.com/en-us/sharepoint/dev/solution-guidance/security-apponly-azureacs).

### AWS-Konto
<a name="prerequisites-sharepoint-connector-account"></a>

Stellen **Sie in Ihrem AWS Konto sicher,** dass Sie:
+ Speichern Sie Ihre Anmeldeinformationen für die Authentifizierung in einem [AWS Secrets Manager -Secret](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) und notieren Sie sich dessen Amazon-Ressourcennamen (ARN). Folgen Sie den Anweisungen zur **Verbindungskonfiguration** auf dieser Seite, um die Schlüssel-Wert-Paare aufzunehmen, die in Ihrem Secret enthalten sein müssen.
+ Nehmen Sie die erforderlichen Berechtigungen für die Verbindung mit Ihrer Datenquelle in Ihre AWS Identity and Access Management (IAM) role/permissions -Richtlinie für Ihre Wissensdatenbank auf. Informationen zu den erforderlichen Berechtigungen für diese Datenquelle, um sie Ihrer IAM Wissensdatenbank-Rolle hinzuzufügen, finden Sie unter [Berechtigungen für den Zugriff auf Datenquellen](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Anmerkung**  
Wenn Sie die Konsole verwenden, können Sie Ihr Geheimnis AWS Secrets Manager hinzufügen oder ein vorhandenes Geheimnis als Teil des Konfigurationsschritts für die Datenquelle verwenden. Die IAM Rolle mit allen erforderlichen Berechtigungen kann im Rahmen der Konsolenschritte zum Erstellen einer Wissensdatenbank für Sie erstellt werden. Nachdem Sie Ihre Datenquelle und andere Konfigurationen konfiguriert haben, wird die IAM Rolle mit allen erforderlichen Berechtigungen auf Ihre spezifische Wissensdatenbank angewendet.  
Wir empfehlen, die Anmeldeinformationen und Secrets regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die unbedingt erforderliche Zugriffsebene bereit. Wir raten davon ab, für mehrere Datenquellen identische Anmeldeinformationen und Secrets zu verwenden.

## Konfiguration der Verbindung
<a name="configuration-sharepoint-connector"></a>

Um eine Verbindung zu Ihrer SharePoint Instance herzustellen, müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und sie crawlen kann. Befolgen Sie zudem [Voraussetzungen](#prerequisites-sharepoint-connector).

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zur automatischen Erkennung von Dokumentfeldern, Einschluss-/Ausschlussfiltern, inkrementellen Synchronisierung, geheimen Anmeldeinformationen für die Authentifizierung und deren Funktionsweise finden Sie unter:

### Automatische Erkennung der wichtigsten Dokumentfelder
<a name="ds-sharepoint-document-fields"></a>

Der Datenquellen-Connector erkennt und durchsucht automatisch alle wichtigen Metadatenfelder von Dokumenten oder Inhalten. Der Datenquellen-Connector kann beispielsweise den Dokumenttext zu den Dokumenten, den Dokumenttitel, das Erstellungs- oder Änderungsdatum des Dokuments oder andere Kernfelder durchsuchen, die für die Dokumente gelten.

**Wichtig**  
Wenn Ihr Inhalt vertrauliche Informationen enthält, Amazon Bedrock könnte dann mit vertraulichen Informationen antworten.

Sie können Filteroperatoren auf Metadatenfelder anwenden, um die Relevanz von Antworten weiter zu verbessern. Zum Beispiel: Dokument „epoch\$1modification\$1time“ oder die Anzahl der Sekunden, die seit dem 1. Januar 1970 vergangen sind, als das Dokument zuletzt aktualisiert wurde. Sie können nach den neuesten Daten filtern, wobei „epoch\$1modification\$1time“ *größer als* eine bestimmte Zahl ist. Weitere Informationen zu den Filteroperatoren, die Sie auf die Metadatenfelder anwenden können, finden Sie unter [Metadaten und Filterung.](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html)

### Einschluss- und Ausschlussfilter
<a name="ds-sharepoint-inclusion-exclusion"></a>

Sie können das Crawling bestimmter Inhalte ein- oder ausschließen. Sie können beispielsweise ein prefix/regular Ausschlussausdrucksmuster angeben, um das Crawlen von Dateien zu überspringen, deren Dateiname „privat“ enthält. Sie können auch ein Muster für prefix/regular Einschlussausdrücke angeben, um bestimmte Inhaltsentitäten oder Inhaltstypen einzubeziehen. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide auf ein Dokument zutreffen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht durchsucht.

Ein Beispiel für ein Muster für reguläre Ausdrücke zum Ausschließen oder Herausfiltern von PDF-Dateien, deren Dateiname das Wort „privat“ enthält: *".\$1privat.\$1\$1\$1.pdf"*

Sie können inclusion/exclusion Filter auf die folgenden Inhaltstypen anwenden:
+ `Page`: Haupttitel der Seite
+ `Event`: Ereignisname
+ `File`: Dateiname mit der entsprechenden Erweiterung für Anlagen und alle Dokumentdateien

Das Crawlen von OneNote Dokumenten wird derzeit nicht unterstützt.

### Inkrementelle Synchronisierung
<a name="ds-sharepoint-incremental-sync"></a>

Der Datenquellen-Connector crawlt neue, geänderte und gelöschte Inhalte jedes Mal, wenn Ihre Datenquelle mit Ihrer Wissensdatenbank synchronisiert wird. Amazon Bedrock kann den Mechanismus Ihrer Datenquelle verwenden, um Inhaltsänderungen nachzuverfolgen und Inhalte zu crawlen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie die Datenquelle zum ersten Mal mit der Wissensdatenbank synchronisieren, werden standardmäßig alle Inhalte synchronisiert.

Um Ihre Datenquelle mit Ihrer Wissensdatenbank zu synchronisieren, verwenden Sie die [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API oder wählen Sie Ihre Wissensdatenbank in der Konsole aus und wählen Sie im Bereich Datenquellenübersicht die Option **Synchronisieren** aus.

**Wichtig**  
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der `bedrock:Retrieve`-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter [Berechtigungen für die Wissensdatenbank](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Anmeldeinformationen für die Secret-Authentifizierung
<a name="ds-sharepoint-secret-auth-credentials"></a>

Wenn Sie die SharePoint reine App-Authentifizierung verwenden, AWS Secrets Manager müssen Ihre geheimen Anmeldeinformationen die folgenden Schlüssel-Wert-Paare enthalten:
+ `clientId`: *client ID associated with your Microsoft Entra SharePoint application*
+ `clientSecret`: *client secret associated with your Microsoft Entra SharePoint application*
+ `sharePointClientId`: *client ID generated when registering your SharePoint app for App-Only authentication*
+ `sharePointClientSecret`: *client secret generated when registering your SharePoint app for App-Only authentication*

**Anmerkung**  
Ihr Secret-In AWS Secrets Manager muss dieselbe Region wie Ihre Wissensdatenbank verwenden.

------
#### [ Console ]

**Eine SharePoint Instanz mit Ihrer Wissensdatenbank Connect**<a name="connect-sharepoint-console"></a>

1. Folgen Sie den Schritten unter [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) und wählen Sie **SharePoint**als Datenquelle aus.

1. Geben Sie den Namen und eine optionale Beschreibung für die Datenquelle an.

1. Geben Sie die URL Ihrer SharePoint Website ein/URLs. Zum Beispiel für SharePoint Online,*https://yourdomain.sharepoint.com/sites/mysite*. Ihre URL muss mit *https* beginnen und *sharepoint.com* enthalten. Ihre Site-URL muss die tatsächliche SharePoint Site sein, nicht *sharepoint.com/* oder *sites/mysite/home.aspx*

1. Geben Sie den Domainnamen Ihrer SharePoint Instanz an.

1. Im Abschnitt **Erweiterte Einstellungen** können Sie optional Folgendes konfigurieren:
   + **KMS-Schlüssel für den transienten Datenspeicher**. — Sie können die transienten Daten verschlüsseln und gleichzeitig Ihre Daten mit dem Standard Von AWS verwalteter Schlüssel - oder Ihrem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter [Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung](encryption-kb.md#encryption-kb-ingestion).
   + **Richtlinie zum Löschen von Daten** – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.

1. Geben Sie die Authentifizierungsinformationen an, um eine Verbindung zu Ihrer Instanz herzustellen. SharePoint Für die SharePoint Authentifizierung nur über Apps:

   1. Geben Sie die Mandanten-ID an. Ihre Mandanten-ID finden Sie in den Eigenschaften Ihres Azure Active Directory-Portals.

   1. Gehen Sie AWS Secrets Manager zu, um Ihre geheimen Anmeldeinformationen hinzuzufügen, oder verwenden Sie einen vorhandenen Amazon-Ressourcennamen (ARN) für das von Ihnen erstellte Geheimnis. Ihr Secret muss die SharePoint Client-ID und das SharePoint Client-Geheimnis enthalten, das bei der Registrierung der App Only auf Mandantenebene oder Standortebene generiert wurde, sowie die Entra-Client-ID und den Entra-Client-Secret, die bei der Registrierung der App in Entra generiert wurden.

1. (Optional) Im Abschnitt **Parsing und Chunking von Inhalten** können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:
   + Weitere Informationen zu den Parsing-Optionen finden Sie unter [Parsing-Optionen für Ihre Datenquelle](kb-advanced-parsing.md).
   + Weitere Informationen zu Aufteilungsstrategien finden Sie unter [So funktioniert das Inhalts-Chunking für Wissensdatenbanken](kb-chunking.md).
**Warnung**  
Die Aufteilungsstrategie kann nach dem Herstellen einer Verbindung zur Datenquelle nicht mehr geändert werden.
   + Weitere Informationen zum Anpassen der Aufteilung der Daten und der Verarbeitung der Metadaten mit einer Lambda-Funktion finden Sie unter [So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden](kb-custom-transformation.md).

1. Wählen Sie, ob Sie filters/regular Ausdrucksmuster verwenden möchten, um bestimmte Inhalte ein- oder auszuschließen. Andernfalls werden alle Standardinhalte gecrawlt.

1. Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Wenn Sie die verbleibenden Schritte sehen möchten, kehren Sie zu [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

------
#### [ API ]

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung zu SharePoint Online für Ihre Amazon Bedrock-Wissensdatenbank. Sie konfigurieren Ihre Datenquelle mithilfe der API mit dem AWS CLI oder einem unterstützten SDK, z. B. Python. Nach dem Aufruf rufen Sie auf [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)um Ihre Datenquelle mit Ihren Verbindungsinformationen zu erstellen`dataSourceConfiguration`.

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale `vectorIngestionConfiguration`-Feld einbeziehen, finden Sie unter [So passen Sie die Aufnahme für eine Datenquelle an](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "SharePoint Online connector" \
 --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE"
```

**Inhalt von `sharepoint-bedrock-connector-configuration.json`** 

```
{
    "sharePointConfiguration": {
        "sourceConfiguration": {
            "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de",
            "hostType": "ONLINE",
            "domain": "yourdomain",
            "siteUrls": [
                "https://yourdomain.sharepoint.com/sites/mysite"
            ],
            "authType": "OAUTH2_SHAREPOINT_APP_ONLY_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "File",
                            "inclusionFilters": [
                                ".*\\.pdf"
                            ],
                            "exclusionFilters": [
                                ".*private.*\\.pdf"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "SHAREPOINT"
}
```

------

**Wichtig**  
Die OAuth2 2.0-Authentifizierung wird nicht empfohlen. Wir empfehlen, die SharePoint App-Only-Authentifizierung zu verwenden.

## 0 verwenden OAuth2
<a name="sharepoint-connector-oauth"></a>

Mit OAuth 2.0 können Sie den Zugriff auf SharePoint Ressourcen für SharePoint Konnektoren, die in Knowledge Bases integriert sind, authentifizieren und autorisieren.

### Voraussetzungen
<a name="sharepoint-connector-oauth-prereq"></a>

Stellen Sie **bei SharePoint der OAuth 2.0-Authentifizierung sicher,** dass Sie:
+ Notieren Sie sich die URL/ URLs Ihrer SharePoint Online-Site. Beispiel, *https://yourdomain.sharepoint.com/sites/mysite*. Ihre URL muss mit *https* beginnen und *sharepoint.com* enthalten. Die URL Ihrer Website muss die tatsächliche SharePoint Website sein, nicht oder *sharepoint.com/* *sites/mysite/home.aspx*
+ Notieren Sie sich den Domainnamen Ihrer SharePoint Online-Instanz-URL/URLs.
+ Kopieren Sie Ihre Mandanten-ID von Microsoft 365. Sie finden Ihre Mandanten-ID in den Eigenschaften Ihres Microsoft Entra-Portals oder in Ihrer OAuth Anwendung.

  Notieren Sie sich den Benutzernamen und das Passwort des SharePoint Administratorkontos und kopieren Sie bei der Registrierung einer Anwendung die Client-ID und den geheimen Client-Wert.
**Anmerkung**  
Eine Beispielanwendung finden Sie unter [Registrieren einer Client-Anwendung in Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (früher bekannt als Azure Active Directory) auf der Microsoft Learn-Website. 
+  SharePoint Bei der Registrierung einer Anwendung sind bestimmte Leseberechtigungen erforderlich, um eine Verbindung herzustellen.
  + SharePoint: AllSites .Read (delegiert) — Elemente in allen Websitesammlungen lesen
+ Möglicherweise müssen Sie die **Sicherheitsstandards** in Ihrem Azure-Portal mithilfe eines Administratorbenutzers deaktivieren. Weitere Informationen zur Verwaltung von Sicherheitsstandardeinstellungen im Azure-Portal finden Sie in der [Microsoft-Dokumentation zur Vorgehensweise bei enable/disable Sicherheitsstandards](https://learn.microsoft.com/en-us/microsoft-365/business-premium/m365bp-conditional-access?view=o365-worldwide&tabs=secdefaults#security-defaults-1).
+ Möglicherweise müssen Sie die Multi-Faktor-Authentifizierung (MFA) in Ihrem SharePoint Konto deaktivieren, damit Amazon Bedrock nicht daran gehindert wird, Ihre Inhalte zu crawlen. SharePoint 

Zum Erfüllen der Voraussetzungen sollten Sie sicherstellen, dass Sie die unter [AWS-Konto](#prerequisites-sharepoint-connector-account) beschriebenen Schritte ausgeführt haben.

### Anmeldeinformationen für die Secret-Authentifizierung
<a name="sharepoint-secret-auth-credentials-oauth"></a>

Für die Verbindungskonfiguration für OAuth2 .0 können Sie dieselben Schritte für die auto Erkennung der Hauptdokumentfelder, inclusion/exclusion Filter und die inkrementelle Synchronisierung ausführen, wie unter beschrieben. [Konfiguration der Verbindung](#configuration-sharepoint-connector)

**Für die OAuth 2.0-Authentifizierung AWS Secrets Manager müssen Ihre geheimen Anmeldeinformationen diese Schlüssel-Wert-Paare enthalten**.
+ `username`: *SharePoint admin username*
+ `password`: *SharePoint admin password*
+ `clientId`: *OAuth app client ID*
+ `clientSecret`: *OAuth app client secret*

### Eine SharePoint Instanz mit Ihrer Wissensdatenbank Connect
<a name="sharepoint-connector-oauth-using"></a>

Um eine SharePoint Instanz mit Ihrer Wissensdatenbank zu verbinden, wenn Sie OAuth2 .0 verwenden:
+ (Konsole) Folgen Sie in der Konsole den gleichen Schritten wie unter [Eine SharePoint Instanz mit Ihrer Wissensdatenbank Connect](https://docs.aws.amazon.com/bedrock/latest/userguide/sharepoint-data-source-connector.html#connect-sharepoint-console) beschrieben. Wenn Sie die Authentifizierungsinformationen angeben möchten, um eine Verbindung zu Ihrer SharePoint Instanz herzustellen.
  + Geben Sie die Mandanten-ID an. Ihre Mandanten-ID finden Sie in den Eigenschaften Ihres Azure Active Directory-Portals.
  + Gehen Sie AWS Secrets Manager zu, um Ihre geheimen Authentifizierungsdaten hinzuzufügen, oder verwenden Sie einen vorhandenen Amazon-Ressourcennamen (ARN) für das von Ihnen erstellte Geheimnis. Ihr Secret muss den SharePoint Admin-Benutzernamen und das Passwort sowie Ihre registrierte App-Client-ID und Ihren geheimen Client-Schlüssel enthalten. Eine Beispielanwendung finden Sie unter [Registrieren einer Client-Anwendung in Microsoft Entra ID](https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application) (früher bekannt als Azure Active Directory) auf der Microsoft Learn-Website.
+ (API) Im Folgenden finden Sie ein Beispiel für die Verwendung der `CreateDataSource` API, um Ihre Datenquelle mit Ihren Verbindungsinformationen für OAuth2 .0 zu erstellen.

  ```
  aws bedrock-agent create-data-source \
   --name "SharePoint Online connector" \
   --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \
   --knowledge-base-id "your-knowledge-base-id" \
   --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \
   --data-deletion-policy "DELETE"
  ```

  **Inhalt von `sharepoint-bedrock-connector-configuration.json`** 

  ```
  {
      "sharePointConfiguration": {
          "sourceConfiguration": {
              "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de",
              "hostType": "ONLINE",
              "domain": "yourdomain",
              "siteUrls": [
                  "https://yourdomain.sharepoint.com/sites/mysite"
              ],
              "authType": "OAUTH2_CLIENT_CREDENTIALS",
              "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint"
          },
          "crawlerConfiguration": {
              "filterConfiguration": {
                  "type": "PATTERN",
                  "patternObjectFilter": {
                      "filters": [
                          {
                              "objectType": "File",
                              "inclusionFilters": [
                                  ".*\\.pdf"
                              ],
                              "exclusionFilters": [
                                  ".*private.*\\.pdf"
                              ]
                          }
                      ]
                  }
              }
          }
      },
      "type": "SHAREPOINT"
  }
  ```

# Verbinden mit Salesforce für Ihre Wissensdatenbank
<a name="salesforce-data-source-connector"></a>

Salesforce ist ein Customer Relationship Management (CRM)-Tool zur Verwaltung von Support-, Vertriebs- und Marketingteams. Sie können mit der [AWS-Managementkonsole für Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) oder der [CreateDataSource-API](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) eine Verbindung mit der Salesforce-Instance für die Amazon-Bedrock-Wissensdatenbank herstellen (siehe von Amazon Bedrock [unterstützte SDKs und AWS CLI](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html)).

**Anmerkung**  
Beim Datenquellen-Connector Salesforce handelt es sich um eine Vorversion, bei der Änderungen vorbehalten sind.  
Salesforce-Datenquellen unterstützen keine multimodalen Daten wie Tabellen, Graphen, Diagramme oder andere Bilder.

Derzeit ist nur der Vektorspeicher von Amazon OpenSearch Serverless für die Verwendung mit dieser Datenquelle verfügbar.

Anzahl und Größe der durchsuchbaren Dateien sind beschränkt. Weitere Informationen finden Sie unter [Kontingente für Wissensdatenbanken](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Unterstützte Features](#supported-features-salesforce-connector)
+ [Voraussetzungen](#prerequisites-salesforce-connector)
+ [Konfiguration der Verbindung](#configuration-salesforce-connector)

## Unterstützte Features
<a name="supported-features-salesforce-connector"></a>
+ Automatische Erkennung der wichtigsten Dokumentfelder
+ Filter zum Ein- und Ausschließen von Inhalten
+ Inkrementelle Inhaltssynchronisierung für hinzugefügte, aktualisierte und gelöschte Inhalte
+ OAuth 2.0-Authentifizierung

## Voraussetzungen
<a name="prerequisites-salesforce-connector"></a>

**Stellen Sie in Salesforce Folgendes sicher**:
+ Notieren Sie sich die URL Ihrer Salesforce-Instance. Zum Beispiel *https://company.salesforce.com/*. Die Instance muss eine Salesforce Connected App ausführen.
+ Erstellen Sie eine Salesforce Connected App und konfigurieren Sie die Client-Anmeldeinformationen. Kopieren Sie dann für Ihre ausgewählte Anwendung den Verbraucherschlüssel (Client-ID) und das Verbrauchergeheimnis (Client-Geheimnis) aus den OAuth-Einstellungen. Weitere Informationen finden Sie in der Salesforce-Dokumentation unter [Erstellen einer verbundenen Anwendung](https://help.salesforce.com/s/articleView?id=sf.connected_app_create.htm&type=5) und [Konfigurieren einer verbundenen Anwendung für die OAuth-2.0-Client-Anmeldeinformationen](https://help.salesforce.com/s/articleView?id=sf.connected_app_client_credentials_setup.htm&type=5).
**Anmerkung**  
Stellen Sie bei Salesforce Connected Apps unter Client-Anmeldeinformationsfluss sicher, dass Sie im Feld „Ausführen als“ den Namen oder Alias des Benutzers für Ihre Client-Anmeldeinformationen suchen und auswählen.

**Stellen Sie in Ihrem AWS-Konto Folgendes sicher**:
+ Speichern Sie Ihre Anmeldeinformationen für die Authentifizierung in einem [AWS Secrets Manager-Secret](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) und notieren Sie sich dessen Amazon-Ressourcennamen (ARN). Folgen Sie den Anweisungen zur **Verbindungskonfiguration** auf dieser Seite, um die Schlüssel-Wert-Paare aufzunehmen, die in Ihrem Secret enthalten sein müssen.
+ Nehmen Sie die erforderlichen Berechtigungen für die Verbindung mit der Datenquelle in die AWS Identity and Access Management (IAM)-Rollen-/Berechtigungsrichtlinie für die Wissensdatenbank auf. Informationen zu den Berechtigungen, die erforderlich sind, um diese Datenquelle der IAM-Rolle für die Wissensdatenbank hinzuzufügen, finden Sie unter [Berechtigungen für den Zugriff auf Datenquellen](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**Anmerkung**  
Wenn Sie die Konsole verwenden, können Sie Ihr Secret über AWS Secrets Manager hinzufügen oder ein vorhandenes Secret als Teil des Konfigurationsschritts für die Datenquelle verwenden. Die IAM-Rolle kann mit allen erforderlichen Berechtigungen im Rahmen der in der Konsole ausgeführten Schritte zum Erstellen einer Wissensdatenbank für Sie angelegt werden. Nachdem Sie die Datenquelle konfiguriert und andere Konfigurationen vorgenommen haben, wird die IAM-Rolle mit allen erforderlichen Berechtigungen auf die jeweilige Wissensdatenbank angewendet.  
Wir empfehlen, die Anmeldeinformationen und Secrets regelmäßig zu aktualisieren oder zu wechseln. Stellen Sie zu Ihrer eigenen Sicherheit nur die unbedingt erforderliche Zugriffsebene bereit. Wir raten davon ab, für mehrere Datenquellen identische Anmeldeinformationen und Secrets zu verwenden.

## Konfiguration der Verbindung
<a name="configuration-salesforce-connector"></a>

Wenn Sie eine Verbindung mit der Salesforce-Instance herstellen möchten, müssen Sie die erforderlichen Konfigurationsinformationen angeben, damit Amazon Bedrock auf Ihre Daten zugreifen und nach ihnen suchen kann. Befolgen Sie zudem [Voraussetzungen](#prerequisites-salesforce-connector).

Ein Beispiel für eine Konfiguration für diese Datenquelle ist in diesem Abschnitt enthalten.

Weitere Informationen zur automatischen Erkennung von Dokumentfeldern, Einschluss-/Ausschlussfiltern, inkrementellen Synchronisierung, geheimen Anmeldeinformationen für die Authentifizierung und deren Funktionsweise finden Sie unter:

### Automatische Erkennung der wichtigsten Dokumentfelder
<a name="ds-salesforce-document-fields"></a>

Der Datenquellen-Connector erkennt und durchsucht automatisch alle wichtigen Metadatenfelder von Dokumenten oder Inhalten. Der Datenquellen-Connector kann beispielsweise den Dokumenttext zu den Dokumenten, den Dokumenttitel, das Erstellungs- oder Änderungsdatum des Dokuments oder andere Kernfelder durchsuchen, die für die Dokumente gelten.

**Wichtig**  
Wenn der Inhalt vertrauliche Informationen enthält, kann Amazon Bedrock mit vertraulichen Informationen antworten.

Sie können Filteroperatoren auf Metadatenfelder anwenden, um die Relevanz von Antworten weiter zu verbessern. Zum Beispiel: Dokument „epoch\$1modification\$1time“ oder die Anzahl der Sekunden, die seit dem 1. Januar 1970 vergangen sind, als das Dokument zuletzt aktualisiert wurde. Sie können nach den neuesten Daten filtern, wobei „epoch\$1modification\$1time“ *größer als* eine bestimmte Zahl ist. Weitere Informationen zu den Filteroperatoren, die Sie auf die Metadatenfelder anwenden können, finden Sie unter [Metadaten und Filterung.](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html)

### Einschluss- und Ausschlussfilter
<a name="ds-salesforce-inclusion-exclusion"></a>

Sie können das Crawling bestimmter Inhalte ein- oder ausschließen. Durch Angabe eines Ausschlusspräfixes oder eines Musters für reguläre Ausdrücke können Sie beispielsweise festlegen, dass alle Dateien, deren Name das Wort „privat” enthält, beim Crawling übersprungen werden. Sie können bestimmte Inhaltsentitäten oder Inhaltstypen durch Angabe von Einschlusspräfix/Mustern für reguläre Ausdrücke einbeziehen. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide auf ein Dokument zutreffen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht durchsucht.

Ein Beispiel für ein Muster für reguläre Ausdrücke zum Ausschließen oder Herausfiltern von Kampagnen, die das Wort „privat“ enthalten: *„.\$1privat.\$1“*

Einschluss-/Ausschlussfilter können auf die folgenden Inhaltstypen angewendet werden:
+ `Account`: Kontonummer/ID
+ `Attachment`: Name der Anhangsdatei mit Erweiterung
+ `Campaign`: Kampagnenname und zugehörige IDs
+ `ContentVersion`: Version des Dokuments und zugehörige IDs
+ `Partner`: Felder mit Partnerinformationen, einschließlich der zugehörigen IDs
+ `Pricebook2`: Name der Produkt-/Preisliste
+ `Case`: Kundenanfrage-/Ausgabenummer und andere Informationsfelder, einschließlich der zugehörigen IDs (bitte beachten Sie: kann persönliche Informationen enthalten, die Sie ausschließen oder herausfiltern können)
+ `Contact`: Kundeninformationsfelder (bitte beachten Sie: kann persönliche Informationen enthalten, die Sie ausschließen oder herausfiltern können)
+ `Contract`: Vertragsname und zugehörige IDs
+ `Document`: Name der Datei mit Erweiterung
+ `Idea`: Informationsfelder für Ideen und zugehörige IDs
+ `Lead`: Potenzielle neue Kundeninformationsfelder (bitte beachten Sie: kann persönliche Informationen enthalten, die Sie ausschließen oder herausfiltern können)
+ `Opportunity`: Informationsfelder für ausstehende Verkäufe/Vertragsabschlüsse und zugehörige IDs
+ `Product2`: Produktinformationsfelder und zugehörige IDs
+ `Solution`: Lösungsname für eine Kundenanfrage/ein Kundenproblem und zugehörige IDs
+ `Task`: Informationsfelder für Aufgaben und zugehörige IDs
+ `FeedItem`: ID des Chatter-Feed-Posts
+ `FeedComment`: ID des Chatter-Feed-Posts, zu dem die Kommentare gehören
+ `Knowledge__kav`: Titel des Wissensartikels
+ `User`: Benutzeralias innerhalb Ihrer Organisation
+ `CollaborationGroup`: Chatter-Gruppenname (eindeutig)

### Inkrementelle Synchronisierung
<a name="ds-salesforce-incremental-sync"></a>

Der Datenquellen-Connector sucht bei jeder Synchronisierung der Datenquelle mit der Wissensdatenbank nach neuen, geänderten und gelöschten Inhalten. Amazon Bedrock kann den Mechanismus der Datenquelle verwenden, um geänderte Inhalte nachzuverfolgen und nach Inhalten zu suchen, die sich seit der letzten Synchronisierung geändert haben. Wenn Sie die Datenquelle zum ersten Mal mit der Wissensdatenbank synchronisieren, werden standardmäßig alle Inhalte synchronisiert.

Zum Synchronisieren der Datenquelle mit der Wissensdatenbank verwenden Sie die [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)-API. Alternativ können Sie auch die Wissensdatenbank in der Konsole und dann im Bereich „Datenquellenübersicht“ die Option **Synchronisieren** auswählen.

**Wichtig**  
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der `bedrock:Retrieve`-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter [Berechtigungen für die Wissensdatenbank](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

### Anmeldeinformationen für die Secret-Authentifizierung
<a name="ds-salesforce-secret-auth-credentials"></a>

(Für die OAuth-2.0-Authentifizierung) Die Secret-Anmeldeinformationen für die Authentifizierung in AWS Secrets Manager sollten die folgenden Schlüssel-Wert-Paare enthalten:
+ `consumerKey`: *App-Client-ID*
+ `consumerSecret`: *App-Client-Secret*
+ `authenticationUrl`: *URL der Salesforce-Instance oder die URL, von der das Authentifizierungstoken angefordert werden soll*

**Anmerkung**  
Ihr Secret in AWS Secrets Manager muss dieselbe Region wie die Wissensdatenbank verwenden.

------
#### [ Console ]

**Herstellen einer Verbindung zwischen Salesforce-Instance und Wissensdatenbank**

1. Folgen Sie den Schritten unter [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) und wählen Sie **Salesforce** als Datenquelle aus.

1. Geben Sie den Namen und eine optionale Beschreibung für die Datenquelle an.

1. Geben Sie Ihre Salesforce-Instance-URL an. Zum Beispiel *https://company.salesforce.com/*. Die Instance muss eine Salesforce Connected App ausführen.

1. Im Abschnitt **Erweiterte Einstellungen** können Sie optional Folgendes konfigurieren:
   + **KMS-Schlüssel für den transienten Datenspeicher.** – Sie können die transienten Daten verschlüsseln und gleichzeitig Ihre Daten mit dem standardmäßigen Von AWS verwalteter Schlüssel oder einem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter [Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung](encryption-kb.md#encryption-kb-ingestion).
   + **Richtlinie zum Löschen von Daten** – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.

1. Geben Sie die Authentifizierungsinformationen ein, um eine Verbindung zu Ihrer Salesforce-Instance herzustellen:

   1. Wechseln Sie für die OAuth-2.0-Authentifizierung zu AWS Secrets Manager, um Ihre geheimen Anmeldeinformationen für die Authentifizierung hinzuzufügen, oder verwenden Sie einen vorhandenen Amazon-Ressourcennamen (ARN) für das von Ihnen erstellte Secret. Ihr Secret muss den Salesforce Connected App Consumer Key (Client-ID), das Consumer Secret (Client Secret) und die Salesforce-Instance-URL oder die URL enthalten, von der das Authentifizierungstoken angefordert werden soll. Weitere Informationen finden Sie in der Salesforce-Dokumentation unter [Erstellen einer verbundenen Anwendung](https://help.salesforce.com/s/articleView?id=sf.connected_app_create.htm&type=5) und [Konfigurieren einer verbundenen Anwendung für die OAuth-2.0-Client-Anmeldeinformationen](https://help.salesforce.com/s/articleView?id=sf.connected_app_client_credentials_setup.htm&type=5).

1. (Optional) Im Abschnitt **Parsing und Chunking von Inhalten** können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:
   + Weitere Informationen zu den Parsing-Optionen finden Sie unter [Parsing-Optionen für Ihre Datenquelle](kb-advanced-parsing.md).
   + Weitere Informationen zu Aufteilungsstrategien finden Sie unter [So funktioniert das Inhalts-Chunking für Wissensdatenbanken](kb-chunking.md).
**Warnung**  
Die Aufteilungsstrategie kann nach dem Herstellen einer Verbindung zur Datenquelle nicht mehr geändert werden.
   + Weitere Informationen zum Anpassen der Aufteilung Ihrer Daten und der Verarbeitung Ihrer Metadaten mit einer Lambda-Funktion finden Sie unter [So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden](kb-custom-transformation.md).

1. Sie können mithilfe von Filtern/regulären Ausdrücken bestimmte Inhalte ein- oder ausschließen. Andernfalls werden alle Standardinhalte gecrawlt.

1. Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Wenn Sie die verbleibenden Schritte sehen möchten, kehren Sie zu [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

------
#### [ API ]

Im Folgenden finden Sie ein Beispiel für eine Konfiguration für die Verbindung mit Salesforce für die Amazon-Bedrock-Wissensdatenbank. Sie konfigurieren die Datenquelle mithilfe der API mit der AWS CLI oder einem unterstützten SDK, z. B. Python. Nach dem Aufruf von [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html) rufen Sie [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) auf, um die Datenquelle mit Ihren Verbindungsinformationen in `dataSourceConfiguration` zu erstellen.

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale `vectorIngestionConfiguration`-Feld einbeziehen, finden Sie unter [So passen Sie die Aufnahme für eine Datenquelle an](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock create-data-source \
 --name "Salesforce connector" \
 --description "Salesforce data source connector for Amazon Bedrock to use content in Salesforce" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://salesforce-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}'

salesforce-bedrock-connector-configuration.json
{
    "salesforceConfiguration": {
        "sourceConfiguration": {
            "hostUrl": "https://company.salesforce.com/",
            "authType": "OAUTH2_CLIENT_CREDENTIALS",
            "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-Salesforce"
        },
        "crawlerConfiguration": {
            "filterConfiguration": {
                "type": "PATTERN",
                "patternObjectFilter": {
                    "filters": [
                        {
                            "objectType": "Campaign",
                            "inclusionFilters": [
                                ".*public.*"
                            ],
                            "exclusionFilters": [
                                ".*private.*"
                            ]
                        }
                    ]
                }
            }
        }
    },
    "type": "SALESFORCE"
}
```

------

# Crawlen von Webseiten für Ihre Wissensdatenbank
<a name="webcrawl-data-source-connector"></a>

Der von Amazon Bedrock bereitgestellte Webcrawler stellt eine Verbindung zu URLs her, die Sie für die Verwendung in Ihrer Amazon-Bedrock-Wissensdatenbank ausgewählt haben, und crawlt diese. Sie können Webseiten gemäß Ihrem festgelegten Bereich oder den von Ihnen festgelegten Grenzwerten für Ihre ausgewählten URLs crawlen. Sie können Webseiten entweder mit der [AWS-Managementkonsole für Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) oder der [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)-API crawlen (siehe von Amazon Bedrock [unterstützte SDKs und AWS CLI](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html)). Derzeit ist nur der Vektorspeicher von Amazon OpenSearch Serverless für die Verwendung mit dieser Datenquelle verfügbar.

**Anmerkung**  
Der Webcrawler-Datenquellen-Connector befindet sich in der Vorversion und kann sich ändern.

Bei der Auswahl der zu Crawlenden Websites müssen Sie die [Amazon-Richtlinie zur zulässigen Nutzung](https://aws.amazon.com/aup/) und alle anderen Amazon-Bedingungen einhalten. Beachten Sie, dass Sie den Webcrawler nur zum Indizieren Ihrer eigenen Webseiten oder von Webseiten verwenden dürfen, für deren Crawling Sie autorisiert sind, und dass Sie die Konfigurationen in der Datei robots.txt berücksichtigen müssen.

Der Webcrawler berücksichtigt robots.txt gemäß [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Die Anzahl der Inhaltselemente der Webseite und die Anzahl der MB pro Inhaltselement, die gecrawlt werden können, ist begrenzt. Weitere Informationen finden Sie unter [Kontingente für Wissensdatenbanken](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Unterstützte Features](#supported-features-webcrawl-connector)
+ [Voraussetzungen](#prerequisites-webcrawl-connector)
+ [Konfiguration der Verbindung](#configuration-webcrawl-connector)

## Unterstützte Features
<a name="supported-features-webcrawl-connector"></a>

Der Webcrawler stellt ausgehend von der Seed-URL eine Verbindung zu HTML-Seiten her und crawlt diese. Dabei werden alle untergeordneten Links unter derselben primären Top-Domain und demselben Pfad durchlaufen. Wenn eine der HTML-Seiten auf unterstützte Dokumente verweist, ruft der Webcrawler diese Dokumente ab, unabhängig davon, ob sie sich innerhalb derselben obersten primären Domain befinden. Sie können das Crawling-Verhalten ändern, indem Sie eine andere Crawling-Konfiguration vornehmen. Weitere Informationen finden Sie unter [Konfiguration der Verbindung](#configuration-webcrawl-connector).

Die Ausführung der folgenden Schritte wird unterstützt:
+ Wählen Sie mehrere Quell-URLs für das Crawlen aus und legen Sie den URL-Bereich so fest, dass nur der Host gecrawlt wird oder auch Subdomains einbezogen werden.
+ Crawlen Sie statische Webseiten, die Teil Ihrer Quell-URLs sind.
+ Geben Sie ein angepasstes Suffix für Benutzeragenten an, um Regeln für Ihren eigenen Crawler festzulegen.
+ Schließen Sie bestimmte URLs, die einem Filtermuster entsprechen, ein oder aus.
+ Beachten Sie die Standardanweisungen von robots.txt wie „Zulassen“ und „Nicht zulassen“.
+ Begrenzen Sie den Bereich der zu crawlenden URLs und schließen Sie optional URLs aus, die einem Filtermuster entsprechen.
+ Begrenzen Sie die Crawling-Rate von URLs und die maximale Anzahl der zu crawlenden Seiten.
+ Anzeigen des Status gecrawlter URLs in Amazon CloudWatch

## Voraussetzungen
<a name="prerequisites-webcrawl-connector"></a>

**Führen Sie die folgenden Schritte aus, um den Webcrawler zu verwenden:**.
+ Vergewissern Sie sich, dass Sie berechtigt sind, Ihre Quell-URLs zu crawlen.
+ Vergewissern Sie sich, dass der Pfad zu robots.txt, der Ihren Quell-URLs entspricht, nicht verhindert, dass die URLs gecrawlt werden. Der Webcrawler hält sich an die Standards von robots.txt: standardmäßig `disallow`, wenn robots.txt für die Website nicht gefunden wird. Der Webcrawler berücksichtigt robots.txt gemäß [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html). Sie können auch ein angepasstes Suffix für Benutzeragenten angeben, um Regeln für Ihren eigenen Crawler festzulegen. Weitere Informationen finden Sie unter „Zugriff auf die Webcrawler-URL“ in den Anleitungen zu [Konfiguration der Verbindung](#configuration-webcrawl-connector) auf dieser Seite.
+ [Aktivieren Sie die Bereitstellung von CloudWatch Logs](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-bases-logging.html) und folgen Sie den Beispielen von Webcrawler-Protokollen, um den Status Ihres Datenerfassungsauftrags für die Aufnahme von Webinhalten zu überprüfen und zu ermitteln, ob bestimmte URLs nicht abgerufen werden können.

**Anmerkung**  
Bei der Auswahl der zu Crawlenden Websites müssen Sie die [Amazon-Richtlinie zur zulässigen Nutzung](https://aws.amazon.com/aup/) und alle anderen Amazon-Bedingungen einhalten. Beachten Sie, dass Sie den Webcrawler nur zum Indizieren Ihrer eigenen Webseiten oder von Webseiten verwenden dürfen, für deren Crawling Sie autorisiert sind.

## Konfiguration der Verbindung
<a name="configuration-webcrawl-connector"></a>

Wählen Sie Folgendes aus, um weitere Informationen zum Synchronisierungsbereich für das Crawling von URLs, zu Einschluss-/Ausschlussfiltern, zum URL-Zugriff, zur inkrementellen Synchronisierung und zu deren Funktionsweise zu erhalten:

### Synchronisierungsumfang für das Crawling von URLs
<a name="ds-sync-scope"></a>

Sie können den Bereich der zu crawlenden URLs basierend auf der spezifischen Beziehung der einzelnen Seed-URLs begrenzen. Um Crawl-Vorgänge zu beschleunigen, können Sie die URLs auf diejenigen beschränken, die denselben Host und denselben ursprünglichen URL-Pfad wie die Seed-URL aufweisen. Für umfassendere Crawl-Vorgänge können Sie auswählen, ob URLs mit demselben Host oder innerhalb einer beliebigen Subdomain der Seed-URL gecrawlt werden sollen.

Sie können aus den folgenden Optionen auswählen.
+ Standard: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören und über denselben ursprünglichen URL-Pfad verfügen. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann nur dieser Pfad und die Webseiten gecrawlt, die sich aus diesem Pfad ergeben, z. B. „https://aws.amazon.com/bedrock/agents/“. Gleichgeartete URLs wie „https://aws.amazon.com/ec2/“ werden beispielsweise nicht gecrawlt.
+ Nur Host: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „https://aws.amazon.com“ gecrawlt, z. B. „https://aws.amazon.com/ec2“.
+ Subdomains: Schließt das Crawling aller Webseiten ein, deren primäre Domain mit der der Seed-URL identisch ist. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „amazon.com“ (Subdomain) gecrawlt, z. B. „https://www.amazon.com“.

**Anmerkung**  
Stellen Sie sicher, dass Sie keine potenziell überlastete Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbegrenzung zu crawlen. Das Crawling großer Websites nimmt sehr viel Zeit in Anspruch.  
[Unterstützte Dateitypen](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist.

Der Webcrawler unterstützt statische Websites.

Sie können auch die Crawling-Rate für URLs begrenzen, um die Drosselung der Crawling-Geschwindigkeit zu steuern. Sie legen die maximale Anzahl von URLs fest, die pro Host pro Minute gecrawlt werden. Darüber hinaus können Sie auch die maximale Anzahl (bis zu 25 000) aller Webseiten festlegen, die gecrawlt werden sollen. Beachten Sie, dass der Synchronisierungs-/Erfassungsauftrag für Ihre Datenquelle fehlschlägt, wenn die Gesamtzahl der Webseiten aus Ihren Quell-URLs das von Ihnen festgelegte Maximum überschreitet.

### Einschluss- und Ausschlussfilter
<a name="ds-inclusion-exclusion"></a>

Sie können je nach Bereich bestimmte URLs ein- oder ausschließen. [Unterstützte Dateitypen](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist. Wenn Sie einen Ein- und einen Ausschlussfilter angeben und beide mit einer URL übereinstimmen, hat der Ausschlussfilter Vorrang und das Dokument wird nicht gecrawlt.

**Wichtig**  
Problematische Musterfilter mit regulären Ausdrücken, die zu einer [katastrophalen Rückverfolgung](https://docs.aws.amazon.com/codeguru/detector-library/python/catastrophic-backtracking-regex/) und Vorausschau führen, werden abgelehnt.

Ein Beispiel für ein Filtermuster für reguläre Ausdrücke zum Ausschließen von URLs, die mit „.pdf“ enden, oder von PDF-Webseitenanhängen: *„.\$1\$1.pdf\$1“*

### Zugriff auf die Webcrawler-URL
<a name="ds-webcrawl-identity-crawling"></a>

Sie können den Webcrawler verwenden, um die Seiten von Websites zu crawlen, für deren Crawling Sie autorisiert sind.

Bei der Auswahl der zu crawlenden Websites müssen Sie die [Amazon-Richtlinie zur zulässigen Nutzung](https://aws.amazon.com/aup/) und alle anderen Amazon-Bedingungen einhalten. Beachten Sie, dass Sie den Webcrawler nur zum Indizieren Ihrer eigenen Webseiten oder von Webseiten verwenden dürfen, für deren Crawling Sie autorisiert sind.

Der Webcrawler berücksichtigt robots.txt gemäß [RFC 9309](https://www.rfc-editor.org/rfc/rfc9309.html)

Sie können festlegen, dass bestimmte Benutzer-Agent-Bots dem Benutzeragenten das Crawlen Ihrer Quell-URLs entweder erlauben oder verbieten. Sie können die Datei „robots.txt“ Ihrer Website ändern, um zu steuern, wie der Webcrawler Ihre Quell-URLs crawlt. Der Crawler sucht zuerst nach `bedrockbot-UUID `-Regeln und dann nach generischen `bedrockbot`-Regeln in der Datei „robots.txt“.

Sie können auch ein Suffix für Benutzeragenten hinzufügen, mit dem Sie Ihren Crawler in Bot-Schutzsystemen auf die Zulassungsliste setzen können. Beachten Sie, dass dieses Suffix der `robots.txt`-Datei nicht hinzugefügt werden muss, um sicherzustellen, dass niemand die Zeichenfolge „Benutzeragent“ nachahmen kann. Verwenden Sie beispielsweise die folgende Richtlinie, um dem Webcrawler das Crawling aller Webseiteninhalte zu ermöglichen und es allen anderen Robotern zu verbieten:

```
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages
```

### Inkrementelle Synchronisierung
<a name="ds-incremental-sync"></a>

Bei jeder Ausführung des Webcrawlers werden Inhalte für alle URLs abgerufen, die über die Quell-URLs erreichbar sind und dem Bereich und den Filtern entsprechen. Bei inkrementellen Synchronisierungen aktualisiert Amazon Bedrock Ihre Wissensdatenbank nach der ersten Synchronisierung aller Inhalte mit neuen und geänderten Inhalten und entfernt alte Inhalte, die nicht mehr vorhanden sind. Gelegentlich kann der Crawler möglicherweise nicht erkennen, ob Inhalte von der Website entfernt wurden. In diesem Fall versucht er, alte Inhalte in Ihrer Wissensdatenbank beizubehalten.

Um die Datenquelle mit der Wissensdatenbank zu synchronisieren, verwenden Sie die [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)-API; wählen Sie alternativ die Wissensdatenbank in der Konsole und dann im Bereich „Datenquellenübersicht“ die Option **Synchronisieren** aus.

**Wichtig**  
Alle Daten, die Sie aus der Datenquelle synchronisieren, stehen allen Personen mit der `bedrock:Retrieve`-Berechtigung zum Abrufen der Daten zur Verfügung. Dies kann auch alle Daten mit kontrollierten Datenquellenberechtigungen einschließen. Weitere Informationen finden Sie unter [Berechtigungen für die Wissensdatenbank](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Verbinden einer Webcrawler-Datenquelle mit Ihrer Wissensdatenbank**

1. Befolgen Sie die Schritte unter [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) und wählen Sie **Webcrawler** als Datenquelle aus.

1. Geben Sie den Namen und eine optionale Beschreibung für die Datenquelle an.

1. Geben Sie die **Quell-URLs** der URLS AN, die Sie crawlen möchten. Sie können bis zu 9 zusätzliche URLs hinzufügen, indem Sie **Quell-URLs hinzufügen** auswählen. Durch die Bereitstellung einer Quell-URL bestätigen Sie, dass Sie zum Crawlen ihrer Domain berechtigt sind.

1. Im Abschnitt **Erweiterte Einstellungen** können Sie optional Folgendes konfigurieren:
   + **KMS-Schlüssel für den transienten Datenspeicher.** – Sie können die transienten Daten verschlüsseln und gleichzeitig Ihre Daten mit dem Standard-Von AWS verwalteter Schlüssel oder einem eigenen KMS-Schlüssel in Einbettungen konvertieren. Weitere Informationen finden Sie unter [Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung](encryption-kb.md#encryption-kb-ingestion).
   + **Richtlinie zum Löschen von Daten** – Sie können die Vektoreinbettungen für die Datenquelle löschen, die standardmäßig im Vektorspeicher enthalten sind, oder die Vektorspeicherdaten beibehalten.

1. (Optional) Geben Sie ein Suffix für Benutzeragenten für **bedrock-UUID-** an, das den Crawler oder Bot beim Zugriff auf einen Webserver identifiziert.

1. Konfigurieren Sie im Abschnitt **Synchronisierungsbereich** Folgendes:

   1. Wählen Sie einen **Website-Domainbereich** für das Crawling Ihrer Quell-URLs aus:
      + Standard: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören und über denselben ursprünglichen URL-Pfad verfügen. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann nur dieser Pfad und die Webseiten gecrawlt, die sich aus diesem Pfad ergeben, z. B. „https://aws.amazon.com/bedrock/agents/“. Gleichgeartete URLs wie „https://aws.amazon.com/ec2/“ werden beispielsweise nicht gecrawlt.
      + Nur Host: Beschränken Sie das Crawling auf Webseiten, die zum selben Host gehören. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „https://aws.amazon.com“ gecrawlt, z. B. „https://aws.amazon.com/ec2“.
      + Subdomains: Schließt das Crawling aller Webseiten ein, deren primäre Domain mit der der Seed-URL identisch ist. Beispielsweise werden bei der Seed-URL „https://aws.amazon.com/bedrock/“ dann auch Webseiten mit „amazon.com“ (Subdomain) gecrawlt, z. B. „https://www.amazon.com“.
**Anmerkung**  
Stellen Sie sicher, dass Sie keine potenziell überlastete Webseiten crawlen. Es wird nicht empfohlen, große Websites wie wikipedia.org ohne Filter oder Bereichsbegrenzung zu crawlen. Das Crawling großer Websites nimmt sehr viel Zeit in Anspruch.  
[Unterstützte Dateitypen](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html) werden unabhängig vom Bereich und unabhängig davon gecrawlt, ob für den Dateityp ein Ausschlussmuster vorhanden ist.

   1. Geben Sie **Maximale Drosselung der Crawling-Geschwindigkeit** ein. Erfassen Sie zwischen 1 und 300 URLs pro Host und Minute. Eine höhere Crawling-Geschwindigkeit erhöht die Last, nimmt jedoch weniger Zeit in Anspruch.

   1. Geben Sie für **Maximale Anzahl Seiten für die Datenquellensynchronisierung** einen Wert zwischen 1 und 25000 ein. Beschränken Sie die maximale Anzahl von Webseiten, die über Ihre Quell-URLs gecrawlt werden. Wenn Webseiten diese Anzahl überschreiten, schlägt die Datenquellensynchronisierung fehl und es werden keine Webseiten erfasst. 

   1. Für **URL-Regex**-Muster (optional) können Sie **Muster einbeziehen** oder **Muster ausschließen** hinzufügen, indem Sie das Muster für reguläre Ausdrücke in das Feld eingeben. Sie können bis zu 25 Einschlussfiltermuster und 25 Ausschlussfiltermuster hinzufügen, indem Sie **Neues Muster hinzufügen** auswählen. Die Ein- und Ausschlussmuster werden entsprechend Ihrem Bereich gecrawlt. Wenn ein Konflikt besteht, hat das Ausschlussmuster Vorrang.

1. (Optional) Im Abschnitt **Parsing und Chunking von Inhalten** können Sie anpassen, wie die Daten analysiert und aufgeteilt werden sollen. Werfen Sie einen Blick auf die folgenden Ressourcen, um mehr über diese Anpassungen zu erfahren:
   + Weitere Informationen zu den Parsing-Optionen finden Sie unter [Parsing-Optionen für Ihre Datenquelle](kb-advanced-parsing.md).
   + Weitere Informationen zu Aufteilungsstrategien finden Sie unter [So funktioniert das Inhalts-Chunking für Wissensdatenbanken](kb-chunking.md).
**Warnung**  
Die Aufteilungsstrategie kann nach dem Herstellen einer Verbindung zur Datenquelle nicht mehr geändert werden.
   + Weitere Informationen zum Anpassen der Aufteilung Ihrer Daten und der Verarbeitung Ihrer Metadaten mit einer Lambda-Funktion finden Sie unter [So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden](kb-custom-transformation.md).

1. Wählen Sie ein Einbettungsmodell und einen Vektorspeicher aus. Um die verbleibenden Schritte zu sehen, kehren Sie zu [So erstellen Sie eine Wissensdatenbank, indem Sie in Wissensdatenbanken für Amazon Bedrock eine Verbindung zu einer Datenquelle herstellen](knowledge-base-create.md) zurück, nachdem Sie die Datenquelle verbunden haben, und fahren Sie mit diesem Schritt fort.

------
#### [ API ]

Zum Herstellen einer Verbindung zwischen einer Wissensdatenbank und einer Datenquelle mithilfe von WebCrawler, senden Sie eine [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)-Anfrage mit einem [Build-Time-Endpunkt von Agenten für Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt), geben Sie `WEB` in das Feld `type` der [DataSourceConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_DataSourceConfiguration.html) ein und fügen Sie das Feld `webConfiguration` hinzu. Im Folgenden finden Sie ein Beispiel für eine Konfiguration von Webcrawler für Ihre Amazon-Bedrock-Wissensdatenbank.

```
{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}
```

Weitere Informationen zu Anpassungen, die Sie auf die Erfassung anwenden können, indem Sie das optionale `vectorIngestionConfiguration`-Feld einbeziehen, finden Sie unter [So passen Sie die Aufnahme für eine Datenquelle an](kb-data-source-customize-ingestion.md).

------

# Verknüpfen der Wissensdatenbank mit einer benutzerdefinierten Datenquelle
<a name="custom-data-source-connector"></a>

Anstatt einen unterstützten Datenquellenservice zu wählen, können Sie eine Verbindung mit einer benutzerdefinierten Datenquelle herstellen, was die folgenden Vorteile bietet:
+ Flexibilität und Kontrolle über die Datentypen, auf die Ihre Wissensdatenbank Zugriff haben soll.
+ Die Möglichkeit, mithilfe der `KnowledgeBaseDocuments`-API-Vorgänge Dokumente direkt aufzunehmen oder zu löschen, ohne dass Änderungen synchronisiert werden müssen.
+ Die Möglichkeit, Dokumente in Ihrer Datenquelle direkt über die Amazon-Bedrock-Konsole oder API anzuzeigen.
+ Die Möglichkeit, Dokumente direkt in die Datenquelle hochzuladen AWS-Managementkonsole oder sie inline hinzuzufügen.
+ Die Möglichkeit, dem jeweiligen Dokument direkt Metadaten hinzuzufügen, wenn ein Dokument in der Datenquelle hinzugefügt oder aktualisiert wird. Weitere Informationen zur Verwendung von Metadaten zum Filtern beim Abrufen von Angaben aus einer Datenquelle finden Sie auf der Registerkarte **Metadaten und Filterung** unter [So konfigurieren Sie Abfragen und die Antwortgenerierung und passen diese an](kb-test-config.md).

**Unterstützung multimodaler Inhalte**  
Benutzerdefinierte Datenquellen unterstützen multimodale Inhalte wie Bilder, Audio- und Videodateien mit einer Größe von bis zu 10 MB Base64-kodiert. Umfassende Anleitungen zur Arbeit mit multimodalen Inhalten finden Sie unter. [Aufbau einer Wissensdatenbank für multimodale Inhalte](kb-multimodal.md)

Um eine Wissensdatenbank mit einer benutzerdefinierten Datenquelle zu verbinden, senden Sie eine [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)Anfrage an einen [Build-Time-Endpunkt von Agents for Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt). Geben Sie die `knowledgeBaseId` der Wissensdatenbank an, mit der eine Verbindung hergestellt werden soll, geben Sie der Datenquelle einen `name` und legen Sie das Feld `type` in `dataSourceConfiguration` als `CUSTOM` fest. Im Folgenden finden Sie ein minimal gehaltenes Beispiel für die Erstellung dieser Datenquelle:

```
PUT /knowledgebases/KB12345678/datasources/ HTTP/1.1
Content-type: application/json

{
    "name": "MyCustomDataSource",
    "dataSourceConfiguration": {
        "type": "CUSTOM"
    }
}
```

Sie können die folgenden optionalen Felder zum Konfigurieren der Datenquelle einbinden:


****  

| Feld | Anwendungsfall | 
| --- | --- | 
| description | Zur Beschreibung der Datenquelle. | 
| clientToken | Zur Sicherstellung, dass die API-Anfrage nur einmal durchgeführt wird. Weitere Informationen finden Sie unter [Sicherstellen von Idempotenz](https://docs.aws.amazon.com/ec2/latest/devguide/ec2-api-idempotency.html). | 
| serverSideEncryptionKonfiguration | Zum Festlegung eines benutzerdefinierten KMS-Schlüssels für den transienten Datenspeicher bei der Konvertierung Ihrer Daten in Einbettungen. Weitere Informationen finden Sie unter [Verschlüsselung der vorübergehenden Datenspeicherung während der Datenerfassung](encryption-kb.md#encryption-kb-ingestion). | 
| dataDeletionPolicy | Zur Konfiguration, wie mit den Vektoreinbettungen für Ihre Datenquelle in Ihrem Vektorspeicher umgegangen werden soll, wenn Sie die Datenquelle löschen. Geben Sie RETAIN an, wenn die Daten im Vektorspeicher beibehalten werden sollen, oder wählen Sie die Standardoption DELETE aus, um sie zu löschen. | 
| vectorIngestionConfiguration | Zur Konfiguration von Optionen für die Aufnahme der Datenquelle. Weitere Informationen hierzu finden Sie unten. | 

Das `vectorIngestionConfiguration` Feld ist einem [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)Objekt zugeordnet, das die folgenden Felder enthält:
+ chunkingConfiguration – Hiermit wird die Strategie konfiguriert, die für die Aufteilung der Dokumente in der Datenquelle verwendet werden soll. Weitere Informationen zu Aufteilungsstrategien finden Sie unter [So funktioniert das Inhalts-Chunking für Wissensdatenbanken](kb-chunking.md).
+ parsingConfiguration – Hiermit wird die Strategie konfiguriert, die für die Analyse der Datenquelle verwendet werden soll. Weitere Informationen zu den Parsing-Optionen finden Sie unter [Parsing-Optionen für Ihre Datenquelle](kb-advanced-parsing.md).
+ customTransformationConfiguration — Um anzupassen, wie die Daten transformiert werden, und um eine Lambda-Funktion für eine bessere Anpassung anzuwenden. Weitere Informationen zum Anpassen der Aufteilung Ihrer Daten und der Verarbeitung Ihrer Metadaten mit einer Lambda-Funktion finden Sie unter [So verwenden Sie eine benutzerdefinierte Transformations-Lambda-Funktion, um zu bestimmen, wie Ihre Daten aufgenommen werden](kb-custom-transformation.md).

Nachdem Sie Ihre benutzerdefinierte Datenquelle eingerichtet haben, können Sie Dokumente zu ihr hinzufügen und sie direkt in die Wissensdatenbank aufnehmen. Im Gegensatz zu anderen Datenquellen müssen Sie eine benutzerdefinierte Datenquelle nicht synchronisieren. Weitere Informationen zur direkten Aufnahme von Dokumenten finden Sie unter [So nehmen Sie Änderungen direkt in eine Wissensdatenbank auf](kb-direct-ingestion.md).