Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie eine Ingestion-Pipeline mit OpenSearch Amazon Managed Streaming for Apache Kafka
Sie können das Kafka-Plugin
Themen
Bereitgestellte Amazon MSK-Voraussetzungen
Bevor Sie Ihre OpenSearch Ingestion-Pipeline erstellen, führen Sie die folgenden Schritte aus:
-
Erstellen Sie einen von Amazon MSK bereitgestellten Cluster, indem Sie die Schritte unter Erstellen eines Clusters im Amazon Managed Streaming for Apache Kafka Developer Guide befolgen. Wählen Sie als Broker-Typ eine beliebige Option außer
t3
Typen aus, da diese von Ingestion nicht unterstützt werden. OpenSearch -
Wenn der Cluster den Status Aktiv hat, folgen Sie den Schritten unter Multi-VPC-Konnektivität aktivieren.
-
Folgen Sie den Schritten unter Anhängen einer Clusterrichtlinie an den MSK-Cluster, um eine der folgenden Richtlinien anzuhängen, je nachdem, ob Ihr Cluster und Ihre Pipeline identisch sind. AWS-Konto Diese Richtlinie ermöglicht es OpenSearch Ingestion, eine AWS PrivateLink Verbindung zu Ihrem Amazon MSK-Cluster herzustellen und Daten aus Kafka-Themen zu lesen. Stellen Sie sicher, dass Sie das
resource
mit Ihrem eigenen ARN aktualisieren.Die folgenden Richtlinien gelten, wenn sich Ihr Cluster und Ihre Pipeline in derselben Einheit befinden AWS-Konto:
Wenn sich Ihr Amazon MSK-Cluster in einer anderen Pipeline AWS-Konto als Ihrer Pipeline befindet, fügen Sie stattdessen die folgende Richtlinie bei. Beachten Sie, dass kontenübergreifender Zugriff nur mit bereitgestellten Amazon MSK-Clustern und nicht mit Amazon MSK Serverless-Clustern möglich ist. Der ARN für AWS
principal
sollte der ARN für dieselbe Pipeline-Rolle sein, die Sie für Ihre Pipeline-Konfiguration angeben: -
Erstellen Sie ein Kafka-Thema, indem Sie den Schritten unter Thema erstellen folgen. Stellen Sie sicher, dass
es sich um einen Bootstrap für private Endgeräte (Single-VPC) handelt. URLs Der Wert fürBootstrapServerString
--replication-factor
sollte2
oder sein3
, basierend auf der Anzahl der Zonen, die Ihr Amazon MSK-Cluster hat. Der Wert für--partitions
sollte mindestens10
sein. -
Erzeugen und konsumieren Sie Daten, indem Sie die Schritte unter Daten produzieren und konsumieren befolgen. Stellen Sie auch hier sicher, dass
es sich um einen Ihrer privaten Endgeräte (Single-VPC) -Bootstrap handelt. URLsBootstrapServerString
Voraussetzungen für Amazon MSK Serverless
Bevor Sie Ihre OpenSearch Ingestion-Pipeline erstellen, führen Sie die folgenden Schritte aus:
-
Erstellen Sie einen serverlosen Amazon MSK-Cluster, indem Sie den Schritten unter Create an MSK Serverless Cluster im Amazon Managed Streaming for Apache Kafka Developer Guide folgen.
-
Wenn der Cluster den Status Aktiv hat, folgen Sie den Schritten unter Eine Cluster-Richtlinie an den MSK-Cluster anhängen, um die folgende Richtlinie anzuhängen. Stellen Sie sicher, dass Sie das
resource
mit Ihrem eigenen ARN aktualisieren.Diese Richtlinie ermöglicht es OpenSearch Ingestion, eine AWS PrivateLink Verbindung zu Ihrem Amazon MSK Serverless-Cluster herzustellen und Daten aus Kafka-Themen zu lesen. Diese Richtlinie gilt, wenn sich Ihr Cluster und Ihre Pipeline im selben System befinden. Dies muss zutreffen AWS-Konto, da Amazon MSK Serverless keinen kontoübergreifenden Zugriff unterstützt.
-
Erstellen Sie ein Kafka-Thema, indem Sie den Schritten unter Thema erstellen folgen. Stellen Sie sicher, dass
es sich dabei um einen Ihrer SASL-IAM-Bootstraps (Simple Authentication and Security Layer) handelt. URLs Der Wert fürBootstrapServerString
--replication-factor
sollte2
oder sein3
, basierend auf der Anzahl der Zonen, über die Ihr Amazon MSK Serverless-Cluster verfügt. Der Wert für--partitions
sollte mindestens sein.10
-
Erzeugen und konsumieren Sie Daten, indem Sie die Schritte unter Daten produzieren und konsumieren befolgen. Stellen Sie auch hier sicher, dass
es sich um einen Ihrer SASL-IAM-Bootstraps (Simple Authentication and Security Layer) handelt. URLsBootstrapServerString
Schritt 1: Konfigurieren Sie eine Pipeline-Rolle
Nachdem Sie Ihren von Amazon MSK bereitgestellten oder serverlosen Cluster eingerichtet haben, fügen Sie der Pipeline-Rolle, die Sie in Ihrer Pipeline-Konfiguration verwenden möchten, die folgenden Kafka-Berechtigungen hinzu:
Schritt 2: Erstellen Sie die Pipeline
Anschließend können Sie eine OpenSearch Ingestion-Pipeline wie die folgende konfigurieren, die Kafka als Quelle angibt:
version: "2" log-pipeline: source: kafka: acknowledgements: true topics: - name: "
topic-name
" group_id: "grouplambd-id
" aws: msk: arn: "arn:aws:kafka:region
:account-id
:cluster/cluster-name
/cluster-id
" region: "us-west-2
" processor: - grok: match: message: - "%{COMMONAPACHELOG}" - date: destination: "@timestamp" from_time_received: true sink: - opensearch: hosts: ["https://search-domain-endpoint
.us-east-1
es.amazonaws.com"] index: "index_name
" aws_region: "region
" aws_sigv4: true
Sie können einen vorkonfigurierten Amazon MSK-Blueprint verwenden, um diese Pipeline zu erstellen. Weitere Informationen finden Sie unter Mit Blueprints arbeiten.
Schritt 3: (Optional) Verwenden Sie die Schemaregistrierung AWS Glue
Wenn Sie OpenSearch Ingestion mit Amazon MSK verwenden, können Sie das AVRO-Datenformat für Schemas verwenden, die in der Schema Registry gehostet werden. AWS Glue Mit der AWS Glue Schema Registry können Sie Datenstromschemas zentral erkennen, steuern und weiterentwickeln.
Um diese Option zu verwenden, aktivieren Sie das Schema type
in Ihrer Pipeline-Konfiguration:
schema: type: "aws_glue"
Sie müssen in Ihrer Pipeline-Rolle auch Lesezugriffsberechtigungen bereitstellen AWS Glue . Sie können die AWS verwaltete Richtlinie namens verwenden AWSGlueSchemaRegistryReadonlyAccess. Darüber hinaus muss sich Ihre Registrierung in derselben AWS-Konto Region wie Ihre OpenSearch Ingestion-Pipeline befinden.
Schritt 4: (Optional) Empfohlene Recheneinheiten (OCUs) für die Amazon MSK-Pipeline konfigurieren
Jede Recheneinheit hat einen Nutzer pro Thema. Makler gleichen die Partitionen zwischen diesen Verbrauchern für ein bestimmtes Thema aus. Wenn jedoch die Anzahl der Partitionen die Anzahl der Verbraucher übersteigt, hostet Amazon MSK mehrere Partitionen auf jedem Verbraucher. OpenSearch Ingestion verfügt über eine integrierte auto Skalierung, mit der je nach CPU-Auslastung oder Anzahl ausstehender Datensätze in der Pipeline nach oben oder unten skaliert werden kann.
Um eine optimale Leistung zu erzielen, verteilen Sie Ihre Partitionen zur Parallelverarbeitung auf viele Recheneinheiten. Wenn Themen eine große Anzahl von Partitionen haben (z. B. mehr als 96, was das Maximum OCUs pro Pipeline ist), empfehlen wir, eine Pipeline mit 1—96 OCUs zu konfigurieren. Das liegt daran, dass sie bei Bedarf automatisch skaliert wird. Wenn ein Thema eine geringe Anzahl von Partitionen hat (z. B. weniger als 96), sollten Sie die maximale Recheneinheit der Anzahl der Partitionen anpassen.
Wenn eine Pipeline mehr als ein Thema enthält, wählen Sie das Thema mit der höchsten Anzahl von Partitionen als Referenz für die Konfiguration der maximalen Recheneinheiten aus. Indem Sie eine weitere Pipeline mit einem neuen Satz von OCUs zu demselben Thema und derselben Benutzergruppe hinzufügen, können Sie den Durchsatz nahezu linear skalieren.