Bereitgestellte Amazon MSK-Voraussetzungen Voraussetzungen für Amazon MSK Serverless Schritt 1: Konfigurieren Sie eine Pipeline-Rolle Schritt 2: Erstellen Sie die Pipeline AWS Glue Schemaregistrierung Konfiguration empfohlen OCUs

Verwenden Sie eine Ingestion-Pipeline mit OpenSearch Amazon Managed Streaming for Apache Kafka

Sie können das Kafka-Plugin verwenden, um Daten aus Amazon Managed Streaming for Apache Kafka (Amazon MSK) in Ihre Ingestion-Pipeline aufzunehmen. OpenSearch Mit Amazon MSK können Sie Anwendungen erstellen und ausführen, die Apache Kafka zur Verarbeitung von Streaming-Daten verwenden. OpenSearch Ingestion verwendet, um eine Verbindung AWS PrivateLink zu Amazon MSK herzustellen. Sie können Daten sowohl aus Amazon MSK- als auch aus Amazon MSK Serverless-Clustern aufnehmen. Der einzige Unterschied zwischen den beiden Prozessen besteht in den erforderlichen Schritten, die Sie ergreifen müssen, bevor Sie Ihre Pipeline einrichten.

Themen

Bereitgestellte Amazon MSK-Voraussetzungen
Voraussetzungen für Amazon MSK Serverless
Schritt 1: Konfigurieren Sie eine Pipeline-Rolle
Schritt 2: Erstellen Sie die Pipeline
Schritt 3: (Optional) Verwenden Sie die Schemaregistrierung AWS Glue
Schritt 4: (Optional) Empfohlene Recheneinheiten (OCUs) für die Amazon MSK-Pipeline konfigurieren

Bereitgestellte Amazon MSK-Voraussetzungen

Bevor Sie Ihre OpenSearch Ingestion-Pipeline erstellen, führen Sie die folgenden Schritte aus:

Erstellen Sie einen von Amazon MSK bereitgestellten Cluster, indem Sie die Schritte unter Erstellen eines Clusters im Amazon Managed Streaming for Apache Kafka Developer Guide befolgen. Wählen Sie als Broker-Typ eine beliebige Option außer t3 Typen aus, da diese von Ingestion nicht unterstützt werden. OpenSearch
Wenn der Cluster den Status Aktiv hat, folgen Sie den Schritten unter Multi-VPC-Konnektivität aktivieren.

Folgen Sie den Schritten unter Anhängen einer Clusterrichtlinie an den MSK-Cluster, um eine der folgenden Richtlinien anzuhängen, je nachdem, ob Ihr Cluster und Ihre Pipeline identisch sind. AWS-Konto Diese Richtlinie ermöglicht es OpenSearch Ingestion, eine AWS PrivateLink Verbindung zu Ihrem Amazon MSK-Cluster herzustellen und Daten aus Kafka-Themen zu lesen. Stellen Sie sicher, dass Sie das resource mit Ihrem eigenen ARN aktualisieren.

Die folgenden Richtlinien gelten, wenn sich Ihr Cluster und Ihre Pipeline in derselben Einheit befinden AWS-Konto:

Wenn sich Ihr Amazon MSK-Cluster in einer anderen Pipeline AWS-Konto als Ihrer Pipeline befindet, fügen Sie stattdessen die folgende Richtlinie bei. Beachten Sie, dass kontenübergreifender Zugriff nur mit bereitgestellten Amazon MSK-Clustern und nicht mit Amazon MSK Serverless-Clustern möglich ist. Der ARN für AWS principal sollte der ARN für dieselbe Pipeline-Rolle sein, die Sie für Ihre Pipeline-Konfiguration angeben:

Erstellen Sie ein Kafka-Thema, indem Sie den Schritten unter Thema erstellen folgen. Stellen Sie sicher, dass BootstrapServerString es sich um einen Bootstrap für private Endgeräte (Single-VPC) handelt. URLs Der Wert für --replication-factor sollte 2 oder sein3, basierend auf der Anzahl der Zonen, die Ihr Amazon MSK-Cluster hat. Der Wert für --partitions sollte mindestens 10 sein.
Erzeugen und konsumieren Sie Daten, indem Sie die Schritte unter Daten produzieren und konsumieren befolgen. Stellen Sie auch hier sicher, dass BootstrapServerString es sich um einen Ihrer privaten Endgeräte (Single-VPC) -Bootstrap handelt. URLs

Voraussetzungen für Amazon MSK Serverless

Bevor Sie Ihre OpenSearch Ingestion-Pipeline erstellen, führen Sie die folgenden Schritte aus:

Erstellen Sie einen serverlosen Amazon MSK-Cluster, indem Sie den Schritten unter Create an MSK Serverless Cluster im Amazon Managed Streaming for Apache Kafka Developer Guide folgen.

Wenn der Cluster den Status Aktiv hat, folgen Sie den Schritten unter Eine Cluster-Richtlinie an den MSK-Cluster anhängen, um die folgende Richtlinie anzuhängen. Stellen Sie sicher, dass Sie das resource mit Ihrem eigenen ARN aktualisieren.

Diese Richtlinie ermöglicht es OpenSearch Ingestion, eine AWS PrivateLink Verbindung zu Ihrem Amazon MSK Serverless-Cluster herzustellen und Daten aus Kafka-Themen zu lesen. Diese Richtlinie gilt, wenn sich Ihr Cluster und Ihre Pipeline im selben System befinden. Dies muss zutreffen AWS-Konto, da Amazon MSK Serverless keinen kontoübergreifenden Zugriff unterstützt.

Erstellen Sie ein Kafka-Thema, indem Sie den Schritten unter Thema erstellen folgen. Stellen Sie sicher, dass BootstrapServerString es sich dabei um einen Ihrer SASL-IAM-Bootstraps (Simple Authentication and Security Layer) handelt. URLs Der Wert für --replication-factor sollte 2 oder sein3, basierend auf der Anzahl der Zonen, über die Ihr Amazon MSK Serverless-Cluster verfügt. Der Wert für --partitions sollte mindestens sein. 10
Erzeugen und konsumieren Sie Daten, indem Sie die Schritte unter Daten produzieren und konsumieren befolgen. Stellen Sie auch hier sicher, dass BootstrapServerString es sich um einen Ihrer SASL-IAM-Bootstraps (Simple Authentication and Security Layer) handelt. URLs

Schritt 1: Konfigurieren Sie eine Pipeline-Rolle

Nachdem Sie Ihren von Amazon MSK bereitgestellten oder serverlosen Cluster eingerichtet haben, fügen Sie der Pipeline-Rolle, die Sie in Ihrer Pipeline-Konfiguration verwenden möchten, die folgenden Kafka-Berechtigungen hinzu:

Schritt 2: Erstellen Sie die Pipeline

Anschließend können Sie eine OpenSearch Ingestion-Pipeline wie die folgende konfigurieren, in der Kafka als Quelle angegeben ist:


version: "2"
log-pipeline:
  source:
    kafka:
      acknowledgements: true 
      topics:
      - name: "topic-name"  
        group_id: "grouplambd-id"
      aws:
        msk:
          arn: "arn:aws:kafka:region:account-id:cluster/cluster-name/cluster-id"
        region: "us-west-2"
  processor:
  - grok:
      match:
        message:
        - "%{COMMONAPACHELOG}"
  - date:
      destination: "@timestamp"
      from_time_received: true
  sink:
  - opensearch:
      hosts: ["https://search-domain-endpoint.us-east-1es.amazonaws.com"]
      index: "index_name"
      aws_region: "region"
      aws_sigv4: true

Sie können einen vorkonfigurierten Amazon MSK-Blueprint verwenden, um diese Pipeline zu erstellen. Weitere Informationen finden Sie unter Mit Blueprints arbeiten.

Schritt 3: (Optional) Verwenden Sie die Schemaregistrierung AWS Glue

Wenn Sie OpenSearch Ingestion mit Amazon MSK verwenden, können Sie das AVRO-Datenformat für Schemas verwenden, die in der Schema Registry gehostet werden. AWS Glue Mit der AWS Glue Schema Registry können Sie Datenstromschemas zentral erkennen, steuern und weiterentwickeln.

Um diese Option zu verwenden, aktivieren Sie das Schema type in Ihrer Pipeline-Konfiguration:


schema:
  type: "aws_glue"

Sie müssen in Ihrer Pipeline-Rolle auch Lesezugriffsberechtigungen bereitstellen AWS Glue . Sie können die AWS verwaltete Richtlinie namens verwenden AWSGlueSchemaRegistryReadonlyAccess. Darüber hinaus muss sich Ihre Registrierung in derselben AWS-Konto Region wie Ihre OpenSearch Ingestion-Pipeline befinden.

Schritt 4: (Optional) Empfohlene Recheneinheiten (OCUs) für die Amazon MSK-Pipeline konfigurieren

Jede Recheneinheit hat einen Nutzer pro Thema. Makler gleichen die Partitionen zwischen diesen Verbrauchern für ein bestimmtes Thema aus. Wenn jedoch die Anzahl der Partitionen die Anzahl der Verbraucher übersteigt, hostet Amazon MSK mehrere Partitionen auf jedem Verbraucher. OpenSearch Ingestion verfügt über eine integrierte auto Skalierung, mit der je nach CPU-Auslastung oder Anzahl ausstehender Datensätze in der Pipeline nach oben oder unten skaliert werden kann.

Um eine optimale Leistung zu erzielen, verteilen Sie Ihre Partitionen für die Parallelverarbeitung auf viele Recheneinheiten. Wenn Themen eine große Anzahl von Partitionen haben (z. B. mehr als 96, was das Maximum OCUs pro Pipeline ist), empfehlen wir, eine Pipeline mit 1—96 OCUs zu konfigurieren. Das liegt daran, dass sie bei Bedarf automatisch skaliert wird. Wenn ein Thema eine geringe Anzahl von Partitionen hat (z. B. weniger als 96), sollten Sie die maximale Recheneinheit der Anzahl der Partitionen anpassen.

Wenn eine Pipeline mehr als ein Thema enthält, wählen Sie das Thema mit der höchsten Anzahl von Partitionen als Referenz für die Konfiguration der maximalen Recheneinheiten aus. Indem Sie eine weitere Pipeline mit einem neuen Satz von OCUs zu demselben Thema und derselben Benutzergruppe hinzufügen, können Sie den Durchsatz nahezu linear skalieren.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Confluent Cloud Kafka

Amazon RDS