Pré-requisitos do Amazon MSK provisionados Pré-requisitos do Amazon MSK Serverless Etapa 1: configurar o perfil de pipeline Etapa 2: Criar o pipeline AWS Glue Registro do esquema Configuração recomendada OCUs

Usando um pipeline OpenSearch de ingestão com Amazon Managed Streaming for Apache Kafka

Você pode usar o plug-in Kafka para ingerir dados do Amazon Managed Streaming for Apache Kafka (Amazon MSK) em seu pipeline de ingestão. OpenSearch Com o Amazon MSK, você pode criar e executar aplicativos que usam o Apache Kafka para processar dados em streaming. OpenSearch A ingestão é usada AWS PrivateLink para se conectar ao Amazon MSK. Você pode ingerir dados dos clusters do Amazon MSK e do Amazon MSK Serverless. A única diferença entre os dois processos são as etapas de pré-requisito que você deve seguir antes de configurar seu pipeline.

Tópicos

Pré-requisitos do Amazon MSK provisionados
Pré-requisitos do Amazon MSK Serverless
Etapa 1: configurar o perfil de pipeline
Etapa 2: Criar o pipeline
Etapa 3: (Opcional) Usar o Registro do AWS Glue Esquema
Etapa 4: (Opcional) Configurar as unidades computacionais recomendadas (OCUs) para o pipeline do Amazon MSK

Pré-requisitos do Amazon MSK provisionados

Antes de criar seu pipeline OpenSearch de ingestão, execute as seguintes etapas:

Crie um cluster provisionado do Amazon MSK seguindo as etapas em Criar um cluster no Guia do desenvolvedor do Amazon Managed Streaming para Apache Kafka. Para o tipo de corretor, escolha qualquer opção, exceto t3 os tipos, pois eles não são compatíveis com a OpenSearch ingestão.
Depois que o cluster tiver um status Ativo, siga as etapas em Ativar a conectividade de várias VPCs.

Siga as etapas em Anexar uma política de cluster ao cluster MSK para anexar uma das políticas a seguir, dependendo se o cluster e o pipeline estão na mesma Conta da AWS. Essa política permite que o OpenSearch Inestion crie uma AWS PrivateLink conexão com seu cluster Amazon MSK e leia dados de tópicos do Kafka. Lembre-se de atualizar o resource com seu próprio ARN.

As políticas a seguir se aplicam quando o cluster e o pipeline estão na mesma Conta da AWS:

Se seu cluster Amazon MSK estiver em um pipeline Conta da AWS diferente do seu pipeline, anexe a seguinte política em vez disso. Observe que o acesso entre contas é possível somente com clusters provisionados do Amazon MSK e não com clusters do Amazon MSK Serverless. O ARN do AWS principal deve ser o ARN da mesma função de pipeline que você fornece à configuração do pipeline:

Crie um tópico do Kafka seguindo as etapas em Criar um tópico. Certifique-se de que BootstrapServerString seja um dos bootstrap de endpoint privado (VPC única). URLs O valor de --replication-factor deve ser 2 ou 3, com base no número de zonas que seu cluster do Amazon MSK tem. O valor de --partitions deve ser pelo menos 10.
Produza e consuma dados seguindo as etapas em Produzir e consumir dados. Novamente, verifique se esse BootstrapServerString é um dos seus bootstrap de endpoint privado (VPC única). URLs

Pré-requisitos do Amazon MSK Serverless

Antes de criar seu pipeline OpenSearch de ingestão, execute as seguintes etapas:

Crie um cluster do Amazon MSK Serverless seguindo as etapas em Criar um cluster do MSK Serverless no Guia do desenvolvedor do Amazon Managed Streaming para Apache Kafka.

Depois que o cluster tiver um status Ativo, siga as etapas em Anexar uma política de cluster ao cluster do MSK para anexar a política a seguir. Lembre-se de atualizar o resource com seu próprio ARN.

Essa política permite que o OpenSearch Inestion crie uma AWS PrivateLink conexão com seu cluster Amazon MSK Serverless e leia dados de tópicos do Kafka. Essa política se aplica quando seu cluster e pipeline estão no mesmo lugar, o que deve ser verdade Conta da AWS, pois o Amazon MSK Serverless não oferece suporte ao acesso entre contas.

Crie um tópico do Kafka seguindo as etapas em Criar um tópico. Certifique-se de que BootstrapServerString seja um dos seus bootstrap URLs IAM de Simple Authentication and Security Layer (SASL). O valor de --replication-factor deve ser 2 ou 3, com base no número de zonas que seu cluster do Amazon MSK Serverless tem. O valor de --partitions deve ser pelo menos 10.
Produza e consuma dados seguindo as etapas em Produzir e consumir dados. Novamente, certifique-se de que esse BootstrapServerString seja um dos seus bootstrap URLs do IAM Simple Authentication and Security Layer (SASL).

Etapa 1: configurar o perfil de pipeline

Depois de configurar seu cluster provisionado ou sem servidor do Amazon MSK, adicione as seguintes permissões do Kafka na função do pipeline que você deseja usar na configuração do pipeline:

Etapa 2: Criar o pipeline

Em seguida, você pode configurar um pipeline de OpenSearch ingestão como o seguinte, que especifica o Kafka como fonte:


version: "2"
log-pipeline:
  source:
    kafka:
      acknowledgements: true
      topics:
      - name: "topic-name"
        group_id: "grouplambd-id"
      aws:
        msk:
          arn: "arn:aws:kafka:region:account-id:cluster/cluster-name/cluster-id"
        region: "us-west-2"
  processor:
  - grok:
      match:
        message:
        - "%{COMMONAPACHELOG}"
  - date:
      destination: "@timestamp"
      from_time_received: true
  sink:
  - opensearch:
      hosts: ["https://search-domain-endpoint.us-east-1es.amazonaws.com"]
      index: "index_name"
      aws_region: "region"
      aws_sigv4: true

Você pode usar um esquema do Amazon MSK pré-configurado para criar esse pipeline. Para obter mais informações, consulte Trabalhar com esquemas.

Etapa 3: (Opcional) Usar o Registro do AWS Glue Esquema

Ao usar o OpenSearch Inestion com o Amazon MSK, você pode usar o formato de dados AVRO para esquemas hospedados no Schema Registry. AWS Glue Com o registro de esquema do AWS Glue, você pode descobrir, controlar e evoluir centralmente esquemas de fluxo de dados.

Para usar essa opção, habilite o esquema type na configuração do seu pipeline:


schema:
  type: "aws_glue"

Você também deve AWS Glue fornecer permissões de acesso de leitura em sua função de funil. Você pode usar a política AWS gerenciada chamada AWSGlueSchemaRegistryReadonlyAccess. Além disso, seu registro deve estar na mesma Conta da AWS região do pipeline OpenSearch de ingestão.

Etapa 4: (Opcional) Configurar as unidades computacionais recomendadas (OCUs) para o pipeline do Amazon MSK

Cada unidade computacional tem um consumidor por tópico. Os corretores equilibram as partições entre esses consumidores para um determinado tópico. No entanto, quando o número de partições é maior que o número de consumidores, o Amazon MSK hospeda várias partições em cada consumidor. OpenSearch A ingestão tem escalonamento automático integrado para aumentar ou diminuir a escala com base no uso da CPU ou no número de registros pendentes no pipeline.

Para um desempenho ideal, distribua suas partições em várias unidades de computação para processamento paralelo. Se os tópicos tiverem um grande número de partições (por exemplo, mais de 96, que é o máximo OCUs por pipeline), recomendamos que você configure um pipeline com OCUs 1—96. Isso ocorre porque ele será escalado automaticamente conforme necessário. Se um tópico tiver um número baixo de partições (por exemplo, menos de 96), mantenha o máximo de unidades computacionais igual ao número de partições.

Quando um pipeline tiver mais de um tópico, escolha o tópico com o maior número de partições como referência para configurar o máximo de unidades computacionais. Ao adicionar outro pipeline com um novo conjunto de OCUs ao mesmo tópico e grupo de consumidores, você pode escalar a taxa de transferência quase linearmente.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Confluent Cloud Kafka

Amazon RDS