Configurar a ingestão de streaming por meio do Kafka

Conceitos básicos da ingestão de streaming de origens do Apache Kafka

Este tópico descreve como consumir dados de streaming do Amazon MSK, Apache Kafka ou Confluent Cloud usando uma visão materializada.

O objetivo da ingestão de streaming do Amazon Redshift é simplificar o processo de ingestão direta de dados de fluxo de um serviço de streaming no Amazon Redshift ou no Amazon Redshift sem servidor. Isso funciona com o Amazon MSK Provisioned e o Amazon MSK sem servidor, com o Apache Kafka de código aberto e com o Confluent Cloud. A ingestão de streaming do Amazon Redshift elimina a necessidade de preparar um tópico do Apache Kafka no Amazon S3 antes de preparar os dados de streaming no Redshift.

Em um nível técnico, a ingestão de streaming fornece ingestão de dados de fluxo ou tópico de baixa latência e alta velocidade em uma visão materializada do Amazon Redshift. Após a configuração, usando a atualização de visão materializada, você pode absorver grandes volumes de dados.

Você deve ter uma origem do Apache Kafka disponível para configurar a ingestão de streaming do Amazon Redshift. Caso você não tenha uma origem, crie uma usando as seguintes instruções:

Amazon MSK: Getting Started Using Amazon MSK
Apache Kafka: Apache Kafka Quickstart
Confluent Cloud: Quick Start for Confluent Cloud

Configurar a ingestão de streaming por meio do Kafka

Use os procedimentos a seguir para configurar a ingestão de streaming para o Amazon Redshift usando origens do Amazon MSK ou do Apache Kafka que não são gerenciadas pela AWS (Apache Kafka e Confluent Cloud).

Configurar a autenticação

Esta seção descreve a configuração da autenticação para permitir que aplicação do Amazon Redshift acesse uma origem do Amazon MSK.

Depois de criar o perfil da aplicação, anexe uma das políticas a seguir para permitir o acesso ao cluster do Amazon MSK, do Apache Kafka ou do Confluent Cloud. No caso da autenticação mTLS, você pode armazenar os certificados que o Amazon Redshift usa no ACM ou no Secrets Manager; portanto, você deve escolher a política que corresponde ao local onde o certificado está armazenado.

Observe que não é possível usar certificados autoassinados com autenticação ou dados em trânsito quando você usa a ingestão direta de streaming no Amazon Redshift com qualquer uma das fontes de streaming compatíveis do Apache Kafka. Isso inclui o Amazon MSK, o Apache Kafka e o Confluent Cloud. Considere a possibilidade de usar certificados gerados com o AWS Certificate Manager ou qualquer outra autoridade de certificação pública confiável.

É possível usar a autenticação do IAM para o Amazon Redshift com o MSK somente com o Kafka versão 2.7.1 ou posterior.

AUTHENTICATION IAM (somente Amazon MSK):

AUTHENTICATION MTLS: usando um certificado armazenado em AWS Certificate Manager

AUTHENTICATION MTLS: usando um certificado armazenado em AWS Secrets Manager

Amazon MSK

Se você usar AUTHENTICATION NONE para se conectar a uma origem do Amazon MSK, nenhum perfil do IAM será necessário. No entanto, se você usar AUTHENTICATION IAM ou mTLS para se autenticar em seu cluster do Amazon MSK, seu cluster do Amazon Redshift ou namespace do Amazon Redshift sem servidor deverá ter um perfil do IAM anexado com as permissões apropriadas. Crie um perfil do IAM com uma política de confiança que permita que o cluster do Amazon Redshift ou o namespace do Amazon Redshift sem servidor assuma o perfil. Depois de criar o perfil, adicione uma das permissões a seguir para oferecer suporte ao IAM ou ao mTLS. No caso da autenticação mTLS, os certificados que o Amazon Redshift usa podem ser armazenados no AWS Certificate Manager ou no AWS Secrets Manager; portanto, você deve escolher a política que corresponda ao local em que o certificado está armazenado. Anexe o perfil ao cluster provisionado pelo Amazon Redshift ou ao namespace do Redshift sem servidor. Para obter informações sobre como configurar a política de confiança da função do IAM, consulte Autorização do Amazon Redshift para acessar outros serviços da AWS em seu nome.

A seguinte tabela mostra as opções de configuração complementares a serem definidas para a ingestão de streaming do Amazon MSK:

Configuração do Amazon Redshift	Configuração do Amazon MSK	Porta a ser aberta entre o Redshift e o Amazon MSK
AUTHENTICATION NONE	Transporte TLS desabilitado	9092
AUTHENTICATION NONE	Transporte TLS habilitado	9094
AUTHENTICATION IAM	IAM	9098/9198
AUTHENTICATION MTLS	Transporte TLS habilitado	9094

A autenticação do Amazon Redshift é definida na instrução CREATE EXTERNAL SCHEMA.

nota

Quando o cluster do Amazon MSK tiver a autenticação Mutual Transport Layer Security (mTLS) habilitada, a configuração do Amazon Redshift para usar AUTHENTICATION NONE o direcionará a usar a porta 9094 para acesso não autenticado. No entanto, isso apresentará falha, já que a porta está sendo usada pela autenticação mTLS. Por isso, recomendamos que você mude para AUTHENTICATION IAM ao usar mTLS.

Apache Kafka or Confluent Cloud

Para Apache Kafka e Confluent Cloud, o Amazon Redshift é com os seguintes protocolos de conexão:

Você pode usar mTLS ou texto simples com transporte TLS para autenticação ao se conectar ao Apache Kafka.
Você só pode usar mTLS para autenticação ao se conectar ao Confluent Cloud.

O Amazon Redshift é compatível com os seguintes protocolos de criptografia para conexão ao Apache Kafka ou ao Confluent Cloud:

Métodos de autenticação compatíveis do Apache Kafka e Confluent Cloud

Amazon Redshift	Protocolo de segurança do Kafka	Suporte do Apache Kafka	Suporte do Confluent Cloud
AUTHENTICATION NONE	PLAINTEXT	Não	Não
AUTHENTICATION NONE	SSL	Sim	Não
AUTHENTICATION IAM	SASL_SSL	Não	Não
AUTHENTICATION MTLS	SSL	Sim (com certificado)	Sim (com certificado)

O Amazon Redshift não é compatível com SASL/SCRAM ou SASL/PLAINTEXT.

Configurar a VPC

Depois de criar os recursos de autenticação, verifique a VPC e se o cluster do Amazon Redshift ou grupo de trabalho do Amazon Redshift sem servidor tem uma rota para chegar à origem do Apache Kafka.

nota

No caso do Amazon MSK, as regras do grupo de segurança de entrada para o cluster do Amazon MSK devem dar permissão ao grupo de segurança do cluster do Amazon Redshift ou ao grupo de trabalho do Redshift sem servidor. As portas que você especifica dependem dos métodos de autenticação usados em seu cluster, caso use o Amazon MSK. Para obter mais informações, consulte Informações sobre portas e Acesso de dentro da AWS, mas de fora da VPC.

Em seguida, habilite o roteamento de VPC avançado no cluster do Amazon Redshift ou no grupo de trabalho do Amazon Redshift sem servidor. Para obter mais informações, consulte Habilitar o roteamento aprimorado de VPC.

Criar uma visão materializada

Nesta seção, você configura a visão materializada que o Amazon Redshift usa para acessar os dados de streaming do Apache Kafka.

Supondo que você tenha um cluster do Apache Kafka disponível, o primeiro passo é definir um esquema no Redshift com CREATE EXTERNAL SCHEMA e fazer referência ao cluster como a fonte de dados. Depois disso, para acessar dados no tópico, defina STREAM em uma visão materializada. Você pode armazenar registros de seu tópico usando o tipo de dados VARBYTE padrão do Amazon Redshift ou definir um esquema que converta os dados no formato SUPER semiestruturado. Quando você consulta a visão materializada, os registros retornados são uma exibição pontual do tópico.

No Amazon Redshift, crie um esquema externo para associá-lo ao cluster do Apache Kafka. A sintaxe é a seguinte:
```
CREATE EXTERNAL SCHEMA MySchema
FROM KAFKA
[ IAM_ROLE [ default | 'iam-role-arn' ] ]
AUTHENTICATION [ none | iam | mtls ]
{AUTHENTICATION_ARN 'acm-certificate-arn' |  SECRET_ARN 'asm-secret-arn'};
```
Na cláusula FROM, o KAFKA indica que o esquema mapeia dados de uma origem do Apache Kafka.

AUTHENTICATION denota o tipo de autenticação para ingestão de streaming. Existem três modos disponíveis:
- none: especifica que não há nenhuma etapa obrigatória. Isso corresponde ao acesso não autenticado no MSK. Isso corresponde à autenticação SSL no Apache Kafka. Esse método de autenticação não é compatível com o Confluent Cloud.
- iam: especifica a autenticação do IAM. Você só pode usar a autenticação do IAM com o Amazon MSK. Ao escolher isso, o perfil do IAM tem permissões para autenticação do IAM. Para ter mais informações sobre como configurar as políticas do IAM necessárias, consulte Configurar a ingestão de streaming por meio do Kafka.
- mtls: especifica que a segurança da camada de transporte mútuo oferece comunicação segura ao facilitar a autenticação entre um cliente e um servidor. Neste caso, o cliente é o Redshift e o servidor é o Apache Kafka. Para ter mais informações sobre como configurar a ingestão de streaming com mTLS, consulte Autenticação com mTLS para ingestão de streaming do Redshift por meio de origens do Apache Kafka.
A autenticação do Amazon MSK com nome de usuário e senha não permite ingestão de streaming.

O parâmetro AUTHENTICATION_ARN especifica o ARN do certificado Transport Layer Security mútuo (mTLS) do ACM que você usa para estabelecer uma conexão criptografada.

O parâmetro SECRET_ARN especifica o ARN do segredo do AWS Secrets Manager que contém o certificado a ser usado pelo Amazon Redshift para mTLS.

Os seguintes exemplos mostram como definir o URI do agente para o cluster do Amazon MSK ao criar o esquema externo:

Usar a autenticação do IAM:
```
CREATE EXTERNAL SCHEMA my_schema
FROM KAFKA
IAM_ROLE 'arn:aws:iam::012345678901:role/my_role'
AUTHENTICATION IAM
URI 'b-1.myTestCluster.123z8u.c2.kafka.us-west-1.amazonaws.com:9098,b-2.myTestCluster.123z8u.c2.kafka.us-west-1.amazonaws.com:9098'
```
Sem usar autenticação:
```
CREATE EXTERNAL SCHEMA my_schema
FROM KAFKA 
AUTHENTICATION none
URI 'b-1.myTestCluster.123z8u.c2.kafka.us-west-1.amazonaws.com:9092,b-2.myTestCluster.123z8u.c2.kafka.us-west-1.amazonaws.com:9092'
```
Usar o mTLS:
```
CREATE EXTERNAL SCHEMA my_schema
FROM KAFKA
IAM_ROLE 'arn:aws:iam::012345678901:role/my_role'
AUTHENTICATION MTLS
URI 'b-1.myTestCluster.123z8u.c2.kafka.us-west-1.amazonaws.com:9094,b- 2.myTestCluster.123z8u.c2.kafka.us-west-1.amazonaws.com:9094'
{AUTHENTICATION_ARN 'acm-certificate-arn' |  SECRET_ARN 'asm-secret-arn'}
```
Consulte mais informações sobre como criar um esquema externo em CREATE EXTERNAL SCHEMA.
Crie uma visão materializada para consumir os dados do tópico. Use um comando SQL como o exemplo a seguir.
```
CREATE MATERIALIZED VIEW MyView AUTO REFRESH YES AS
SELECT *
FROM MySchema."mytopic";
```
Nomes de tópico do Kafka diferenciam letras maiúsculas e minúsculas, podendo conter ambas. Para ingerir tópicos com nomes em letras maiúsculas, é possível definir a configuração enable_case_sensitive_identifier como true no nível da sessão ou do banco de dados. Para obter mais informações, consulte Nomes e identificadores e enable_case_sensitive_identifier.

Para ativar a atualização automática, use AUTO REFRESH YES. O comportamento padrão é atualização manual.

As colunas de metadados incluem o seguinte:

Coluna de metadados	Tipo de dados	Descrição
kafka_partition	bigint	ID de partição do registro do tópico do Kafka
kafka_offset	bigint	Deslocamento do registro no tópico do Kafka para determinada partição
kafka_timestamp_type	char(1)	Tipo de time stamp usado no registro do Kafka: C: hora de criação do registro (CREATE_TIME) no lado do cliente L: hora de inclusão do registro (LOG_APPEND_TIME) no lado do servidor do Kafka U: a hora de criação do registro não está disponível (NO_TIMESTAMP_TYPE)
kafka_timestamp	time stamp sem fuso horário	O valor do time stamp para o registro
kafka_key	varbyte	A chave do registro do Kafka
kafka_value	varbyte	O registro recebido do Kafka
kafka_headers	super	O cabeçalho do registro recebido do Kafka
refresh_time	time stamp sem fuso horário	A hora de início da atualização

É importante observar que, se você tiver uma lógica de negócios na definição de visão materializada, isso pode gerar falhas na ingestão de streaming em alguns casos. Isso pode fazer com que você precise descartar e recriar a visão materializada. Para evitar isso, recomendamos manter a simplicidade da lógica de negócios e executar lógica adicional nos dados após a ingestão.

Atualize a visão, o que invoca o Amazon Redshift para ler o tópico e carregar dados na visão materializada.
```
REFRESH MATERIALIZED VIEW MyView;
```
Consulte dados na exibição materializada.
```
select * from MyView;
```
A visão materializada é atualizada diretamente do tópico quando REFRESH é executada. Você cria uma visão materializada que mapeia à fonte de dados do tópico do Kafka. Você pode executar filtragem e agregações nos dados como parte da definição de visão materializada. Sua visão materializada de ingestão de streaming (a visão materializada de base) pode fazer referência a apenas um tópico do Kafka, mas você pode criar visões materializadas adicionais que se unam à visão materializada de base e com outras visões materializadas ou tabelas.

Para obter mais informações sobre as limitações da ingestão de streaming, consulte Comportamento de ingestão de streaming e tipos de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conceitos básicos da ingestão de streaming do Amazon Kinesis Data Streams

Autenticação com mTLS para ingestão de streaming do Redshift por meio do Apache Kafka