View a markdown version of this page

Gerenciamento de logs de trabalhos de streaming - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Gerenciamento de logs de trabalhos de streaming

Os trabalhos de streaming oferecem suporte à alternância de logs de aplicações e eventos do Spark, bem com à compactação de logs de eventos do Spark. Isso ajuda você a gerenciar seus recursos de forma eficaz.

Alternância de logs

Os trabalhos de streaming oferecem suporte à alternância de logs de aplicações e eventos do Spark. A alternância de logs impede que trabalhos de streaming longos gerem grandes arquivos de log que podem ocupar todo o espaço disponível em disco. A alternância de logs ajuda a economizar armazenamento em disco e evita falhas no trabalho devido ao pouco espaço em disco. Para obter mais informações, consulte Alternar logs.

Compactação de logs

Os trabalhos de streaming também oferecem suporte à compactação de logs de eventos do Spark sempre que o registro em log gerenciado estiver disponível. Para obter mais detalhes sobre o registro em log gerenciado, consulte Log com armazenamento gerenciado. Os trabalhos de streaming podem ser executados por um longo tempo, e a quantidade de dados de eventos pode se acumular com o tempo e aumentar significativamente o tamanho dos arquivos de log. O servidor de histórico do Spark lê e carrega esses eventos na memória para a interface do usuário da aplicação do Spark. Esse processo pode causar altas latências e custos, especialmente se os logs de eventos armazenados no Amazon S3 forem muito grandes.

A compactação de logs reduz o tamanho do log de eventos, então o servidor de histórico do Spark não precisa carregar mais de 1 GB de logs de eventos a qualquer momento. Para obter informações, consulte Monitoring and Instrumentation na documentação do Apache Spark.