

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Passo a passo do relatório de criação de perfil do Debugger
<a name="debugger-profiling-report-walkthrough"></a>

Esta seção o orienta no relatório de criação de perfil do Depurador, seção por seção. O relatório de criação de perfil é gerado baseado nas regras integradas para monitoramento e criação de perfil. O relatório mostra gráficos de resultados somente para as regras que encontraram problemas.

**Importante**  
No relatório, os gráficos e as recomendações são fornecidos para fins informativos e não são definitivos. Você é responsável por fazer sua própria avaliação independente das informações.

**Topics**
+ [Resumo do trabalho de treinamento](#debugger-profiling-report-walkthrough-summary)
+ [Estatísticas de uso do sistema](#debugger-profiling-report-walkthrough-system-usage)
+ [Resumo das métricas do framework](#debugger-profiling-report-walkthrough-framework-metrics)
+ [Resumo das regras](#debugger-profiling-report-walkthrough-rules-summary)
+ [Analisando o ciclo de treinamento: durações das etapas](#debugger-profiling-report-walkthrough-step-durations)
+ [Análise de utilização da GPU](#debugger-profiling-report-walkthrough-gpu-utilization)
+ [Tamanho do lote](#debugger-profiling-report-walkthrough-batch-size)
+ [Problemas com a CPU](#debugger-profiling-report-walkthrough-cpu-bottlenecks)
+ [I/O gargalos](#debugger-profiling-report-walkthrough-io-bottlenecks)
+ [Balanceamento de carga no treinamento com várias GPUs](#debugger-profiling-report-walkthrough-workload-balancing)
+ [Análise de memória da GPU](#debugger-profiling-report-walkthrough-gpu-memory)

## Resumo do trabalho de treinamento
<a name="debugger-profiling-report-walkthrough-summary"></a>

No início do relatório, o Debugger fornece um resumo do seu trabalho de treinamento. Nesta seção, você pode ter uma visão geral das durações e dos registros de data e hora em diferentes fases do treinamento.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-summary.gif)


A tabela do resumo contém as seguintes informações:
+ **start\_time: A hora** exata em que o trabalho de treinamento começou.
+ **end\_time: A hora** exata em que o trabalho de treinamento foi concluído.
+ **job\_duration\_in\_seconds**: O tempo total de treinamento do **horário\_inicial** até o **horário\_final**.
+ **training\_loop\_start**: A hora exata em que a primeira etapa da primeira época começou.
+ **training\_loop\_start**: A hora exata em que a primeira etapa da primeira época começou.
+ **training\_loop\_duration\_in\_seconds**: O tempo total entre a hora de início do ciclo de treinamento e a hora de término do ciclo de treinamento.
+ **initialization\_in\_seconds**: Tempo gasto na inicialização do trabalho de treinamento. A fase de inicialização abrange o período entre o **start\_time** e o **training\_loop\_start time**. O tempo de inicialização é gasto na compilação do script de treinamento, na inicialização do script de treinamento, na criação e na inicialização do modelo, na inicialização de instâncias do EC2 e no download dos dados de treinamento.
+ **finalization\_in\_seconds**: Tempo gasto na finalização do trabalho de treinamento, como finalizar o treinamento do modelo, atualizar os artefatos do modelo e fechar as instâncias do EC2. A fase de finalização abrange o período desde o momento **training\_loop\_end** ao **end\_time**.
+ **inicialização (%)**: A porcentagem de tempo gasto na **inicialização** sobre o total de **job\_duration\_in\_seconds**. 
+ **ciclo de treinamento (%)**: A porcentagem de tempo gasto no **ciclo de treinamento** sobre o total de **job\_duration\_in\_seconds.**
+ **finalização (%)**: A porcentagem de tempo gasto na **finalização** sobre o total de **job\_duration\_in\_seconds.**

## Estatísticas de uso do sistema
<a name="debugger-profiling-report-walkthrough-system-usage"></a>

Nesta seção, você pode ver uma visão geral das estatísticas de utilização do sistema.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-system-usage.png)


O relatório de criação de perfil inclui as seguintes informações:
+ **nó**: Lista o nome dos nós. Se estiver usando treinamento distribuído em vários nós (várias instâncias do EC2), os nomes dos nós estão no formato de. `algo-n`
+ **métrica** — As métricas do sistema coletadas pelo Debugger: CPU, GPU, memória da CPU, memória da GPU e métricas de rede. I/O
+ **unidade**: A unidade das métricas do sistema.
+ **max**: O valor máximo de cada métrica do sistema.
+ **p99**: O 99º percentil de cada utilização do sistema.
+ **p95**: O 95º percentil de cada utilização do sistema.
+ **p50**: O 50º percentil (médio) de cada utilização do sistema.
+ **min**: O valor mínimo de cada métrica do sistema.

## Resumo das métricas do framework
<a name="debugger-profiling-report-walkthrough-framework-metrics"></a>

Nesta seção, os gráficos circulares a seguir mostram o detalhamento das operações da framework em CPUs e GPUs.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-framework-metrics-summary.gif)


Cada um dos gráficos circulares analisa as métricas da framework coletadas em vários aspectos, da seguinte forma:
+ **Proporção entre TRAIN/EVAL fases e outras** — Mostra a proporção entre as durações de tempo gastas em diferentes fases de treinamento.
+ **Razão entre passe para frente e para trás**: Mostra a proporção entre as durações de tempo gastas no passe para frente e para trás no ciclo de treinamento.
+ **Proporção entre CPU/GPU operadores** — Mostra a proporção entre o tempo gasto em operadores que executam em CPU ou GPU, como operadores convolucionais.
+ **Métricas gerais registradas na framework**: Mostra a proporção entre o tempo gasto nas principais métricas da framework, como carregamento de dados, avanço e retrocesso.

### Visão geral: operadores de CPU
<a name="debugger-profiling-report-walkthrough-cpu-operators"></a>

Esta seção fornece informações detalhadas sobre os operadores da CPU. A tabela mostra a porcentagem do tempo e o tempo cumulativo absoluto gasto nos operadores de CPU mais frequentemente chamados.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-framework-cpu-operators.gif)


### Visão geral: operadores de GPU
<a name="debugger-profiling-report-walkthrough-gpu-operators"></a>

Esta seção fornece informações detalhadas sobre os operadores de GPU. A tabela mostra a porcentagem de tempo e o tempo acumulado absoluto gasto nos operadores de GPU chamados com mais frequência.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-framework-gpu-operators.gif)


## Resumo das regras
<a name="debugger-profiling-report-walkthrough-rules-summary"></a>

Nesta seção, o Debugger agrega todos os resultados da avaliação de regras, análises, descrições de regras e sugestões.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-rules-summary.png)


## Analisando o ciclo de treinamento: durações das etapas
<a name="debugger-profiling-report-walkthrough-step-durations"></a>

Nesta seção, você pode encontrar estatísticas detalhadas das durações das etapas em cada núcleo da GPU de cada nó. O depurador avalia valores médios, máximos, p99, p95, p50 e mínimos das durações das etapas e avalia os valores discrepantes das etapas. O histograma a seguir mostra as durações das etapas capturadas em diferentes nós de processamento e GPUs. Você pode ativar ou desativar o histograma de cada operador escolhendo as legendas do lado direito. Você pode verificar se há uma GPU específica que está causando valores atípicos na duração da etapa.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-framework-step-duration.gif)


## Análise de utilização da GPU
<a name="debugger-profiling-report-walkthrough-gpu-utilization"></a>

Esta seção mostra as estatísticas detalhadas sobre a utilização do núcleo da GPU baseado na regra LowGPUUtilization. Também resume as estatísticas de utilização da GPU, média, p95 e p5 para determinar se o trabalho de treinamento está subutilizando GPUs.

## Tamanho do lote
<a name="debugger-profiling-report-walkthrough-batch-size"></a>

Esta seção mostra as estatísticas detalhadas da utilização total da CPU, das utilizações individuais da GPU e da área ocupada pela memória da GPU. A BatchSize regra determina se você precisa alterar o tamanho do lote para melhor utilizar as GPUs. Você pode verificar se o tamanho do lote é muito pequeno, resultando em subutilização, ou muito grande, causando superutilização e problemas de falta de memória. No gráfico, as caixas mostram os intervalos percentuais p25 e p75 (preenchidos com roxo escuro e amarelo brilhante, respectivamente) da mediana (p50), e as barras de erro mostram o percentil 5 para o limite inferior e o percentil 95 para o limite superior.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-batch-size.png)


## Problemas com a CPU
<a name="debugger-profiling-report-walkthrough-cpu-bottlenecks"></a>

Nesta seção, você pode detalhar os problemas com a CPU que a regra CPUBottleneck detectou em seu trabalho de treinamento. A regra verifica se a utilização da CPU está acima `cpu_threshold` (90% por padrão) e também se a utilização da GPU está abaixo `gpu_threshold` (10% por padrão).

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-cpu-bottlenecks.png)


Os gráficos circulares mostram as seguintes informações:
+ **Baixo uso da GPU causado por gargalos da CPU**: Mostra a proporção de pontos de dados entre aqueles com utilização da GPU acima e abaixo do limite e aqueles que correspondem aos critérios de gargalo da CPU.
+ **Proporção entre TRAIN/EVAL fases e outras** — Mostra a proporção entre as durações de tempo gastas em diferentes fases de treinamento.
+ **Razão entre passe para frente e para trás**: Mostra a proporção entre as durações de tempo gastas no passe para frente e para trás no ciclo de treinamento.
+ **Proporção entre CPU/GPU operadores** — Mostra a proporção entre as durações de tempo gastas em GPUs e CPUs por operadores Python, como processos de carregamento de dados e operadores de passagem para frente e para trás.
+ **Métricas gerais registradas na estrutura**: Mostra as principais métricas da estrutura e a proporção entre as durações de tempo gastas nas métricas.

## I/O gargalos
<a name="debugger-profiling-report-walkthrough-io-bottlenecks"></a>

Nesta seção, você pode encontrar um resumo dos I/O gargalos. A regra avalia o tempo de I/O espera e as taxas de utilização da GPU e monitora se o tempo gasto nas I/O solicitações excede uma porcentagem limite do tempo total de treinamento. Isso pode indicar I/O gargalos em que as GPUs aguardam a chegada dos dados do armazenamento.

## Balanceamento de carga no treinamento com várias GPUs
<a name="debugger-profiling-report-walkthrough-workload-balancing"></a>

Nesta seção, você pode identificar problemas de balanceamento da workload nas  GPUs. 

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-workload-balancing.gif)


## Análise de memória da GPU
<a name="debugger-profiling-report-walkthrough-gpu-memory"></a>

Nesta seção, você pode analisar a utilização da memória da GPU coletada pela GPUMemoryIncrease regra. No gráfico, as caixas mostram os intervalos percentuais p25 e p75 (preenchidos com roxo escuro e amarelo brilhante, respectivamente) da mediana (p50), e as barras de erro mostram o percentil 5 para o limite inferior e o percentil 95 para o limite superior.

![Um exemplo do relatório de criação de perfil do Debugger](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/debugger/debugger-profiling-report-gpu-memory-utilization.png)
