

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Modo multirrótulo
<a name="prep-classifier-data-multi-label"></a>

No modo multirrótulo, as classes individuais representam categorias diferentes que não são mutuamente exclusivas. A classificação multirrótulo atribui uma ou mais classes a cada documento. Por exemplo, você pode classificar um filme como documentário e outro filme como ficção científica, ação e comédia. 

Para treinamento, o modo multirrótulo suporta até 1 milhão de exemplos contendo até 100 classes exclusivas.

**Topics**
+ [Modelos de texto sem formatação](#prep-multi-label-plaintext)
+ [Modelos de documento originais](#prep-multi-label-structured)

## Modelos de texto sem formatação
<a name="prep-multi-label-plaintext"></a>

Para treinar um modelo de texto simples, você pode fornecer dados de treinamento rotulados como um arquivo CSV ou como um arquivo de manifesto aumentado do AI Ground Truth. SageMaker 

### Arquivo CSV
<a name="prep-multi-label-plaintext-csv"></a>

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte [Arquivos CSV](prep-class-data-format.md#prep-data-csv).

Forneça os dados de treinamento como um arquivo CSV de duas colunas. Para cada linha, a primeira coluna contém os valores do rótulo da classe e a segunda coluna contém um exemplo de documento de texto para essas classes. Para inserir mais de uma classe na primeira coluna, use um delimitador (como \$1) entre cada classe.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar gêneros em resumos de filmes:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

O delimitador padrão entre os nomes das classes é uma barra vertical, também chamada de pipe (\$1). No entanto, é possível usar um caractere diferente como um delimitador. O delimitador deve ser diferente de todos os caracteres nos nomes de suas classes. Por exemplo, se suas classes são CLASSE\$11, CLASSE\$12 e CLASSE\$13, o sublinhado (**\$1**) faz parte do nome da classe. Portanto, não use um sublinhado como delimitador para separar os nomes das classes.

### Arquivo de manifesto aumentado
<a name="prep-multi-label-plaintext-manifest"></a>

Para informações gerais sobre o uso de arquivos de manifesto aumentados para treinar classificadores, consulte [Arquivo de manifesto aumentado](prep-class-data-format.md#prep-data-annotations).

Para documentos de texto sem formatação, cada linha do arquivo de manifesto aumentado é um objeto JSON completo. Ele contém um documento de treinamento, nomes de classes e outros metadados do Ground Truth. O exemplo a seguir é um arquivo de manifesto aumentado para treinar um classificador personalizado a fim de detectar gêneros em resumos de filmes:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 O exemplo a seguir mostra um objeto JSON do arquivo de manifesto aumentado, formatado para facilitar a leitura: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

Neste exemplo, o atributo `source` fornece o texto do documento de treinamento e o atributo `MultiLabelJob` atribui os índices de várias classes de uma lista de classificação. O nome da tarefa nos metadados do `MultiLabelJob` é o nome que você definiu para a tarefa de rotulagem no Ground Truth. 

## Modelos de documento originais
<a name="prep-multi-label-structured"></a>

Um modelo de documento nativo é um modelo que você treina com documentos nativos (como PDF, DOCX e arquivos de imagem). Você fornece dados de treinamento rotulados como um arquivo CSV.

### Arquivo CSV
<a name="prep-multi-label-structured-csv"></a>

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte [Arquivos CSV](prep-class-data-format.md#prep-data-csv).

Forneça os dados de treinamento como um arquivo CSV de três colunas. Para cada linha, a primeira coluna contém os valores do rótulo da classe. A segunda coluna contém o nome do arquivo de um documento de exemplo para essas classes. A terceira coluna contém o número da página. O número da página é opcional se o documento de exemplo for uma imagem.

Para inserir mais de uma classe na primeira coluna, use um delimitador (como \$1) entre cada classe.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar gêneros em resumos de filmes. A página 2 do arquivo PDF contém o exemplo de um comedy/teen filme.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

O delimitador padrão entre os nomes das classes é uma barra vertical, também chamada de pipe (\$1). No entanto, é possível usar um caractere diferente como um delimitador. O delimitador deve ser diferente de todos os caracteres nos nomes de suas classes. Por exemplo, se suas classes são CLASSE\$11, CLASSE\$12 e CLASSE\$13, o sublinhado (**\$1**) faz parte do nome da classe. Portanto, não use um sublinhado como delimitador para separar os nomes das classes.