Crie um trabalho de AutoML para classificação de texto com a API - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie um trabalho de AutoML para classificação de texto com a API

As instruções a seguir mostram como criar um trabalho do Amazon SageMaker Autopilot como um experimento piloto para tipos de problemas de classificação de texto usando a Referência da API do SageMaker.

nota

Tarefas como classificação de texto e imagem, previsão de séries temporais e ajuste de grandes modelos de linguagem estão disponíveis exclusivamente na versão 2 da API REST do AutoML. Se sua linguagem preferida for Python, você pode consultar diretamente o AWS SDK para Python (Boto3) ou o objeto AutoMLV2 do Amazon SageMaker Python SDK.

Os usuários que preferem a conveniência de uma interface de usuário podem usar o Amazon SageMaker Canvas para acessar modelos pré-treinados, modelos de base de IA generativa ou criar modelos personalizados para necessidades específicas de texto, classificação de imagens, previsão ou de IA generativa.

Você pode criar programaticamente um experimento de classificação de texto do Autopilot chamando a ação da API CreateAutoMLJobV2 em qualquer linguagem compatível com o Amazon SageMaker Autopilot ou o AWS CLI.

Para obter informações sobre como essa ação da API se traduz em uma função no idioma de sua escolha, consulte a seção Consulte também de CreateAutoMLJobV2 e escolha um SDK. Como exemplo, para usuários do Python, veja a sintaxe completa da solicitação de create_auto_ml_job_v2 em AWS SDK para Python (Boto3).

Veja a seguir uma coleção de parâmetros de solicitação de entrada obrigatórios e opcionais para a ação da API CreateAutoMLJobV2 usada na classificação de texto.

Parâmetros necessários

Ao chamar CreateAutoMLJobV2, a fim de criar um experimento de Autopilot para classificação de texto, forneça os seguintes valores:

Todos os outros parâmetros são opcionais.

Parâmetros opcionais

As seções a seguir fornecem detalhes de alguns parâmetros opcionais que você pode passar para o seu trabalho AutoML de classificação de texto.

Você pode fornecer seu próprio conjunto de dados da validação e taxa de divisão de dados personalizada, ou deixar o Autopilot dividir o conjunto de dados automaticamente.

Cada objeto AutoMLJobChannel (consulte o parâmetro obrigatório AutoMLJobInputDataConfig) tem um ChannelType, que pode ser definido como um training ou validation valores que especificam como os dados devem ser usados ao criar um modelo de machine learning.

Pelo menos uma fonte de dados deve ser fornecida e no máximo duas fontes de dados são permitidas: uma para dados de treinamento e outra para dados de validação. A forma como você divide os dados em conjuntos de dados de treinamento e validação depende de você ter uma ou duas fontes de dados.

A forma como você divide os dados em conjuntos de dados de treinamento e validação depende de você ter uma ou duas fontes de dados.

  • Se você tiver apenas uma fonte de dados, a será ChannelType definida como training padrão e deverá ter esse valor.

    • Se o valor ValidationFraction em AutoMLDataSplitConfig não estiver definido, 0,2 (20%) dos dados dessa fonte serão usados para a validação por padrão.

    • Se ValidationFraction for definido como um valor entre 0 e 1, o conjunto de dados será dividido com base no valor especificado, em que o valor especifica a fração do conjunto de dados usada para validação.

  • Se você tiver duas fontes de dados, a ChannelType de um dos objetos AutoMLJobChannel deverá ser definida como training, o valor padrão. A ChannelType da outra fonte de dados deve ser definida como validation. As duas fontes de dados devem ter o mesmo formato, CSV ou Parquet, e o mesmo esquema. Nesse caso, você não deve definir o valor para o ValidationFraction porque todos os dados de cada fonte são usados para treinamento ou validação. Definir esse valor causa um erro.

Para habilitar a implantação automática para o melhor candidato a modelo de um trabalho do AutoML, inclua um ModelDeployConfig na solicitação de trabalho do AutoML. Isso permitirá a implantação do melhor modelo em um endpoint do SageMaker AI. Abaixo estão as configurações disponíveis para personalização.