Hiperparâmetros do Word2Vec Hiperparâmetros de classificação de texto

BlazingText Hiperparâmetros

Ao iniciar um trabalho de treinamento com uma solicitação CreateTrainingJob, você especifica um algoritmo de treinamento. Também é possível especificar hiperparâmetros específicos de algoritmo como mapas de string a string. Os hiperparâmetros do BlazingText algoritmo dependem do modo usado: Word2Vec (não supervisionado) e Classificação de texto (supervisionado).

Hiperparâmetros do Word2Vec

A tabela a seguir lista os hiperparâmetros do algoritmo de treinamento BlazingText Word2Vec fornecido pela Amazon AI. SageMaker

Nome do parâmetro	Description
`mode`	A arquitetura do Word2vec usada para treinamento. Obrigatório Valores válidos: `batch_skipgram`, `skipgram` ou `cbow`
`batch_size`	O tamanho de cada lote quando `mode` está definido como `batch_skipgram`. Defina um número de 10 a 20. Opcional Valores válidos: inteiro positivo Valor padrão: 11
`buckets`	O número de buckets de hash a serem usados para subpalavras. Opcional Valores válidos: inteiro positivo Valor padrão: 2000000
`epochs`	O número de passagens completas pelos dados de treinamento. Opcional Valores válidos: inteiro positivo Valor padrão: 5
`evaluation`	Se o modelo treinado é avaliado usando o WordSimilarity-353 Teste. Opcional Valores válidos: (booleano) `True` ou `False` Valor padrão: `True`
`learning_rate`	O tamanho da etapa usado para atualizações de parâmetros. Opcional Valores válidos: flutuante positivo Valor padrão: 0.05
`min_char`	O número mínimo de caracteres a serem usados para subwords/character n-gramas. Opcional Valores válidos: inteiro positivo Valor padrão: 3
`min_count`	Palavras que aparecem menos de `min_count` vezes são descartadas. Opcional Valores válidos: Non-negative número inteiro Valor padrão: 5
`max_char`	O número máximo de caracteres a serem usados para subwords/character n-gramas Opcional Valores válidos: inteiro positivo Valor padrão: 6
`negative_samples`	O número de amostras negativas para a estratégia de compartilhamento de amostras negativas. Opcional Valores válidos: inteiro positivo Valor padrão: 5
`sampling_threshold`	O limite para a ocorrência de palavras. Palavras que aparecem com maior frequência nos dados de treinamento são amostradas aleatoriamente. Opcional Valores válidos: fração positiva. O intervalo recomendado é (0, 1e-3] Valor padrão: 0.0001
`subwords`	Se incorporações de subpalavras devem ou não ser aprendidas. Opcional Valores válidos: (booleano) `True` ou `False` Valor padrão: `False`
`vector_dim`	A dimensão dos vetores de palavra que o algoritmo aprende. Opcional Valores válidos: inteiro positivo Valor padrão: 100
`window_size`	O tamanho da janela de contexto. Janela de contexto é o número de palavras em torno da palavra de destino usada para treinamento. Opcional Valores válidos: inteiro positivo Valor padrão: 5

Hiperparâmetros de classificação de texto

A tabela a seguir lista os hiperparâmetros do algoritmo de treinamento de classificação de texto fornecido pela Amazon SageMaker AI.

nota

Embora alguns dos parâmetros sejam comuns entre os modos de Classificação de texto e Word2Vec, eles podem ter significados diferentes dependendo do contexto.

Nome do parâmetro	Description
`mode`	O modo de treinamento. Obrigatório Valores válidos: `supervised`
`buckets`	O número de buckets de hash a serem usados para n-gramas de palavras. Opcional Valores válidos: inteiro positivo Valor padrão: 2000000
`early_stopping`	Se o treinamento deve ou não ser interrompido caso a precisão de validação não melhore depois de um `patience` número de epochs. Observe que um canal de validação é obrigatório se a parada antecipada for usada. Opcional Valores válidos: (booleano) `True` ou `False` Valor padrão: `False`
`epochs`	O número máximo de passagens completas pelos dados de treinamento. Opcional Valores válidos: inteiro positivo Valor padrão: 5
`learning_rate`	O tamanho da etapa usado para atualizações de parâmetros. Opcional Valores válidos: flutuante positivo Valor padrão: 0.05
`min_count`	Palavras que aparecem menos de `min_count` vezes são descartadas. Opcional Valores válidos: Non-negative número inteiro Valor padrão: 5
`min_epochs`	O número mínimo de epochs a treinar antes que a lógica de interrupção precoce seja invocada. Opcional Valores válidos: inteiro positivo Valor padrão: 5
`patience`	O número de epochs a aguardar antes de aplicar a interrupção precoce quando nenhum progresso é feito no conjunto de validação. Usado somente quando `early_stopping` é `True`. Opcional Valores válidos: inteiro positivo Valor padrão: 4
`vector_dim`	A dimensão da camada de incorporação. Opcional Valores válidos: inteiro positivo Valor padrão: 100
`word_ngrams`	O número de recursos de n-gramas de palavras a serem usados. Opcional Valores válidos: inteiro positivo Valor padrão: 2

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

BlazingText

Ajuste de modelos