Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione

Utilizzando l'API Autopilot, gli utenti possono perfezionare modelli linguistici di grandi dimensioni (LLMs) basati su Amazon. SageMaker JumpStart

Nota

Per i modelli ottimizzati con fine-tuning che richiedono l’accettazione di un contratto di licenza con l’utente finale, è necessario dichiarare esplicitamente l’accettazione dell’EULA durante la creazione del processo AutoML. Dopo il fine-tuning di un modello preaddestrato, i pesi del modello originale cambiano, quindi non è necessario accettare successivamente un EULA quando si implementa il modello ottimizzato con fine-tuning.

Per informazioni su come accettare l’EULA durante la creazione di un processo di fine-tuning utilizzando l’API AutoML, consulta Come impostare l’accettazione dell’EULA durante il fine-tuning di un modello utilizzando l’API AutoML.

Puoi trovare i dettagli completi di ogni modello cercando il tuo Model ID nella seguente tabella dei JumpStart modelli e poi seguendo il link nella colonna Source. Questi dettagli possono includere i linguaggi supportati dal modello, i bias che può presentare, i set di dati utilizzati per il fine-tuning e altro ancora.

La tabella seguente elenca i JumpStart modelli supportati che è possibile ottimizzare con un job AutoML.

JumpStart ID del modello	`BaseModelName` in richiesta API	Description
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	Dolly 3B è un modello linguistico di grandi dimensioni che segue istruzioni da 2,8 miliardi di parametri ed è basato su pythia-2.8b. È addestrato sul set di dati di ottimizzazione instruction/response fine databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	Dolly 7B è un modello linguistico di grandi dimensioni che segue istruzioni da 6,9 miliardi di parametri ed è basato su pythia-6.9b. È addestrato sul set di dati di ottimizzazione instruction/response fine databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione e riepilogo di informazioni.
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	Dolly 12B è un modello linguistico di grandi dimensioni che segue istruzioni da 12 miliardi di parametri ed è basato su pythia-12b. È addestrato sul set di dati di ottimizzazione instruction/response fine databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione e riepilogo di informazioni.
huggingface-llm-falcon-7b-bf16	`Falcon7B`	Falcon 7B è un modello linguistico di grandi dimensioni causale da 7 miliardi di parametri ed è addestrato su 1.500 miliardi di token migliorati con corpora curati. Falcon-7B è addestrato solo su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Poiché il modello è stato addestrato su grandi quantità di dati web, include gli stereotipi e i bias comunemente presenti online.
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	Falcon 7B Instruct è un ampio modello di linguaggio causale da 7 miliardi di parametri basato su Falcon 7B e ottimizzato su una combinazione di set di dati da 250 milioni di token. chat/instruct Falcon 7B Instruct è addestrato principalmente su dati in inglese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.
huggingface-llm-falcon-40b-bf16	`Falcon40B`	Falcon 40B è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri ed è addestrato su 1.000 miliardi di token migliorati con corpora curati. È addestrato principalmente in inglese, tedesco, spagnolo e francese, con capacità limitate in italiano, portoghese, polacco, olandese, rumeno, ceco e svedese. Non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	Falcon 40B Instruct è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri basato su Falcon40B e ottimizzato con fine-tuning su una combinazione di Baize. È addestrato principalmente su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.
huggingface-text2text-flan-t5-large	`FlanT5L`	La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 L è un modello linguistico di grandi dimensioni da 780 milioni di parametri addestrato su varie lingue. Puoi trovare l'elenco delle lingue supportate da Flan T5 L nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart
huggingface-text2text-flan-t5-xl	`FlanT5XL`	La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XL è un modello linguistico di grandi dimensioni da 3 miliardi di parametri addestrato su varie lingue. Puoi trovare l'elenco delle lingue supportate da Flan T5 XL nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XXL è un modello da 11 miliardi di parametri. Puoi trovare l'elenco delle lingue supportate da Flan T5 XXL nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart
meta-textgeneration-llama-2-7b	`Llama2-7B`	Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello da 7 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale.
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello di chat da 7 miliardi di parametri ottimizzato per i casi d’uso di dialogo.
meta-textgeneration-llama-2-13b	`Llama2-13B`	Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello da 13 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale.
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello di chat da 13 miliardi di parametri ottimizzato per i casi d’uso di dialogo.
huggingface-llm-mistral-7b	`Mistral7B`	Mistral 7B è un codice da sette miliardi di parametri e un modello generico di generazione di testi in inglese. Può essere utilizzato in numerosi casi d’uso, tra cui sintesi testuale, classificazione, completamento del testo o completamento del codice.
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	Mistral 7B Instruct è la versione ottimizzata con fine-tuning di Mistral 7B per casi d’uso conversazionali. È stato specializzato utilizzando una serie di set di dati conversazionali pubblicamente disponibili in inglese.
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	MPT 7B è un modello linguistico di grandi dimensioni con trasformatore in stile decoder da 6,7 miliardi di parametri, preaddestrato da zero su 1 trilione di token di testo e codice in inglese. È predisposto per gestire lunghe sequenze di contesto.
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	MPT 7B Instruct è un modello per attività di esecuzione di istruzioni brevi. È stato realizzato eseguendo il fine-tuning di MPT 7B su un set di dati derivato da databricks-dolly-15k e dai set di dati di Anthropic Helpful and Harmless (HH-RLHF).

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creare un processo di fine-tuning LLM utilizzando l’API AutoML

Tipi di file del set di dati e formato dei dati di input