Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modelli linguistici di grandi dimensioni supportati per l'ottimizzazione

Utilizzando l'API Autopilot, gli utenti possono perfezionare modelli linguistici di grandi dimensioni (LLMs) basati su Amazon. SageMaker JumpStart

Nota

Per i modelli ottimizzati con fine-tuning che richiedono l’accettazione di un contratto di licenza con l’utente finale, è necessario dichiarare esplicitamente l’accettazione dell’EULA durante la creazione del processo AutoML. Dopo il fine-tuning di un modello preaddestrato, i pesi del modello originale cambiano, quindi non è necessario accettare successivamente un EULA quando si implementa il modello ottimizzato con fine-tuning.

Per informazioni su come accettare l’EULA durante la creazione di un processo di fine-tuning utilizzando l’API AutoML, consulta Come impostare l’accettazione dell’EULA durante il fine-tuning di un modello utilizzando l’API AutoML.

Puoi trovare i dettagli completi di ogni modello cercando il tuo Model ID nella seguente tabella dei JumpStart modelli e poi seguendo il link nella colonna Source. Questi dettagli possono includere i linguaggi supportati dal modello, i bias che può presentare, i set di dati utilizzati per il fine-tuning e altro ancora.

La tabella seguente elenca i JumpStart modelli supportati che è possibile ottimizzare con un job AutoML.

JumpStart ID del modello BaseModelName in richiesta API Description
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B è un modello linguistico di grandi dimensioni che segue istruzioni da 2,8 miliardi di parametri ed è basato su pythia-2.8b. È addestrato sul set di dati di ottimizzazione instruction/response fine databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione di informazioni e riepilogo.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B è un modello linguistico di grandi dimensioni che segue istruzioni da 6,9 miliardi di parametri ed è basato su pythia-6.9b. È addestrato sul set di dati di ottimizzazione instruction/response fine databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione e riepilogo di informazioni.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B è un modello linguistico di grandi dimensioni che segue istruzioni da 12 miliardi di parametri ed è basato su pythia-12b. È addestrato sul set di dati di ottimizzazione instruction/response fine databricks-dolly-15k e può eseguire attività tra cui brainstorming, classificazione, domande e risposte, generazione di testo, estrazione e riepilogo di informazioni.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B è un modello linguistico di grandi dimensioni causale da 7 miliardi di parametri ed è addestrato su 1.500 miliardi di token migliorati con corpora curati. Falcon-7B è addestrato solo su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Poiché il modello è stato addestrato su grandi quantità di dati web, include gli stereotipi e i bias comunemente presenti online.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct è un ampio modello di linguaggio causale da 7 miliardi di parametri basato su Falcon 7B e ottimizzato su una combinazione di set di dati da 250 milioni di token. chat/instruct Falcon 7B Instruct è addestrato principalmente su dati in inglese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri ed è addestrato su 1.000 miliardi di token migliorati con corpora curati. È addestrato principalmente in inglese, tedesco, spagnolo e francese, con capacità limitate in italiano, portoghese, polacco, olandese, rumeno, ceco e svedese. Non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct è un modello linguistico di grandi dimensioni causale da 40 miliardi di parametri basato su Falcon40B e ottimizzato con fine-tuning su una combinazione di Baize. È addestrato principalmente su dati in inglese e francese e non si generalizza in modo appropriato ad altre lingue. Inoltre, essendo addestrato su corpora su vasta scala rappresentativi del web, include gli stereotipi e i bias comunemente presenti online.

huggingface-text2text-flan-t5-large FlanT5L

La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 L è un modello linguistico di grandi dimensioni da 780 milioni di parametri addestrato su varie lingue. Puoi trovare l'elenco delle lingue supportate da Flan T5 L nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart

huggingface-text2text-flan-t5-xl FlanT5XL

La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XL è un modello linguistico di grandi dimensioni da 3 miliardi di parametri addestrato su varie lingue. Puoi trovare l'elenco delle lingue supportate da Flan T5 XL nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart

huggingface-text2text-flan-t5-xxll FlanT5XXL

La famiglia di modelli Flan-T5 è costituita da un insieme di modelli linguistici di grandi dimensioni. Questo modelli sono ottimizzati con fine-tuning su molteplici attività e possono essere ulteriormente addestrati. I modelli sono adatti per attività quali la traduzione linguistica, la generazione di testi, il completamento di frasi, la disambiguazione del senso delle parole, il riepilogo o la risposta a domande. Flan T5 XXL è un modello da 11 miliardi di parametri. Puoi trovare l'elenco delle lingue supportate da Flan T5 XXL nei dettagli del modello recuperati dalla ricerca per ID del modello nella tabella dei modelli. JumpStart

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello da 7 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-7B è il modello di chat da 7 miliardi di parametri ottimizzato per i casi d’uso di dialogo.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello da 13 miliardi di parametri destinato all’uso in inglese e può essere adattato a una serie di attività di generazione del linguaggio naturale.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati con fine-tuning, compresi nell’intervallo tra 7 miliardi e 70 miliardi di parametri. Llama2-13B è il modello di chat da 13 miliardi di parametri ottimizzato per i casi d’uso di dialogo.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B è un codice da sette miliardi di parametri e un modello generico di generazione di testi in inglese. Può essere utilizzato in numerosi casi d’uso, tra cui sintesi testuale, classificazione, completamento del testo o completamento del codice.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct è la versione ottimizzata con fine-tuning di Mistral 7B per casi d’uso conversazionali. È stato specializzato utilizzando una serie di set di dati conversazionali pubblicamente disponibili in inglese.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B è un modello linguistico di grandi dimensioni con trasformatore in stile decoder da 6,7 miliardi di parametri, preaddestrato da zero su 1 trilione di token di testo e codice in inglese. È predisposto per gestire lunghe sequenze di contesto.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct è un modello per attività di esecuzione di istruzioni brevi. È stato realizzato eseguendo il fine-tuning di MPT 7B su un set di dati derivato da databricks-dolly-15k e dai set di dati di Anthropic Helpful and Harmless (HH-RLHF).