Unterstützt große Sprachmodelle für die Feinabstimmung - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterstützt große Sprachmodelle für die Feinabstimmung

Mithilfe der Autopilot-API können Benutzer große Sprachmodelle (LLMs) optimieren, die von Amazon SageMaker JumpStart unterstützt werden.

Anmerkung

Bei optimierten Modellen, die die Annahme einer Endbenutzer-Lizenzvereinbarung erfordern, müssen Sie beim Erstellen des AutoML-Jobs ausdrücklich die Annahme der EULA erklären. Beachten Sie, dass nach der Optimierung eines vortrainierten Modells die Gewichte des Originalmodells geändert werden, sodass Sie später bei der Bereitstellung des fein abgestimmten Modells keine EULA akzeptieren müssen.

Informationen darüber, wie Sie die EULA akzeptieren können, wenn Sie einen Auftrag zur Optimierung mithilfe der AutoML-API erstellen, finden Sie unter So legen Sie die EULA-Akzeptanz bei der Optimierung eines Modells mithilfe der AutoML-API fest.

Sie finden die vollständigen Details zu den einzelnen Modellen, indem Sie in der folgenden Modelltabelle nach Ihrer JumpStart-Modell-ID suchen und dann dem Link in der Spalte Quelle folgen. Zu diesen Details können die vom Modell unterstützten Sprachen, mögliche Verzerrungen, die für die Optimierung verwendeten Datensätze und vieles mehr gehören.

In der folgenden Tabelle sind die unterstützten JumpStart-Modelle aufgeführt, die Sie mit einem AutoML-Job optimieren können.

JumpStart-Modell-ID BaseModelName in der API-Anfrage. Beschreibung
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B ist ein großes Sprachmodell mit 2,8 Milliarden Parametern, das Anweisungen befolgt und auf pythia-2.8b basiert. Es basiert auf dem Datensatz databricks-dolly-15k zur Optimierung von Anweisungen und Antworten und kann Aufgaben wie Brainstorming, Klassifizierung, Fragen und Antworten, Textgenerierung, Informationsextraktion und Zusammenfassung ausführen.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B ist ein großes Sprachmodell mit 6,9 Milliarden Parametern, das Anweisungen befolgt und auf pythia-6.9b basiert. Es basiert auf dem Datensatz databricks-dolly-15k zur Optimierung von Anweisungen und Antworten und kann Aufgaben wie Brainstorming, Klassifizierung, Fragen und Antworten, Textgenerierung, Informationsextraktion und Zusammenfassung ausführen.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B ist ein großes Sprachmodell mit 12 Milliarden Parametern, das Anweisungen befolgt und auf pythia-12b basiert. Es basiert auf dem Datensatz databricks-dolly-15k zur Optimierung von Anweisungen und Antworten und kann Aufgaben wie Brainstorming, Klassifizierung, Fragen und Antworten, Textgenerierung, Informationsextraktion und Zusammenfassung ausführen.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B ist ein kausales großes Sprachmodell mit 7 Milliarden Parametern, das auf 1.500 Milliarden Tokens trainiert wurde und mit kuratierten Korpora erweitert wurde. Falcon 7B wurde ausschließlich mit englischen und französischen Daten trainiert und lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da das Modell anhand großer Mengen von Webdaten trainiert wurde, ist es mit den Stereotypen und Vorurteile behaftet, die häufig im Internet zu finden sind.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct ist ein kausales großes Sprachmodell mit 7 Milliarden Parametern, das auf Falcon 7B aufbaut und auf einer Mischung aus Chat/Instruct-Datensätzen mit 250 Millionen Tokens optimiert wurde. Falcon 7B Instruct wird hauptsächlich auf englischen Daten trainiert und lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da es an großen Korpora, die für das Internet repräsentativ sind, trainiert wurde, enthält es zudem die Stereotypen und Vorurteile, denen man im Internet häufig begegnet.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B ist ein kausales großes Sprachmodell mit 40 Milliarden Parametern, das auf 1.000 Milliarden Tokens trainiert wurde und mit kuratierten Korpora erweitert wurde. Es wurde hauptsächlich in Englisch, Deutsch, Spanisch und Französisch trainiert, mit begrenzten Fähigkeiten in Italienisch, Portugiesisch, Polnisch, Niederländisch, Rumänisch, Tschechisch und Schwedisch. Es lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da es an großen Korpora, die für das Internet repräsentativ sind, trainiert wurde, enthält es zudem die Stereotypen und Vorurteile, denen man im Internet häufig begegnet.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon 40B Instruct ist ein kausales großes Sprachmodell mit 40 Milliarden Parametern, das auf Falcon40B aufbaut und auf einer Mischung aus Baize fein abgestimmt wurde. Es wurde hauptsächlich mit englischen und französischen Daten trainiert und lässt sich nicht angemessen auf andere Sprachen verallgemeinern. Da es an großen Korpora, die für das Internet repräsentativ sind, trainiert wurde, enthält es zudem die Stereotypen und Vorurteile, denen man im Internet häufig begegnet.

huggingface-text2text-flan-t5-large FlanT5L

Die Flan-T5-Modellfamilie besteht aus einer Reihe großer Sprachmodelle, die auf mehrere Aufgaben abgestimmt sind und weiter trainiert werden können. Diese Modelle eignen sich hervorragend für Aufgaben wie Sprachübersetzung, Textgenerierung, Satzvervollständigung, Deutung des Wortsinns, Zusammenfassung oder Beantwortung von Fragen. Flan T5 L ist ein großes Sprachmodell mit 780 Millionen Parametern, das auf zahlreichen Sprachen trainiert wurde. Die Liste der von Flan T5 L unterstützten Sprachen finden Sie in den Details des Modells, das Sie bei Ihrer Suche nach der Modell-ID in der JumpStart-Modelltabelle gefunden haben.

huggingface-text2text-flan-t5-xl FlanT5XL

Die Flan-T5-Modellfamilie besteht aus einer Reihe großer Sprachmodelle, die auf mehrere Aufgaben abgestimmt sind und weiter trainiert werden können. Diese Modelle eignen sich hervorragend für Aufgaben wie Sprachübersetzung, Textgenerierung, Satzvervollständigung, Deutung des Wortsinns, Zusammenfassung oder Beantwortung von Fragen. Flan T5 XL ist ein großes Sprachmodell mit 3 Milliarden Parametern, das auf zahlreichen Sprachen trainiert wurde. Die Liste der von Flan T5 XL unterstützten Sprachen finden Sie in den Details des Modells, das Sie bei Ihrer Suche nach der Modell-ID in der JumpStart-Modelltabelle gefunden haben.

huggingface-text2text-flan-t5-xxll FlanT5XXL

Die Flan-T5-Modellfamilie besteht aus einer Reihe großer Sprachmodelle, die auf mehrere Aufgaben abgestimmt sind und weiter trainiert werden können. Diese Modelle eignen sich hervorragend für Aufgaben wie Sprachübersetzung, Textgenerierung, Satzvervollständigung, Deutung des Wortsinns, Zusammenfassung oder Beantwortung von Fragen. Flan T5 XXL ist ein Modell mit 11 Milliarden Parametern. Die Liste der von Flan T5 XXL unterstützten Sprachen finden Sie in den Details des Modells, das Sie bei Ihrer Suche nach der Modell-ID in der JumpStart-Modelltabelle gefunden haben.

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 ist eine Sammlung von vortrainierten und optimierten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-7B ist das Modell mit 7 Milliarden Parametern, das für den englischen Gebrauch bestimmt ist und für eine Vielzahl von Aufgaben zur Generierung natürlicher Sprache angepasst werden kann.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 ist eine Sammlung von vortrainierten und optimierten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-7B ist das Chat-Modell mit 7 Milliarden Parametern, das für Dialog-Anwendungsfälle optimiert ist.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 ist eine Sammlung von vortrainierten und optimierten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-13B ist das Modell mit 13 Milliarden Parametern, das für den englischen Gebrauch bestimmt ist und für eine Vielzahl von Aufgaben zur Generierung natürlicher Sprache angepasst werden kann.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 ist eine Sammlung von vortrainierten und optimierten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern. Llama2-13B ist das Chat-Modell mit 13 Milliarden Parametern, das für Dialog-Anwendungsfälle optimiert ist.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B ist ein sieben Milliarden Parameter umfassender Code und ein universelles Modell zur Generierung englischer Texte. Es kann in einer Vielzahl von Anwendungsfällen verwendet werden, einschließlich Textzusammenfassung, Klassifizierung, Textvervollständigung oder Codevervollständigung.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct ist die optimierte Version von Mistral 7B für Anwendungsfälle im Konversationsbereich. Es wurde auf die Verwendung einer Vielzahl von öffentlich zugänglichen Konversationsdatensätzen in englischer Sprache spezialisiert.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B ist ein großes Transformer-Sprachmodell im Decoder-Stil mit 6,7 Milliarden Parametern, das anhand von 1 Billion Token englischer Texte und Codes von Grund auf trainiert wurde. Es ist dazu fähig, lange Kontextlängen zu verarbeiten.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct ist ein Modell für kurze Anweisungen zur Nachverfolgung von Aufgaben. Es basiert auf der Optimierung von MPT 7B auf einem Datensatz, der aus den Datensätzen databricks-dolly-15k und Anthropic Helpful and Harmless (HH-RLHF) abgeleitet wurde.