Vollständiges Einbettungsschema für Anfragen und Antworten - Amazon Nova

Vollständiges Einbettungsschema für Anfragen und Antworten

Vollständig synchrones Schema

{ "schemaVersion": "nova-multimodal-embed-v1", "taskType": "SINGLE_EMBEDDING", "singleEmbeddingParams": { "embeddingPurpose": "GENERIC_INDEX" | "GENERIC_RETRIEVAL" | "TEXT_RETRIEVAL" | "IMAGE_RETRIEVAL" | "VIDEO_RETRIEVAL" | "DOCUMENT_RETRIEVAL" | "AUDIO_RETRIEVAL" | "CLASSIFICATION" | "CLUSTERING", "embeddingDimension": 256 | 384 | 1024 | 3072, "text": { "truncationMode": "START" | "END" | "NONE", "value": string, "source": SourceObject, }, "image": { "detailLevel": "STANDARD_IMAGE" | "DOCUMENT_IMAGE", "format": "png" | "jpeg" | "gif" | "webp", "source": SourceObject }, "audio": { "format": "mp3" | "wav" | "ogg", "source": SourceObject }, "video": { "format": "mp4" | "mov" | "mkv" | "webm" | "flv" | "mpeg" | "mpg" | "wmv" | "3gp", "source": SourceObject, "embeddingMode": "AUDIO_VIDEO_COMBINED" | "AUDIO_VIDEO_SEPARATE" } } }

Die folgende Liste enthält alle Parameter für die Anfrage:

  • schemaVersion (Optional) – Die Schemaversion für die Anfrage des multimodalen Einbettungsmodells

    • Typ: Zeichenfolge

    • Zulässige Werte: „nova-multimodal-embed-v1"

    • Standard: „nova-multimodal-embed-v1"

  • taskType (Erforderlich) – Gibt die Art der Einbettungsoperation an, die für den Eingabeinhalt durchgeführt werden soll. single_embedding bezieht sich auf die Generierung einer Einbettung pro Modelleingabe. segmented_embedding bezieht sich auf die erste Segmentierung der Modelleingabe gemäß der Benutzerspezifikation und die anschließende Generierung einer einzigen Einbettung pro Segment.

    • Typ: Zeichenfolge

    • Zulässige Werte: Muss für synchrone Aufrufe „SINGLE_EMBEDDING“ sein.

  • singleEmbeddingParams (Erforderlich)

    • embeddingPurpose (Erforderlich) – Mit multimodalen Einbettungen von Nova können Sie Ihre Einbettungen je nach beabsichtigter Anwendung optimieren. Beispiele hierfür sind MM-RAG, Digital Asset Management für die Bild- und Videosuche, Ähnlichkeitsvergleiche für multimodale Inhalte oder die Klassifizierung von Dokumenten für die intelligente Dokumentenverarbeitung. Mit embeddingPurpose können Sie den Anwendungsfall für die Einbettung festlegen. Wählen Sie je nach Anwendungsfall unten den richtigen Wert aus.

      • Suchen und Abrufen: Die Einbettung von Anwendungsfällen wie RAG und Suche umfasst zwei Hauptschritte: Erstens die Erstellung eines Index durch Generierung von Einbettungen für den Inhalt und zweitens das Abrufen der relevantesten Inhalte aus dem Index während der Suche. Verwenden Sie die folgenden Werte, wenn Sie mit Anwendungsfällen zum Suchen und Abrufen arbeiten:

        • Indizierung:

          • „GENERIC_INDEX“ – Erstellt Einbettungen, die für die Verwendung als Indizes in einem Vektordatenspeicher optimiert sind. Dieser Wert sollte unabhängig von der Modalität verwendet werden, die Sie indizieren.

        • Suchen/Abrufen: Optimieren Sie Ihre Einbettungen je nach Art des Inhalts, den Sie abrufen:

          • „TEXT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Text-Einbettungen enthält.

          • „IMAGE_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Bild-Einbettungen enthält, die mit dem Detail-Level „STANDARD_IMAGE“ erstellt wurden.

          • „VIDEO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Videoeinbettungen oder Einbettungen enthält, die mit dem Einbettungsmodus „AUDIO_VIDEO_COMBINED” erstellt wurden.

          • „DOCUMENT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Dokumentbild-Einbettungen enthält, die mit dem Detail-Level „DOCUMENT_IMAGE“ erstellt wurden.

          • „AUDIO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Audio-Einbettungen enthält.

          • „GENERIC_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository mit Einbettungen gemischter Modalitäten optimiert sind.

        • Beispiel: In einer Bildersuch-App, in der Benutzer Bilder anhand von Textabfragen abrufen, verwenden Sie embeddingPurpose = generic_index, wenn Sie einen Einbettungsindex auf der Grundlage der Bilder erstellen, und embeddingPurpose = image_retrieval, wenn Sie eine Einbettung der Abfrage erstellen, die zum Abrufen der Bilder verwendet wird.

      • „KLASSIFIZIERUNG“ – Erstellt Einbettungen, die für die Durchführung von Klassifizierungen optimiert sind.

      • „CLUSTERING“ – Erzeugt Einbettungen, die für Clustering optimiert sind.

    • embeddingDimension (Optional) – Die Größe des zu generierenden Vektors.

      • Typ: int

      • Zulässige Werte: 256 | 384 | 1 024 | 3 072

      • Standard: 3072

    • text (Optional) – Stellt Textinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • truncationMode (Erforderlich) – Gibt an, welcher Teil des Textes abgeschnitten wird, wenn die tokenisierte Version des Textes die vom Modell unterstützte maximale Länge überschreitet.

        • Typ: Zeichenfolge

        • Zulässige Werte:

          • „START“ – Falls erforderlich, Zeichen am Anfang des Textes weglassen.

          • „END“ – Falls erforderlich, Zeichen am Ende des Textes weglassen.

          • „NONE“ – Schlägt fehl, wenn die Textlänge die maximale Token-Grenze des Modells überschreitet.

      • value (Optional; Wert oder Quelle müssen angegeben werden) – Textwert, für welchen die Einbettung erstellt werden soll.

        • Typ: Zeichenfolge

        • Maximale Länge: 8 192 Zeichen

      • source (Optional; Wert oder Quelle müssen angegeben werden) – Verweis auf eine in S3 gespeicherte Textdatei. Beachten Sie, dass die Byte-Option des SourceObjects nicht für Texteingaben gilt. Um Text als Teil der Anfrage inline zu übergeben, verwenden Sie stattdessen den Wert-Parameter.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

    • image (Optional) – Stellt den Bildinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • detailLevel (Optional) – Legt die Auflösung fest, mit der das Bild verarbeitet wird: „STANDARD_IMAGE“ verwendet eine niedrigere Bildauflösung, während „DOCUMENT_IMAGE“ eine höhere Auflösung verwendet, um Text besser interpretieren zu können.

        • Typ: Zeichenfolge

        • Zulässige Werte: „STANDARD_IMAGE“ | „DOCUMENT_IMAGE“

        • Standard: „STANDARD_IMAGE“

      • format (Erforderlich)

        • Typ: Zeichenfolge

        • Zulässige Werte: „png“ | „jpeg“ | „gif“ | „webp“

      • source (Erforderlich) – Eine Bildinhaltsquelle.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

    • audio (Optional) – Stellt Audioinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • format (Erforderlich)

        • Typ: Zeichenfolge

        • Zulässige Werte: „MP3" | „WAV“ | „OGG“

      • source (Erforderlich) – Eine Quelle für Audioinhalte.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

        • Maximale Audiodauer: 30 Sekunden

    • video (Optional) – Stellt Videoinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • format (Erforderlich)

        • Typ: Zeichenfolge

        • Zulässige Werte: „MP4" | „MOV | „MKV | „WEBM“ | „FLV | „MPEG“ | „mMPG“ | „WMV“ | „3GP“

      • source (Erforderlich) – Eine Quelle für Videoinhalte.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

        • Maximale Videodauer: 30 Sekunden

      • embeddingMode (Erforderlich)

        • Typ: Zeichenfolge

        • Werte: „AUDIO_VIDEO_COMBINED“ | „AUDIO_VIDEO_SEPARATE“

          • „AUDIO_VIDEO_COMBINED“ – Erzeugt eine einzige Einbettung, in der sowohl akustische als auch visuelle Inhalte kombiniert werden.

          • „AUDIO_VIDEO_SEPARATE“ – Erstellt zwei Einbettungen, eine davon für den akustischen Inhalt und eine für den visuellen Inhalt.

InvokeModel-Antworttext

Wenn InvokeModel ein erfolgreiches Ergebnis zurückgibt, hat der Antworttext die folgende Struktur:

{ "embeddings": [ { "embeddingType": "TEXT" | "IMAGE" | "VIDEO" | "AUDIO" | "AUDIO_VIDEO_COMBINED", "embedding": number[], "truncatedCharLength": int // Only included if text input was truncated } ] }

Die folgende Liste enthält alle Parameter für die Antwort:

  • embeddings (Erforderlich) – Bei den meisten Anfragen enthält dieses Array eine einzige Einbettung. Für Videoanfragen, bei denen der Einbettungsmodus „AUDIO_VIDEO_SEPARATE” ausgewählt wurde, enthält dieses Array zwei Einbettungen – eine Einbettung für den Videoinhalt und eine für den Audioinhalt.

    • Typ: Array von Einbettungen mit den folgenden Eigenschaften

      • embeddingType (Erforderlich) – Meldet die Art der Einbettung, die erstellt wurde.

        • Typ: Zeichenfolge

        • Zulässige Werte: „TEXT“ | „IMAGE“ | „VIDEO“ | „AUDIO“ | „AUDIO_VIDEO_COMBINED“

      • embedding (Erforderlich) – Der Einbettungsvektor.

        • Typ: Zahl[]

      • truncatedCharLength (Optional) – Gilt nur für Anfragen zur Einbettung von Text. Wird zurückgegeben, wenn die tokenisierte Version des Eingabetextes die Beschränkungen des Modells überschreitet. Der Wert gibt das Zeichen an, nach dem der Text vor der Generierung der Einbettung abgeschnitten wurde.

        • Typ: int

Vollständig asynchrones Schema

Sie können Einbettungen asynchron mit den Funktionen StartAsyncInvoke, GetAsyncInvoke und ListAsyncInvokes der Amazon-Bedrock-Runtime-API generieren. Die asynchrone API muss verwendet werden, wenn Sie Nova-Einbettungen zur Segmentierung langer Inhalte wie langer Textpassagen oder Videos und Audiodateien mit einer Länge von mehr als 30 Sekunden einsetzen möchten.

Beim Aufrufen von StartAsyncInvoke müssen Sie die Parameter modelId, outputDataConfig und modelInput angeben.

response = bedrock_runtime.start_async_invoke( modelId="amazon.nova-2-multimodal-embeddings-v1:0", outputDataConfig=Data Config, modelInput=Model Input )

outputDataConfig gibt den S3-Bucket an, in dem Sie die generierte Ausgabe speichern möchten. Sie hat die folgende Struktur:

{ "s3OutputDataConfig": { "s3Uri": "s3://your-s3-bucket" } }

s3Uri ist der S3-URI des Ziel-Buckets. Weitere optionale Parameter finden Sie in der StartAsyncInvoke-Dokumentation.

Die folgende Struktur wird für den modelInput-Parameter verwendet.

{ "schemaVersion": "nova-multimodal-embed-v1", "taskType": "SEGMENTED_EMBEDDING", "segmentedEmbeddingParams": { "embeddingPurpose": "GENERIC_INDEX" | "GENERIC_RETRIEVAL" | "TEXT_RETRIEVAL" | "IMAGE_RETRIEVAL" | "VIDEO_RETRIEVAL" | "DOCUMENT_RETRIEVAL" | "AUDIO_RETRIEVAL" | "CLASSIFICATION" | "CLUSTERING", "embeddingDimension": 256 | 384 | 1024 | 3072, "text": { "truncationMode": "START" | "END" | "NONE", "value": string, "source": { "s3Location": { "uri": "s3://Your S3 Object" } }, "segmentationConfig": { "maxLengthChars": int } }, "image": { "format": "png" | "jpeg" | "gif" | "webp", "source": SourceObject, "detailLevel": "STANDARD_IMAGE" | "DOCUMENT_IMAGE" }, "audio": { "format": "mp3" | "wav" | "ogg", "source": SourceObject, "segmentationConfig": { "durationSeconds": int } }, "video": { "format": "mp4" | "mov" | "mkv" | "webm" | "flv" | "mpeg" | "mpg" | "wmv" | "3gp", "source": SourceObject, "embeddingMode": "AUDIO_VIDEO_COMBINED" | "AUDIO_VIDEO_SEPARATE", "segmentationConfig": { "durationSeconds": int } } } }

Die folgende Liste enthält alle Parameter für die Anfrage:

  • schemaVersion (Optional) – Die Schemaversion für die Anfrage des multimodalen Einbettungsmodells

    • Typ: Zeichenfolge

    • Zulässige Werte: „nova-multimodal-embed-v1"

    • Standard: „nova-multimodal-embed-v1"

  • taskType (Erforderlich) – Gibt die Art der Einbettungsoperation an, die für den Eingabeinhalt durchgeführt werden soll. single_embedding bezieht sich auf die Generierung einer Einbettung pro Modelleingabe. segmented_embedding bezieht sich auf die erste Segmentierung der Modelleingabe gemäß der Benutzerspezifikation und die anschließende Generierung einer einzigen Einbettung pro Segment.

    • Typ: Zeichenfolge

    • Zulässige Werte: Muss für asynchrone Aufrufe „SEGMENTED_EMBEDDING“ sein.

  • segmentedEmbeddingParams (Erforderlich)

    • embeddingPurpose (Erforderlich) – Mit multimodalen Einbettungen von Nova können Sie Ihre Einbettungen je nach beabsichtigter Anwendung optimieren. Beispiele hierfür sind MM-RAG, Digital Asset Management für die Bild- und Videosuche, Ähnlichkeitsvergleiche für multimodale Inhalte oder die Klassifizierung von Dokumenten für die intelligente Dokumentenverarbeitung. Mit embeddingPurpose können Sie den Anwendungsfall für die Einbettung festlegen. Wählen Sie je nach Anwendungsfall unten den richtigen Wert aus.

      • Suchen und Abrufen: Die Einbettung von Anwendungsfällen wie RAG und Suche umfasst zwei Hauptschritte: Erstens die Erstellung eines Index durch Generierung von Einbettungen für den Inhalt und zweitens das Abrufen der relevantesten Inhalte aus dem Index während der Suche. Verwenden Sie die folgenden Werte, wenn Sie mit Anwendungsfällen zum Suchen und Abrufen arbeiten:

        • Indizierung:

          • „GENERIC_INDEX“ – Erstellt Einbettungen, die für die Verwendung als Indizes in einem Vektordatenspeicher optimiert sind. Dieser Wert sollte unabhängig von der Modalität verwendet werden, die Sie indizieren.

        • Suchen/Abrufen: Optimieren Sie Ihre Einbettungen je nach Art des Inhalts, den Sie abrufen:

          • „TEXT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Text-Einbettungen enthält.

          • „IMAGE_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Bild-Einbettungen enthält, die mit dem Detail-Level „STANDARD_IMAGE“ erstellt wurden.

          • „VIDEO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Videoeinbettungen oder Einbettungen enthält, die mit dem Einbettungsmodus „AUDIO_VIDEO_COMBINED” erstellt wurden.

          • „DOCUMENT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Dokumentbild-Einbettungen enthält, die mit dem Detail-Level „DOCUMENT_IMAGE“ erstellt wurden.

          • „AUDIO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Audio-Einbettungen enthält.

          • „GENERIC_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository mit Einbettungen gemischter Modalitäten optimiert sind.

        • Beispiel: In einer Bildersuch-App, in der Benutzer Bilder anhand von Textabfragen abrufen, verwenden Sie embeddingPurpose = generic_index, wenn Sie einen Einbettungsindex auf der Grundlage der Bilder erstellen, und embeddingPurpose = image_retrieval, wenn Sie eine Einbettung der Abfrage erstellen, die zum Abrufen der Bilder verwendet wird.

      • „KLASSIFIZIERUNG“ – Erstellt Einbettungen, die für die Durchführung von Klassifizierungen optimiert sind.

      • „CLUSTERING“ – Erzeugt Einbettungen, die für Clustering optimiert sind.

    • embeddingDimension (Optional) – Die Größe des zu generierenden Vektors.

      • Typ: int

      • Zulässige Werte: 256 | 384 | 1 024 | 3 072

      • Standard: 3072

    • text (Optional) – Stellt Textinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • truncationMode (Erforderlich) – Gibt an, welcher Teil des Textes abgeschnitten wird, wenn die tokenisierte Version des Textes die vom Modell unterstützte maximale Länge überschreitet.

        • Typ: Zeichenfolge

        • Zulässige Werte:

          • „START“ – Falls erforderlich, Zeichen am Anfang des Textes weglassen.

          • „END“ – Falls erforderlich, Zeichen am Ende des Textes weglassen.

          • „NONE“ – Schlägt fehl, wenn die Textlänge die maximale Token-Grenze des Modells überschreitet.

      • value (Optional; Wert oder Quelle müssen angegeben werden) – Textwert, für welchen die Einbettung erstellt werden soll.

        • Typ: Zeichenfolge

        • Maximale Länge: 8 192 Zeichen

      • source (Optional; Wert oder Quelle müssen angegeben werden) – Verweis auf eine in S3 gespeicherte Textdatei. Beachten Sie, dass die Byte-Option des SourceObjects nicht für Texteingaben gilt. Um Text als Teil der Anfrage inline zu übergeben, verwenden Sie stattdessen den Wert-Parameter.

      • segmentationConfig (Erforderlich) – Steuert, wie Textinhalt in mehrere Einbettungen segmentiert werden soll.

        • maxLengthChars (Optional) – Die maximale Länge, die für jedes Segment zulässig ist. Das Modell wird versuchen, nur an Wortgrenzen zu segmentieren.

          • Typ: int

          • Gültiger Bereich: 800–50 000

          • Standard: 32 000

    • image (Optional) – Stellt den Bildinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • format (Erforderlich)

        • Typ: Zeichenfolge

        • Zulässige Werte: „png“ | „jpeg“ | „gif“ | „webp“

      • source (Erforderlich) – Eine Bildinhaltsquelle.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

      • detailLevel (Optional) – Legt die Auflösung fest, mit der das Bild verarbeitet wird: „STANDARD_IMAGE“ verwendet eine niedrigere Bildauflösung, während „DOCUMENT_IMAGE“ eine höhere Auflösung verwendet, um Text besser interpretieren zu können.

        • Typ: Zeichenfolge

        • Zulässige Werte: „STANDARD_IMAGE“ | „DOCUMENT_IMAGE“

        • Standard: „STANDARD_IMAGE“

    • audio (Optional) – Stellt Audioinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • format (Erforderlich)

        • Typ: Zeichenfolge

        • Zulässige Werte: „MP3" | „WAV“ | „OGG“

      • source (Erforderlich) – Eine Quelle für Audioinhalte.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

      • segmentationConfig (Erforderlich) – Steuert, wie Audioinhalt in mehrere Einbettungen segmentiert werden soll.

        • durationSeconds (Optional) – Die maximale Audiodauer (in Sekunden), die für jedes Segment verwendet werden soll.

          • Typ: int

          • Gültiger Bereich: 1–30

          • Standard: 5

    • video (Optional) – Stellt Videoinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.

      • format (Erforderlich)

        • Typ: Zeichenfolge

        • Zulässige Werte: „MP4" | „MOV | „MKV | „WEBM“ | „FLV | „MPEG“ | „mMPG“ | „WMV“ | „3GP“

      • source (Erforderlich) – Eine Quelle für Videoinhalte.

        • Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)

      • embeddingMode (Erforderlich)

        • Typ: Zeichenfolge

        • Werte: „AUDIO_VIDEO_COMBINED“ | „AUDIO_VIDEO_SEPARATE“

          • „AUDIO_VIDEO_COMBINED“ – Erzeugt eine einzige Einbettung für jedes Segment, in der sowohl akustische als auch visuelle Inhalte kombiniert werden.

          • „AUDIO_VIDEO_SEPARATE“ – Es werden zwei Einbettungen für jedes Segment erstellt, eine für den Audioinhalt und eine für den Videoinhalt.

      • segmentationConfig (Erforderlich) – Steuert, wie Videoinhalt in mehrere Einbettungen segmentiert werden soll.

        • durationSeconds (Optional) – Die maximale Videodauer (in Sekunden), die für jedes Segment verwendet werden soll.

          • Typ: int

          • Gültiger Bereich: 1–30

          • Standard: 5

StartAsyncInvoke-Antwort

Die Antwort auf einen Aufruf von StartAsyncInvoke hat die folgende Struktur. Mit dem invocationArn kann der Status des asynchronen Auftrags mithilfe der Funktion GetAsyncInvoke abgefragt werden.

{ "invocationArn": "arn:aws:bedrock:us-east-1:xxxxxxxxxxxx:async-invoke/lvmxrnjf5mo3", }

Asynchrone Ausgabe

Wenn die Generierung asynchroner Einbettungen abgeschlossen ist, werden Ausgabe-Artefakte in den S3-Bucket geschrieben, den Sie als Ausgabeziel angegeben haben. Die Dateien haben die folgende Struktur:

amzn-s3-demo-bucket/ job-id/ segmented-embedding-result.json embedding-audio.jsonl embedding-image.json embedding-text.jsonl embedding-video.jsonl manifest.json

Die segmented-embedding-result.json-Datei enthält das Gesamtergebnis des Auftrags und Verweise auf die entsprechenden JSONL-Dateien, welche die tatsächlichen Einbettungen pro Modalität enthalten. Im Folgenden finden Sie ein verkürztes Beispiel einer Datei:

{ "sourceFileUri": string, "embeddingDimension": 256 | 384 | 1024 | 3072, "embeddingResults": [ { "embeddingType": "TEXT" | "IMAGE" | "VIDEO" | "AUDIO" | "AUDIO_VIDEO_COMBINED", "status": "SUCCESS" | "FAILURE" | "PARTIAL_SUCCESS", "failureReason": string, // Granular error codes "message": string, // Human-readbale failure message "outputFileUri": string // S3 URI to a "embedding-modality.jsonl" file } ... ] }

Die embedding-modality.json besteht aus JSONL-Dateien, welche die Einbettungsausgabe für jede Modalität enthalten. Jede Zeile in der Jsonl-Datei entspricht dem folgenden Schema:

{ "embedding": number[], // The generated embedding vector "segmentMetadata": { "segmentIndex": number, "segmentStartCharPosition": number, // Included for text only "segmentEndCharPosition": number, // Included for text only "truncatedCharLength": number, // Included only when text gets truncated "segmentStartSeconds": number, // Included for audio/video only "segmentEndSeconds": number // Included for audio/video only }, "status": "SUCCESS" | "FAILURE", "failureReason": string, // Granular error codes "message": string // Human-readable failure message }

Die folgende Liste enthält alle Parameter für die Antwort. Bei Textzeichen oder Audio-/Videozeiten basieren alle Start- und Endzeiten auf Null. Darüber hinaus sind alle Endtextpositionen oder Audio-/Videozeitwerte inklusive.

  • embedding (Erforderlich) – Der Einbettungsvektor.

    • Typ: Zahl

  • segmentMetadata – Die Metadaten für das Segment.

    • segmentIndex – Der Index des Segments innerhalb des in der Anfrage angegebenen Arrays.

    • segmentStartCharPosition – Nur für Text. Die Position des ersten Zeichens (einschließlich) des eingebetteten Inhalts innerhalb des Segments.

    • segmentEndCharPosition – Nur für Text. Die Position des letzten Zeichens (exklusive) des eingebetteten Inhalts innerhalb des Segments.

    • truncatedCharLength (Optional) – Wird zurückgegeben, wenn die tokenisierte Version des Eingabetextes die Beschränkungen des Modells überschreitet. Der Wert gibt das Zeichen an, nach dem der Text vor der Generierung der Einbettung abgeschnitten wurde.

      • Typ: Ganzzahl

    • segmentStartSeconds – Nur für Audio/Video. Die Startzeit-Position des eingebetteten Inhalts innerhalb des Segments.

    • segmentEndSeconds – Nur für Audio/Video. Die Endzeit-Position des eingebetteten Inhalts innerhalb des Segments.

  • status – Der Status des Segments.

  • failureReason – Die detaillierten Gründe für das Fehlschlagen des Segments.

    • RAI_VIOLATION_INPUT_TEXT_DEFLECTION – Der Eingangstext verstößt gegen die RAI-Richtlinien.

    • RAI_VIOLATION_INPUT_IMAGE_DEFLECTION – Das Eingangsbild verstößt gegen die RAI-Richtlinien.

    • INVALID_CONTENT – Ungültige Eingabe.

    • RATE_LIMIT_EXCEEDED— Die Einbettungsanfrage wird aufgrund der Nichtverfügbarkeit des Services gedrosselt.

    • INTERNAL_SERVER_EXCEPTION – Es ist ein Problem aufgetreten.

  • message – Verwandte Fehlermeldung.

Dateibeschränkungen für Nova-Einbettungen

Synchrone Operationen können sowohl S3-Eingaben als auch Inline-Chunks akzeptieren. Asynchrone Operationen können nur S3-Eingaben akzeptieren.

Bei der asynchronen Generierung von Einbettungen ist es erforderlich sicherzustellen, dass Ihre Datei in eine angemessene Anzahl von Segmenten unterteilt ist. Für Texteinbettungen dürfen nicht mehr als 1 900 Segmente verwendet werden. Für Audio- und Videoeinbettungen dürfen nicht mehr als 1 434 Segmente verwendet werden.

Größenbeschränkungen der synchronen Eingabe

Dateityp

Größenbeschränkung

(Inline) Alle Dateitypen

25 MB

(S3) Text

1 MB; 50 000 Zeichen

(S3) Bild

50 MB

(S3) Video

30 Sekunden; 100 MB

(S3) Audio

30 Sekunden; 100 MB

Anmerkung

Die Beschränkung für Inline-Dateien auf 25 MB gilt nach der Base64-Einbettung. Dies führt zu einer Erhöhung der Dateigröße um etwa 33 %

Größenbeschränkungen der asynchronen Eingabe

Dateityp

Größenbeschränkung

(S3) Text

634 MB

(S3) Bild

50 MB

(S3) Video

2 GB; 2 Stunden

(S3) Audio

1 GB; 2 Stunden

Eingabedateiformate

Modalität

Dateitypen

Abbildformate

PNG, JPEG, WEBP, GIF

Audioformate

MP3, WAV, OGG

Videoformate

MP4, MOV, MKV, WEBM, FLV, MPEG, MPG, WMV, 3GP