Vollständig synchrones Schema Vollständig asynchrones Schema Dateibeschränkungen für Nova-Einbettungen

Vollständiges Einbettungsschema für Anfragen und Antworten

Vollständig synchrones Schema



{
    "schemaVersion": "nova-multimodal-embed-v1",
    "taskType": "SINGLE_EMBEDDING",
    "singleEmbeddingParams": {
        "embeddingPurpose": "GENERIC_INDEX" | "GENERIC_RETRIEVAL" | "TEXT_RETRIEVAL" | "IMAGE_RETRIEVAL" | "VIDEO_RETRIEVAL" | "DOCUMENT_RETRIEVAL" | "AUDIO_RETRIEVAL" | "CLASSIFICATION" | "CLUSTERING",
        "embeddingDimension": 256 | 384 | 1024 | 3072,
        "text": {
            "truncationMode": "START" | "END" | "NONE",
            "value": string,
            "source": SourceObject,
        },
        "image": {
            "detailLevel": "STANDARD_IMAGE" | "DOCUMENT_IMAGE",
            "format": "png" | "jpeg" | "gif" | "webp",
            "source": SourceObject
        },
        "audio": {
            "format": "mp3" | "wav" | "ogg",
            "source": SourceObject
        },
        "video": {
            "format": "mp4" | "mov" | "mkv" | "webm" | "flv" | "mpeg" | "mpg" | "wmv" | "3gp",
            "source": SourceObject,
            "embeddingMode": "AUDIO_VIDEO_COMBINED" | "AUDIO_VIDEO_SEPARATE"
        }
    }
}

Die folgende Liste enthält alle Parameter für die Anfrage:

schemaVersion (Optional) – Die Schemaversion für die Anfrage des multimodalen Einbettungsmodells
- Type: Zeichenkette
- Zulässige Werte: "nova-multimodal-embed-v1"
- Standard: "nova-multimodal-embed-v1"
taskType (Erforderlich) – Gibt die Art der Einbettungsoperation an, die für den Eingabeinhalt durchgeführt werden soll. single_embedding bezieht sich auf die Generierung einer Einbettung pro Modelleingabe. segmented_embedding bezieht sich auf die erste Segmentierung der Modelleingabe gemäß der Benutzerspezifikation und die anschließende Generierung einer einzigen Einbettung pro Segment.
- Type: Zeichenkette
- Zulässige Werte: Muss für synchrone Aufrufe „SINGLE_EMBEDDING“ sein.
singleEmbeddingParams (Erforderlich)
- embeddingPurpose (Erforderlich) – Mit multimodalen Einbettungen von Nova können Sie Ihre Einbettungen je nach beabsichtigter Anwendung optimieren. Beispiele hierfür sind MM-RAG, Digital Asset Management für die Bild- und Videosuche, Ähnlichkeitsvergleiche für multimodale Inhalte oder die Klassifizierung von Dokumenten für die intelligente Dokumentenverarbeitung. Mit embeddingPurpose können Sie den Anwendungsfall für die Einbettung festlegen. Wählen Sie je nach Anwendungsfall unten den richtigen Wert aus.
  - Suchen und Abrufen: Die Einbettung von Anwendungsfällen wie RAG und Suche umfasst zwei Hauptschritte: Erstens die Erstellung eines Index durch Generierung von Einbettungen für den Inhalt und zweitens das Abrufen der relevantesten Inhalte aus dem Index während der Suche. Verwenden Sie die folgenden Werte, wenn Sie mit Anwendungsfällen zum Suchen und Abrufen arbeiten:
    
    Indizierung:
    
    „GENERIC_INDEX“ – Erstellt Einbettungen, die für die Verwendung als Indizes in einem Vektordatenspeicher optimiert sind. Dieser Wert sollte unabhängig von der Modalität verwendet werden, die Sie indizieren.
    
    Suchen/Abrufen: Optimieren Sie Ihre Einbettungen je nach Art des Inhalts, den Sie abrufen:
    
    „TEXT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Text-Einbettungen enthält.
    „IMAGE_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Bild-Einbettungen enthält, die mit dem Detail-Level „STANDARD_IMAGE“ erstellt wurden.
    „VIDEO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Videoeinbettungen oder Einbettungen enthält, die mit dem Einbettungsmodus „AUDIO_VIDEO_COMBINED” erstellt wurden.
    „DOCUMENT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Dokumentbild-Einbettungen enthält, die mit dem Detail-Level „DOCUMENT_IMAGE“ erstellt wurden.
    „AUDIO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Audio-Einbettungen enthält.
    „GENERIC_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository mit Einbettungen gemischter Modalitäten optimiert sind.
    
    Beispiel: In einer Bildersuch-App, in der Benutzer Bilder anhand von Textabfragen abrufen, verwenden Sie embeddingPurpose = generic_index, wenn Sie einen Einbettungsindex auf der Grundlage der Bilder erstellen, und embeddingPurpose = image_retrieval, wenn Sie eine Einbettung der Abfrage erstellen, die zum Abrufen der Bilder verwendet wird.
  - „KLASSIFIZIERUNG“ – Erstellt Einbettungen, die für die Durchführung von Klassifizierungen optimiert sind.
  - „CLUSTERING“ – Erzeugt Einbettungen, die für Clustering optimiert sind.
- embeddingDimension (Optional) – Die Größe des zu generierenden Vektors.
  - Typ: int
  - Zulässige Werte: 256 | 384 | 1 024 | 3 072
  - Standard: 3072
- text (Optional) – Stellt Textinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - truncationMode (Erforderlich) – Gibt an, welcher Teil des Textes abgeschnitten wird, wenn die tokenisierte Version des Textes die vom Modell unterstützte maximale Länge überschreitet.
    
    Type: Zeichenkette
    Zulässige Werte:
    
    „START“ – Falls erforderlich, Zeichen am Anfang des Textes weglassen.
    „END“ – Falls erforderlich, Zeichen am Ende des Textes weglassen.
    „NONE“ – Schlägt fehl, wenn die Textlänge die maximale Token-Grenze des Modells überschreitet.
  - value (Optional; Wert oder Quelle müssen angegeben werden) – Textwert, für welchen die Einbettung erstellt werden soll.
    
    Type: Zeichenkette
    Maximale Länge: 8 192 Zeichen
  - source (Optional; Wert oder Quelle müssen angegeben werden) – Verweis auf eine in S3 gespeicherte Textdatei. Beachten Sie, dass die Byte-Option von nicht für Texteingaben gilt. SourceObject Um Text als Teil der Anfrage inline zu übergeben, verwenden Sie stattdessen den Wert-Parameter.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
- image (Optional) – Stellt den Bildinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - detailLevel (Optional) – Legt die Auflösung fest, mit der das Bild verarbeitet wird: „STANDARD_IMAGE“ verwendet eine niedrigere Bildauflösung, während „DOCUMENT_IMAGE“ eine höhere Auflösung verwendet, um Text besser interpretieren zu können.
    
    Type: Zeichenkette
    Zulässige Werte: „STANDARD_IMAGE“ | „DOCUMENT_IMAGE“
    Standard: „STANDARD_IMAGE“
  - format (Erforderlich)
    
    Type: Zeichenkette
    Zulässige Werte: „png“ | „jpeg“ | „gif“ | „webp“
  - source (Erforderlich) – Eine Bildinhaltsquelle.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
- audio (Optional) – Stellt Audioinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - format (Erforderlich)
    
    Type: Zeichenkette
    Zulässige Werte: „MP3" | „WAV“ | „OGG“
  - source (Erforderlich) – Eine Quelle für Audioinhalte.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
    Maximale Audiodauer: 30 Sekunden
- video (Optional) – Stellt Videoinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - format (Erforderlich)
    
    Type: Zeichenkette
    Zulässige Werte: „MP4" | „MOV | „MKV | „WEBM“ | „FLV | „MPEG“ | „mMPG“ | „WMV“ | „3GP“
  - source (Erforderlich) – Eine Quelle für Videoinhalte.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
    Maximale Videodauer: 30 Sekunden
  - embeddingMode (Erforderlich)
    
    Type: Zeichenkette
    Werte: „AUDIO_VIDEO_COMBINED“ | „AUDIO_VIDEO_SEPARATE“
    
    „AUDIO_VIDEO_COMBINED“ – Erzeugt eine einzige Einbettung, in der sowohl akustische als auch visuelle Inhalte kombiniert werden.
    „AUDIO_VIDEO_SEPARATE“ – Erstellt zwei Einbettungen, eine davon für den akustischen Inhalt und eine für den visuellen Inhalt.

InvokeModel Hauptteil der Antwort

Wenn ein erfolgreiches Ergebnis InvokeModelzurückgegeben wird, hat der Hauptteil der Antwort die folgende Struktur:



{
   "embeddings": [
      {
          "embeddingType": "TEXT" | "IMAGE" | "VIDEO" | "AUDIO" | "AUDIO_VIDEO_COMBINED",
          "embedding": number[],
          "truncatedCharLength": int // Only included if text input was truncated
      }
    ]                       
}

Die folgende Liste enthält alle Parameter für die Antwort:

embeddings (Erforderlich) – Bei den meisten Anfragen enthält dieses Array eine einzige Einbettung. Für Videoanfragen, bei denen der Einbettungsmodus „AUDIO_VIDEO_SEPARATE” ausgewählt wurde, enthält dieses Array zwei Einbettungen – eine Einbettung für den Videoinhalt und eine für den Audioinhalt.
- Typ: Array von Einbettungen mit den folgenden Eigenschaften
  - embeddingType (Erforderlich) – Meldet die Art der Einbettung, die erstellt wurde.
    
    Type: Zeichenkette
    Zulässige Werte: „TEXT“ | „IMAGE“ | „VIDEO“ | „AUDIO“ | „AUDIO_VIDEO_COMBINED“
  - embedding (Erforderlich) – Der Einbettungsvektor.
    
    Typ: Zahl[]
  - truncatedCharLength (Optional) – Gilt nur für Anfragen zur Einbettung von Text. Wird zurückgegeben, wenn die tokenisierte Version des Eingabetextes die Beschränkungen des Modells überschreitet. Der Wert gibt das Zeichen an, nach dem der Text vor der Generierung der Einbettung abgeschnitten wurde.
    
    Typ: int

Vollständig asynchrones Schema

Mit den Funktionen StartAsyncInvokeder Amazon Bedrock Runtime API, und können Sie Einbettungen asynchron generieren. GetAsyncInvoke ListAsyncInvokes Die asynchrone API muss verwendet werden, wenn Sie Nova-Einbettungen zur Segmentierung langer Inhalte wie langer Textpassagen oder Videos und Audiodateien mit einer Länge von mehr als 30 Sekunden einsetzen möchten.

Beim Aufrufen StartAsyncInvokemüssen Sie die ParametermodelId, und outputDataConfig angeben. modelInput



response = bedrock_runtime.start_async_invoke(
    modelId="amazon.nova-2-multimodal-embeddings-v1:0",
    outputDataConfig=Data Config,
    modelInput=Model Input
)

outputDataConfig gibt den S3-Bucket an, in dem Sie die generierte Ausgabe speichern möchten. Sie hat die folgende Struktur:



{
    "s3OutputDataConfig": {
        "s3Uri": "s3://your-s3-bucket"
    }
}

s3Uri ist der S3-URI des Ziel-Buckets. Weitere optionale Parameter finden Sie in der StartAsyncInvoke Dokumentation.

Die folgende Struktur wird für den modelInput-Parameter verwendet.



{
    "schemaVersion": "nova-multimodal-embed-v1",
    "taskType": "SEGMENTED_EMBEDDING",
    "segmentedEmbeddingParams": {
        "embeddingPurpose": "GENERIC_INDEX" | "GENERIC_RETRIEVAL" | "TEXT_RETRIEVAL" | "IMAGE_RETRIEVAL" | "VIDEO_RETRIEVAL" | "DOCUMENT_RETRIEVAL" | "AUDIO_RETRIEVAL" | "CLASSIFICATION" | "CLUSTERING",
        "embeddingDimension": 256 | 384 | 1024 | 3072,
        "text": {
            "truncationMode": "START" | "END" | "NONE",
            "value": string,
            "source": {
                "s3Location": {
                    "uri": "s3://Your S3 Object"
                }
            },
            "segmentationConfig": {
                "maxLengthChars": int
            }
        },
        "image": {
            "format": "png" | "jpeg" | "gif" | "webp",
            "source": SourceObject,
            "detailLevel": "STANDARD_IMAGE" | "DOCUMENT_IMAGE"
        },
        "audio": {
            "format": "mp3" | "wav" | "ogg",
            "source": SourceObject,
            "segmentationConfig": {
                "durationSeconds": int
            }
        },
        "video": {
            "format": "mp4" | "mov" | "mkv" | "webm" | "flv" | "mpeg" | "mpg" | "wmv" | "3gp",
            "source": SourceObject,
            "embeddingMode": "AUDIO_VIDEO_COMBINED" | "AUDIO_VIDEO_SEPARATE",
            "segmentationConfig": {
                "durationSeconds": int
            }
        }
    }
}

Die folgende Liste enthält alle Parameter für die Anfrage:

schemaVersion (Optional) – Die Schemaversion für die Anfrage des multimodalen Einbettungsmodells
- Type: Zeichenkette
- Zulässige Werte: "nova-multimodal-embed-v1"
- Standard: "nova-multimodal-embed-v1"
taskType (Erforderlich) – Gibt die Art der Einbettungsoperation an, die für den Eingabeinhalt durchgeführt werden soll. single_embedding bezieht sich auf die Generierung einer Einbettung pro Modelleingabe. segmented_embedding bezieht sich auf die erste Segmentierung der Modelleingabe gemäß der Benutzerspezifikation und die anschließende Generierung einer einzigen Einbettung pro Segment.
- Type: Zeichenkette
- Zulässige Werte: Muss für asynchrone Aufrufe „SEGMENTED_EMBEDDING“ sein.
segmentedEmbeddingParams (Erforderlich)
- embeddingPurpose (Erforderlich) – Mit multimodalen Einbettungen von Nova können Sie Ihre Einbettungen je nach beabsichtigter Anwendung optimieren. Beispiele hierfür sind MM-RAG, Digital Asset Management für die Bild- und Videosuche, Ähnlichkeitsvergleiche für multimodale Inhalte oder die Klassifizierung von Dokumenten für die intelligente Dokumentenverarbeitung. Mit embeddingPurpose können Sie den Anwendungsfall für die Einbettung festlegen. Wählen Sie je nach Anwendungsfall unten den richtigen Wert aus.
  - Suchen und Abrufen: Die Einbettung von Anwendungsfällen wie RAG und Suche umfasst zwei Hauptschritte: Erstens die Erstellung eines Index durch Generierung von Einbettungen für den Inhalt und zweitens das Abrufen der relevantesten Inhalte aus dem Index während der Suche. Verwenden Sie die folgenden Werte, wenn Sie mit Anwendungsfällen zum Suchen und Abrufen arbeiten:
    
    Indizierung:
    
    „GENERIC_INDEX“ – Erstellt Einbettungen, die für die Verwendung als Indizes in einem Vektordatenspeicher optimiert sind. Dieser Wert sollte unabhängig von der Modalität verwendet werden, die Sie indizieren.
    
    Suchen/Abrufen: Optimieren Sie Ihre Einbettungen je nach Art des Inhalts, den Sie abrufen:
    
    „TEXT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Text-Einbettungen enthält.
    „IMAGE_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Bild-Einbettungen enthält, die mit dem Detail-Level „STANDARD_IMAGE“ erstellt wurden.
    „VIDEO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Videoeinbettungen oder Einbettungen enthält, die mit dem Einbettungsmodus „AUDIO_VIDEO_COMBINED” erstellt wurden.
    „DOCUMENT_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Dokumentbild-Einbettungen enthält, die mit dem Detail-Level „DOCUMENT_IMAGE“ erstellt wurden.
    „AUDIO_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository optimiert sind, das ausschließlich Audio-Einbettungen enthält.
    „GENERIC_RETRIEVAL“ – Erstellt Einbettungen, die für die Suche in einem Repository mit Einbettungen gemischter Modalitäten optimiert sind.
    
    Beispiel: In einer Bildersuch-App, in der Benutzer Bilder anhand von Textabfragen abrufen, verwenden Sie embeddingPurpose = generic_index, wenn Sie einen Einbettungsindex auf der Grundlage der Bilder erstellen, und embeddingPurpose = image_retrieval, wenn Sie eine Einbettung der Abfrage erstellen, die zum Abrufen der Bilder verwendet wird.
  - „KLASSIFIZIERUNG“ – Erstellt Einbettungen, die für die Durchführung von Klassifizierungen optimiert sind.
  - „CLUSTERING“ – Erzeugt Einbettungen, die für Clustering optimiert sind.
- embeddingDimension (Optional) – Die Größe des zu generierenden Vektors.
  - Typ: int
  - Zulässige Werte: 256 | 384 | 1 024 | 3 072
  - Standard: 3072
- text (Optional) – Stellt Textinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - truncationMode (Erforderlich) – Gibt an, welcher Teil des Textes abgeschnitten wird, wenn die tokenisierte Version des Textes die vom Modell unterstützte maximale Länge überschreitet.
    
    Type: Zeichenkette
    Zulässige Werte:
    
    „START“ – Falls erforderlich, Zeichen am Anfang des Textes weglassen.
    „END“ – Falls erforderlich, Zeichen am Ende des Textes weglassen.
    „NONE“ – Schlägt fehl, wenn die Textlänge die maximale Token-Grenze des Modells überschreitet.
  - value (Optional; Wert oder Quelle müssen angegeben werden) – Textwert, für welchen die Einbettung erstellt werden soll.
    
    Type: Zeichenkette
    Maximale Länge: 8 192 Zeichen
  - source (Optional; Wert oder Quelle müssen angegeben werden) – Verweis auf eine in S3 gespeicherte Textdatei. Beachten Sie, dass die Byte-Option von nicht für Texteingaben gilt. SourceObject Um Text als Teil der Anfrage inline zu übergeben, verwenden Sie stattdessen den Wert-Parameter.
  - segmentationConfig (Erforderlich) – Steuert, wie Textinhalt in mehrere Einbettungen segmentiert werden soll.
    
    maxLengthChars (Optional) – Die maximale Länge, die für jedes Segment zulässig ist. Das Modell wird versuchen, nur an Wortgrenzen zu segmentieren.
    
    Typ: int
    Gültiger Bereich: 800–50 000
    Standard: 32 000
- image (Optional) – Stellt den Bildinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - format (Erforderlich)
    
    Type: Zeichenkette
    Zulässige Werte: „png“ | „jpeg“ | „gif“ | „webp“
  - source (Erforderlich) – Eine Bildinhaltsquelle.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
  - detailLevel (Optional) – Legt die Auflösung fest, mit der das Bild verarbeitet wird: „STANDARD_IMAGE“ verwendet eine niedrigere Bildauflösung, während „DOCUMENT_IMAGE“ eine höhere Auflösung verwendet, um Text besser interpretieren zu können.
    
    Type: Zeichenkette
    Zulässige Werte: „STANDARD_IMAGE“ | „DOCUMENT_IMAGE“
    Standard: „STANDARD_IMAGE“
- audio (Optional) – Stellt Audioinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - format (Erforderlich)
    
    Type: Zeichenkette
    Zulässige Werte: „MP3" | „WAV“ | „OGG“
  - source (Erforderlich) – Eine Quelle für Audioinhalte.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
  - segmentationConfig (Erforderlich) – Steuert, wie Audioinhalt in mehrere Einbettungen segmentiert werden soll.
    
    durationSeconds (Optional) – Die maximale Audiodauer (in Sekunden), die für jedes Segment verwendet werden soll.
    
    Typ: int
    Gültiger Bereich: 1–30
    Standard: 5
- video (Optional) – Stellt Videoinhalt dar. Es muss genau ein Text, Bild, Video, Audio vorhanden sein.
  - format (Erforderlich)
    
    Type: Zeichenkette
    Zulässige Werte: „MP4" | „MOV | „MKV | „WEBM“ | „FLV | „MPEG“ | „mMPG“ | „WMV“ | „3GP“
  - source (Erforderlich) – Eine Quelle für Videoinhalte.
    
    Typ: SourceObject (siehe Abschnitt „Allgemeine Objekte“)
  - embeddingMode (Erforderlich)
    
    Type: Zeichenkette
    Werte: „AUDIO_VIDEO_COMBINED“ | „AUDIO_VIDEO_SEPARATE“
    
    „AUDIO_VIDEO_COMBINED“ – Erzeugt eine einzige Einbettung für jedes Segment, in der sowohl akustische als auch visuelle Inhalte kombiniert werden.
    „AUDIO_VIDEO_SEPARATE“ – Es werden zwei Einbettungen für jedes Segment erstellt, eine für den Audioinhalt und eine für den Videoinhalt.
  - segmentationConfig (Erforderlich) – Steuert, wie Videoinhalt in mehrere Einbettungen segmentiert werden soll.
    
    durationSeconds (Optional) – Die maximale Videodauer (in Sekunden), die für jedes Segment verwendet werden soll.
    
    Typ: int
    Gültiger Bereich: 1–30
    Standard: 5

StartAsyncInvoke Antwort

Die Antwort auf einen Anruf an hat StartAsyncInvokedie folgende Struktur. Der invocationArn kann verwendet werden, um den Status des asynchronen Jobs mithilfe der GetAsyncInvokeFunktion abzufragen.



{
    "invocationArn": "arn:aws:bedrock:us-east-1:xxxxxxxxxxxx:async-invoke/lvmxrnjf5mo3",
}

Asynchrone Ausgabe

Wenn die Generierung asynchroner Einbettungen abgeschlossen ist, werden Ausgabe-Artefakte in den S3-Bucket geschrieben, den Sie als Ausgabeziel angegeben haben. Die Dateien haben die folgende Struktur:



   amzn-s3-demo-bucket/
    job-id/
        segmented-embedding-result.json
        embedding-audio.jsonl
        embedding-image.json
        embedding-text.jsonl
        embedding-video.jsonl
        manifest.json

Die segmented-embedding-result.json-Datei enthält das Gesamtergebnis des Auftrags und Verweise auf die entsprechenden JSONL-Dateien, welche die tatsächlichen Einbettungen pro Modalität enthalten. Im Folgenden finden Sie ein verkürztes Beispiel einer Datei:



{
    "sourceFileUri": string, 
    "embeddingDimension": 256 | 384 | 1024 | 3072,
    "embeddingResults": [
        {
            "embeddingType": "TEXT" | "IMAGE" | "VIDEO" | "AUDIO" | "AUDIO_VIDEO_COMBINED",
            "status": "SUCCESS" | "FAILURE" | "PARTIAL_SUCCESS",
            "failureReason": string, // Granular error codes
            "message": string, // Human-readbale failure message
            "outputFileUri": string // S3 URI to a "embedding-modality.jsonl" file
        }
        ...
    ]
}

Die embedding-modality.json besteht aus JSONL-Dateien, welche die Einbettungsausgabe für jede Modalität enthalten. Jede Zeile in der Jsonl-Datei entspricht dem folgenden Schema:



{
    "embedding": number[], // The generated embedding vector
    "segmentMetadata": {
        "segmentIndex": number,
        "segmentStartCharPosition": number, // Included for text only
        "segmentEndCharPosition": number, // Included for text only
        "truncatedCharLength": number, // Included only when text gets truncated
        "segmentStartSeconds": number, // Included for audio/video only
        "segmentEndSeconds": number // Included for audio/video only
    },
    "status": "SUCCESS" | "FAILURE",
    "failureReason": string, // Granular error codes
    "message": string // Human-readable failure message
}

Die folgende Liste enthält alle Parameter für die Antwort. Bei Textzeichen oder audio/video -zeiten basieren alle Start- und Endzeiten auf Null. Darüber hinaus sind alle Textpositionen oder audio/video Zeitwerte am Ende inklusiv.

embedding (Erforderlich) – Der Einbettungsvektor.
- Typ: Zahl
segmentMetadata – Die Metadaten für das Segment.
- segmentIndex – Der Index des Segments innerhalb des in der Anfrage angegebenen Arrays.
- segmentStartCharPosition – Nur für Text. Die Position des ersten Zeichens (einschließlich) des eingebetteten Inhalts innerhalb des Segments.
- segmentEndCharPosition – Nur für Text. Die Position des letzten Zeichens (exklusive) des eingebetteten Inhalts innerhalb des Segments.
- truncatedCharLength (Optional) – Wird zurückgegeben, wenn die tokenisierte Version des Eingabetextes die Beschränkungen des Modells überschreitet. Der Wert gibt das Zeichen an, nach dem der Text vor der Generierung der Einbettung abgeschnitten wurde.
  - Typ: Ganzzahl
- segmentStartSeconds— audio/video Nur für. Die Startzeit-Position des eingebetteten Inhalts innerhalb des Segments.
- segmentEndSeconds— audio/video Nur für. Die Endzeit-Position des eingebetteten Inhalts innerhalb des Segments.
status – Der Status des Segments.
failureReason – Die detaillierten Gründe für das Fehlschlagen des Segments.
- RAI_VIOLATION_INPUT_TEXT_DEFLECTION – Der Eingangstext verstößt gegen die RAI-Richtlinien.
- RAI_VIOLATION_INPUT_IMAGE_DEFLECTION – Das Eingangsbild verstößt gegen die RAI-Richtlinien.
- INVALID_CONTENT – Ungültige Eingabe.
- RATE_LIMIT_EXCEEDED— Die Einbettungsanfrage wird aufgrund der Nichtverfügbarkeit des Services gedrosselt.
- INTERNAL_SERVER_EXCEPTION – Es ist ein Problem aufgetreten.
message – Verwandte Fehlermeldung.

Dateibeschränkungen für Nova-Einbettungen

Synchrone Operationen können sowohl S3-Eingaben als auch Inline-Chunks akzeptieren. Asynchrone Operationen können nur S3-Eingaben akzeptieren.

Bei der asynchronen Generierung von Einbettungen ist es erforderlich sicherzustellen, dass Ihre Datei in eine angemessene Anzahl von Segmenten unterteilt ist. Für Texteinbettungen dürfen nicht mehr als 1 900 Segmente verwendet werden. Für Audio- und Videoeinbettungen dürfen nicht mehr als 1 434 Segmente verwendet werden.

Größenbeschränkungen der synchronen Eingabe
Dateityp	Größenbeschränkung
(Inline) Alle Dateitypen	25 MB
(S3) Text	1 MB; 50 000 Zeichen
(S3) Bild	50 MB
(S3) Video	30 Sekunden; 100 MB
(S3) Audio	30 Sekunden; 100 MB

Anmerkung

Die Beschränkung für Inline-Dateien auf 25 MB gilt nach der Base64-Einbettung. Dies führt zu einer Erhöhung der Dateigröße um etwa 33 %

Größenbeschränkungen der asynchronen Eingabe
Dateityp	Größenbeschränkung
(S3) Text	634 MB
(S3) Bild	50 MB
(S3) Video	2 GB; 2 Stunden
(S3) Audio	1 GB; 2 Stunden

Eingabedateiformate
Modalität	Dateitypen
Abbildformate	PNG, JPEG, WEBP, GIF
Audioformate	MP3, WAV, OGG
Videoformate	MP4, MOV, MKV, WEBM, FLV, MPEG, MPG, WMV, 3GP

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwendung von Nova Embeddings

Prompts für Verständnismodelle