Einschränkungen beim Videoverständnis

Im Folgenden sind die wichtigsten Einschränkungen aufgeführt, bei denen die Genauigkeit und Leistung der Modelle möglicherweise nicht gewährleistet werden kann.

Ein Video pro Anfrage: Derzeit unterstützt das Modell nur 1 Video pro Anfrage. Einige Frameworks und Bibliotheken verwenden Speicher, um frühere Interaktionen zu verfolgen. Möglicherweise wurde ein Video in einem früheren Kontext hinzugefügt.
Keine Audiounterstützung: Die Modelle sind derzeit darauf trainiert, Videoinhalte ausschließlich auf der Grundlage der visuellen Informationen im Video zu verarbeiten und zu verstehen. Sie sind nicht in der Lage, Audiokomponenten, die im Video vorhanden sind, zu analysieren oder zu verstehen.
Zeitliche Kausalität: Das Modell hat nur begrenzte Kenntnisse über die Kausalität von Ereignissen im Verlauf des Videos. Es beantwortet zwar gut Fragen zu einem bestimmten Zeitpunkt, schneidet aber bei Antworten, die vom Verständnis einer Abfolge von Ereignissen abhängen, nicht so gut ab
Verständnis mehrsprachiger Bilder: Die Modelle verfügen über ein begrenztes Verständnis von mehrsprachigen Bildern und Videobildern. Sie könnten bei ähnlichen Aufgaben Schwierigkeiten haben oder halluzinieren.
Identifizierung von Personen: Die Amazon-Nova-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen. Die Modelle werden sich weigern, solche Aufgaben auszuführen.
Räumliches Denken: Die Amazon-Nova-Modelle verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die eine genaue Lokalisierungs- oder Layoutanalyse erfordern.
Kleiner Text in Bildern oder Videos: Sollte der Text im Bild oder Video zu klein sein, erwägen Sie bitte, die relative Größe des Textes im Bild zu vergrößern, indem Sie den relevanten Ausschnitt zuschneiden und dabei den notwendigen Inhalt beibehalten.
Zählen: Die Amazon-Nova-Modelle können eine ungefähre Anzahl von Objekten in einem Bild angeben, sind jedoch möglicherweise nicht immer präzise, insbesondere wenn es sich um eine große Anzahl kleiner Objekte handelt.
Unangemessene Inhalte: Die Amazon-Nova-Modelle verarbeiten keine unangemessenen oder expliziten Bilder, die gegen die Richtlinie zur zulässigen Nutzung verstoßen
Anwendungen im Gesundheitswesen: Aufgrund der Sensibilität dieser Artefakte können Amazon-Nova-Modelle zwar allgemeine Analysen von Bildern oder Videos aus dem Gesundheitswesen durchführen, wir empfehlen Ihnen jedoch nicht, komplexe diagnostische Scans zu interpretieren. Eine Antwort von Amazon Nova sollte niemals als Ersatz für professionelle medizinische Beratung angesehen werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einschränkungen beim Videoverständnis

Beispiele zum Videoverständnis