Inferenzoptionen in Amazon SageMaker AI - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Inferenzoptionen in Amazon SageMaker AI

SageMaker AI bietet mehrere Inference-Optionen. So können Sie diejenige Option auswählen, die am besten zu Ihrem Workload passt:

  • Echtzeit-Inferenz: Echtzeit-Inferenz eignet sich ideal für Online-Inferences, die eine geringe Latenz oder einen hohen Durchsatz erfordern. Verwenden Sie Echtzeit-Inferenz für einen persistenten und vollständig verwalteten Endpunkt (REST API), der anhaltenden Datenverkehr verarbeiten kann, unterstützt durch den Instance-Typ Ihrer Wahl. Echtzeit-Inferenz kann Nutzdaten von bis zu 25 MB und Verarbeitungszeiten von 60 Sekunden für reguläre Antworten und 8 Minuten für Streaming-Antworten unterstützen.

  • Serverless Inference: Serverless Inference eignet sich ideal, wenn Sie intermittierende oder unvorhersehbare Datenverkehrsmuster haben. SageMaker AI verwaltet die gesamte zugrundeliegende Infrastruktur, so dass Sie keine Instances oder Skalierungsrichtlinien verwalten müssen. Sie bezahlen nur für das, was Sie tatsächlich nutzen und nicht für Leerlaufzeit. Unterstützt werden Nutzlasten bis 4 MB und Verarbeitungszeiten von bis zu 60 Sekunden.

  • Batch-Transformation: Die Batch-Transformation eignet sich für die Offline-Verarbeitung, wenn große Datenmengen im Voraus verfügbar sind und Sie keinen persistenten Endpunkt brauchen. Sie können die Batch-Transformation auch zum Vorverarbeiten von Datensätzen verwenden. Sie kann große Datensätze mit mehreren GB und Verarbeitungszeiten von mehreren Tagen unterstützen.

  • Asynchrone Inference: Die Asynchrone Inference eignet sich ideal, wenn Sie Anfragen in eine Warteschlange stellen möchten und große Nutzlasten mit langen Verarbeitungszeiten haben. Die asynchrone Inference unterstützt Nutzlasten bis 1 GB und lange Verarbeitungszeiten von bis zu einer Stunde. Sie können Ihren Endpunkt auch auf 0 herunterskalieren, wenn keine Anfragen verarbeitet werden müssen.