

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Verstärktes Lernen in AWS DeepRacer
<a name="deepracer-how-it-works-overview-reinforcement-learning"></a>

 Beim Reinforcement-Learning interagiert ein *Agent*, z. B. ein physisches oder virtuelles DeepRacer AWS-Fahrzeug, mit dem Ziel, ein angestrebtes Ziel zu erreichen, mit einer *Umgebung*, um die Gesamtvergütung des Agenten zu maximieren. Der Agent führt eine *Aktion* aus. Dabei wird er von einer *Strategie* (Policy) angeleitet. Die Aktion findet aus einen gegebenen Umgebungs*zustand* statt und führt zu einem neuen Zustand. Mit jeder Aktion ist eine direkte *Belohnung* verbunden. Die Belohnung ist ein Maß für die Zweckmäßigkeit der Aktion. Diese direkte Belohnung wird als Feedback der Umwelt betrachtet. 

Das Ziel des Reinforcement-Learnings in AWS DeepRacer besteht darin, die optimale Richtlinie in einer bestimmten Umgebung zu erlernen. Das Lernen ist ein iterativer Prozess aus Versuchen und Fehlern. Der Agent führt eine zufällige Anfangsaktion aus, um in einen neuen Zustand zu gelangen. Dann wiederholt der Agent den Schritt vom neuen Zustand zum nächsten. Im Laufe der Zeit entdeckt der Agent Aktionen, die zu den größten langfristigen Belohnungen führen. Die Interaktion des Agenten von einem Ausgangszustand zu einem Endzustand wird als *Episode* bezeichnet.

Die folgende Skizze veranschaulicht diesen Lernprozess: 

 

![Abbildung: Überblick über das Reinforcement Learning.](http://docs.aws.amazon.com/de_de/deepracer/latest/developerguide/images/deepracer-reinforcement-learning-overview.png)


Der *Agent* ist ein neuronales Netzwerk, das eine Funktion zur Annäherung an die Strategie des Agenten darstellt. Das Bild der Frontkamera des Fahrzeugs stellt den Umgebungs*zustand* dar. Die *Aktion* des Agenten wird durch die Geschwindigkeit und den Lenkwinkel des Agenten definiert. 

Der Agent erhält positive *Belohnungen*, wenn er auf der Strecke bleibt und das Rennen beenden kann. Er erhält eine negative Belohnung für das Verlassen der Strecke. Zum Beginn einer *Episode* befindet sich der Agent irgendwo auf der Rennstrecke. Sie endet, wenn der Agent entweder von der Strecke abkommt oder eine Runde absolviert.

**Anmerkung**  
 Streng genommen bezieht sich der Umgebungszustand auf alles, was für das Problem relevant ist. Zum Beispiel die Position des Fahrzeugs auf der Strecke sowie die Form der Strecke. Das Bild, das durch die an der Fahrzeugfront montierte Kamera übertragen wird, erfasst nicht den gesamten Umgebungszustand. Aus diesem Grund wird davon ausgegangen, dass die Umgebung nur teilweise beobachtet wurde, und die Informationen, die dem Agenten übermittelt werden, werden als *Beobachtung* und nicht als Zustand bezeichnet. Der Einfachheit halber verwenden wir in dieser Dokumentation die Begriffe *Zustand* und *Beobachtung* austauschbar. 

Das Training des Agenten in einer simulierten Umgebung hat folgende Vorteile:
+  Die Simulation kann abschätzen, wie viel Fortschritt der Agent gemacht hat und wann er von der Strecke abkommt. So kann sie eine Belohnung berechnen. 
+  Die Simulation entlastet den Entwickler/Trainer. Er muss das Fahrzeug nicht wie bei einer physischen Strecje bei jedem Verlassen der Strecke neu platzieren.
+  Die Simulation kann das Training beschleunigen. 
+  Die Simulation ermöglicht eine bessere Kontrolle der Umgebungsbedingungen, z. B. die Auswahl verschiedener Strecken, Hintergründe und Fahrzeugbedingungen. 

Die Alternative zum Reinforcement Learning ist das *überwachte Lernen* (auch *Imitationslernen* oder "Modelllernen"). Hier wird ein in einer bestimmten Umgebung gesammelter bekannter Datenbestand (aus [Bild, Aktion]-Tupeln) zum Training des Agenten verwendet. Modelle, die per Imitationslernen trainiert werden, können für das autonome Fahren eingesetzt werden. Sie funktionieren nur dann gut, wenn die Bilder der Kamera den Bildern im Trainingsdatenbestand ähnlich sehen. Für eine zuverlässige Fahrweise muss der Trainingsdatenbestand umfassend sein. Im Gegensatz dazu erfordert das Reinforcement Learning keinen so großen Erfassungsaufwand. Bei diesem Ansatz kann vollständig in der Simulation trainiert werden. Da das Reinforcement Learning mit zufälligen Aktionen startet, lernt der Agent eine Vielzahl von Umgebungs- und Streckenbedingungen kennen. Dies macht das trainierte Modell robust.