Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # Riferimento alla funzione di DeepRacer ricompensa AWS Di seguito è riportato il riferimento tecnico della funzione di DeepRacer ricompensa di AWS. **Topics** + [Parametri di input della funzione di DeepRacer ricompensa AWS](deepracer-reward-function-input.md) + [Esempi di funzioni di DeepRacer ricompensa AWS](deepracer-reward-function-examples.md) # Parametri di input della funzione di DeepRacer ricompensa AWS La funzione di DeepRacer ricompensa di AWS accetta un oggetto dizionario come input. ``` def reward_function(params) : reward = ... return float(reward) ``` L'oggetto dizionario `params` contiene le seguenti coppie chiave-valore: ``` { "all_wheels_on_track": Boolean, # flag to indicate if the agent is on the track "x": float, # agent's x-coordinate in meters "y": float, # agent's y-coordinate in meters "closest_objects": [int, int], # zero-based indices of the two closest objects to the agent's current position of (x, y). "closest_waypoints": [int, int], # indices of the two nearest waypoints. "distance_from_center": float, # distance in meters from the track center "is_crashed": Boolean, # Boolean flag to indicate whether the agent has crashed. "is_left_of_center": Boolean, # Flag to indicate if the agent is on the left side to the track center or not. "is_offtrack": Boolean, # Boolean flag to indicate whether the agent has gone off track. "is_reversed": Boolean, # flag to indicate if the agent is driving clockwise (True) or counter clockwise (False). "heading": float, # agent's yaw in degrees "objects_distance": [float, ], # list of the objects' distances in meters between 0 and track_length in relation to the starting line. "objects_heading": [float, ], # list of the objects' headings in degrees between -180 and 180. "objects_left_of_center": [Boolean, ], # list of Boolean flags indicating whether elements' objects are left of the center (True) or not (False). "objects_location": [(float, float),], # list of object locations [(x,y), ...]. "objects_speed": [float, ], # list of the objects' speeds in meters per second. "progress": float, # percentage of track completed "speed": float, # agent's speed in meters per second (m/s) "steering_angle": float, # agent's steering angle in degrees "steps": int, # number steps completed "track_length": float, # track length in meters. "track_width": float, # width of the track "waypoints": [(float, float), ] # list of (x,y) as milestones along the track center } ``` Il riferimento tecnico più dettagliato per i parametri di input è il seguente. ## all\$1wheels\$1on\$1track **Type (Tipo)** `Boolean` **Range (Intervallo):** `(True:False)` Un flag `Boolean` per indicare se l'agente è in pista o meno. È fuori pista (`False`) se una delle sue ruote si trova al di fuori dei bordi della pista. È in pista (`True`) se tutte le ruote sono all'interno dei due bordi. La figura seguente mostra l'agente in pista. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-all_wheels_on_track-true.png) La figura seguente mostra l'agente fuori pista. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-all_wheels_on_track-false.png) **Esempio: ** *una funzione di ricompensa che utilizza il parametro `all_wheels_on_track`* ``` def reward_function(params): ############################################################################# ''' Example of using all_wheels_on_track and speed ''' # Read input variables all_wheels_on_track = params['all_wheels_on_track'] speed = params['speed'] # Set the speed threshold based your action space SPEED_THRESHOLD = 1.0 if not all_wheels_on_track: # Penalize if the car goes off track reward = 1e-3 elif speed < SPEED_THRESHOLD: # Penalize if the car goes too slow reward = 0.5 else: # High reward if the car stays on track and goes fast reward = 1.0 return float(reward) ``` ## closest\$1waypoints **Tipo:** `[int, int]` **Range (Intervallo)**: `[(0:Max-1),(1:Max-1)]` Gli indici a base zero dei due `waypoint` adiacenti più vicini alla posizione corrente dell'agente `(x, y)`. La distanza è misurata in base alla distanza euclidea dal centro dell'agente. Il primo elemento si riferisce al waypoint più vicino nella parte posteriore dell'agente e il secondo elemento si riferisce al waypoint più vicino davanti l'agente. `Max` è la lunghezza dell'elenco dei waypoint. Nell'illustrazione mostrata in [waypoint](#reward-function-input-waypoints), il `closest_waypoints` sarebbe `[16, 17]`. **Esempio**: una funzione di ricompensa che utilizza il parametro `closest_waypoints`. Il seguente esempio di funzione di ricompensa dimostra come utilizzare `waypoints` e `closest_waypoints` così come `heading` per calcolare le ricompense immediate. AWS DeepRacer supporta le seguenti librerie: math NumPy SciPy, random e Shapely. Per usarne una, aggiungi un'istruzione di importazione`import supported library`, sopra la definizione della funzione. `def function_name(parameters)` ``` # Place import statement outside of function (supported libraries: math, random, numpy, scipy, and shapely) # Example imports of available libraries # # import math # import random # import numpy # import scipy # import shapely import math def reward_function(params): ############################################################################### ''' Example of using waypoints and heading to make the car point in the right direction ''' # Read input variables waypoints = params['waypoints'] closest_waypoints = params['closest_waypoints'] heading = params['heading'] # Initialize the reward with typical value reward = 1.0 # Calculate the direction of the center line based on the closest waypoints next_point = waypoints[closest_waypoints[1]] prev_point = waypoints[closest_waypoints[0]] # Calculate the direction in radius, arctan2(dy, dx), the result is (-pi, pi) in radians track_direction = math.atan2(next_point[1] - prev_point[1], next_point[0] - prev_point[0]) # Convert to degree track_direction = math.degrees(track_direction) # Calculate the difference between the track direction and the heading direction of the car direction_diff = abs(track_direction - heading) if direction_diff > 180: direction_diff = 360 - direction_diff # Penalize the reward if the difference is too large DIRECTION_THRESHOLD = 10.0 if direction_diff > DIRECTION_THRESHOLD: reward *= 0.5 return float(reward) ``` ## closest\$1objects **Tipo:** `[int, int]` **Range (Intervallo)**: `[(0:len(objects_location)-1), (0:len(objects_location)-1)]` Gli indici a base zero dei due oggetti più vicini alla posizione corrente dell'agente di (x, y). Il primo indice si riferisce all'oggetto più vicino dietro l'agente e il secondo indice si riferisce all'oggetto più vicino davanti all'agente. Se c'è un solo oggetto, entrambi gli indici sono 0. ## distance\$1from\$1center **Tipo:** `float` **Range (Intervallo)**: `0:~track_width/2` Displacement, in metri, tra il centro dell'agente e il centro della pista. Il displacement massimo osservabile si verifica quando qualsiasi ruota dell'agente si trova all'esterno di un bordo della pista e, a seconda della larghezza del bordo, può essere leggermente inferiore o superiore a metà `track_width`. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-distance_from_center.png) **Esempio:** *una funzione di ricompensa che utilizza il parametro `distance_from_center`* ``` def reward_function(params): ################################################################################# ''' Example of using distance from the center ''' # Read input variable track_width = params['track_width'] distance_from_center = params['distance_from_center'] # Penalize if the car is too far away from the center marker_1 = 0.1 * track_width marker_2 = 0.5 * track_width if distance_from_center <= marker_1: reward = 1.0 elif distance_from_center <= marker_2: reward = 0.5 else: reward = 1e-3 # likely crashed/ close to off track return float(reward) ``` ## heading **Tipo:** `float` **Range (Intervallo)**: `-180:+180` Direzione di marcia, in gradi, dell'agente rispetto all'asse x del sistema di coordinate. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-heading.png) **Esempio:** *una funzione di ricompensa che utilizza il parametro `heading`* Per ulteriori informazioni, consulta [`closest_waypoints`](#reward-function-input-closest_waypoints). ## is\$1crashed **Tipo:** `Boolean` **Range (Intervallo)**: `(True:False)` Un flag booleano per indicare se l'agente si è arrestato in modo anomalo in un altro oggetto (`True`) o meno (`False`) come stato di fine. ## is\$1left\$1of\$1center **Tipo:** `Boolean` **Range (Intervallo)**: `[True : False]` Un flag `Boolean` per indicare se l'agente si trova sul lato sinistro rispetto al centro della pista (`True`) o sul lato destro (`False`). ## is\$1offtrack **Tipo:** `Boolean` **Range (Intervallo)**: `(True:False)` Un flag booleano per indicare se l'agente è fuori pista (True) o meno (False) come stato di fine. ## is\$1reversed **Tipo:** `Boolean` **Range (Intervallo)**: `[True:False]` Un flag booleano per indicare se l'agente sta guidando in senso orario (True) o antiorario (False). Viene utilizzato quando si abilita il cambio di direzione per ogni episodio. ## objects\$1distance **Tipo:** `[float, … ]` **Range (Intervallo)**: `[(0:track_length), … ]` Un elenco delle distanze tra gli oggetti nell'ambiente in relazione alla linea iniziale. L'elemento I° misura la distanza in metri tra l'oggetto I° e l'agente lungo la linea di partenza del binario. **Nota** abs \$1 (var1) - (var2)\$1 = how close the car is to an object, WHEN var1 = ["objects\$1distance"][index] and var2 = params["progress"]\$1params["track\$1length"] Per ottenere un indice dell'oggetto più vicino davanti al veicolo e dell'oggetto più vicino dietro il veicolo, utilizzare il parametro «closest\$1objects». ## objects\$1intestazione **Tipo:** `[float, … ]` **Range (Intervallo)**: `[(-180:180), … ]` Elenco delle intestazioni degli oggetti in gradi. L'elemento I° misura l'intestazione dell'oggetto I°. Per gli oggetti fissi, le loro intestazioni sono 0. Per un veicolo bot , il valore dell'elemento corrispondente è l'angolo di direzione del veicolo. ## objects\$1left\$1of\$1center **Tipo:** `[Boolean, … ]` **Range (Intervallo)**: `[True|False, … ]` Elenco dei flag booleani. Il valore dell'elemento I° indica se l'oggetto I° si trova sul lato sinistro (True) o destro (False) del centro della pista. ## objects\$1location **Tipo:** `[(x,y), … ]` **Range (Intervallo)**: `[(0:N,0:N), … ]` Elenco di tutte le posizioni degli oggetti, ogni posizione è una tupla di ([x, y](#reward-function-input-x_y)). La dimensione dell'elenco è uguale al numero di oggetti presenti sulla pista. L'oggetto potrebbe essere un ostacolo stazionario, veicoli bot in movimento. ## objects\$1speed **Tipo:** `[float, … ]` **Range (Intervallo)**: `[(0:12.0), … ]` Elenco delle velocità (metri al secondo) per gli oggetti in pista. Per gli oggetti fissi, le velocità sono 0. Per un veicolo bot, il valore è la velocità impostata durante l'allenamento. ## progress **Tipo:** `float` **Range (Intervallo)**: `0:100` Percentuale di tracciato completata. **Esempio:** *una funzione di ricompensa che utilizza il parametro `progress`* Per ulteriori informazioni, consulta [steps](#reward-function-input-steps). ## speed **Tipo:** `float` **Range (Intervallo)**: `0.0:5.0` La velocità dell'agente osservata, in metri al secondo (m/s). ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-speed.png) **Esempio:** *una funzione di ricompensa che utilizza il parametro `speed`* Per ulteriori informazioni, consulta [all\$1wheels\$1on\$1track](#reward-function-input-all_wheels_on_track). ## steering\$1angle **Tipo:** `float` **Range (Intervallo)**: `-30:30` Angolo di sterzata, in gradi, delle ruote anteriori dalla linea centrale dell'agente. Il segno negativo (-) indica una sterzata verso destra mentre il positivo (\$1) verso sinistra. La linea centrale dell'agente non è necessariamente parallela alla linea di mezzeria, come illustrato di seguito. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-steering.png) **Esempio:** *una funzione di ricompensa che utilizza il parametro `steering_angle`* ``` def reward_function(params): ''' Example of using steering angle ''' # Read input variable abs_steering = abs(params['steering_angle']) # We don't care whether it is left or right steering # Initialize the reward with typical value reward = 1.0 # Penalize if car steer too much to prevent zigzag ABS_STEERING_THRESHOLD = 20.0 if abs_steering > ABS_STEERING_THRESHOLD: reward *= 0.8 return float(reward) ``` ## steps **Tipo:** `int` **Range (Intervallo)**: `0:Nstep` Numero di passi completati. Un passo corrisponde a un'azione intrapresa dal veicolo seguendo la policy corrente. **Esempio:** *una funzione di ricompensa che utilizza il parametro `steps`* ``` def reward_function(params): ############################################################################# ''' Example of using steps and progress ''' # Read input variable steps = params['steps'] progress = params['progress'] # Total num of steps we want the car to finish the lap, it will vary depends on the track length TOTAL_NUM_STEPS = 300 # Initialize the reward with typical value reward = 1.0 # Give additional reward if the car pass every 100 steps faster than expected if (steps % 100) == 0 and progress > (steps / TOTAL_NUM_STEPS) * 100 : reward += 10.0 return float(reward) ``` ## track\$1length **Tipo:** `float` **Range (Intervallo)**: `[0:Lmax]` La lunghezza della pista in metri. `Lmax is track-dependent.` ## track\$1width **Tipo:** `float` **Range (Intervallo)**: `0:Dtrack` Larghezza della pista in metri. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-track_width.png) **Esempio:** *una funzione di ricompensa che utilizza il parametro `track_width`* ``` def reward_function(params): ############################################################################# ''' Example of using track width ''' # Read input variable track_width = params['track_width'] distance_from_center = params['distance_from_center'] # Calculate the distance from each border distance_from_border = 0.5 * track_width - distance_from_center # Reward higher if the car stays inside the track borders if distance_from_border >= 0.05: reward = 1.0 else: reward = 1e-3 # Low reward if too close to the border or goes off the track return float(reward) ``` ## x, y **Type (Tipo)**: `float` **Range (Intervallo)**: `0:N` Posizione, in metri, del centro dell'agente lungo gli assi x e y, dell'ambiente simulato contenente la pista. L'origine si trova nell'angolo in basso a sinistra dell'ambiente simulato. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-x-y.png) ## waypoint **Type (Tipo)**: `list` di `[float, float]` **Range (Intervallo)**: `[[xw,0,yw,0] … [xw,Max-1, yw,Max-1]]` Un elenco ordinato di milestone `Max` dipendenti dalla pista lungo il centro della pista stessa. Ogni pietra miliare è descritta da una coordinata di (xw,i, yw,i). Per una circuito circolare, il primo e l'ultimo waypoint sono identici. Per un circuito rettilineo o per un altro circuito non circolare, il primo e l'ultimo waypoint sono diversi. ![\[\]](http://docs.aws.amazon.com/it_it/deepracer/latest/developerguide/images/deepracer-reward-function-input-waypoints.png) **Esempio:** *una funzione di ricompensa che utilizza il parametro `waypoints`* Per ulteriori informazioni, consulta [`closest_waypoints`](#reward-function-input-closest_waypoints). # Esempi di funzioni di DeepRacer ricompensa AWS Di seguito sono elencati alcuni esempi della funzione di DeepRacer ricompensa di AWS. **Topics** + [Esempio 1: segui la linea centrale nelle prove a cronometro](#deepracer-reward-function-example-0) + [Esempio 2: rimani all'interno dei due confini nelle prove a cronometro](#deepracer-reward-function-example-1) + [Esempio 3: evita lo zig-zag nelle prove a cronometro](#deepracer-reward-function-example-2) + [Esempio 4: Rimanete su una corsia senza schiantarvi contro ostacoli fissi o veicoli in movimento](#deepracer-reward-function-example-3) ## Esempio 1: segui la linea centrale nelle prove a cronometro Questo esempio determina la distanza dell'agente dalla linea centrale e offre una ricompensa maggiore se l'agente è più vicino al centro della pista, incoraggiandolo a seguire il più possibile la linea centrale. ``` def reward_function(params): ''' Example of rewarding the agent to follow center line ''' # Read input parameters track_width = params['track_width'] distance_from_center = params['distance_from_center'] # Calculate 3 markers that are increasingly further away from the center line marker_1 = 0.1 * track_width marker_2 = 0.25 * track_width marker_3 = 0.5 * track_width # Give higher reward if the car is closer to center line and vice versa if distance_from_center <= marker_1: reward = 1 elif distance_from_center <= marker_2: reward = 0.5 elif distance_from_center <= marker_3: reward = 0.1 else: reward = 1e-3 # likely crashed/ close to off track return reward ``` ## Esempio 2: rimani all'interno dei due confini nelle prove a cronometro Questo esempio offre semplicemente ricompense elevate se l'agente rimane entro i confini e consente all'agente di individuare la strada migliore per finire un giro. È facile da programmare e comprendere, ma probabilmente richiede più tempo per convergere. ``` def reward_function(params): ''' Example of rewarding the agent to stay inside the two borders of the track ''' # Read input parameters all_wheels_on_track = params['all_wheels_on_track'] distance_from_center = params['distance_from_center'] track_width = params['track_width'] # Give a very low reward by default reward = 1e-3 # Give a high reward if no wheels go off the track and # the car is somewhere in between the track borders if all_wheels_on_track and (0.5*track_width - distance_from_center) >= 0.05: reward = 1.0 # Always return a float value return reward ``` ## Esempio 3: evita lo zig-zag nelle prove a cronometro Questo esempio incentiva l'agente a seguire la linea centrale, ma penalizza con una ricompensa inferiore se sterza troppo, il che aiuta a prevenire il movimento a zig-zag. L'agente impara a guidare senza problemi nel simulatore e probabilmente mantiene lo stesso comportamento quando viene impiegato sul veicolo fisico. ``` def reward_function(params): ''' Example of penalize steering, which helps mitigate zig-zag behaviors ''' # Read input parameters distance_from_center = params['distance_from_center'] track_width = params['track_width'] abs_steering = abs(params['steering_angle']) # Only need the absolute steering angle # Calculate 3 marks that are farther and father away from the center line marker_1 = 0.1 * track_width marker_2 = 0.25 * track_width marker_3 = 0.5 * track_width # Give higher reward if the car is closer to center line and vice versa if distance_from_center <= marker_1: reward = 1.0 elif distance_from_center <= marker_2: reward = 0.5 elif distance_from_center <= marker_3: reward = 0.1 else: reward = 1e-3 # likely crashed/ close to off track # Steering penality threshold, change the number based on your action space setting ABS_STEERING_THRESHOLD = 15 # Penalize reward if the car is steering too much if abs_steering > ABS_STEERING_THRESHOLD: reward *= 0.8 return float(reward) ``` ## Esempio 4: Rimanete su una corsia senza schiantarvi contro ostacoli fissi o veicoli in movimento Questa funzione di ricompensa premia l'agente che rimane all'interno dei confini della pista e penalizza l'agente se si avvicina troppo agli oggetti che lo precedono. L'agente può spostarsi da una corsia all'altra per evitare collisioni. La ricompensa totale è una somma ponderata della ricompensa e delle penalità. L'esempio dà più peso alla penalità nel tentativo di evitare incidenti. Sperimenta con pesi medi diversi per allenarti a risultati comportamentali diversi. ``` import math def reward_function(params): ''' Example of rewarding the agent to stay inside two borders and penalizing getting too close to the objects in front ''' all_wheels_on_track = params['all_wheels_on_track'] distance_from_center = params['distance_from_center'] track_width = params['track_width'] objects_location = params['objects_location'] agent_x = params['x'] agent_y = params['y'] _, next_object_index = params['closest_objects'] objects_left_of_center = params['objects_left_of_center'] is_left_of_center = params['is_left_of_center'] # Initialize reward with a small number but not zero # because zero means off-track or crashed reward = 1e-3 # Reward if the agent stays inside the two borders of the track if all_wheels_on_track and (0.5 * track_width - distance_from_center) >= 0.05: reward_lane = 1.0 else: reward_lane = 1e-3 # Penalize if the agent is too close to the next object reward_avoid = 1.0 # Distance to the next object next_object_loc = objects_location[next_object_index] distance_closest_object = math.sqrt((agent_x - next_object_loc[0])**2 + (agent_y - next_object_loc[1])**2) # Decide if the agent and the next object is on the same lane is_same_lane = objects_left_of_center[next_object_index] == is_left_of_center if is_same_lane: if 0.5 <= distance_closest_object < 0.8: reward_avoid *= 0.5 elif 0.3 <= distance_closest_object < 0.5: reward_avoid *= 0.2 elif distance_closest_object < 0.3: reward_avoid = 1e-3 # Likely crashed # Calculate reward by putting different weights on # the two aspects above reward += 1.0 * reward_lane + 4.0 * reward_avoid return reward ```