Parallelizzazione e schemi di dispersione - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Parallelizzazione e schemi di dispersione

Molte attività avanzate di ragionamento e generazione, come il riepilogo di documenti di grandi dimensioni, la valutazione di più percorsi di soluzione o il confronto di diverse prospettive, traggono vantaggio dall'esecuzione parallela dei prompt. I flussi di lavoro sequenziali tradizionali non sono all'altezza quando sono richieste scalabilità, reattività e tolleranza agli errori. Per ovviare a questo problema, la parallelizzazione basata su LLM può essere reinventata utilizzando un modello di scatter-gather basato sugli eventi, in cui le attività vengono assegnate dinamicamente ad agenti autonomi e i risultati sintetizzati in modo intelligente.

Il diagramma seguente è un esempio di flusso di lavoro di parallelizzazione LLM:

Parallelizzazione LLM.

Scatter-gather

Nei sistemi distribuiti, un pattern scatter-gather invia le attività a più servizi o unità di elaborazione in parallelo, attende le loro risposte e quindi aggrega i risultati in un output consolidato. A differenza del fan-out, lo scatter-gather è coordinato perché prevede risposte e di solito applica la logica per combinare, confrontare e selezionare i risultati.

Le implementazioni comuni per la parallelizzazione e lo scatter-gather includono quanto segue:

  • AWS Step Functions mappare uno stato per l'esecuzione parallela di attività

  • AWS Lambda con concorrenza, coordinando i risultati di più funzioni richiamate

  • Amazon EventBridge con flussi di lavoro di correlazione IDs e aggregazione

  • Pattern di controller personalizzato per gestire il fan-out e raccogliere risultati utilizzando Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB o code

Il diagramma seguente è un esempio di scatter-gather:

Scatter-gather.
  1. Un utente invia una richiesta a una funzione di coordinamento centrale che suddivide l'attività pubblicando messaggi paralleli su un argomento di Amazon Simple Notification Service (Amazon SNS).

  2. Ogni messaggio include i metadati delle attività e viene indirizzato a un operatore specializzato. AWS Lambda

  3. Ogni lavoratore elabora AWS Lambda in modo indipendente la sottoattività assegnata (ad esempio, interrogazione di un'API esterna, elaborazione di un documento e analisi dei dati).

  4. I risultati vengono scritti su un livello di storage comune, come Amazon Simple Queue Service (Amazon SQS).

  5. La funzione di aggregazione attende il completamento di tutte le risposte, quindi esegue le seguenti operazioni:

    • Raccoglie e aggrega i risultati (ad esempio, unisce i riepiloghi, seleziona le migliori corrispondenze)

    • Invia una risposta finale o attiva un flusso di lavoro a valle

I casi d'uso più comuni dei pattern scatter-gather includono i seguenti:

  • Ricerca federata

  • Motori di confronto dei prezzi

  • Analisi aggregata dei dati

  • Inferenza multimodello

Parallelizzazione basata su LLM (cognizione dispersa e raccolta)

Nei sistemi agentici, la parallelizzazione rispecchia da vicino lo scatter-gather distribuendo le sottoattività su più chiamate o agenti LLM, ciascuno dei quali affronta in modo indipendente una parte del problema. I risultati restituiti vengono raccolti e sintetizzati da un processo di aggregazione, che spesso è un altro LLM o un altro agente di controllo.

Parallelizzazione degli agenti

  1. Un agente invia una richiesta «Riepiloga le informazioni raccolte in questi 10 report».

  2. Suddivide i report in 10 attività di riepilogo LLM parallele.

  3. Quando restituisce tutti i riepiloghi, l'agente esegue le seguenti operazioni:

    • Aggrega i riepiloghi in un briefing unificato

    • Identifica temi o contraddizioni

    • Invia l'output sintetizzato all'utente

Questo flusso di lavoro agentico consente un ragionamento parallelo scalabile, modulare e adattivo. È ideale per i casi d'uso che richiedono un throughput cognitivo elevato.

Il diagramma seguente è un esempio di parallelizzazione degli agenti:

Parallelizzazione degli agenti.
  1. Un utente invia una query o un set di documenti composto da più parti.

  2. Un controller AWS Lambda o una funzione Step distribuisce le sottoattività. Ogni attività richiama una chiamata o un subagente Amazon Bedrock LLM con il proprio prompt.

  3. Quando le chiamate e le sottoattività sono complete, i risultati vengono archiviati (ad esempio, in Amazon S3 o nell'archivio di memoria) e una fase di aggregazione unisce, confronta o filtra gli output.

  4. Il sistema restituisce la risposta finale all'utente o all'agente downstream.

Questo sistema dispone di un ciclo di ragionamento distribuito con tracciabilità, tolleranza ai guasti e logica opzionale di ponderazione o selezione dei risultati.

Take-away

La parallelizzazione agentica utilizza modelli scatter-gather per distribuire le attività LLM, abilitando l'elaborazione parallela e la sintesi intelligente dei risultati.