View a markdown version of this page

Procedure ottimali di documentazione per le applicazioni RAG - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Procedure ottimali di documentazione per le applicazioni RAG

Lo sviluppo di un'applicazione Retrieval-Augmented Generation (RAG) di successo richiede un'attenta considerazione di vari fattori relativi ai documenti per ottimizzarne le prestazioni. Le migliori pratiche in questa sezione sono curate sulla base dell'esperienza nella creazione di sistemi RAG con molti dirigenti di organizzazioni. Di seguito sono riportate alcune best practice chiave relative ai documenti per migliorare l'efficacia dell'applicazione RAG:

  • Usa titoli e sottotitoli correttamente: l'organizzazione dei contenuti con titoli e sottotitoli chiari migliora la leggibilità e aiuta i modelli RAG a comprendere la struttura dei documenti. Questa pratica consente ai modelli di navigare meglio ed estrarre informazioni dai documenti, il che migliora la qualità delle risposte generate.

  • Garantire che la numerazione sia sequenziale: quando si utilizzano elenchi numerati, è importante mantenere una numerazione corretta per evitare confusione. Assicurati che ogni voce dell'elenco sia numerata in sequenza senza saltare i numeri. Questo aiuta a mantenere la chiarezza e la coerenza dei contenuti.

  • Aggiungere transizioni tra gli elementi dell'elenco: fornire transizioni tra gli elementi di un elenco puntato o numerato aiuta a guidare l'LLM attraverso il contenuto. Ad esempio, puoi usare frasi come «Dopo aver completato la fase 2, fai...» per collegare idee e migliorare il flusso di informazioni.

  • Sostituisci le tabelle: evita di usare le tabelle. Formatta queste informazioni in elenchi puntati a più livelli o in una sintassi a livello semplice. La sintassi a livello piatto consiste nel disporre gli elementi o gli elementi allo stesso livello gerarchico, senza livelli annidati di subordinazione. Queste strutture aiutano a digerire le informazioni. LLMs Poiché la maggior parte dei documenti indicizzati viene letta da sinistra a destra, la sintassi a livello piatto consente alle informazioni di seguire in modo più coerente senza dover fare riferimento a una dimensione aggiuntiva. Questo formato è più adatto alle applicazioni RAG perché presenta le informazioni in modo strutturato e facilmente digeribile.

  • Preelabora le informazioni grafiche per una maggiore efficienza: Multi-Modal LLMs può inserire sia immagini che testo. Riduci la risoluzione delle immagini, rimuovi le immagini ridondanti e descrivi il contenuto degli elementi grafici in formato testo. Queste misure migliorano il contesto significativo, evitano di consumare token inutilmente e migliorano l'accessibilità dei modelli RAG.

  • Aggiungi iniziatori di sessione per domande comuni: quando rispondi a domande o attività comuni, come «Come posso ordinare un software?» , aggiungete uno starter di sessione che consenta al lettore di entrare nel processo. Ad esempio, potresti aggiungere «Se stai cercando di ordinare del software, segui i passaggi seguenti...». Questo aiuta a creare una corrispondenza semantica elevata, che aiuta l'LLM a costruire una risposta coesa.

  • Aggiungi un riepilogo a ciascuna sezione: dopo ogni titolo o sottotitolo, aggiungi un breve e conciso riepilogo del contenuto di quella sezione. Ciò può aumentare la copertura semantica e rafforzare i punti chiave. Ciò migliora l'accuratezza della ricerca di similarità all'interno dello spazio di incorporamento, migliorando così le prestazioni dell'applicazione RAG. Ciò è particolarmente utile se il documento è destinato sia al LLM che al consumo umano o se sono necessari elementi tabellari e grafici.

  • Disambiguazione: i documenti devono essere concisi e mirati. LLMs generano risposte basate su estratti recuperati, quindi la disambiguazione aiuta il modello a utilizzare informazioni chiare e pertinenti. Ciò si traduce in risposte più accurate e informative.

  • Definisci le abbreviazioni e imposta il contesto: LLMs vengono addestrati su grandi quantità di dati Internet e, nella maggior parte dei casi, non hanno il contesto dei documenti interni di un'azienda. Pertanto, impostare il contesto, definire le abbreviazioni ed evitare o definire la terminologia specifica dell'azienda aiuta l'LLM a comprendere i dati aziendali. Questo aiuta l'LLM a rispondere alle domande in modo più accurato e può aiutare a prevenire le allucinazioni.

  • Ristruttura documenti di grandi dimensioni in documenti più piccoli per un'etichettatura e un'indicizzazione efficienti: evita di indicizzare un documento di grandi dimensioni che contiene più argomenti secondari. Prendi in considerazione la possibilità di dividere il documento di grandi dimensioni in documenti più piccoli e autonomi con titoli chiari. Ciò migliora l'indicizzazione e l'etichettatura.