Le migliori pratiche per la progettazione e l'implementazione di casi d'uso dell'architettura moderna incentrata sui dati

Supporta Patrikar, Amazon Web Services ()AWS

Maggio 2023 (cronologia dei documenti)

Le organizzazioni si stanno sempre più allontanando dalle architetture incentrate sulle applicazioni per abbracciare architetture incentrate sui dati in cui l'infrastruttura IT, lo sviluppo di applicazioni e persino i processi aziendali sono progettati in base ai requisiti dei dati. In un'architettura incentrata sui dati, i dati sono una risorsa IT fondamentale e i sistemi e i processi IT sono progettati per ottimizzare i dati.

Questa guida offre le migliori pratiche per progettare un'architettura moderna incentrata sui dati per ogni caso d'uso. Puoi utilizzare queste best practice per modernizzare le tue pipeline di dati e le operazioni di ingegneria dei dati che supportano tale pipeline. Questa guida fornisce anche una panoramica del ciclo di vita dei dati in una pipeline di dati. Comprendendo questo ciclo di vita, puoi creare pipeline di dati che ottimizzano i tuoi dati.

Puoi utilizzare questa guida per superare le seguenti sfide che molte organizzazioni devono affrontare quando progettano un'architettura incentrata sui dati per le pipeline di dati:

Avversione all'archiviazione di più versioni dello stesso set di dati: non è raro elaborare frequentemente i dati più volte, ma questo approccio presenta dei limiti. In effetti, evitare di elaborare i dati più volte è spesso meno dispendioso in termini di risorse e più conveniente. Questa guida illustra i vantaggi di adottare un approccio diverso incentrato sull'archiviazione dei dati elaborati in più fasi.
Riluttanza ad adottare i data lake: può essere difficile esaminare le affermazioni di marketing relative ai data lake e può anche essere difficile capire se l'organizzazione dispone delle competenze e delle risorse necessarie per incorporare un data lake nei sistemi e nei processi IT. Questa guida può aiutarti a capire come un data lake può essere un componente utile nella tua architettura incentrata sui dati.
Assunzione di un numero sufficiente di data engineer: le tendenze di mercato suggeriscono che i data scientist dovrebbero svolgere attività di ingegneria dei dati in molte organizzazioni anche se non hanno le giuste competenze di ingegneria dei dati. Queste lacune nelle competenze possono avere un impatto sui tuoi time-to-market piani. Questa guida può aiutarti a comprendere meglio quali competenze di ingegneria dei dati sono essenziali per progettare un'architettura incentrata sui dati.
Mancanza di conoscenza sull'uso dei servizi AWS per l'elaborazione orizzontale: l'elaborazione orizzontale o distribuita consente a un cluster di elaborare blocchi di dati in parallelo mappando le attività su più nodi e raccogliendo i risultati prima di inviarli in modo trasparente all'utente. Il passaggio all'elaborazione orizzontale rappresenta un cambiamento nel modo in cui i dati vengono visualizzati ed elaborati. Questo cambiamento influisce non solo sulla logica dell'applicazione o sull'applicazione stessa, ma anche sul modo in cui le organizzazioni lavorano con i dati. Ad esempio, l'elaborazione orizzontale influisce sull'archiviazione centrale, sulla distribuzione delle attività e sulla modularizzazione. L'elaborazione orizzontale favorisce inoltre blocchi di dati più grandi per le operazioni di lettura/scrittura. Questa guida spiega come l'elaborazione orizzontale può funzionare per la pipeline di dati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Obiettivi aziendali specifici