Architettura dei dati - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Architettura dei dati

Progetta ed evolvi un'architettura di fit-for-purpose dati e analisi.

Un'architettura di dati e analisi ben progettata è essenziale per ottenere informazioni utili. Progettando ed evolvendo un'architettura di fit-for-purpose dati e analisi, le organizzazioni riducono la complessità, i costi e il debito tecnico, sfruttando al contempo informazioni preziose dai loro volumi di dati in continua crescita. Allineandosi ai principi AWS CAF, le aziende possono creare un'architettura di dati che si integra perfettamente con la piattaforma esistente. Questo allineamento consente alle organizzazioni di capitalizzare i vantaggi offerti dalle moderne tecnologie di elaborazione e analisi dei dati.

L'architettura dei dati e dell'analisi è il modello delle capacità di un'organizzazione di ricavare valore dai dati. Aiuta l'organizzazione ad acquisire nuove informazioni aziendali ed è un catalizzatore per la crescita aziendale. Per supportare le esigenze aziendali, una moderna architettura dei dati deve essere in linea con gli obiettivi aziendali a breve e lungo termine ed essere unica rispetto ai requisiti culturali e contestuali dell'organizzazione. Nel mondo di oggi, l'implementazione e l'adozione di successo di un'architettura di dati e analisi si basano sul principio di fornire i dati giusti al momento giusto per il consumatore giusto.

Ciò si ottiene pianificando e organizzando il modo in cui gli asset di dati di un'organizzazione vengono modellati, fisicamente o logicamente, come i dati sono protetti e come questi modelli di dati interagiscono tra loro per risolvere problemi aziendali e ricavare modelli sconosciuti e generare approfondimenti.

Start (Avvio)

Definisci la capacità globale

Nell'attuale ambiente aziendale, è fondamentale che la moderna piattaforma di analisi dei dati tragga valore dai dati per supportare vari domini dell'organizzazione. Invece di adottare un unico approccio all'architettura dei dati, la moderna architettura dei dati dovrebbe includere set di strumenti e modelli creati appositamente e ottimizzati per casi d'uso specifici. L'architettura dovrebbe essere in grado di evolversi e includere elementi costitutivi di base, come data lake scalabili, servizi di analisi appositamente progettati, accesso unificato ai dati e governance unificata.

Organizza le zone dati

Il modo in cui i dati sono organizzati e archiviati per un accesso rapido e semplice è un aspetto fondamentale dell'architettura dei dati. Ciò può essere ottenuto configurando zone dati personalizzate all'interno di un data lake. Le zone dati sono classificate come segue:

  • Dati grezzi raccolti da fonti eterogenee

  • Dati curati e trasformati per supportare le esigenze analitiche di ogni dominio

  • Utilizza data mart basati su casi o prodotti per le esigenze di reporting

  • Dati esposti esternamente con controlli di sicurezza e conformità

Piano per l'agilità e la democratizzazione dei dati

L'efficacia di una piattaforma di analisi dipende dalla velocità di approvvigionamento dei dati e dalla democratizzazione dei dati forniti per il consumo. L'agilità di approvvigionamento dei dati si ottiene grazie alla capacità dell'architettura dei dati di procurarsi ed elaborare i dati in vari modi, ad esempio in tempo reale, quasi reale, in batch, microbatch o ibrido, in base al caso d'uso. La democratizzazione dei dati si ottiene definendo flussi di lavoro di condivisione dei dati e controllo degli accessi monitorati dai data steward. L'implementazione di un mercato dei dati è uno dei fattori abilitanti per la democratizzazione dei dati.

Definisci la consegna sicura dei dati

Una moderna architettura dei dati è una fortezza per il mondo esterno in termini di sicurezza, ma consente un facile accesso ai dipendenti o agli utenti dei dati, come definito dalle loro funzioni lavorative, e aderisce alle restrizioni di conformità come l'Health Insurance Portability and Accountability Act (HIPAA), le informazioni di identificazione personale (PII), il Regolamento generale sulla protezione dei dati (GDPR) e così via. Ciò è ottenuto mediante metodi di controllo degli accessi basati sui ruoli (RBAC) e di controllo degli accessi basati su tag (TBAC). Sì AWS, i tag vengono utilizzati per controllare l'accesso ai dati e semplificare la gestione del controllo degli accessi. Fatelo in linea con i principi delineati nella prospettiva della sicurezza AWS CAF.

Pianifica l'economicità

I data warehouse tradizionali offrono elaborazione e storage strettamente collegati con un elevato costo di utilizzo delle risorse. Un'architettura moderna separa elaborazione e storage e implementa lo storage su più livelli in base al ciclo di vita dei dati. Ad esempio, on AWS, puoi utilizzare Amazon Simple Storage Service (Amazon S3) per controllare i costi e separare lo storage dei dati dall'elaborazione. Le classi di storage di Amazon S3 sono progettate appositamente per fornire lo storage più economico per diversi modelli di accesso. Inoltre, gli strumenti di AWS elaborazione (come Amazon Athena AWS Glue, Amazon Redshift e SageMaker Amazon Runtime) sono serverless, quindi non devi gestire l'infrastruttura e paghi solo per ciò che usi. 

Advance

La moderna architettura dei dati potrebbe essere ulteriormente migliorata per aumentare l'ampiezza dell'utilizzo dei dati, dall'analisi standard che supporta le funzioni aziendali e operative a funzionalità più complesse che supportano previsioni e approfondimenti, e aiuta a velocizzare il processo decisionale. A tal fine, l'architettura supporta le funzionalità descritte nelle sezioni seguenti.

Comprendi l'ingegneria delle funzionalità

L'ingegneria delle funzionalità utilizza l'apprendimento automatico e prevede la configurazione di negozi di funzionalità o feature mart. I team di data science creano nuove funzionalità (attributi derivati) per modelli di apprendimento supervisionati e non supervisionati e le archiviano in tabelle di funzionalità per una trasformazione semplificata e una maggiore precisione dei dati. Le aziende possono riutilizzare le funzionalità su più modelli di analisi, il che migliora la velocità di immissione sul mercato.

Pianifica la denormalizzazione dei set di dati

La creazione di set di dati o data mart denormalizzati potrebbe semplificare in modo significativo i set di dati per gli utenti aziendali, rendendo i dati richiesti immediatamente disponibili in un'unica posizione e aumentando la velocità di analisi. Se progettato con cura, un record potrebbe supportare più modelli di utilizzo e ridurre il ciclo di vita complessivo dello sviluppo. Una governance efficace dei set di dati denormalizzati è importante anche per due motivi. L'implementazione di dati denormalizzati potrebbe creare un gran numero di set di dati ridondanti, il che potrebbe diventare una sfida da gestire su larga scala. Inoltre, questi set di dati potrebbero essere sempre più difficili da riutilizzare se non vengono modellati correttamente. 

Portabilità e scalabilità del design

Le grandi organizzazioni raramente hanno tutte le applicazioni e gli utenti su un'unica piattaforma di dati. Le loro applicazioni e i loro archivi di dati sono generalmente distribuiti su piattaforme legacy locali e cloud, il che rende difficile per i team di analisi combinare e unire i dati. Ti consigliamo di containerizzare i dati in base a caratteristiche quali dominio, geografia, casi d'uso aziendali e così via. Questa containerizzazione aumenta la portabilità tra varie piattaforme e applicazioni e supporta un consumo più efficace. La segmentazione dei dati in contenitori e la loro esposizione APIs consente di scalare più facilmente l'architettura dei dati. Abilita il flusso di end-to-end dati ibrido e aiuta le applicazioni locali e basate sul cloud a funzionare senza problemi.

Excel

Poiché una moderna architettura di analisi si evolve all'interno di un'organizzazione, è importante gestire tale cambiamento introducendo concetti riutilizzabili. Questi concetti aumentano la durabilità e l'adozione mantenendo i costi sotto controllo. Alcuni dei concetti da considerare sono discussi nelle sezioni seguenti.

Progetta un framework configurabile

Organizations spesso crea modelli multipli e complessi per soddisfare le proprie esigenze aziendali specifiche. Questi modelli richiedono la creazione di più pipeline di dati e funzionalità ingegnerizzate. Nel tempo, ciò crea una ridondanza significativa e aumenta i costi operativi. La creazione di un framework che incorpora una serie di modelli di base configurabili e basati su parametri riduce i tempi di sviluppo e i costi operativi. Il motore analitico può implementare questi modelli configurabili per fornire l'output desiderato.

Pianifica la creazione di un motore analitico unificato

I problemi aziendali sono unici e spesso richiedono tecnologie personalizzate per soddisfare i requisiti, il che si traduce in più motori analitici in un'organizzazione. La progettazione e lo sviluppo di un'interfaccia analitica unificata basata sull'intelligenza artificiale in grado di supportare più paradigmi di programmazione semplifica l'utilizzo e riduce i costi.

Definire DataOps

La maggior parte dei professionisti dei dati dedica una notevole quantità di tempo a eseguire operazioni sui dati, come l'individuazione dei dati giusti, la trasformazione, la modellazione e così via. Avere operazioni agili sui dati (DataOps) può migliorare notevolmente l'architettura dei dati abbattendo i silos di data engineer, data scientist, proprietari dei dati e analisti. DataOps consente una migliore comunicazione tra i team, riduce i tempi di ciclo e garantisce un'elevata qualità dei dati. Le architetture di dati e analisi hanno subito numerose trasformazioni nel tempo a causa delle mutevoli esigenze aziendali e dei progressi tecnologici. Un'organizzazione deve impegnarsi a sviluppare, implementare e mantenere un'architettura di dati e analisi che si evolva nel tempo e supporti le proprie attività.