Sfide relative all'elaborazione dei flussi
L'elaborazione dei dati in tempo reale man mano che arrivano può consentire di prendere decisioni molto più velocemente di quanto sia possibile con le tradizionali tecnologie di analisi dei dati. Tuttavia, la costruzione e l'utilizzo di pipeline di dati di streaming personalizzate è complicato e richiede molte risorse:
-
È necessario costruire un sistema in grado di raccogliere, preparare e trasmettere i dati provenienti simultaneamente da migliaia di origini dati a costi ridotti.
È necessario ottimizzare le risorse di archiviazione e di calcolo in modo che i dati vengano raggruppati in batch e trasmessi in modo efficiente per la massima velocità effettiva e la bassa latenza.
-
È necessario implementare e gestire un parco istanze di server per dimensionare il sistema in modo da poter gestire le diverse velocità dei dati che si intende inviare ad esso.
L'aggiornamento delle versioni è un processo complesso e costoso. Dopo aver costruito questa piattaforma, è necessario monitorare il sistema ed effettuare il ripristino da eventuali errori del server o della rete recuperando l'elaborazione dei dati dal punto appropriato nel flusso, senza creare dati duplicati. È inoltre necessario un team dedicato per la gestione dell'infrastruttura. Tutto ciò richiede tempo prezioso e denaro e, in fin dei conti, la maggior parte delle aziende ha difficoltà su questo aspetto e deve accontentarsi dello status quo e gestire la propria attività con informazioni vecchie di ore o giorni.