Bonnes pratiques pour la conception et la mise en œuvre de cas d'utilisation d'une architecture moderne centrée sur les données - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Bonnes pratiques pour la conception et la mise en œuvre de cas d'utilisation d'une architecture moderne centrée sur les données

Soutenez Patrikar, Amazon Web Services ()AWS

Mai 2023 (historique du document)

Organisations abandonnent de plus en plus les architectures centrées sur les applications pour adopter des architectures centrées sur les données dans lesquelles l'infrastructure informatique, le développement d'applications et même les processus métier sont conçus en fonction des exigences en matière de données. Dans une architecture centrée sur les données, les données constituent un actif informatique essentiel, et vous concevez vos systèmes et processus informatiques de manière à optimiser vos données.

Ce guide propose les meilleures pratiques pour concevoir une architecture moderne centrée sur les données adaptée à votre cas d'utilisation. Vous pouvez utiliser ces meilleures pratiques pour moderniser vos pipelines de données et les opérations d'ingénierie des données qui les soutiennent. Ce guide fournit également une vue d'ensemble du cycle de vie des données dans un pipeline de données. En comprenant ce cycle de vie, vous pouvez créer des pipelines de données qui optimisent vos données.

Vous pouvez utiliser ce guide pour surmonter les défis suivants auxquels de nombreuses entreprises sont confrontées lors de la conception d'une architecture centrée sur les données pour les pipelines de données :

  • Aversion pour le stockage de plusieurs versions d'un même ensemble de données — Il n'est pas rare de traiter fréquemment des données plusieurs fois, mais cette approche a ses limites. En fait, il est souvent moins gourmand en ressources et plus rentable d'éviter de traiter plusieurs fois les données. Ce guide vous montre les avantages d'une approche différente qui met l'accent sur le stockage des données traitées en plusieurs étapes.

  • Réticence à adopter les lacs de données — Il peut être difficile de faire le tri entre les allégations marketing relatives aux lacs de données, et il peut également être difficile de déterminer si votre entreprise possède les compétences et les ressources nécessaires pour intégrer un lac de données dans ses systèmes et processus informatiques. Ce guide peut vous aider à comprendre en quoi un lac de données peut être un composant utile de votre architecture centrée sur les données.

  • Recruter suffisamment d'ingénieurs de données — Les tendances du marché suggèrent que les data scientists sont censés effectuer des tâches d'ingénierie des données dans de nombreuses organisations, même s'ils ne possèdent pas les compétences requises en ingénierie des données. Ces lacunes en matière de compétences peuvent avoir un impact sur vos time-to-market projets. Ce guide peut vous aider à mieux comprendre quelles compétences en ingénierie des données sont essentielles pour concevoir une architecture centrée sur les données.

  • Manque de connaissances sur l'utilisation des services AWS pour le traitement horizontal — Le traitement horizontal ou distribué permet à un cluster de traiter des fragments de données en parallèle en mappant des tâches sur plusieurs nœuds et en collectant le résultat avant de l'envoyer de manière transparente à l'utilisateur. Le passage au traitement horizontal représente un changement dans la façon dont les données sont visualisées et traitées. Ce changement affecte non seulement la logique de l'application ou l'application elle-même, mais également la façon dont les entreprises travaillent avec les données. Par exemple, le traitement horizontal affecte le stockage central, la distribution des tâches et la modularisation. Le traitement horizontal favorise également les gros volumes de données pour les opérations de lecture-écriture. Ce guide explique comment le traitement horizontal peut fonctionner pour votre pipeline de données.