データエンジニアリングチームビジネス分析チームデータサイエンスチーム (モデルのデプロイを決定するため)

技術的評価

技術的評価は重要です。これは、技術的評価によって、会社が現在導入している技術的能力のマップが明らかになるためです。この評価では、データガバナンス、データインジェスト、データ変換、データ共有、機械学習 (ML) プラットフォーム、プロセス、および自動化が対象となります。

技術的評価中に尋ねることができる質問の例を、チーム別に以下に示します。コンテキストに応じて質問を追加できます。

データエンジニアリングチーム

あなたのチームで、データの取り込みに関連する現在の課題は何ですか?
あなたのチームが必要とする外部または内部のデータソースのうち、取り込みに使用できないものはありますか? それらを使用できないのはなぜですか?
どのタイプのデータソース (例: MySQL データベース、Salesforce API、受信したファイル、ウェブサイトナビゲーションデータ) からデータを取り込みますか?
新しいデータソースからデータを取り込むのにどれくらいの時間がかかりますか?
新しいソースからデータを取り込むプロセスは自動化されていますか?
開発チームがアプリケーションから分析用のトランザクションデータを公開する難易度はどの程度ですか?
データソースから (バッチまたはマイクロバッチで) 全ロードまたは増分ロードを行うためのツールはありますか?
データベースから継続的なロードを行うための変更データキャプチャ (CDC) ツールはありますか?
データインジェスト用のデータストリーミングオプションはありますか?
バッチデータおよびリアルタイムデータのデータ変換をどのように実行しますか?
データ変換ワークフローのオーケストレーションをどのように管理しますか?
データ検出とカタログ化、データインジェスト、データ変換、ビジネスアナリストの支援、データサイエンティストの支援、データガバナンス、チームやユーザーのトレーニングのうち、最も頻繁に実行するアクティビティはどれですか?
データセットを作成する場合に、データプライバシーについてそれらのデータをどのように分類しますか? また、社内コンシューマーにとって意味のあるものにするために、どのようにクリーンアップしますか?
データガバナンスとデータスチュワードシップは一元化されていますか、それとも分散されていますか?
データガバナンスはどのように適用しますか? 自動プロセスはありますか?
データパイプラインの各フェーズ (データインジェスト、データ処理、データ共有、データ使用) において、データオーナーおよびスチュワードは誰ですか? 所有者とスチュワードを決定するためのデータドメインの概念はありますか?
組織内でアクセスコントロールを伴ってデータセットを共有する際の主な課題は何ですか?
データパイプラインのデプロイと管理に Infrastructure as Code (IaC) を使用していますか?
データレイク戦略はありますか?
- データレイクは組織全体で分散されていますか、それとも一元化されていますか?
データカタログはどのように編成されていますか? 全社的ですか、それとも領域ごとですか?
データレイクハウスアプローチを導入していますか?
データメッシュの概念を使用しているか、または使用する予定がありますか?

これらの質問は、「AWS Well-Architected Framework Data Analytics Lens」で補完できます。

ビジネス分析チーム

あなたの業務に使用できるデータについて、以下の特性をどのように説明しますか?
- クリーンさ
- Quality
- 分類
- メタデータ
- ビジネス上の意味
あなたのチームは、自分の領域のデータセットに関するビジネス用語集の定義に参加していますか?
業務遂行に必要なデータが必要なときにない場合、どのような影響がありますか?
データにアクセスできない、あるいはデータの取得に時間がかかりすぎるというシナリオの例はありますか? 必要なデータを取得するのにどのくらいの時間がかかりますか?
技術的な問題や処理時間が原因で、必要なデータセットより小さいデータセットを使用することはどのくらいの頻度でありますか?
必要なスケールとツールを備えたサンドボックス環境はありますか?
仮説を検証するために A/B テストを実行できますか?
ジョブの実行に必要なツールは不足していませんか?
- どのタイプのツールですか?
- それらを使用できないのはなぜですか?
実行する時間がない、重要なアクティビティはありますか?
最も時間を消費するアクティビティはどれですか?
ビジネスビューはどのように更新されますか?
- それらのスケジュールと管理は自動で行われますか?
取得したデータよりも新しいデータが必要になるのはどのシナリオですか?
どのように分析を共有しますか? 共有にはどのツールおよびプロセスを使用しますか?
新しいデータ製品を作成し、それを他のチームが使用できるようにすることは頻繁にありますか?
- 他のビジネス領域と、あるいは会社全体でデータ製品を共有するプロセスはどのようなものですか?

データサイエンスチーム (モデルのデプロイを決定するため)

あなたの業務に使用できるデータについて、以下の特性をどのように説明しますか?
- クリーンさ
- Quality
- 分類
- メタデータ
- 意味
機械学習 (ML) モデルをトレーニング、テスト、およびデプロイするための自動ツールはありますか?
ML モデルを作成およびデプロイする各ステップにおいて、マシンサイズのオプションはありますか?
ML モデルは本番環境にどのように導入されますか?
新しいモデルをデプロイする際にはどのようなステップがありますか? それらはどれくらい自動化されていますか?
バッチデータとリアルタイムデータに対して ML モデルをトレーニング、テスト、およびデプロイするためのコンポーネントはありますか?
モデルの作成に必要なデータを代表するのに十分な大きさのデータセットを使用および処理することができますか?
モデルをどのようにモニタリングし、再トレーニングするためのアクションをどのように実行していますか?
モデルがビジネスに与える影響をどのように測定していますか?
ビジネスチームの仮説を検証するために A/B テストを実行できますか?

その他の質問については、「AWS Well-Architected Framework の機械学習レンズ」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ビジネスにおけるデータの使用可能性を評価する

ビジネス目標に沿ったストーリーの調整