翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
技術評価
技術的な評価は重要です。これは、会社が導入している現在の技術的能力のマップを提供するためです。この評価では、データガバナンス、データ取り込み、データ変換、データ共有、機械学習 (ML) プラットフォーム、プロセス、自動化について説明します。
チームによる技術評価中に尋ねることができる質問の例を次に示します。コンテキストに基づいて質問を追加できます。
データエンジニアリングチーム
-
チームのデータの取り込みに関連する現在の課題は何ですか?
-
チームが必要とする外部データソースまたは内部データソースのうち、取り込みに使用できないものはありますか? 利用できないのはなぜですか?
-
どのタイプのデータソースからデータを取り込みますか (MySQL データベース、Salesforce API、受信したファイル、ウェブサイトナビゲーションデータなど)。
-
新しいデータソースからデータを取り込むのにどれくらいの時間がかかりますか?
-
新しいソースからデータを取り込むプロセスは自動化されていますか?
-
開発チームがアプリケーションから分析用のトランザクションデータを発行するのはどれくらい簡単ですか?
-
データソースからの全ロードまたは増分ロード (バッチまたはマイクロバッチ) 用のツールはありますか?
-
データベースからの継続的なロードのための変更データキャプチャ (CDC) ツールはありますか?
-
データ取り込み用のデータストリーミングオプションはありますか?
-
バッチデータとリアルタイムデータのデータ変換を実行する方法
-
データ変換ワークフローのオーケストレーションをどのように管理しますか?
-
データ検出とカタログ化、データ取り込み、データ変換、ビジネスアナリストの支援、データサイエンティスト、データガバナンス、トレーニングチーム、ユーザーの支援など、最も頻繁に実行するアクティビティはどれですか?
-
データセットが作成されると、データプライバシーはどのように分類されますか? 内部コンシューマーにとって意味のあるものにするには、どのようにクリーンアップすればよいですか?
-
データガバナンスとデータスチュワードシップは一元化されていますか、それとも分散されていますか?
-
データガバナンスをどのように適用しますか? 自動プロセスはありますか?
-
データインジェスト、データ処理、データ共有、データ使用量など、パイプラインの各フェーズにおけるデータ所有者とスチュワードは誰ですか? 所有者とスチュワードを決定するためのデータドメインの概念はありますか?
-
組織内のデータセットをアクセスコントロールと共有する際の主な課題は何ですか?
-
Infrastructure as Code (IaC) を使用してデータパイプラインをデプロイおよび管理していますか?
-
データレイク戦略はありますか?
-
データレイクは組織全体に分散または一元化されていますか?
-
-
データカタログはどのように整理されていますか? 会社全体ですか、エリアごとですか。
-
データレイクハウスアプローチを導入していますか?
-
データメッシュの概念を使用しているか、使用する予定がありますか?
これらの質問は、 AWS Well-Architected Framework Data Analytics レンズで補完できます。
ビジネス分析チーム
-
作業に使用できるデータの次の特性をどのように記述しますか。
-
クリーンネス
-
Quality
-
分類
-
メタデータ
-
ビジネスの意味
-
-
チームはドメイン内のデータセットのビジネス用語集定義に参加していますか?
-
必要なときにジョブを実行するために必要なデータがないと、どのような影響がありますか?
-
データにアクセスできない、またはデータの取得に時間がかかりすぎるシナリオの例はありますか? 必要なデータの取得にはどのくらいの時間がかかりますか?
-
技術的な問題や処理時間が原因で、必要以上に小さなデータセットを使用する頻度を教えてください。
-
必要なスケールとツールを備えたサンドボックス環境はありますか?
-
A/B テストを実行して仮説を検証できますか?
-
ジョブの実行に必要なツールがありませんか?
-
どのタイプのツールですか?
-
利用できないのはなぜですか?
-
-
実行する時間がない重要なアクティビティはありますか?
-
どのアクティビティが最も時間を消費しますか?
-
ビジネスビューはどのように更新されますか?
-
自動的にスケジュールおよび管理されますか?
-
-
どのシナリオで、取得したデータよりも新しいデータが必要ですか?
-
分析を共有する方法 共有にはどのツールやプロセスを使用しますか?
-
多くの場合、新しいデータ製品を作成し、他のチームが利用できるようにしますか?
-
データ製品を他のビジネス分野や会社全体で共有するプロセスはどのようなものですか?
-
データサイエンスチーム (モデルのデプロイを決定するため)
-
作業に使用できるデータの次の特性をどのように記述しますか。
-
クリーンネス
-
Quality
-
分類
-
メタデータ
-
意味
-
-
機械学習 (ML) モデルのトレーニング、テスト、デプロイ用の自動ツールはありますか?
-
ML モデルの作成とデプロイの各ステップを実行するためのマシンサイズオプションはありますか?
-
ML モデルはどのように本番環境に導入されますか?
-
新しいモデルをデプロイするステップは何ですか? どの程度自動化されていますか?
-
バッチデータとリアルタイムデータの ML モデルをトレーニング、テスト、デプロイするコンポーネントはありますか?
-
モデルの作成に必要なデータを表すのに十分な大きさのデータセットを使用および処理できますか?
-
モデルをモニタリングし、再トレーニングするためのアクションを実行する方法
-
モデルがビジネスに与える影響をどのように測定しますか?
-
A/B テストを実行して、ビジネスチームの仮説を検証できますか?
その他の質問については、AWS 「 Well-Architected Framework Machine Learning Lens」を参照してください。