分析

AWS は、すべてのデータ分析ニーズを満たす包括的な分析サービスを提供し、あらゆる規模と業界の組織がデータを使用してビジネスを再創造できるようにします。ストレージと管理、データガバナンス、アクション、エクスペリエンスから、は、最高の価格パフォーマンス、スケーラビリティ、低コストを提供する専用サービス AWS を提供します。

各サービスについては、図の後に説明されています。ニーズに最適なサービスを決定する方法については、AWS 「分析サービスの選択」を参照してください。一般的な情報については「AWSでの分析」を参照してください。

AWS のサービスに戻ります。

Amazon Athena

「Amazon Athena」は、Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるインタラクティブなクエリサービスです。Athena はサーバーレスであることから管理するインフラストラクチャがなく、実行したクエリの料金のみを支払います。

Athena は使いやすく、Amazon S3 のデータの位置を指し示し、スキーマを定義して、標準 SQL を使用してクエリを開始するだけです。ほとんどの結果は数秒以内に配信されます。Athena を使用すると、分析用にデータを準備するための複雑な抽出、変換、ロード (ETL) ジョブは必要ありません。そのため、SQL スキルを持つすべてのユーザーが大規模なデータセットを簡単にすばやく分析することができます。

Athena は out-of-the-boxされているため AWS Glue Data Catalog、さまざまなサービスにまたがって統合メタデータリポジトリを作成し、データソースをクロールしてスキーマを検出し、カタログに新規および変更されたテーブルとパーティション定義を入力し、スキーマのバージョニングを維持できます。

Amazon CloudSearch

Amazon CloudSearch は AWS クラウドにおけるフルマネージドサービスであり、ウェブサイトまたはアプリケーション向けの検索ソリューションを高い費用対効果で容易に設定、管理、スケールできます。Amazon CloudSearch は、34 の言語と、強調表示、オートコンプリート、地理空間検索などの一般的な検索機能をサポートしています。

Amazon DataZone

Amazon DataZone は、データを公開し、パーソナライズされたウェブアプリケーションを通じてビジネスデータカタログで使用できるようにする、データ管理サービスです。データの保存場所、オンプレミス AWS、Salesforce などの SaaS アプリケーションに関係なく、より安全にデータにアクセスできます。Amazon DataZone は、Amazon Redshift、Amazon Athena、 AWS Glue AWS Lake Formation、Quick などの AWS サービス全体のエクスペリエンスを簡素化します。

Amazon EMR

Amazon EMR は、Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースツールを使用して大量のデータを処理するための、業界をリードするクラウドビッグデータプラットフォームです。Amazon EMR では、容量のプロビジョニングやクラスターのチューニングなどの時間のかかるタスクを自動化することで、ビッグデータ環境を簡単に設定、運用、スケールできます。Amazon EMR を使用すると、ペタバイト規模の分析を従来のオンプレミスソリューションの半分未満のコストで実行でき、標準の Apache Spark の 3 倍以上高速になります。Amazon EC2 インスタンス、Amazon Elastic Kubernetes Service (Amazon EKS) クラスター、または AWS Outpostsで Amazon EMR を使用してオンプレミスで、ワークロードを実行できます。

Amazon FinSpace

Amazon FinSpace は、金融サービス業界 (FSI) に特化したデータ管理および分析サービスです。FinSpace は、ペタバイト単位の財務データを検出して準備する時間を数か月から数分に短縮します。

金融サービス組織は、ポートフォリオ、保険数理、リスク管理システムなどの内部データストアからのデータと、株式取引所からの過去の証券価格など、サードパーティーのデータフィードからのペタバイトのデータを分析します。適切なデータを検出し、準拠した方法でデータにアクセスするためのアクセス許可を取得し、分析の準備をするのに数か月かかることがあります。

FinSpace は、財務分析用のデータ管理システムの構築と保守の負担を軽減します。FinSpace では、データを収集し、アセットクラス、リスク分類、地理的リージョンなどの関連するビジネス概念別にカタログ化します。FinSpace を使用すると、コンプライアンス要件に従って組織全体のデータを簡単に検出して共有できます。データアクセスポリシーを 1 か所で定義し、それを FinSpace で適用しながら監査ログを保持して、コンプライアンスとアクティビティのレポート作成を可能にします。また、FinSpace には、分析用のデータを準備するためのタイムバーやボリンジャーバンドなど、100 以上の関数のライブラリが含まれています。

Amazon Kinesis

Amazon Kinesis では、リアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、タイムリーな洞察を得て、新しい情報に迅速に対応できます。Amazon Kinesis は、あらゆる規模でストリーミングデータをコスト効率よく処理するための主要な機能を提供し、アプリケーションの要件に最適なツールを柔軟に選択できます。Amazon Kinesis では、動画、音声、アプリケーションログ、ウェブサイトのクリックストリーミング、機械学習 (ML)、分析、その他のアプリケーション用の IoT テレメトリデータなどのリアルタイムデータを取り込むことができます。Amazon Kinesis を使用すると、すべてのデータが収集されてから処理が開始されるのを待つことなく、到着時にデータを処理して分析し、すぐに応答できます。

Amazon Kinesis は現在、Firehose、Managed Service for Apache Flink、Kinesis Data Streams、Kinesis Video Streams の 4 つのサービスを提供しています。

Amazon Data Firehose

Amazon Data Firehose は、ストリーミングデータをデータストアや分析ツールにロードする信頼性の高い方法です。ストリーミングデータをキャプチャして変換し、Amazon S3、Amazon Redshift、Amazon OpenSearch Service および Splunk に自動的にロードすることができます。そのため、現在既に使用している既存のビジネスインテリジェンスツールおよびダッシュボードによってほぼリアルタイムで分析することができます。完全マネージド型サービスのため、データスループットに応じて自動的にスケールされ、継続的な管理は不要です。また、データをロードする前にバッチ処理、圧縮、変換、および暗号化を行うことができるため、送信先で使用されるストレージ量を最小限に抑え、セキュリティを強化できます。

から Firehose 配信ストリームを簡単に作成し AWS マネジメントコンソール、数回のクリックで設定し、数十万のデータソースからストリームへのデータの送信を開始して継続的にロードできます。 AWSすべて数分で完了します。また、データを Amazon S3 に配信する前に、受信データを Apache Parquet や Apache ORC などの列形式に自動的に変換するように配信ストリームを設定して、コスト効率の高いストレージと分析を実行することもできます。

Amazon Managed Service for Apache Flink

Amazon Managed Service for Apache Flink は、ストリーミングデータを分析し、実用的なインサイトを取得し、ビジネスと顧客のニーズにリアルタイムで対応する最も簡単な方法です。Amazon Managed Service for Apache Flink は、ストリーミングアプリケーションの構築、管理、他の AWS サービスとの統合の複雑さを軽減します。SQL ユーザーは、テンプレートとインタラクティブな SQL エディタを使用して、ストリーミングデータのクエリやストリーミングアプリケーション全体の構築を簡単に行うことができます。Java 開発者は、オープンソースの Java ライブラリと AWS 統合を使用して高度なストリーミングアプリケーションをすばやく構築し、データをリアルタイムで変換および分析できます。

Amazon Managed Service for Apache Flink は、クエリを継続的に実行するために必要なすべてを処理し、受信データのボリュームとスループットレートに合わせて自動的にスケールします。

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams は、非常にスケーラブルで耐久性の高いリアルタイムデータストリーミングサービスです。Kinesis Data Streams は、ウェブサイトのクリックストリーム、データベースイベントストリーム、金融取引、ソーシャルメディアフィード、IT ログ、および位置追跡イベントなどの、何十万ものソースから送られてくる 1 秒あたり数ギガバイトのデータを継続的にキャプチャできます。収集されたデータはミリ秒単位で利用でき、リアルタイムダッシュボード、リアルタイム異常検出、動的料金設定などのリアルタイム分析のユースケースを可能にします。

Amazon Kinesis Video Streams

Amazon Kinesis Video Streams を使用すると、接続されたデバイスからにビデオを安全にストリーミングして、分析、ML、再生、その他の処理を簡単に AWS 行うことができます。Kinesis Video Streams は、何百万ものデバイスからストリーミングビデオデータを取り込むために必要なすべてのインフラストラクチャを自動的にプロビジョニングし、伸縮自在にスケールします。また、ビデオデータをストリームに永続的に保存、暗号化、インデックス化し、使いやすい API を通じてデータにアクセスできます。Kinesis Video Streams を使用すると、ライブ視聴やオンデマンド視聴のために動画を再生し、Amazon Rekognition Video や、Apache MxNet、TensorFlow、OpenCV などの機械学習フレームワーク用のライブラリとの統合を通じて、コンピュータービジョンと動画分析を活用するアプリケーションをすばやく構築できます。

Amazon OpenSearch Service

Amazon OpenSearch Service (OpenSearch Service) を使用すると、OpenSearch を簡単にデプロイ、保護、運用、スケールして、データをリアルタイムで検索、分析、視覚化できます。Amazon OpenSearch Service を使用すると、使いやすい API とリアルタイム分析機能を使用して、ログ分析、全文検索、アプリケーションモニタリング、クリックストリーム分析などのユースケースをエンタープライズグレードの可用性、スケーラビリティ、セキュリティで強化できます。このサービスは、OpenSearch Dashboards や Logstash などのオープンソースツールとの統合を提供し、データインジェストと視覚化を可能にします。また、Amazon Virtual Private Cloud (Amazon VPC)、 AWS Key Management Service (AWS KMS)、Amazon Data Firehose、AWS Lambda、 AWS Identity and Access Management (IAM)、Amazon Cognito、Amazon CloudWatch などの他の AWS サービスとシームレスに統合されるため、未加工データから実用的なインサイトにすばやく移行できます。

Amazon OpenSearch Serverless

Amazon OpenSearch Serverless は、Amazon OpenSearch Service のサーバーレスオプションです。開発者は、OpenSearch Serverless を使用して、OpenSearch クラスターを設定、管理、スケールすることなく、ペタバイト規模のワークロードを実行できます。シンプルなサーバーレス環境により、OpenSearch Service と同じインタラクティブミリ秒の応答時間が得られます。

Amazon OpenSearch Serverless 用ベクトルエンジンは、シンプルでスケーラブルで高性能なベクトルストレージと検索機能を追加し、開発者がベクトルデータベースインフラストラクチャを管理することなく、機械学習で強化された検索エクスペリエンスと生成 AI アプリケーションを構築できるようにします。ベクトル検索コレクションのユースケースには、画像検索、ドキュメント検索、音楽検索、製品のレコメンデーション、動画検索、位置ベースの検索、不正検出、異常検出などが含まれます。

Amazon Redshift

Amazon Redshift は、最も広く使用されているクラウドデータウェアハウスです。標準 SQL と既存のビジネスインテリジェンス (BI) ツールを使用したすべてのデータの分析を、高速かつシンプルにし、費用対効果を向上させます。これにより、高度なクエリ最適化、高性能ストレージ上の列指向ストレージ、超並列クエリ補完を使用して、テラバイトからペタバイトまでの構造化データおよび半構造化データに対して複雑な分析クエリを実行できます。ほとんどの結果は数秒で返されます。コミットメントなしで 1 時間あたりわずか 0.25 USD で小規模から始め、従来のオンプレミスソリューションの 10 分の 1 未満のコストで、1 テラバイトあたり 1,000 USD でペタバイトのデータにスケールアウトできます。

Amazon Redshift Serverless

Amazon Redshift Serverless は、データウェアハウスインフラストラクチャを管理する必要がなく、分析の実行とスケーリングを容易にします。開発者、データサイエンティスト、アナリストは、データベース、データウェアハウス、データレイクを横断して、レポートおよびダッシュボードアプリケーションの構築、ほぼリアルタイムの分析の実行、データの共有と共同作業、機械学習 (ML) モデルの構築とトレーニングを行うことができます。大量のデータからインサイトに数秒で移行できます。Amazon Redshift Serverless は、データウェアハウス容量を自動的にプロビジョニングし、インテリジェントにスケールして、要求が厳しく、予測不可能なワークロードであっても高速なパフォーマンスを実現します。使用した分に対してのみ支払いが発生します。Amazon Redshift クエリエディタまたはお好みのビジネスインテリジェンス (BI) ツールでデータをロードしてすぐにクエリを開始するだけで、使いやすいゼロ管理環境で最高のコストパフォーマンスと使い慣れた SQL 機能を引き続き利用できます。

Quick

Quick は、高速でクラウドを活用したビジネスインテリジェンス (BI) サービスであり、組織内のすべてのユーザーにインサイトを簡単に提供できます。QuickSight では、ブラウザやモバイルデバイスからアクセスできるインタラクティブなダッシュボードを作成して公開できます。ダッシュボードをアプリケーションに埋め込み、顧客に強力なセルフサービス分析を提供できます。インストールするソフトウェア、デプロイするサーバー、または管理するインフラストラクチャなしで、数万人のユーザーにすばやく簡単にスケーリングできます。

AWS Clean Rooms

AWS Clean Rooms は、企業とそのパートナーが相互に基になるデータを共有またはコピーすることなく、集合データセットをより簡単かつ安全に分析および共同作業できるようにします。を使用すると AWS Clean Rooms、お客様は安全なデータクリーンルームを数分で作成し、で他の企業と協力して、広告キャンペーン、投資決定、研究と開発に関する独自のインサイト AWS クラウドを生成できます。

AWS Data Exchange

AWS Data Exchange は、クラウド内のサードパーティーデータの検索、サブスクライブ、使用を容易にします。認定データプロバイダーには、次の業界をリードするブランドなどがあります。Reuters は、複数の言語の年間 220 万を超えるユニークなニュース記事からデータをキュレートします。Change Healthcare は、年間 140 億件を超える医療取引と 1 兆ドルの請求を処理して匿名化します。Dun & Bradstreet は、3 億 3,000 万件を超えるグローバルビジネスレコードのデータベースを維持しています。Foursquare は、ロケーションデータを 2 億 2,000 万人の一意のコンシューマーから取得します。このデータには、6,000 万を超えるグローバルな商用施設が含まれています。

データ製品をサブスクライブしたら、 AWS Data Exchange API を使用してデータを Amazon S3 に直接ロードし、さまざまな AWS 分析および ML サービスで分析できます。例えば、損害保険会社は、データをサブスクライブして過去の気象パターンを分析し、さまざまな地域の保険カバレッジ要件を調整できます。レストランは、人口と位置データをサブスクライブして、拡張に最適なリージョンを特定できます。学術研究者は、二酸化炭素排出量に関するデータをサブスクライブすることで、気候変化に関する研究を行うことができます。医療従事者は、過去の臨床試験から集約されたデータをサブスクライブして、研究活動を加速できます。

データプロバイダーの場合、は、データストレージ、配信、請求、および利用のためのインフラストラクチャを構築および維持する必要がなくなるため、クラウドに移行する何百万人もの AWS お客様に簡単にアクセス AWS Data Exchange できるようになります。

AWS Data Pipeline

AWS Data Pipeline は、異なる AWS コンピューティングおよびストレージサービス間、およびオンプレミスデータソース間で、指定された間隔でデータを確実に処理および移動するのに役立つウェブサービスです。を使用すると AWS Data Pipeline、保存されているデータに定期的にアクセスし、大規模な変換と処理を行い、結果を Amazon S3、Amazon RDSAmazon Relational Database Service、Amazon DynamoDB、Amazon EMR などの AWS のサービスに効率的に転送できます。

AWS Data Pipeline を使用すると、耐障害性、反復性、可用性の高い複雑なデータ処理ワークロードを簡単に作成できます。リソースの可用性の確保、タスク間の依存関係の管理、個々のタスクでの一時的な障害やタイムアウトの再試行、障害通知システムの作成について心配する必要はありません。 AWS Data Pipeline また、では、以前にオンプレミスのデータサイロにロックされていたデータを移動して処理することもできます。

AWS エンティティの解決

AWS Entity Resolution は、カスタムソリューションを構築せずに、複数のアプリケーション、チャネル、データストアに保存されている関連レコードを照合してリンクするのに役立つサービスです。柔軟で設定可能な ML およびルールベースの手法を使用して、 AWS Entity Resolution は重複したレコードを削除し、さまざまな顧客とのやりとりを接続して顧客プロファイルを作成し、広告やマーケティングキャンペーン、ロイヤルティプログラム、e コマース全体でエクスペリエンスをパーソナライズできます。例えば、広告クリック、カート放棄、購入などの最近のイベントを一意の一致 ID にリンクすることで、カスタマーインタラクションの統合ビューを作成できます。

AWS Glue

AWS Glue は、顧客が分析のためにデータを簡単にロードできるフルマネージドの抽出、変換、ロード (ETL) サービスです。ETL ジョブは、 AWS マネジメントコンソールで数回クリックするだけで作成、実行できます。に保存されているデータ AWS Glue を指すだけで AWS、はデータ AWS Glue を検出し、関連するメタデータ (テーブル定義やスキーマなど) をに保存します AWS Glue Data Catalog。カタログ化されたデータは、すぐに検索およびクエリが可能になり、ETL で使用できるようになります。能になります。

AWS Glue データ統合エンジンは、Apache Spark、PySpark、Python を使用してデータへのアクセスを提供します。 AWS Glue for Ray を追加することで、オープンソースの統合コンピューティングフレームワークである Ray を使用してワークロードをさらにスケールできます。

AWS Glue Data Quality は、Amazon S3 ベースのデータレイク、データウェアハウス、およびその他のデータリポジトリのデータ品質を測定およびモニタリングできます。統計を自動的に計算し、品質ルールを推奨し、欠落データ、古いデータ、または不正なデータを検出したときにモニタリングして警告できます。および ETL AWS Glue Data Catalog ジョブ AWS Glue Data Catalog でアクセスできます。

AWS Lake Formation

AWS Lake Formation は、数日で簡単にセキュアなデータレイクを構築できるサービスです。データレイクは、分析用に準備および選別され、セキュリティ保護されたリポジトリで、すべてのデータを元の形式で保存します。データレイクを使用すると、データサイロを分解し、さまざまな種類の分析を組み合わせてインサイトを獲得し、優れたビジネス意思決定を導くことができます。

ただし、現在のデータレイクの設定と管理には、数多くの手動タスク、複雑なタスク、時間のかかるタスクが必要です。この作業には、さまざまなソースからのデータのロード、それらのデータフローのモニタリング、パーティションの設定、キーの暗号化と管理の有効化、変換ジョブの定義とオペレーションのモニタリング、列形式へのデータの再編成、アクセスコントロール設定の構成、冗長データの重複排除、リンクされたレコードのマッチング、データセットへのアクセスの許可、時間の経過に伴うアクセスの監査などがあります。

Lake Formation を使用したデータレイクの作成は、データの常駐場所や、適用するデータアクセスとセキュリティポリシーの定義と同様に簡単です。Lake Formation では、データベースやオブジェクトストレージからのデータの収集とカタログ化、新しい Amazon S3 データレイクへのデータの移動、機械学習アルゴリズムを使用したデータのクリーンアップと分類、機密データへのセキュアなアクセスを行います。これで、ユーザーは、利用可能なデータセットとその適切な使用方法を説明するデータの一元化されたカタログにアクセスできます。その後、ユーザーはこれらのデータセットを、Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、SageMaker AI、Quick など、選択した分析および ML サービスで活用します。

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

Amazon Managed Streaming for Apache Kafka (Amazon MSK) は、Apache Kafka を使ってストリーミングデータを処理するアプリケーションの構築と実行を容易にするフルマネージドサービスです。Apache Kafka は、リアルタイムストリーミングデータパイプラインおよびアプリケーションを構築するためのオープンソースプラットフォームです。Amazon MSK では、Apache Kafka API を使用して、データレイクの入力、データベース間での変更のストリーミング、機械学習および分析アプリケーションの強化を行います。

Apache Kafka クラスターは、本番環境での設定、スケール、管理が困難です。Apache Kafka を独自に実行する場合は、サーバーのプロビジョニング、Apache Kafka の手動設定、障害発生時のサーバーの置き換え、サーバーのパッチとアップグレードのオーケストレーション、高可用性のためのクラスターの設計、データの永続的な保存と保護の確保、モニタリングとアラームの設定、負荷の変化をサポートするスケーリングイベントの慎重な計画を行う必要があります。Amazon MSK を使用すると、Apache Kafka インフラストラクチャ管理の専門知識を必要とせずに、Apache Kafka で本稼働アプリケーションを簡単に構築して実行できます。つまり、インフラストラクチャの管理に費やす時間が減り、アプリケーションの構築に費やす時間が長くなります。

Amazon MSK コンソールで数回クリックするだけで、Apache Kafka のデプロイのベストプラクティスに基づく設定と構成を使用して、可用性の高い Apache Kafka クラスターを作成できます。Amazon MSK は Apache Kafka クラスターを自動的にプロビジョニングして実行します。Amazon MSK はクラスターの状態を継続的にモニタリングし、異常なノードを自動的にアプリケーションのダウンタイムなしで置き換えます。さらに、Amazon MSK は保管中のデータを暗号化することで Apache Kafka クラスターを保護します。

AWS のサービスに戻ります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

AWS のサービスへのアクセス

アプリケーション統合