

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Membuat danau data Amazon Chime SDK
<a name="ca-data-lake"></a>

Danau data analitik panggilan Amazon Chime SDK memungkinkan Anda mengalirkan wawasan yang didukung pembelajaran mesin dan metadata apa pun dari Amazon Kinesis Data Stream ke bucket Amazon S3 Anda. Misalnya, menggunakan data lake URLs untuk mengakses rekaman. Untuk membuat data lake, Anda menerapkan satu set AWS CloudFormation template baik dari konsol Amazon Chime SDK atau secara terprogram menggunakan. AWS CLI Data lake memungkinkan Anda untuk menanyakan metadata panggilan dan data analitik suara Anda dengan AWS mereferensikan tabel data Glue di Amazon Athena.

**Topics**
+ [Prasyarat](#data-lake-prereqs)
+ [Terminologi dan konsep data lake](#data-lake-terms)
+ [Membuat beberapa danau data](#creating-multiple-data-lakes)
+ [Data ketersediaan regional danau](#data-lake-regions)
+ [Arsitektur danau data](#data-lake-architecture)
+ [Pengaturan danau data](#data-lake-setup)

## Prasyarat
<a name="data-lake-prereqs"></a>

Anda harus memiliki item berikut untuk membuat danau Amazon Chime SDK:
+ Aliran data Amazon Kinesis. Untuk informasi selengkapnya, lihat [Membuat Stream melalui AWS Management Console](https://docs.aws.amazon.com/streams/latest/dev/how-do-i-create-a-stream.html) di Panduan Pengembang *Amazon Kinesis Streams*.
+ Ember S3. Untuk informasi selengkapnya, lihat [Membuat bucket Amazon S3 pertama Anda di Panduan](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-bucket.html) Pengguna *Amazon S3*.

## Terminologi dan konsep data lake
<a name="data-lake-terms"></a>

Gunakan istilah dan konsep berikut untuk memahami cara kerja data lake.

**Amazon Kinesis Data Firehose**  
Layanan ekstrak, transformasi, dan muat (ETL) yang andal menangkap, mengubah, dan mengirimkan data streaming ke data lake, penyimpanan data, dan layanan analitik. Untuk informasi selengkapnya, lihat Apa Itu Amazon Kinesis Data Firehose?

**Amazon Athena**  
Amazon Athena adalah layanan kueri interaktif yang memungkinkan Anda menganalisis data di Amazon S3 menggunakan SQL standar. Athena tanpa server, jadi Anda tidak memiliki infrastruktur untuk dikelola, dan Anda hanya membayar untuk kueri yang Anda jalankan. Untuk menggunakan Athena, arahkan ke data Anda di Amazon S3, tentukan skema, dan gunakan kueri SQL standar. Anda juga dapat menggunakan grup kerja untuk mengelompokkan pengguna dan mengontrol sumber daya yang dapat mereka akses saat menjalankan kueri. Workgroup memungkinkan Anda mengelola konkurensi kueri dan memprioritaskan eksekusi kueri di berbagai grup pengguna dan beban kerja.

**Katalog Data Glue**  
Di Amazon Athena, tabel dan database berisi metadata yang merinci skema untuk data sumber yang mendasarinya. Untuk setiap dataset, tabel harus ada di Athena. Metadata dalam tabel memberi tahu Athena lokasi bucket Amazon S3 Anda. Ini juga menentukan struktur data, seperti nama kolom, tipe data, dan nama tabel. Database hanya menyimpan informasi metadata dan skema untuk kumpulan data.

## Membuat beberapa danau data
<a name="creating-multiple-data-lakes"></a>

Beberapa data lake dapat dibuat dengan menyediakan nama database Glue yang unik untuk menentukan tempat menyimpan wawasan panggilan. Untuk AWS akun tertentu, mungkin ada beberapa konfigurasi analitik panggilan, masing-masing dengan data lake yang sesuai. Ini berarti bahwa pemisahan data dapat diterapkan untuk kasus penggunaan tertentu, seperti menyesuaikan kebijakan retensi, dan kebijakan akses tentang bagaimana data disimpan. Mungkin ada kebijakan keamanan berbeda yang diterapkan untuk akses wawasan, rekaman, dan metadata.

## Data ketersediaan regional danau
<a name="data-lake-regions"></a>

Danau data Amazon Chime SDK tersedia di Wilayah berikut.


| Region | Glue meja | Quick | 
| --- | --- | --- | 
| us-east-1 | Tersedia | Tersedia | 
| us-west-2 | Tersedia | Tersedia | 
| eu-central-1 | Tersedia | Tersedia | 

## Arsitektur danau data
<a name="data-lake-architecture"></a>

Diagram berikut menunjukkan arsitektur danau data. Angka dalam gambar sesuai dengan teks bernomor di bawah ini.

![\[Program mengalir melalui danau data.\]](http://docs.aws.amazon.com/id_id/chime-sdk/latest/dg/images/call-analytics-data-lake-architecture.png)


Dalam diagram, setelah Anda menggunakan AWS konsol untuk menerapkan CloudFormation template dari alur kerja penyiapan konfigurasi pipeline media insights, data berikut akan mengalir ke bucket Amazon S3:

1. Analisis panggilan Amazon Chime SDK akan mulai mengalirkan data real-time ke Kinesis Data Stream pelanggan. 

1. Amazon Kinesis Firehose menyangga data waktu nyata ini hingga terakumulasi 128 MB, atau 60 detik berlalu, mana yang pertama. Firehose kemudian menggunakan `amazon_chime_sdk_call_analytics_firehose_schema` dalam Katalog Data Glue untuk mengompres data dan mengubah catatan JSON menjadi file parket.

1. File parket berada di bucket Amazon S3 Anda, dalam format yang dipartisi.

1. Selain data real-time, Amazon Transcribe Call Analytics pasca-panggilan meringkas file.wav (disunting dan tidak disunting, jika ditentukan dalam konfigurasi), dan rekaman panggilan file.wav juga dikirim ke Amazon S3 Bucket Anda. 

1. Anda dapat menggunakan Amazon Athena dan SQL standar untuk menanyakan data di bucket Amazon S3.

1.  CloudFormation Template juga membuat Katalog Data Glue untuk menanyakan data ringkasan pasca-panggilan ini melalui Athena.

1. Semua data di bucket Amazon S3 juga dapat divisualisasikan menggunakan Quick. QuickSight membangun koneksi dengan bucket Amazon S3 menggunakan Amazon Athena.

Tabel Amazon Athena menggunakan fitur berikut untuk mengoptimalkan kinerja kueri:

**Pembuatan Partisi Data**  
Partisi membagi tabel Anda menjadi beberapa bagian dan menyimpan data terkait bersama-sama berdasarkan nilai kolom seperti tanggal, negara, dan wilayah. Partisi bertindak sebagai kolom virtual. Dalam hal ini, CloudFormation template mendefinisikan partisi pada pembuatan tabel, yang membantu mengurangi jumlah data yang dipindai per kueri dan meningkatkan kinerja. Anda juga dapat memfilter berdasarkan partisi untuk membatasi jumlah data yang dipindai oleh kueri. *Untuk informasi selengkapnya, lihat [Mempartisi data di Athena di Panduan Pengguna](https://docs.aws.amazon.com/athena/latest/ug/partitions.html) Amazon Athena.*  
Contoh ini menunjukkan struktur partisi dengan tanggal 1 Januari 2023:  

1. 

   ```
   s3://example-bucket/amazon_chime_sdk_data_lake
                               /serviceType=CallAnalytics/detailType={DETAIL_TYPE}/year=2023
                               /month=01/day=01/example-file.parquet
   ```

1. di mana `DETAIL_TYPE` adalah salah satu dari berikut ini:

   1. `CallAnalyticsMetadata`

   1. `TranscribeCallAnalytics`

   1. `TranscribeCallAnalyticsCategoryEvents`

   1. `Transcribe`

   1. `Recording`

   1. `VoiceAnalyticsStatus`

   1. `SpeakerSearchStatus`

   1. `VoiceToneAnalysisStatus`

**Optimalkan pembuatan penyimpanan data kolumnar**  
Apache Parquet menggunakan kompresi kolom, kompresi berdasarkan tipe data, dan predikat pushdown untuk menyimpan data. Rasio kompresi yang lebih baik atau melewatkan blok data berarti membaca lebih sedikit byte dari bucket Amazon S3 Anda. Itu mengarah pada kinerja kueri yang lebih baik dan pengurangan biaya. Untuk pengoptimalan ini, konversi data dari JSON ke parket diaktifkan di Amazon Kinesis Data Firehose.

**Partisi**  
Fitur Athena ini secara otomatis membuat partisi untuk setiap hari untuk meningkatkan kinerja kueri berbasis tanggal.

## Pengaturan danau data
<a name="data-lake-setup"></a>

Gunakan konsol Amazon Chime SDK untuk menyelesaikan langkah-langkah berikut.

1. **Mulai konsol Amazon Chime SDK ([ https://console.aws.amazon.com/chime-sdk/home](https://console.aws.amazon.com/chime-sdk/home)) dan di panel navigasi, di bawah **Call Analytics**, pilih Konfigurasi.**

1. Selesaikan Langkah 1, pilih **Berikutnya** dan pada halaman Langkah 2, pilih kotak centang **Voice Analytics**.

1. Di bawah **Rincian keluaran**, pilih kotak centang **Data warehouse untuk melakukan analisis historis**, lalu pilih tautan **Deploy CloudFormation stack**.

   Sistem mengirim Anda ke halaman **Quick create stack** di CloudFormation konsol.

1. Masukkan nama untuk tumpukan, lalu masukkan parameter berikut:

   1. `DataLakeType`— Pilih **Buat Analisis Panggilan DataLake**.

   1. `KinesisDataStreamName`— Pilih aliran Anda. Ini harus menjadi aliran yang digunakan untuk streaming analitik panggilan.

   1. `S3BucketURI`— Pilih ember Amazon S3 Anda. URI harus memiliki awalan `s3://bucket-name`

   1. `GlueDatabaseName`— Pilih nama Database AWS Glue yang unik. Anda tidak dapat menggunakan kembali database yang ada di AWS akun.

1. Pilih kotak centang pengakuan, lalu pilih **Buat** danau data. Biarkan 10 menit agar sistem membuat danau.

### Pengaturan danau data menggunakan AWS CLI
<a name="data-lake-setup-using-cli"></a>

Gunakan AWS CLI untuk membuat peran dengan izin untuk memanggil CloudFormation tumpukan create. Ikuti prosedur di bawah ini untuk membuat dan mengatur peran IAM. Untuk informasi selengkapnya, lihat [Membuat tumpukan](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-cli-creating-stack.html) di *Panduan AWS CloudFormation Pengguna*.

1. Buat peran yang disebut *AmazonChimeSdkCallAnalytics-Datalake-Provisioning-Role dan lampirkan kebijakan kepercayaan ke peran* yang memungkinkan untuk mengambil peran tersebut. CloudFormation 

   1. Buat kebijakan kepercayaan IAM menggunakan templat berikut dan simpan file dalam format.json.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "Service": "cloudformation.amazonaws.com"
                  },
                  "Action": "sts:AssumeRole",
                  "Condition": {}
              }
          ]
      }
      ```

------

   1. Jalankan **aws iam create-role** perintah dan teruskan kebijakan kepercayaan sebagai parameter.

      ```
                                          aws iam create-role \
          --role-name AmazonChimeSdkCallAnalytics-Datalake-Provisioning-Role
          --assume-role-policy-document file://role-trust-policy.json
      ```

   1. Catat *peran arn* yang dikembalikan dari respons. *peran arn* diperlukan pada langkah berikutnya.

1. Buat kebijakan dengan izin untuk membuat CloudFormation tumpukan.

   1. Buat kebijakan IAM menggunakan template berikut dan simpan file dalam format.json. File ini diperlukan saat memanggil create-policy.

------
#### [ JSON ]

****  

      ```
      {  
          "Version":"2012-10-17",		 	 	   
          "Statement": [  
              {  
                  "Sid": "DeployCloudFormationStack",  
                  "Effect": "Allow",  
                  "Action": [  
                      "cloudformation:CreateStack"
                  ],
                  "Resource": "*"
              }
          ]
      }
      ```

------

   1. Jalankan **aws iam create-policy** dan lewati buat kebijakan tumpukan sebagai parameter.

      ```
                                      aws iam create-policy --policy-name testCreateStackPolicy 
      --policy-document file://create-cloudformation-stack-policy.json
      ```

   1. Catat *peran arn* yang dikembalikan dari respons. *peran arn* diperlukan pada langkah berikutnya.

1. Lampirkan kebijakan **aws iam attach-role-policy** pada peran tersebut.

   ```
                               aws iam attach-role-policy --role-name {Role name created above}
   --policy-arn {Policy ARN created above}
   ```

1. Buat CloudFormation tumpukan dan masukkan parameter yang diperlukan:**aws cloudformation create-stack**.

   Berikan nilai parameter untuk setiap ParameterKey penggunaan ParameterValue.

   ```
                               aws cloudformation create-stack  --capabilities CAPABILITY_NAMED_IAM 
   --stack-name testDeploymentStack 
   --template-url https://chime-sdk-assets.s3.amazonaws.com/public_templates/AmazonChimeSDKDataLake.yaml 
   --parameters  ParameterKey=S3BucketURI,ParameterValue={S3 URI}
   ParameterKey=DataLakeType,ParameterValue="Create call analytics datalake" 
   ParameterKey=KinesisDataStreamName,ParameterValue={Name of Kinesis Data Stream}
   --role-arn {Role ARN created above}
   ```

#### Sumber daya yang dibuat oleh penyiapan danau data
<a name="cf-resources"></a>

Tabel berikut mencantumkan sumber daya yang dibuat saat Anda membuat data lake.

[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/chime-sdk/latest/dg/ca-data-lake.html)