

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Sesuaikan konsumsi untuk sumber data
<a name="kb-data-source-customize-ingestion"></a>

Anda dapat menyesuaikan konsumsi vektor saat menghubungkan sumber data di Konsol Manajemen AWS atau dengan memodifikasi nilai `vectorIngestionConfiguration` bidang saat mengirim permintaan. [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)

Pilih topik untuk mempelajari cara menyertakan konfigurasi untuk menyesuaikan konsumsi saat menghubungkan ke sumber data:

**Topics**
+ [

## Pilih alat yang akan digunakan untuk parsing
](#kb-data-source-customize-parsing)
+ [

## Pilih strategi chunking
](#kb-data-source-customize-chunking)
+ [

## Gunakan fungsi Lambda selama konsumsi
](#kb-data-source-customize-lambda)

## Pilih alat yang akan digunakan untuk parsing
<a name="kb-data-source-customize-parsing"></a>

Anda dapat menyesuaikan bagaimana dokumen dalam data Anda diuraikan. Untuk mempelajari opsi penguraian data di Pangkalan Pengetahuan Batuan Dasar Amazon, lihat. [Opsi penguraian untuk sumber data Anda](kb-advanced-parsing.md)

**Awas**  
Anda tidak dapat mengubah strategi parsing setelah terhubung ke sumber data. Untuk menggunakan strategi parsing yang berbeda, Anda dapat menambahkan sumber data baru.  
Anda tidak dapat menambahkan lokasi S3 untuk menyimpan data multimodal (termasuk gambar, gambar, bagan, dan tabel) setelah Anda membuat basis pengetahuan. Jika Anda ingin menyertakan data multimodal dan menggunakan parser yang mendukungnya, Anda harus membuat basis pengetahuan baru.

Langkah-langkah yang terlibat dalam memilih strategi parsing bergantung pada apakah Anda menggunakan Konsol Manajemen AWS atau Amazon Bedrock API dan metode parsing yang Anda pilih. Jika Anda memilih metode parsing yang mendukung data multimodal, Anda harus menentukan URI S3 untuk menyimpan data multimodal yang diekstrak dari dokumen Anda. Data ini dapat dikembalikan dalam kueri basis pengetahuan.
+ Dalam Konsol Manajemen AWS, lakukan hal berikut:

  1. Pilih strategi parsing saat Anda terhubung ke sumber data saat menyiapkan basis pengetahuan atau saat Anda menambahkan sumber data baru ke basis pengetahuan yang ada.

  1. (Jika Anda memilih Amazon Bedrock Data Automation atau model foundation sebagai strategi parsing Anda) Tentukan URI S3 untuk menyimpan data multimodal yang diekstrak dari dokumen Anda di bagian **tujuan penyimpanan multimodal saat Anda memilih model embeddings dan mengonfigurasi penyimpanan** vektor Anda. Anda juga dapat secara opsional menggunakan kunci yang dikelola pelanggan untuk mengenkripsi data S3 Anda pada langkah ini.
+ Di Amazon Bedrock API, lakukan hal berikut:

  1. (Jika Anda berencana untuk menggunakan Amazon Bedrock Data Automation atau model foundation sebagai strategi parsing Anda) Sertakan [SupplementalDataStorageLocation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_SupplementalDataStorageLocation.html)dalam [VectorKnowledgeBaseConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorKnowledgeBaseConfiguration.html)permintaan. [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html)

  1. Sertakan a [ParsingConfiguration[VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ParsingConfiguration.html)di `parsingConfiguration` bidang [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)permintaan.
**catatan**  
Jika Anda menghilangkan konfigurasi ini, Pangkalan Pengetahuan Amazon Bedrock menggunakan parser default Amazon Bedrock.

Untuk detail selengkapnya tentang cara menentukan strategi parsing di API, perluas bagian yang sesuai dengan strategi parsing yang ingin Anda gunakan:

### Pengurai default Amazon Bedrock
<a name="w2aac28c10c23c15c17c11c13b1"></a>

Untuk menggunakan parser default, jangan sertakan `parsingConfiguration` bidang di dalam file. `VectorIngestionConfiguration`

### Pengurai Otomasi Data Batuan Dasar Amazon (pratinjau)
<a name="w2aac28c10c23c15c17c11c13b3"></a>

Untuk menggunakan parser Amazon Bedrock Data Automation, tentukan `BEDROCK_DATA_AUTOMATION` di `parsingStrategy` bidang `ParsingConfiguration` dan sertakan [BedrockDataAutomationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockDataAutomationConfiguration.html)di `bedrockDataAutomationConfiguration` bidang, seperti dalam format berikut:

```
{
    "parsingStrategy": "BEDROCK_DATA_AUTOMATION",
    "bedrockDataAutomationConfiguration": {
        "parsingModality": "string"
    }
}
```

### Model pondasi
<a name="w2aac28c10c23c15c17c11c13b5"></a>

Untuk menggunakan model pondasi sebagai parser, tentukan `BEDROCK_FOUNDATION_MODEL` di `parsingStrategy` bidang `ParsingConfiguration` dan sertakan a [BedrockFoundationModelConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_BedrockFoundationModelConfiguration.html)di `bedrockFoundationModelConfiguration` lapangan, seperti dalam format berikut:

```
{
    "parsingStrategy": "BEDROCK_FOUNDATION_MODEL",
    "bedrockFoundationModelConfiguration": {
        "modelArn": "string",
        "parsingModality": "string",
        "parsingPrompt": {
            "parsingPromptText": "string"
        }
    }
}
```

## Pilih strategi chunking
<a name="kb-data-source-customize-chunking"></a>

Anda dapat menyesuaikan bagaimana dokumen dalam data Anda dipotong untuk penyimpanan dan pengambilan. Untuk mempelajari opsi untuk memotong data di Pangkalan Pengetahuan Amazon Bedrock, lihat. [Bagaimana content chunking bekerja untuk basis pengetahuan](kb-chunking.md)

**Awas**  
Anda tidak dapat mengubah strategi chunking setelah terhubung ke sumber data.

Dalam Konsol Manajemen AWS Anda memilih strategi chunking saat menghubungkan ke sumber data. Dengan Amazon Bedrock API, Anda menyertakan a [ChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ChunkingConfiguration.html)di `chunkingConfiguration` bidang. [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)

**catatan**  
Jika Anda menghilangkan konfigurasi ini, Amazon Bedrock membagi konten Anda menjadi potongan sekitar 300 token, sambil mempertahankan batas kalimat.

Perluas bagian yang sesuai dengan strategi parsing yang ingin Anda gunakan:

### Tidak ada chunking
<a name="w2aac28c10c23c15c17c13c13b1"></a>

Untuk memperlakukan setiap dokumen dalam sumber data Anda sebagai potongan sumber tunggal, tentukan `NONE` di `chunkingStrategy` bidang`ChunkingConfiguration`, seperti dalam format berikut:

```
{
    "chunkingStrategy": "NONE"
}
```

### Potongan ukuran tetap
<a name="w2aac28c10c23c15c17c13c13b3"></a>

Untuk membagi setiap dokumen di sumber data Anda menjadi potongan-potongan dengan ukuran yang kira-kira sama, tentukan `FIXED_SIZE` di `chunkingStrategy` bidang `ChunkingConfiguration` dan sertakan a [FixedSizeChunkingConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_FixedSizeChunkingConfiguration.html)di `fixedSizeChunkingConfiguration` bidang, seperti dalam format berikut:

```
{
    "chunkingStrategy": "FIXED_SIZE",
    "fixedSizeChunkingConfiguration": {
        "maxTokens": number,
        "overlapPercentage": number
    }
}
```

### Chunking hierarkis
<a name="w2aac28c10c23c15c17c13c13b5"></a>

Untuk membagi setiap dokumen dalam sumber data Anda menjadi dua tingkat, di mana lapisan kedua berisi potongan kecil yang berasal dari lapisan pertama, tentukan `HIERARCHICAL` di `chunkingStrategy` bidang `ChunkingConfiguration` dan sertakan `hierarchicalChunkingConfiguration` bidang, seperti dalam format berikut:

```
{
    "chunkingStrategy": "HIERARCHICAL",
    "hierarchicalChunkingConfiguration": {
        "levelConfigurations": [{
            "maxTokens": number
        }],
        "overlapTokens": number
    }
}
```

### Chunking semantik
<a name="w2aac28c10c23c15c17c13c13b7"></a>

Untuk membagi setiap dokumen dalam sumber data Anda menjadi potongan-potongan yang memprioritaskan makna semantik di atas struktur sintaksis, tentukan `SEMANTIC` di bidang `ChunkingConfiguration` dan sertakan `chunkingStrategy` bidang, seperti dalam format berikut`semanticChunkingConfiguration`:

```
{
    "chunkingStrategy": "SEMANTIC",
    "semanticChunkingConfiguration": {
        "breakpointPercentileThreshold": number,
        "bufferSize": number,
        "maxTokens": number
    }
}
```

## Gunakan fungsi Lambda selama konsumsi
<a name="kb-data-source-customize-lambda"></a>

Anda dapat memposting proses bagaimana potongan sumber dari data Anda ditulis ke penyimpanan vektor dengan fungsi Lambda dengan cara berikut:
+ Sertakan logika chunking untuk memberikan strategi chunking khusus.
+ Sertakan logika untuk menentukan metadata tingkat potongan.

Untuk mempelajari cara menulis fungsi Lambda khusus untuk konsumsi, lihat. [Gunakan fungsi Lambda transformasi kustom untuk menentukan bagaimana data Anda dicerna](kb-custom-transformation.md) Di dalam Konsol Manajemen AWS Anda memilih fungsi Lambda saat menghubungkan ke sumber data. Dengan Amazon Bedrock API, Anda menyertakan a [CustomTransformationConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CustomTransformationConfiguration.html)di `CustomTransformationConfiguration` bidang [VectorIngestionConfiguration](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_VectorIngestionConfiguration.html)dan menentukan ARN Lambda, seperti dalam format berikut:

```
{
    "transformations": [{
        "transformationFunction": {
            "transformationLambdaConfiguration": {
                "lambdaArn": "string"
            }
        },
        "stepToApply": "POST_CHUNKING"
    }],
    "intermediateStorage": {
        "s3Location": {
            "uri": "string"
        }
    }
}
```

Anda juga menentukan lokasi S3 untuk menyimpan output setelah menerapkan fungsi Lambda.

Anda dapat menyertakan `chunkingConfiguration` bidang untuk menerapkan fungsi Lambda setelah menerapkan salah satu opsi chunking yang ditawarkan Amazon Bedrock.