Bagaimana penalaran diperpanjang bekerja Menggunakan penalaran yang diperluas Praktik terbaik untuk berpikir panjang

Memahami penalaran model dengan penalaran yang diperluas

catatan

Dokumentasi ini untuk Versi 1. Untuk informasi tentang cara menggunakan Extended Thinking di versi 2, kunjungi Extended thinking.

Pemikiran yang diperluas adalah pengaturan yang memungkinkan model untuk mendekati masalah kompleks dengan fase penalaran yang berbeda. Selama fase ini, pertama-tama menghasilkan konten penalaran khusus dalam reasoningContent blok yang melibatkan eksplorasi sistemik langkah demi langkah dari suatu masalah. Model kemudian merefleksikan alasannya, mengidentifikasi potensi kesalahan atau pendekatan alternatif. Kemudian, ia menyelesaikan responsnya. Ini memberikan jawaban akhir yang bersih sambil memberikan wawasan transparan tentang proses model

Karena persyaratan komputasi besar pemikiran yang diperluas, Nova memungkinkan pemberdayaan selektif untuk pendekatan hibrida. Ini berarti Anda dapat beralih pada pemikiran yang diperluas untuk kueri yang kompleks dan kurang kritis waktu. Untuk kueri yang sederhana atau memerlukan respons cepat, Anda dapat menonaktifkan pemikiran yang diperluas untuk mengurangi beban sumber daya komputasi.

Bagaimana penalaran diperpanjang bekerja

Ketika pemikiran yang diperluas diaktifkan, Nova membuat blok ReasoningContent dalam responsnya di mana ia mengeluarkan proses berpikir internalnya. Model menggunakan alasan ini untuk menginformasikan respons teks terakhirnya, menciptakan pemisahan yang jelas antara fase berpikir dan jawaban akhir.

Berikut ini adalah respons API termasuk reasoningContent blok diikuti oleh blok konten teks:



{
  "output": {
    "message": {
      "role": "assistant",
      "content": [
        {
          "reasoningContent": {
            "reasoningText": {
              "text": "Let me analyze this optimization problem systematically. First, I need to understand the constraints: 5 warehouses, 12 distribution centers, 200 retail locations, with a 50-mile maximum distance requirement. This is a classic facility location problem with distance constraints...",
            }
          }
        },
        {
          "text": "Based on my analysis, I recommend implementing a two-phase optimization approach. Phase 1 should focus on clustering retail locations using k-means algorithm to identify natural distribution center catchment areas..."
        }
      ]
    }
  }
}

Menggunakan penalaran yang diperluas

Berikut ini adalah contoh panggilan Converse API dengan penalaran diperpanjang diaktifkan:



import boto3
import json

client = boto3.client("bedrock-runtime", region_name="us-east-1")

# Enable extended thinking for complex problem-solving
response = client.converse(
    modelId="amazon.nova-lite-1-5-v1:0",
    messages=[{
        "role": "user",
        "content": [{"text": "I need to optimize a logistics network with 5 warehouses, 12 distribution centers, and 200 retail locations. The goal is to minimize total transportation costs while ensuring no location is more than 50 miles from a distribution center. What approach should I take?"}]
    }],
    inferenceConfig={
        "maxTokens": 40000,
        "temperature": 0
    },
    additionalModelRequestFields={
        "reasoningConfig": {
            "type": "enabled",
            "maxReasoningEffort": "high"
        }
    }
)

# The response will contain reasoning blocks followed by the final answer
for block in response["output"]["message"]["content"]:
    if "reasoningContent" in block:
        reasoning_text = block["reasoningContent"]["reasoningText"]["text"]
        print(f"Nova's thinking process:\n{reasoning_text}\n")
    elif "text" in block:
        print(f"Final recommendation:\n{block['text']}")

Jika Anda mengecualikan reasoningConfig elemen, model akan menonaktifkan pemikiran yang diperluas secara default.

Opsi konfigurasi pemikiran yang diperluas

Nova menyediakan kontrol fleksibel untuk perilaku berpikir yang diperluas melalui parameter ReasoningConfig, memungkinkan Anda mengoptimalkan alokasi komputasi waktu inferensi untuk kebutuhan spesifik Anda.

Kontrol penalaran

Anda dapat mengubah kemampuan berpikir yang diperluas antara dua mode. Pengaturan type ke disabled (default) berarti Nova menggunakan penalaran laten yang efisien, mengoptimalkan kecepatan dan efisiensi. Pengaturan type untuk enabled mengaktifkan pemikiran eksplisit Nova yang diperluas dengan proses penalaran yang terlihat.

Tingkat upaya penalaran

Ketika pemikiran yang diperluas diaktifkan, Anda dapat mengontrol berapa banyak upaya komputasi yang diinvestasikan Nova dalam proses penalaran. Pengaturan maxReasoningEffort ke rendah cocok untuk tugas yang cukup kompleks yang membutuhkan beberapa alasan tambahan. Pengaturan media bekerja dengan baik untuk masalah kompleks yang membutuhkan analisis substansif. Pengaturan tinggi memberikan alasan paling menyeluruh untuk tugas multi-segi yang sangat kompleks, menggunakan hingga 32.000 token penalaran.



{
  "modelId": "amazon.nova-lite-1-5-v1:0",
  "inferenceConfig": {
    "maxTokens": 40000,
    "temperature": 0
  },
  "additionalModelRequestFields": {
    "reasoningConfig": {
      "type": "enabled",
      "maxReasoningEffort": "high"
    }
  }
}

catatan

Saat menggunakan low dan medium mengatur, konten penalaran akan dialirkan karena setiap token dihasilkan saat menggunakan. ConverseStream Namun, high kerjanya berbeda, menerapkan pendekatan yang berbeda untuk meningkatkan kualitas sehingga menghasilkan semua konten penalaran dalam potongan akhir. Ini dapat secara signifikan meningkatkan waktu ke token pertama dan membutuhkan pekerjaan sisi klien tambahan untuk mengelola secara efektif.

Praktik terbaik untuk berpikir panjang

Mengidentifikasi kasus penggunaan penalaran yang diperluas

Bagian ini akan membahas kasus penggunaan potensial di mana penalaran diperpanjang dan tidak berlaku.

Gunakan kasus di mana pemikiran yang diperluas berlaku:

Pemecahan Masalah Kompleks — Perhitungan dan bukti matematika multi-langkah, tantangan algoritmik yang membutuhkan pendekatan sistematis, analisis ilmiah dengan beberapa variabel yang saling bergantung, dan pemodelan keuangan dengan skenario dan kendala yang kompleks semuanya mendapat manfaat dari kemampuan model untuk mengatasi masalah secara metodis dalam fase berpikir khusus.
Tugas Pengkodean Lanjutan — Pemfaktoran ulang basis kode besar di beberapa file dan dependensi, skenario debugging kompleks yang membutuhkan penghapusan kemungkinan secara sistematis, desain arsitektur sistem dengan berbagai pertimbangan teknis, dan perencanaan migrasi di berbagai layanan dan platform semuanya mendapat manfaat dari kemampuan Nova untuk bernalar melalui ruang masalah secara komprehensif sebelum mengusulkan solusi.
Tugas Analitik — Analisis dokumen yang membutuhkan sintesis di berbagai sumber, perencanaan strategis dengan prioritas dan kendala yang bersaing, tugas penelitian yang memerlukan evaluasi bukti yang bertentangan, dan analisis hukum atau kepatuhan yang memerlukan pertimbangan peraturan yang cermat, semuanya mendapat manfaat dari kemampuan model untuk bekerja melalui informasi yang kompleks secara sistematis.
Perencanaan Multi-Langkah — Perencanaan proyek dengan ketergantungan dan kendala sumber daya, desain alur kerja yang memerlukan pengoptimalan di berbagai kriteria, analisis risiko yang memerlukan evaluasi berbagai skenario, dan pengoptimalan proses bisnis yang memerlukan evaluasi sistematis semuanya mendapat manfaat dari kemampuan perencanaan Nova yang ditingkatkan.

Kasus penggunaan di mana penalaran yang diperpanjang tidak berlaku:

Pertanyaan Sederhana — Pertanyaan faktual dasar seperti “Apa ibu kota Prancis?” , definisi langsung seperti “Apa kepanjangan dari API?” , perhitungan sederhana yang melibatkan aritmatika dasar, dan pengambilan informasi langsung dari konteks yang disediakan semuanya bekerja secara efisien dengan mode penalaran laten default Nova.
Aplikasi Speed-Critical — Aplikasi obrolan real-time di mana latensi penting, panggilan API frekuensi tinggi dalam sistem produksi, pembuatan konten sederhana untuk kasus penggunaan volume tinggi, dan tugas klasifikasi dasar atau analisis sentimen semuanya mendapat manfaat dari waktu respons yang lebih cepat dari penalaran laten.
Beban Kerja Peka Biaya — Pemrosesan volume tinggi di mana kecepatan dan biaya lebih penting daripada kedalaman penalaran, tugas otomatisasi sederhana dengan logika langsung, moderasi atau penyaringan konten dasar, dan pemrosesan dan transformasi data rutin biasanya tidak memerlukan investasi komputasi tambahan dari pemikiran yang diperluas.

Memilih tingkat upaya penalaran

Rendah — Bekerja secara optimal untuk tinjauan kode dan saran perbaikan, tugas analisis dasar yang memerlukan beberapa pertimbangan tambahan, pemecahan masalah sederhana yang mendapat manfaat dari pendekatan terstruktur, dan sebagian besar tugas day-to-day pengembangan dengan kompleksitas sedang. Tingkat ini memberikan peningkatan penalaran yang berarti sambil mempertahankan karakteristik biaya dan latensi yang wajar.
Medium — Bekerja dengan baik untuk skenario debugging kompleks yang membutuhkan investigasi sistematis, perhitungan multi-langkah dengan saling ketergantungan, tugas perencanaan moderat dengan beberapa kendala, dan analisis yang memerlukan evaluasi beberapa alternatif. Tingkat ini memberikan kedalaman penalaran yang substansif untuk masalah yang mendapat manfaat dari analisis yang lebih menyeluruh.
Tinggi — Memberikan hasil terbaik untuk masalah dan bukti matematika tingkat lanjut, desain sistem yang kompleks dengan berbagai pertimbangan arsitektur, tugas penelitian yang membutuhkan analisis dan sintesis mendalam, skenario pengambilan keputusan kritis dengan implikasi signifikan, dan alur kerja multi-langkah yang membutuhkan perencanaan dan verifikasi yang cermat. Tingkat ini memungkinkan Nova untuk menginvestasikan sumber daya komputasi yang substansif dalam mengatasi masalah yang kompleks secara komprehensif.

Mengelola biaya dan kinerja

Optimalisasi biaya

Mengoptimalkan biaya membutuhkan penerapan pemikiran yang diperluas secara bijaksana. Gunakan pemikiran yang diperluas hanya ketika kompleksitas membenarkan biaya komputasi tambahan, karena token penalaran ditagih sebagai token keluaran. Mulailah dengan usaha rendah dan tingkatkan secara bertahap berdasarkan hasil untuk menemukan keseimbangan optimal untuk kasus penggunaan Anda. Pantau pola penggunaan token penalaran dalam aplikasi Anda untuk mengidentifikasi peluang pengoptimalan. Pertimbangkan pemrosesan batch untuk non-time-sensitive tugas-tugas berat penalaran untuk mengurangi biaya. Ingatlah bahwa penalaran laten dengan pemikiran yang diperluas dinonaktifkan menangani sebagian besar tugas secara efektif dan harus tetap menjadi pendekatan default Anda.

Optimalisasi kinerja

Mengoptimalkan kinerja melibatkan pengaturan nilai maxTokens yang sesuai untuk mengakomodasi konten penalaran dan respons akhir. Gunakan streaming untuk tugas penalaran yang kompleks untuk meningkatkan kinerja yang dirasakan dan pengalaman pengguna. Pola penalaran cache untuk jenis masalah yang sering ditemui jika memungkinkan. Pertimbangkan tingkat upaya penalaran berdasarkan harapan pengguna dan kendala waktu, menyeimbangkan analisis menyeluruh dengan persyaratan waktu respons.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menghasilkan output terstruktur

Keamanan