Menggunakan model bahasa besar untuk perawatan kesehatan dan kasus penggunaan ilmu hayati - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan model bahasa besar untuk perawatan kesehatan dan kasus penggunaan ilmu hayati

Ini menjelaskan bagaimana Anda dapat menggunakan model bahasa besar (LLMs) untuk aplikasi perawatan kesehatan dan ilmu hayati. Beberapa kasus penggunaan memerlukan penggunaan model bahasa besar untuk kemampuan AI generatif. Ada kelebihan dan batasan bahkan untuk sebagian besar state-of-the-art LLMs, dan rekomendasi di bagian ini dirancang untuk membantu Anda mencapai hasil target Anda.

Anda dapat menggunakan jalur keputusan untuk menentukan solusi LLM yang sesuai untuk kasus penggunaan Anda, dengan mempertimbangkan faktor-faktor seperti pengetahuan domain dan data pelatihan yang tersedia. Selain itu, bagian ini membahas praktik medis LLMs dan terbaik yang telah dilatih sebelumnya untuk pemilihan dan penggunaannya. Ini juga membahas trade-off antara solusi yang kompleks dan berkinerja tinggi dan pendekatan yang lebih sederhana dan berbiaya rendah.

Gunakan kasus untuk LLM

Amazon Comprehend Medical dapat melakukan tugas NLP tertentu. Untuk informasi selengkapnya, lihat Kasus penggunaan untuk Amazon Comprehend Medical.

Kemampuan AI logis dan generatif dari LLM mungkin diperlukan untuk kasus penggunaan perawatan kesehatan dan ilmu hayati tingkat lanjut, seperti berikut ini:

  • Mengklasifikasikan entitas medis khusus atau kategori teks

  • Menjawab pertanyaan klinis

  • Meringkas laporan medis

  • Menghasilkan dan mendeteksi wawasan dari informasi medis

Pendekatan kustomisasi

Sangat penting untuk memahami bagaimana LLMs diimplementasikan. LLMs biasanya dilatih dengan miliaran parameter, termasuk data pelatihan dari banyak domain. Pelatihan ini memungkinkan LLM untuk menangani sebagian besar tugas umum. Namun, tantangan sering muncul ketika pengetahuan khusus domain diperlukan. Contoh pengetahuan domain dalam perawatan kesehatan dan ilmu kehidupan adalah kode klinik, terminologi medis, dan informasi kesehatan yang diperlukan untuk menghasilkan jawaban yang akurat. Oleh karena itu, menggunakan LLM apa adanya (bidikan nol tanpa menambah pengetahuan domain) untuk kasus penggunaan ini kemungkinan menghasilkan hasil yang tidak akurat. Ada beberapa pendekatan populer yang dapat Anda gunakan untuk mengatasi tantangan ini: teknik cepat, Retrieval Augmented Generation (RAG), dan fine-tuning.

Rekayasa yang cepat

Rekayasa cepat adalah proses di mana Anda memandu solusi AI generatif untuk membuat output yang diinginkan dengan menyesuaikan input ke LLM. Dengan menyusun petunjuk yang tepat dengan konteks yang relevan, dimungkinkan untuk memandu model menuju penyelesaian tugas perawatan kesehatan khusus yang memerlukan penalaran. Rekayasa cepat yang efektif dapat secara signifikan meningkatkan kinerja model untuk kasus penggunaan perawatan kesehatan tanpa memerlukan modifikasi model. Untuk informasi selengkapnya tentang teknik cepat, lihat Menerapkan teknik prompt lanjutan dengan Amazon Bedrock (posting AWS blog). Few-shot prompt dan chain-of-thought prompt adalah teknik yang dapat Anda gunakan dalam rekayasa yang cepat.

Beberapa bidikan yang diminta

Few-shot prompt adalah teknik di mana Anda memberikan LLM dengan beberapa contoh input-output yang diinginkan sebelum memintanya untuk melakukan tugas serupa. Dalam konteks perawatan kesehatan, pendekatan ini sangat berharga untuk tugas-tugas khusus, seperti pengenalan entitas medis atau ringkasan catatan klinis. Dengan memasukkan 3-5 contoh berkualitas tinggi dalam prompt Anda, Anda dapat secara signifikan meningkatkan pemahaman model tentang terminologi medis dan pola spesifik domain. Untuk contoh petunjuk beberapa bidikan, lihat Beberapa rekayasa cepat dan penyetelan halus untuk Amazon Bedrock (posting blog). LLMs AWS

Misalnya, ketika Anda mengekstrak dosis obat dari catatan klinis, Anda dapat memberikan contoh gaya notasi berbeda yang membantu model mengenali variasi dalam cara profesional kesehatan mendokumentasikan resep. Pendekatan ini sangat efektif ketika bekerja dengan format dokumentasi standar atau ketika pola yang konsisten ada dalam data.

Chain-of-thought mendorong

Chain-of-thought (CoT) mendorong LLM melalui proses penalaran. step-by-step Ini membuatnya berharga untuk dukungan keputusan medis yang kompleks dan tugas penalaran diagnostik. Dengan secara eksplisit menginstruksikan model untuk “berpikir langkah demi langkah” saat menganalisis skenario klinis, Anda dapat meningkatkan kemampuannya untuk mengikuti protokol penalaran medis dan mengurangi kesalahan diagnostik.

Teknik ini unggul ketika penalaran klinis memerlukan beberapa langkah logis, seperti diagnosis banding atau perencanaan perawatan. Namun, pendekatan ini memiliki keterbatasan ketika berhadapan dengan pengetahuan medis yang sangat khusus di luar data pelatihan model atau ketika presisi absolut diperlukan untuk keputusan perawatan kritis.

Dalam kasus ini, menggabungkan CoT dengan pendekatan lain dapat menghasilkan hasil yang lebih baik. Salah satu opsi adalah menggabungkan CoT dengan dorongan konsistensi diri. Untuk informasi selengkapnya, lihat Meningkatkan kinerja model bahasa generatif dengan petunjuk konsistensi diri di Amazon Bedrock (AWS posting blog). Pilihan lain adalah menggabungkan kerangka penalaran, seperti ReAct prompt, dengan RAG. Untuk informasi selengkapnya, lihat Mengembangkan asisten berbasis obrolan AI generatif tingkat lanjut dengan menggunakan RAG dan ReAct prompt (Panduan Preskriptif).AWS

Pengambilan Generasi Augmented

Retrieval Augmented Generation (RAG) adalah teknologi AI generatif di mana LLM mereferensikan sumber data otoritatif yang berada di luar sumber data pelatihannya sebelum menghasilkan respons. Sistem RAG dapat mengambil informasi ontologi medis (seperti klasifikasi penyakit internasional, file obat nasional, dan judul subjek medis) dari sumber pengetahuan. Ini memberikan konteks tambahan untuk LLM untuk mendukung tugas NLP medis.

Seperti yang dibahas di Menggabungkan Amazon Comprehend Medical dengan model bahasa besar bagian ini, Anda dapat menggunakan pendekatan RAG untuk mengambil konteks dari Amazon Comprehend Medical. Sumber pengetahuan umum lainnya termasuk data domain medis yang disimpan dalam layanan database, seperti Amazon OpenSearch Service, Amazon Kendra, atau Amazon Aurora. Mengekstrak informasi dari sumber pengetahuan ini dapat mempengaruhi kinerja pengambilan, terutama dengan kueri semantik yang menggunakan database vektor.

Opsi lain untuk menyimpan dan mengambil pengetahuan khusus domain adalah dengan menggunakan Amazon Q Business dalam alur kerja RAG Anda. Amazon Q Business dapat mengindeks repositori dokumen internal atau situs web yang menghadap publik (seperti CMS.gov untuk data ICD-10). Amazon Q Business kemudian dapat mengekstrak informasi yang relevan dari sumber-sumber ini sebelum meneruskan kueri Anda ke LLM.

Ada beberapa cara untuk membangun alur kerja RAG kustom. Misalnya, ada banyak cara untuk mengambil data dari sumber pengetahuan. Untuk mempermudah, kami merekomendasikan pendekatan pengambilan umum menggunakan database vektor, seperti Amazon OpenSearch Service, untuk menyimpan pengetahuan sebagai embeddings. Ini mengharuskan Anda menggunakan model embedding, seperti transformator kalimat, untuk menghasilkan embeddings untuk kueri dan untuk pengetahuan yang disimpan dalam database vektor.

Untuk informasi selengkapnya tentang pendekatan RAG yang dikelola sepenuhnya dan kustom, lihat opsi dan arsitektur Retrieval Augmented Generation di. AWS

Penyetelan halus

Menyesuaikan model yang ada melibatkan pengambilan LLM, seperti model Amazon Titan, Mistral, atau Llama, dan kemudian mengadaptasi model ke data kustom Anda. Ada berbagai teknik untuk fine-tuning, yang sebagian besar melibatkan memodifikasi hanya beberapa parameter alih-alih memodifikasi semua parameter dalam model. Ini disebut parameter-efficient fine-tuning (PEFT). Untuk informasi lebih lanjut, lihat Hugging Face GitHub PEFT di.

Berikut ini adalah dua kasus penggunaan umum ketika Anda mungkin memilih untuk menyempurnakan LLM untuk tugas NLP medis:

  • Tugas generatif - Model berbasis decoder melakukan tugas AI generatif. AI/ML praktisi menggunakan data kebenaran dasar untuk menyempurnakan LLM yang ada. Misalnya, Anda dapat melatih LLM dengan menggunakan MedQuAD, kumpulan data penjawab pertanyaan medis publik. Saat Anda memanggil kueri ke LLM yang disetel dengan baik, Anda tidak memerlukan pendekatan RAG untuk memberikan konteks tambahan ke LLM.

  • Embeddings — Model berbasis encoder menghasilkan embeddings dengan mengubah teks menjadi vektor numerik. Model berbasis encoder ini biasanya disebut model embedding. Model transformator kalimat adalah jenis spesifik dari model embedding yang dioptimalkan untuk kalimat. Tujuannya adalah untuk menghasilkan embeddings dari teks input. Embeddings kemudian digunakan untuk analisis semantik atau dalam tugas pengambilan. Untuk menyempurnakan model penyematan, Anda harus memiliki kumpulan pengetahuan medis, seperti dokumen, yang dapat Anda gunakan sebagai data pelatihan. Ini dicapai dengan pasangan teks berdasarkan kesamaan atau sentimen untuk menyempurnakan model transformator kalimat. Untuk informasi lebih lanjut, lihat Melatih dan Menyematkan Model Penyematan dengan Transformer Kalimat v3 di Hugging Face.

Anda dapat menggunakan Amazon SageMaker Ground Truth untuk membuat kumpulan data pelatihan berlabel berkualitas tinggi. Anda dapat menggunakan output dataset berlabel dari Ground Truth untuk melatih model Anda sendiri. Anda juga dapat menggunakan output sebagai kumpulan data pelatihan untuk model SageMaker AI Amazon. Untuk informasi selengkapnya tentang pengenalan entitas bernama, klasifikasi teks label tunggal, dan klasifikasi teks multi-label, lihat Pelabelan teks dengan Ground Truth dalam dokumentasi Amazon SageMaker AI.

Untuk informasi lebih lanjut tentang fine-tuning, lihat Menyesuaikan model bahasa besar dalam perawatan kesehatan di panduan ini.

Memilih LLM

Amazon Bedrock adalah titik awal yang direkomendasikan untuk mengevaluasi kinerja tinggi LLMs. Untuk informasi selengkapnya, lihat Model foundation yang didukung di Amazon Bedrock. Anda dapat menggunakan pekerjaan evaluasi model di Amazon Bedrock untuk membandingkan output dari beberapa output dan kemudian memilih model yang paling cocok untuk kasus penggunaan Anda. Untuk informasi selengkapnya, lihat Memilih model berkinerja terbaik menggunakan evaluasi Amazon Bedrock dalam dokumentasi Amazon Bedrock.

Beberapa LLMs memiliki pelatihan terbatas pada data domain medis. Jika kasus penggunaan Anda memerlukan fine-tuning LLM atau LLM yang tidak didukung Amazon Bedrock, pertimbangkan untuk menggunakan Amazon AI. SageMaker Di SageMaker AI, Anda dapat menggunakan LLM yang disetel dengan baik atau memilih LLM khusus yang telah dilatih tentang data domain medis.

Tabel berikut mencantumkan populer LLMs yang telah dilatih tentang data domain medis.

LLM

Tugas

Pengetahuan

Arsitektur

BioBert

Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama

Abstrak dari PubMed, artikel teks lengkap dari PubMedCentral, dan pengetahuan domain umum

Encoder

Clinicalbert

Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama

Dataset multi-pusat yang besar bersama dengan lebih dari 3.000.000 catatan pasien dari sistem catatan kesehatan elektronik (EHR)

Encoder

ClinicalGPT

Meringkas, menjawab pertanyaan, dan pembuatan teks

Kumpulan data medis yang luas dan beragam, termasuk catatan medis, pengetahuan khusus domain, dan konsultasi dialog multi-putaran

Dekoder

GatorTron-OG

Meringkas, menjawab pertanyaan, pembuatan teks, dan pengambilan informasi

Catatan klinis dan literatur biomedis

Encoder

Med-bert

Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama

Kumpulan data besar teks medis, catatan klinis, makalah penelitian, dan dokumen terkait perawatan kesehatan

Encoder

Med-telapak tangan

Menjawab pertanyaan untuk tujuan medis

Kumpulan data teks medis dan biomedis

Dekoder

MedalPaca

Tugas menjawab pertanyaan dan dialog medis

Berbagai teks medis, yang mencakup sumber daya seperti kartu flash medis, wiki, dan kumpulan data dialog

Dekoder

BioMedbert

Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama

Eksklusif abstrak dari PubMed dan artikel teks lengkap dari PubMedCentral

Encoder

BioMedLM

Meringkas, menjawab pertanyaan, dan pembuatan teks

Literatur biomedis dari sumber pengetahuan PubMed

Dekoder

Berikut ini adalah praktik terbaik untuk menggunakan medis LLMs terlatih:

  • Pahami data pelatihan dan relevansinya dengan tugas NLP medis Anda.

  • Identifikasi arsitektur LLM dan tujuannya. Encoder sesuai untuk penyematan dan tugas NLP. Decoder adalah untuk tugas pembuatan.

  • Mengevaluasi infrastruktur, kinerja, dan persyaratan biaya untuk menjadi tuan rumah LLM medis yang telah dilatih sebelumnya.

  • Jika fine-tuning diperlukan, pastikan kebenaran atau pengetahuan dasar yang akurat untuk data pelatihan. Pastikan Anda menutupi atau menyunting informasi identitas pribadi (PII) atau informasi kesehatan yang dilindungi (PHI).

Tugas NLP medis dunia nyata mungkin berbeda dari yang telah dilatih sebelumnya LLMs dalam hal pengetahuan atau kasus penggunaan yang dimaksudkan. Jika LLM khusus domain tidak memenuhi tolok ukur evaluasi Anda, Anda dapat menyempurnakan LLM dengan kumpulan data Anda sendiri atau Anda dapat melatih model fondasi baru. Melatih model pondasi baru adalah usaha yang ambisius, dan seringkali mahal. Untuk sebagian besar kasus penggunaan, kami merekomendasikan untuk menyempurnakan model yang ada.

Saat Anda menggunakan atau menyempurnakan LLM medis yang telah dilatih sebelumnya, penting untuk mengatasi infrastruktur, keamanan, dan pagar pembatas.

Infrastruktur

Dibandingkan dengan menggunakan Amazon Bedrock untuk inferensi sesuai permintaan atau batch, hosting medis terlatih sebelumnya LLMs (biasanya dari Hugging Face) membutuhkan sumber daya yang signifikan. Untuk meng-host medis terlatih sebelumnya LLMs, biasanya menggunakan image Amazon SageMaker AI yang berjalan pada instans Amazon Elastic Compute Cloud EC2 (Amazon) dengan satu atau lebih GPUs, seperti instans ml.g5 untuk komputasi yang dipercepat atau instans ml.inf2 untuk. AWS Inferentia Ini karena LLMs mengkonsumsi sejumlah besar memori dan ruang disk.

Keamanan dan pagar pembatas

Bergantung pada persyaratan kepatuhan bisnis Anda, pertimbangkan untuk menggunakan Amazon Comprehend dan Amazon Comprehend Medical untuk menutupi atau menyunting informasi identitas pribadi (PII) dan informasi kesehatan yang dilindungi (PHI) dari data pelatihan. Ini membantu mencegah LLM menggunakan data rahasia saat menghasilkan respons.

Kami menyarankan Anda mempertimbangkan dan mengevaluasi bias, keadilan, dan halusinasi dalam aplikasi AI generatif Anda. Apakah Anda menggunakan LLM yang sudah ada sebelumnya atau fine-tuning, terapkan pagar pembatas untuk mencegah respons berbahaya. Guardrails adalah perlindungan yang Anda sesuaikan dengan persyaratan aplikasi AI generatif dan kebijakan AI yang bertanggung jawab. Misalnya, Anda dapat menggunakan Amazon Bedrock Guardrails.