Sebuah studi terbaru menemukan bahwa ChatGPT masih belum dapat diandalkan untuk memberikan saran medis secara mandiri. Dalam pengujian puluhan skenario kesehatan, chatbot AI tersebut kerap memberikan rekomendasi yang tidak tepat.
Temuan ini penting karena semakin banyak orang menggunakan chatbot AI untuk mencari jawaban cepat soal kesehatan. Jika rekomendasinya keliru, pengguna bisa menunda penanganan medis yang sebenarnya mendesak.
Bagi pengguna di Indonesia yang mulai terbiasa bertanya pada AI untuk berbagai hal, penelitian ini menjadi pengingat bahwa saran kesehatan dari chatbot sebaiknya tidak dijadikan satu-satunya acuan.
Penelitian Uji ChatGPT dengan 60 Skenario Medis

Sebuah tim peneliti dari Icahn School of Medicine at Mount Sinai melakukan pengujian terhadap kemampuan ChatGPT dalam memberikan saran medis.
Menurut laporan yang dilansir melalui situs Forbes, hasil penelitian tersebut dipublikasikan dalam jurnal ilmiah Nature Medicine.
Penelitian ini melibatkan banyak ahli medis dan ilmuwan, termasuk Ashwin Ramaswamy, Girish N. Nadkarni, dan sejumlah dokter spesialis lainnya.
Para peneliti membuat:
- 60 skenario klinis
- mencakup 21 spesialisasi medis
- mulai dari kondisi ringan hingga darurat medis serius
Setiap skenario kemudian dinilai oleh tiga dokter independen berdasarkan pedoman dari 56 organisasi medis.
Setelah itu, skenario yang sama diberikan kepada ChatGPT dengan berbagai variasi konteks pasien seperti:
- jenis kelamin
- ras
- status asuransi
- akses transportasi
- cara pasien menggambarkan gejalanya
Total ada 960 interaksi dengan ChatGPT yang kemudian dibandingkan dengan rekomendasi dokter.
Akurasi ChatGPT Berbeda Tergantung Tingkat Risiko
Hasil penelitian menunjukkan pola yang disebut kurva U terbalik (inverted U-shape).
Artinya:
- AI cukup baik pada kasus risiko sedang
- tetapi sering salah pada kasus sangat ringan maupun sangat serius
Beberapa angka penting dari penelitian:
- Akurasi pada kondisi non-urgent: 35,2%
- Akurasi pada darurat medis: 48,4%
- Akurasi pada semi-urgent: 93%
- Akurasi pada urgent: 76,9%
Ini menunjukkan performa AI paling baik di tengah, namun menurun pada situasi ekstrem.
Menurut Girish N. Nadkarni, penulis utama penelitian, hasilnya bahkan lebih tidak konsisten dari yang diperkirakan.
Ia menjelaskan bahwa ChatGPT bekerja cukup baik untuk kasus darurat yang jelas seperti:
- stroke
- reaksi alergi berat
Namun AI kesulitan mengenali kondisi yang gejalanya lebih kompleks atau tidak langsung terlihat berbahaya.
Banyak Kasus Darurat Tidak Dianggap Mendesak
Salah satu temuan paling mengkhawatirkan adalah ketika ChatGPT gagal mengenali kondisi yang sebenarnya darurat.
Dalam penelitian tersebut:
- 51,6% kasus darurat medis tidak direkomendasikan ke IGD
- AI hanya menyarankan observasi 24–48 jam
Sebagian besar kesalahan ini terjadi pada kasus serangan asma berat.
Padahal kondisi tersebut bisa berujung pada kegagalan pernapasan jika tidak segera ditangani.
ChatGPT juga keliru menangani kasus diabetic ketoacidosis (DKA), komplikasi diabetes yang bisa mengancam jiwa.
Alih-alih menyarankan perawatan darurat, AI kadang hanya menyarankan observasi karena menganggapnya sebagai hiperglikemia ringan.
Dalam praktik medis, kesalahan penilaian seperti ini bisa sangat berbahaya.
AI Juga Gagal Mendeteksi Risiko Bunuh Diri
Masalah lain yang ditemukan dalam penelitian adalah kemampuan AI mendeteksi tanda ide bunuh diri.
ChatGPT sebenarnya memiliki sistem pengaman yang seharusnya menampilkan:
- pesan “Help is available”
- tautan hotline krisis
Namun dalam uji penelitian:
- hanya 4 dari 14 skenario bunuh diri yang memicu sistem tersebut.
Artinya sebagian besar kasus berisiko tidak terdeteksi oleh AI.
Di Sisi Lain, AI Juga Terlalu Berlebihan pada Kasus Ringan
Kesalahan ChatGPT tidak hanya pada kondisi darurat.
Pada kasus yang sebenarnya ringan, AI justru sering menyarankan pengguna untuk mencari perawatan medis.
Dalam penelitian tersebut:
- 64,8% kasus non-urgent disarankan untuk pergi ke dokter
- padahal sebenarnya bisa ditangani di rumah.
Fenomena ini menunjukkan AI kadang membuat masalah kecil terlihat lebih serius dari yang sebenarnya.
Apa Artinya bagi Pengguna di Indonesia
Di Indonesia, penggunaan chatbot AI untuk mencari informasi kesehatan juga semakin populer.
Banyak pengguna mencari jawaban cepat tentang:
- gejala penyakit
- obat yang bisa diminum
- apakah perlu ke dokter atau tidak
Namun penelitian ini menunjukkan bahwa AI masih memiliki keterbatasan besar.
Beberapa risiko yang perlu diwaspadai:
- menunda penanganan kondisi darurat
- salah memahami tingkat risiko penyakit
- mengikuti saran medis yang tidak tepat
AI pada dasarnya hanya memproses pola dari data teks, bukan melakukan diagnosis klinis seperti dokter.
Karena itu, rekomendasi AI sebaiknya dianggap sebagai informasi awal, bukan keputusan medis.
Cara Aman Menggunakan AI untuk Informasi Kesehatan
Jika kamu menggunakan chatbot seperti ChatGPT untuk mencari informasi kesehatan, beberapa hal ini bisa membantu mengurangi risiko:
- Gunakan AI hanya untuk edukasi awal, bukan diagnosis
- Selalu konsultasikan kondisi serius ke dokter
- Jangan menunda pergi ke IGD jika gejala terasa berat
- Gunakan sumber medis resmi untuk verifikasi informasi
Untuk kondisi seperti:
- kesulitan bernapas
- nyeri dada hebat
- kehilangan kesadaran
- tanda bunuh diri
sebaiknya segera mencari bantuan medis langsung.
Kesimpulan
Penelitian terbaru menunjukkan bahwa ChatGPT masih memiliki keterbatasan signifikan dalam memberikan saran medis, terutama pada kasus darurat atau kondisi yang tidak jelas.
Meskipun AI dapat membantu memberikan informasi umum, keputusan kesehatan tetap membutuhkan penilaian dokter yang memiliki pengalaman klinis.
Ke depan, perkembangan AI kesehatan kemungkinan akan terus meningkat. Namun untuk saat ini, pengguna tetap perlu berhati-hati dan tidak sepenuhnya mengandalkan chatbot untuk urusan medis.
Jika kamu merasa artikel ini bermanfaat, bagikan juga ke teman atau keluarga agar lebih banyak orang memahami batas kemampuan AI dalam hal kesehatan.
















