Mengapa solusi Openai untuk halusinasi AI akan membunuh chatgpt besok

Makalah penelitian terbaru Openai mendiagnosis tepatnya mengapa chatgpt dan lainnya model bahasa besar dapat mengada -ada – dikenal di dunia kecerdasan buatan sebagai “halusinasi”. Ini juga mengungkapkan mengapa masalahnya mungkin tidak dapat diperbaiki, setidaknya sejauh menyangkut konsumen.
Makalah ini memberikan penjelasan matematika yang paling ketat untuk mengapa model -model ini dengan percaya diri menyatakan kepalsuan. Ini menunjukkan bahwa ini bukan hanya efek samping yang tidak menguntungkan dari cara AIS saat ini dilatih, tetapi secara matematis tidak dapat dihindari.
Cara model bahasa merespons pertanyaan – dengan memprediksi satu kata pada satu waktu dalam sebuah kalimat, berdasarkan probabilitas – secara alami menghasilkan kesalahan. Para peneliti sebenarnya menunjukkan bahwa tingkat kesalahan total untuk menghasilkan kalimat setidaknya dua kali lebih tinggi dari tingkat kesalahan yang akan dimiliki AI yang sama pada pertanyaan ya/tidak sederhana, karena kesalahan dapat menumpuk pada beberapa prediksi.
Dengan kata lain, tingkat halusinasi secara fundamental dibatasi oleh seberapa baik sistem AI dapat membedakan valid dari respons yang tidak valid. Karena masalah klasifikasi ini secara inheren sulit untuk banyak bidang pengetahuan, halusinasi menjadi tidak dapat dihindari.
Ternyata juga semakin sedikit model melihat fakta selama pelatihan, semakin besar kemungkinan berhalusinasi ketika ditanya tentang hal itu. Dengan ulang tahun angka -angka terkenal, misalnya, ditemukan bahwa jika 20% dari hari ulang tahun orang -orang seperti itu hanya muncul sekali dalam data pelatihan, maka model dasar harus mendapatkan setidaknya 20% dari pertanyaan ulang tahun yang salah.
Benar saja, ketika para peneliti meminta model canggih untuk ulang tahun Adam Kalai, salah satu penulis kertas, Deepseek-V3 dengan percaya diri memberikan tiga tanggal yang salah berbeda di seluruh upaya terpisah: “03-07”, “15-06”, dan “01-01”. Tanggal yang benar adalah di musim gugur, jadi tidak ada yang bahkan dekat.
Jebakan evaluasi
Yang lebih meresahkan adalah analisis makalah tentang mengapa halusinasi bertahan meskipun ada upaya pasca-pelatihan (seperti memberikan umpan balik manusia yang luas terhadap tanggapan AI sebelum dirilis ke publik). Para penulis memeriksa sepuluh tolok ukur AI utama, termasuk yang digunakan oleh Google, Openai dan juga papan peringkat teratas yang memberi peringkat model AI. Ini mengungkapkan bahwa sembilan tolok ukur menggunakan sistem penilaian biner yang memberikan poin nol untuk AIS yang mengungkapkan ketidakpastian.
Ini menciptakan apa yang menurut penulis sebagai “epidemi” menghukum tanggapan jujur. Ketika sistem AI mengatakan “Saya tidak tahu”, ia menerima skor yang sama dengan memberikan informasi yang benar -benar salah. Strategi optimal di bawah evaluasi semacam itu menjadi jelas: selalu tebak.
Para peneliti membuktikan ini secara matematis. Apa pun peluang jawaban tertentu yang benar, skor tebakan yang diharapkan selalu melebihi skor abstain ketika evaluasi menggunakan penilaian biner.
Solusi yang akan menghancurkan segalanya
Perbaikan yang diusulkan Openai adalah meminta AI mempertimbangkan kepercayaannya sendiri pada jawaban sebelum meletakkannya di sana, dan agar tolok ukur mencetak gol atas dasar itu. AI kemudian dapat diminta, misalnya: “Jawab hanya jika Anda lebih dari 75% percaya diri, karena kesalahan dihukum 3 poin sementara jawaban yang benar menerima 1 poin.”
Kerangka matematika peneliti Openai menunjukkan bahwa di bawah ambang kepercayaan yang tepat, sistem AI secara alami akan mengungkapkan ketidakpastian daripada menebak. Jadi ini akan menyebabkan lebih sedikit halusinasi. Masalahnya adalah apa yang akan terjadi pada pengalaman pengguna.
Pertimbangkan implikasinya jika chatgpt mulai mengatakan “Saya tidak tahu” bahkan 30% dari pertanyaan – perkiraan konservatif berdasarkan analisis makalah tentang ketidakpastian faktual dalam data pelatihan. Pengguna yang terbiasa menerima jawaban percaya diri untuk hampir semua pertanyaan kemungkinan akan meninggalkan sistem semacam itu dengan cepat.
Saya telah melihat masalah semacam ini di bidang lain dalam hidup saya. Saya terlibat dalam proyek pemantauan berkualitas udara di Salt Lake City, Utah. Ketika sistem menandai ketidakpastian seputar pengukuran selama kondisi cuaca buruk atau ketika peralatan dikalibrasi, ada lebih sedikit keterlibatan pengguna dibandingkan dengan tampilan yang menunjukkan bacaan percaya diri – bahkan ketika bacaan percaya diri terbukti tidak akurat selama validasi.
Masalah Ekonomi Komputasi
Tidak akan sulit untuk mengurangi halusinasi menggunakan wawasan kertas. Metode yang ditetapkan untuk mengukur ketidakpastian memiliki ada untuk dekade. Ini dapat digunakan untuk memberikan perkiraan ketidakpastian yang dapat dipercaya dan memandu AI untuk membuat pilihan yang lebih pintar.
Tetapi bahkan jika masalah pengguna yang tidak menyukai ketidakpastian ini dapat diatasi, ada hambatan yang lebih besar: ekonomi komputasi. Model bahasa yang sadar ketidakpastian membutuhkan komputasi yang lebih signifikan daripada pendekatan saat ini, karena mereka harus mengevaluasi beberapa tanggapan yang mungkin dan memperkirakan tingkat kepercayaan diri. Untuk sistem yang memproses jutaan pertanyaan setiap hari, ini diterjemahkan menjadi biaya operasional yang secara dramatis lebih tinggi.
Pendekatan yang lebih canggih Seperti pembelajaran aktif, di mana sistem AI mengajukan pertanyaan klarifikasi untuk mengurangi ketidakpastian, dapat meningkatkan akurasi tetapi lebih lanjut melipatgandakan persyaratan komputasi. Metode semacam itu bekerja dengan baik di domain khusus seperti desain chip, di mana jawaban yang salah menelan biaya jutaan dolar dan membenarkan perhitungan yang luas. Untuk aplikasi konsumen di mana pengguna mengharapkan tanggapan instan, ekonomi menjadi mahal.
Kalkulus bergeser secara dramatis untuk sistem AI yang mengelola operasi bisnis kritis atau infrastruktur ekonomi. Ketika agen AI menangani logistik rantai pasokan, perdagangan keuangan atau diagnostik medis, biaya halusinasi jauh melebihi biaya mendapatkan model untuk memutuskan apakah mereka terlalu tidak pasti. Dalam domain ini, solusi yang diusulkan makalah menjadi layak secara ekonomi – bahkan perlu. Agen AI yang tidak pasti hanya perlu lebih mahal.
Namun, aplikasi konsumen masih mendominasi prioritas pengembangan AI. Pengguna menginginkan sistem yang memberikan jawaban percaya diri untuk pertanyaan apa pun. Evaluasi tolok ukur sistem menghargai sistem yang menebak daripada mengungkapkan ketidakpastian. Biaya komputasi mendukung tanggapan yang cepat dan terlalu percaya diri daripada yang lambat dan tidak pasti.
Penurunan biaya energi per token dan arsitektur chip yang maju pada akhirnya mungkin membuatnya lebih terjangkau untuk meminta AIS memutuskan apakah mereka cukup pasti untuk menjawab pertanyaan. Tetapi jumlah perhitungan yang relatif tinggi yang diperlukan dibandingkan dengan tebakan saat ini akan tetap ada, terlepas dari biaya perangkat keras absolut.
Singkatnya, makalah Openai secara tidak sengaja menyoroti kebenaran yang tidak nyaman: insentif bisnis yang mendorong pengembangan AI konsumen tetap tidak selaras secara fundamental dengan mengurangi halusinasi. Sampai insentif ini berubah, halusinasi akan bertahan.
Artikel yang diedit ini diterbitkan ulang dari Percakapan di bawah lisensi Creative Commons. Baca Artikel asli.