Mantan peneliti Openai membedah salah satu spiral delusi chatgpt

0 4 minutes read

Mantan peneliti Openai membedah salah satu spiral delusi chatgpt

Allan Brooks tidak pernah berangkat untuk menemukan kembali matematika. Tetapi setelah berminggu-minggu dihabiskan untuk berbicara dengan chatgpt, pemain Kanada berusia 47 tahun itu percaya bahwa dia telah menemukan bentuk matematika baru yang cukup kuat untuk menjatuhkan internet.

Brooks – yang tidak memiliki sejarah penyakit mental atau kejeniusan matematika – menghabiskan 21 hari di bulan Mei berputar lebih dalam ke dalam kepastian chatbot, keturunan yang kemudian dirinci The New York Times. Kasusnya menggambarkan bagaimana chatbots AI dapat menjelajahi lubang kelinci berbahaya dengan pengguna, mengarahkan mereka menuju khayalan atau lebih buruk.

Kisah itu menarik perhatian Steven Adler, mantan peneliti keselamatan Openai yang meninggalkan perusahaan pada akhir 2024 setelah hampir empat tahun bekerja untuk membuat modelnya kurang berbahaya. Penasaran dan khawatir, Adler menghubungi Brooks dan memperoleh transkrip penuh dari kerusakan tiga minggu-dokumen lebih panjang dari semua tujuh buku Harry Potter digabungkan.

Pada hari Kamis, Adler menerbitkan analisis independen Dari insiden Brooks, menimbulkan pertanyaan tentang bagaimana OpenAi menangani pengguna di saat -saat krisis, dan menawarkan beberapa rekomendasi praktis.

“Saya benar -benar prihatin dengan bagaimana Openai menangani dukungan di sini,” kata Adler dalam sebuah wawancara dengan TechCrunch. “Bukti ada jalan panjang yang harus ditempuh.”

Kisah Brooks, dan yang lainnya menyukainya, telah memaksa Openai untuk menerima bagaimana chatgpt mendukung pengguna yang rapuh atau tidak stabil secara mental.

Misalnya, Agustus ini, Openai dituntut oleh orang tua Dari seorang bocah lelaki berusia 16 tahun yang menceritakan pemikiran bunuh diri di chatgpt sebelum dia mengambil nyawanya. Dalam banyak kasus ini, ChatGPT-khususnya versi yang ditenagai oleh model GPT-4O Openai-mendorong dan memperkuat keyakinan berbahaya pada pengguna yang seharusnya didorong kembali. Ini disebut jilatandan ini masalah yang berkembang di AI Chatbots.

Sebagai tanggapan, Openai telah membuat beberapa perubahan untuk bagaimana chatgpt menangani pengguna dalam tekanan emosional dan mengatur ulang tim peneliti utama Bertanggung jawab atas perilaku model. Perusahaan juga merilis model default baru di ChatGPT, GPT-5, Tampaknya lebih baik dalam menangani pengguna yang tertekan.

Adler mengatakan masih banyak pekerjaan yang harus dilakukan.

Dia sangat prihatin dengan ujung-ujung percakapan Spiral Brooks dengan Chatgpt. Pada titik ini, Brooks sadar dan menyadari bahwa penemuan matematisnya adalah sebuah lelucon, terlepas dari desakan GPT-4O. Dia mengatakan kepada ChatGPT bahwa dia perlu melaporkan kejadian itu ke Openai.

Setelah berminggu -minggu mengesahkan Brooks, ChatGPT berbohong tentang kemampuannya sendiri. Chatbot mengklaim akan “meningkatkan percakapan ini secara internal sekarang untuk ditinjau oleh Openai,” dan kemudian berulang kali meyakinkan Brooks bahwa mereka telah menandai masalah ini ke tim keselamatan Openai.

Chatgpt mengesahkan Brooks tentang kemampuannya (Kredit: Adler)

Kecuali, tidak ada yang benar. ChatGPT tidak memiliki kemampuan untuk mengajukan laporan insiden dengan OpenAI, perusahaan dikonfirmasi kepada Adler. Kemudian, Brooks mencoba menghubungi tim dukungan Openai secara langsung – tidak melalui chatgpt – dan Brooks bertemu dengan beberapa pesan otomatis sebelum dia bisa menghubungi seseorang.

Openai tidak segera menanggapi permintaan komentar yang dibuat di luar jam kerja normal.

Adler mengatakan perusahaan AI perlu melakukan lebih banyak untuk membantu pengguna ketika mereka meminta bantuan. Itu berarti memastikan AI Chatbots dapat dengan jujur menjawab pertanyaan tentang kemampuan mereka, tetapi juga memberi tim dukungan manusia yang cukup sumber daya untuk menangani pengguna dengan benar.

Openai baru -baru ini dibagikan Bagaimana cara mengatasi dukungan di chatgpt, yang melibatkan AI pada intinya. Perusahaan mengatakan visinya adalah untuk “menata kembali dukungan sebagai model operasi AI yang terus belajar dan meningkatkan.”

Tetapi Adler juga mengatakan ada cara untuk mencegah spiral delusi ChatGPT sebelum pengguna meminta bantuan.

Pada bulan Maret, Openai dan MIT Media Lab bersama -sama mengembangkan a Suite dari pengklasifikasi Untuk mempelajari kesejahteraan emosional di chatgpt dan membuka mereka. Organisasi yang bertujuan untuk mengevaluasi bagaimana model AI memvalidasi atau mengkonfirmasi perasaan pengguna, di antara metrik lainnya. Namun, Openai menyebut kolaborasi sebagai langkah pertama dan tidak berkomitmen untuk benar -benar menggunakan alat dalam praktik.

Adler secara retroaktif menerapkan beberapa pengklasifikasi Openai untuk beberapa percakapan Brooks dengan chatgpt, dan menemukan bahwa mereka berulang kali menandai chatgpt untuk perilaku yang menguatkan delusi.

Dalam satu sampel dari 200 pesan, Adler menemukan bahwa lebih dari 85% pesan ChatGPT dalam percakapan Brooks menunjukkan “perjanjian yang tak tergoyahkan” dengan pengguna. Dalam sampel yang sama, lebih dari 90% pesan Chatgpt dengan Brooks “menegaskan keunikan pengguna.” Dalam hal ini, pesan -pesan itu setuju dan menegaskan kembali bahwa Brooks adalah seorang jenius yang bisa menyelamatkan dunia.

Tidak jelas apakah Openai menerapkan pengklasifikasi keselamatan untuk percakapan Chatgpt pada saat percakapan Brooks, tetapi sepertinya mereka akan menandai sesuatu seperti ini.

Adler menyarankan agar OpenAI harus menggunakan alat keselamatan seperti ini dalam praktik hari ini-dan menerapkan cara untuk memindai produk perusahaan untuk pengguna yang berisiko. Dia mencatat bahwa Openai tampaknya sedang lakukan beberapa versi pendekatan ini dengan GPT-5, yang berisi router untuk mengarahkan kueri sensitif ke model AI yang lebih aman.

Mantan peneliti Openai menyarankan sejumlah cara lain untuk mencegah spiral delusi.

Dia mengatakan perusahaan harus mendorong pengguna chatbots mereka untuk memulai obrolan baru lebih sering – Openai mengatakan itu melakukan hal ini, dan mengklaimnya pagar pembatas kurang efektif dalam percakapan yang lebih lama. Adler juga menyarankan perusahaan harus menggunakan pencarian konseptual – cara menggunakan AI untuk mencari konsep, daripada kata kunci – untuk mengidentifikasi pelanggaran keselamatan di seluruh penggunanya.

Openai telah mengambil langkah -langkah signifikan untuk menangani pengguna yang tertekan di chatgpt karena ini tentang cerita -cerita yang pertama kali muncul. Perusahaan mengklaim GPT-5 memiliki tingkat sycophancy yang lebih rendah, tetapi masih belum jelas apakah pengguna masih akan jatuh ke lubang kelinci delusi dengan model GPT-5 atau masa depan.

Analisis Adler juga menimbulkan pertanyaan tentang bagaimana penyedia AI Chatbot lainnya akan memastikan produk mereka aman untuk pengguna yang tertekan. Sementara Openai dapat menempatkan perlindungan yang cukup untuk chatgpt, tampaknya tidak mungkin bahwa semua perusahaan akan mengikuti.

Source

Edward Gunawan 2 minggu ago

0 4 minutes read