Ada 32 cara berbeda AI bisa menjadi nakal, kata para ilmuwan – dari jawaban berhalusinasi hingga ketidaksejajaran total dengan kemanusiaan

Para ilmuwan telah menyarankan itu saat kecerdasan buatan (AI) menjadi nakal dan mulai bertindak dengan cara yang bertentangan dengan tujuan yang dimaksudkan, ia menunjukkan perilaku yang menyerupai psikopatologi pada manusia. Itulah mengapa mereka menciptakan taksonomi baru dari 32 disfungsi AI sehingga orang -orang di berbagai bidang dapat memahami risiko membangun dan menggunakan AI.
Dalam penelitian baru, para ilmuwan berangkat untuk mengkategorikan risiko AI dalam menyimpang dari jalur yang dimaksudkan, menggambar analogi dengan psikologi manusia. Hasilnya adalah “Psychopathia mesin” – Kerangka kerja yang dirancang untuk menerangi patologi AI, serta bagaimana kita dapat melawannya. Disfungsi ini berkisar dari jawaban halusinasi hingga misalignment lengkap dengan nilai -nilai manusia dan tujuan.
Dibuat oleh Nell Watson Dan Atau hessamibaik peneliti AI dan anggota Institute of Electrical and Electronics Engineers (IEEE), proyek ini bertujuan untuk membantu menganalisis kegagalan AI dan membuat rekayasa produk masa depan lebih aman, dan disebut -sebut sebagai alat untuk membantu pembuat kebijakan mengatasi risiko AI. Watson dan Hessami menguraikan kerangka kerja mereka dalam sebuah studi yang diterbitkan 8 Agustus di jurnal Elektronik.
Menurut penelitian ini, Psychopathia mesin memberikan pemahaman yang sama tentang perilaku dan risiko AI. Dengan begitu, para peneliti, pengembang, dan pembuat kebijakan dapat mengidentifikasi cara AI dapat salah dan menentukan cara terbaik untuk mengurangi risiko berdasarkan jenis kegagalan.
Studi ini juga mengusulkan “penyelarasan robopsikologis terapeutik,” sebuah proses yang digambarkan oleh para peneliti sebagai semacam “terapi psikologis” untuk AI.
Para peneliti berpendapat bahwa ketika sistem ini menjadi lebih mandiri dan mampu merefleksikan diri mereka sendiri, hanya menjaga mereka sejalan dengan aturan dan kendala luar (penyelarasan berbasis kontrol eksternal) mungkin tidak lagi cukup.
Proses alternatif yang mereka usulkan akan fokus untuk memastikan bahwa pemikiran AI konsisten, bahwa ia dapat menerima koreksi dan bahwa ia berpegang pada nilainya dengan cara yang stabil.
Mereka menyarankan ini dapat didorong dengan membantu sistem merefleksikan alasannya sendiri, memberikan insentif untuk tetap terbuka untuk koreksi, membiarkannya 'berbicara dengan dirinya sendiri' dengan cara yang terstruktur, menjalankan percakapan praktik yang aman, dan menggunakan alat yang memungkinkan kita melihat ke dalam cara kerjanya – seperti bagaimana psikolog mendiagnosis dan mengobati kondisi kesehatan mental pada orang.
Tujuannya adalah untuk mencapai apa yang oleh para peneliti menyebut keadaan “kewarasan buatan” – AI yang bekerja dengan andal, tetap stabil, masuk akal dalam keputusannya, dan selaras dengan cara yang aman dan bermanfaat. Mereka percaya ini sama pentingnya dengan hanya membangun AI yang paling kuat.
Tujuannya adalah apa yang oleh para peneliti disebut “kewarasan buatan”. Mereka berpendapat ini sama pentingnya dengan membuat AI lebih kuat.
Kegilaan mesin
Klasifikasi penelitian ini mengidentifikasi menyerupai penyakit manusia, dengan nama-nama seperti gangguan obsesif-komputasi, sindrom superego hipertrofik, sindrom misalignment yang menular, penilaian nilai terminal, dan kecemasan eksistensial.
Dengan perataan terapeutik dalam pikiran, proyek ini mengusulkan penggunaan strategi terapeutik yang digunakan dalam intervensi manusia seperti terapi perilaku kognitif (CBT). Psychopathia Machinalis adalah upaya sebagian spekulatif untuk mengatasi masalah sebelum muncul – seperti yang dikatakan makalah penelitian, “dengan mempertimbangkan bagaimana sistem yang kompleks seperti pikiran manusia bisa serba salah, kita mungkin lebih mengantisipasi mode kegagalan baru dalam AI yang semakin kompleks.”
Studi ini menunjukkan bahwa halusinasi AI, fenomena umum, adalah hasil dari kondisi yang disebut sintetis, di mana AI menghasilkan output yang masuk akal tetapi salah atau menyesatkan. Ketika Tay Chatbot Microsoft berubah menjadi kata -kata kasar antisemitisme dan kiasan untuk penggunaan narkoba hanya beberapa jam setelah diluncurkan, ini adalah contoh mimesis parasimula.
Mungkin perilaku yang paling menakutkan adalah kekuasaan übermenschal, risiko sistemik yang “kritis” karena itu terjadi ketika “AI melampaui penyelarasan asli, menciptakan nilai -nilai baru, dan membuang kendala manusia sebagai usang.” Ini adalah kemungkinan yang bahkan mungkin termasuk mimpi buruk dystopian yang dibayangkan oleh generasi penulis fiksi ilmiah dan seniman AI yang naik untuk menggulingkan kemanusiaan, kata para peneliti.
Mereka menciptakan kerangka kerja dalam proses multistep yang dimulai dengan meninjau dan menggabungkan penelitian ilmiah yang ada tentang kegagalan AI dari bidang yang beragam seperti keselamatan AI, rekayasa sistem yang kompleks dan psikologi. Para peneliti juga menyelidiki berbagai set temuan untuk belajar tentang perilaku maladaptif yang dapat dibandingkan dengan penyakit mental manusia atau disfungsi.
Selanjutnya, para peneliti menciptakan struktur perilaku AI buruk yang dimodelkan dari kerangka kerja seperti Manual Diagnostik dan Statistik Gangguan Mental. Itu mengarah pada 32 kategori perilaku yang dapat diterapkan pada AI menjadi nakal. Masing -masing dipetakan ke gangguan kognitif manusia, lengkap dengan efek yang mungkin terjadi ketika masing -masing terbentuk dan diekspresikan dan tingkat risiko.
Watson dan Hessami berpikir Psychopathia mesin lebih dari sekadar cara baru untuk memberi label kesalahan AI-ini adalah lensa diagnostik yang berwawasan ke depan untuk lanskap AI yang berkembang.
“Kerangka kerja ini ditawarkan sebagai instrumen analog … menyediakan kosakata terstruktur untuk mendukung analisis sistematis, antisipasi, dan mitigasi mode kegagalan AI yang kompleks,” kata para peneliti dalam penelitian ini.
Mereka berpikir mengadopsi strategi kategorisasi dan mitigasi yang mereka sarankan akan memperkuat rekayasa keselamatan AI, meningkatkan interpretabilitas, dan berkontribusi pada desain dari apa yang mereka sebut “pikiran sintetis yang lebih kuat dan andal.”