AI bisa segera berpikir dengan cara yang bahkan tidak kita pahami – menghindari upaya kita untuk tetap selaras – para ilmuwan AI top memperingatkan

Peneliti di balik beberapa yang paling canggih kecerdasan buatan (AI) Di planet ini telah memperingatkan bahwa sistem yang mereka bantu buat dapat menimbulkan risiko bagi kemanusiaan.
Para peneliti, yang bekerja di perusahaan termasuk Google DeepMind, Openai, Meta, Anthropic dan lainnya, berpendapat bahwa kurangnya pengawasan pada penalaran dan proses pengambilan keputusan AI dapat berarti kami kehilangan tanda-tanda perilaku memfitnah.
Dalam studi baru, diterbitkan 15 Juli ke arxiv Preprint Server (yang belum ditinjau sejawat), para peneliti menyoroti rantai pemikiran (COT)-langkah-langkah model bahasa besar (LLM) saat mengerjakan masalah yang kompleks. Model AI menggunakan cot untuk memecah kueri canggih menjadi langkah -langkah logis menengah yang diekspresikan dalam bahasa alami.
Penulis penelitian ini berpendapat bahwa memantau setiap langkah dalam proses dapat menjadi lapisan penting untuk membangun dan menjaga keamanan AI.
Memantau proses COT ini dapat membantu para peneliti untuk memahami bagaimana LLM membuat keputusan dan, yang lebih penting, mengapa mereka menjadi tidak selaras dengan kepentingan umat manusia. Ini juga membantu menentukan mengapa mereka memberikan output berdasarkan data yang salah atau tidak ada, atau mengapa mereka menyesatkan kita.
Namun, ada beberapa batasan ketika memantau proses penalaran ini, yang berarti perilaku seperti itu berpotensi melewati celah.
Terkait: AI sekarang dapat meniru dirinya sendiri – tonggak sejarah yang membuat para ahli takut
“Sistem AI yang 'berpikir' dalam bahasa manusia menawarkan peluang unik untuk keselamatan AI,” tulis para ilmuwan dalam penelitian ini. “Kita dapat memantau rantai pemikiran mereka untuk niat untuk berperilaku buruk. Seperti semua metode pengawasan AI lainnya yang diketahui, pemantauan COT tidak sempurna dan memungkinkan beberapa perilaku buruk tidak diperhatikan.”
Para ilmuwan memperingatkan bahwa penalaran tidak selalu terjadi, sehingga tidak selalu dapat dipantau, dan beberapa penalaran terjadi tanpa operator manusia bahkan mengetahuinya. Mungkin juga ada alasan bahwa operator manusia tidak mengerti.
Mengawasi sistem AI
Salah satu masalahnya adalah bahwa model non-pembuluh darah konvensional seperti K-means atau DBSCAN-menggunakan pencocokan pola canggih yang dihasilkan dari set data besar, sehingga mereka tidak bergantung pada cot sama sekali. Model penalaran yang lebih baru seperti Google Gemini atau ChatGPT, sementara itu, mampu memecah masalah menjadi langkah -langkah perantara untuk menghasilkan solusi – tetapi tidak selalu perlu melakukan ini untuk mendapatkan jawaban. Juga tidak ada jaminan bahwa model akan membuat COT terlihat oleh pengguna manusia bahkan jika mereka mengambil langkah -langkah ini, para peneliti mencatat.
“Properti penalaran eksternal tidak menjamin monitorabilitas – hanya menyatakan bahwa beberapa penalaran muncul dalam rantai pemikiran, tetapi mungkin ada alasan lain yang relevan yang tidak,” kata para ilmuwan. “Dengan demikian dimungkinkan bahwa bahkan untuk tugas-tugas keras, rantai pemikiran hanya berisi alasan yang tampak jinak sementara penalaran yang memberatkan disembunyikan.” Masalah lebih lanjut adalah bahwa COTS bahkan mungkin tidak dapat dipahami oleh manusia, kata para ilmuwan. “
LLMS baru yang lebih kuat dapat berevolusi ke titik di mana cot tidak diperlukan. Model di masa depan mungkin juga dapat mendeteksi bahwa COT mereka diawasi, dan menyembunyikan perilaku buruk.
Untuk menghindari hal ini, penulis menyarankan berbagai langkah untuk mengimplementasikan dan memperkuat pemantauan COT dan meningkatkan transparansi AI. Ini termasuk menggunakan model lain untuk mengevaluasi proses COT LLMS dan bahkan bertindak dalam peran permusuhan terhadap model yang mencoba menyembunyikan perilaku yang tidak selaras. Apa yang penulis tidak tentukan dalam makalah ini adalah bagaimana mereka akan memastikan model pemantauan akan menghindari juga menjadi tidak selaras.
Mereka juga menyarankan bahwa pengembang AI terus memperbaiki dan membakukan metode pemantauan COT, termasuk hasil pemantauan dan inisiatif dalam kartu sistem LLMS (pada dasarnya manual model) dan mempertimbangkan efek metode pelatihan baru pada monitorabilitas.
“Pemantauan COT menyajikan tambahan yang berharga untuk langkah -langkah keamanan untuk AI Frontier, menawarkan pandangan yang jarang tentang bagaimana agen AI membuat keputusan,” kata para ilmuwan dalam penelitian ini. “Namun, tidak ada jaminan bahwa tingkat visibilitas saat ini akan bertahan. Kami mendorong komunitas penelitian dan pengembang AI perbatasan untuk memanfaatkan monitor COT sebaik -baiknya dan mempelajari bagaimana hal itu dapat dilestarikan.”