AI tidak bisa menyelesaikan teka -teki ini yang hanya membutuhkan waktu manusia pada detik

Ada banyak cara untuk menguji kecerdasan kecerdasan buatan -Fluiditas percakapan, pemahaman membaca atau sulit fisika. Tetapi beberapa tes yang paling mungkin terjadi AIS adalah orang -orang yang menurut manusia relatif mudah, bahkan menghibur. Meskipun AI semakin unggul pada tugas -tugas yang membutuhkan tingkat keahlian manusia yang tinggi, ini tidak berarti bahwa mereka hampir mencapai kecerdasan umum buatan, atau AGI. AGI mensyaratkan bahwa AI dapat mengambil sejumlah kecil informasi dan menggunakannya untuk menggeneralisasi dan beradaptasi dengan situasi yang sangat baru. Kemampuan ini, yang merupakan dasar untuk pembelajaran manusia, tetap menantang untuk AIS.
Salah satu tes yang dirancang untuk mengevaluasi kemampuan AI untuk menggeneralisasi adalah abstraksi dan penalaran korpus, atau busur: kumpulan teka-teki kecil berwarna-warni yang meminta pemecah untuk menyimpulkan aturan tersembunyi dan kemudian menerapkannya pada kisi-kisi baru. Dikembangkan oleh peneliti AI François Chollet pada tahun 2019, ia menjadi dasar dari ARC Prize Foundation, sebuah program nirlaba yang mengelola tes – sekarang menjadi tolok ukur industri yang digunakan oleh semua model AI utama. Organisasi ini juga mengembangkan tes baru dan telah secara rutin menggunakan dua (ARC-AGI-1 dan penggantinya yang lebih menantang ARC-AGI-2). Minggu ini Yayasan meluncurkan ARC-AGI-3, yang secara khusus dirancang untuk menguji agen AI-dan didasarkan pada membuat mereka bermain video game.
Ilmiah Amerika Berbicara kepada presiden Yayasan Hadiah ARC, peneliti AI dan pengusaha Greg Kamradt untuk memahami bagaimana tes-tes ini mengevaluasi AIS, apa yang mereka ceritakan tentang potensi AGI dan mengapa mereka sering menantang untuk model pembelajaran dalam meskipun banyak manusia cenderung menemukan mereka relatif mudah. Tautan untuk mencoba tes ada di akhir artikel.
[An edited transcript of the interview follows.]
Definisi kecerdasan apa yang diukur dengan busur-agi-1?
Definisi kecerdasan kami adalah kemampuan Anda untuk mempelajari hal -hal baru. Kita sudah tahu bahwa AI bisa menang di Catur. Kami tahu mereka bisa mengalahkan Go. Tetapi model -model itu tidak dapat digeneralisasi ke domain baru; Mereka tidak bisa pergi dan belajar bahasa Inggris. Jadi apa yang dibuat François Chollet adalah tolok ukur yang disebut Arc-Agi-itu mengajarkan Anda keterampilan mini dalam pertanyaan, dan kemudian meminta Anda untuk menunjukkan keterampilan mini itu. Kami pada dasarnya mengajarkan sesuatu dan meminta Anda untuk mengulangi keterampilan yang baru saja Anda pelajari. Jadi tes mengukur kemampuan model untuk belajar dalam domain sempit. Tetapi klaim kami adalah bahwa ia tidak mengukur AGI karena masih dalam domain yang tersingkir [in which learning applies to only a limited area]. Ini mengukur bahwa AI dapat digeneralisasi, tetapi kami tidak mengklaim ini AGI.
Bagaimana Anda mendefinisikan AGI di sini?
Ada dua cara saya melihatnya. Yang pertama lebih maju secara teknologi, yang 'dapatkah sistem buatan cocok dengan efisiensi pembelajaran manusia?' Sekarang yang saya maksud dengan itu adalah setelah manusia lahir, mereka belajar banyak di luar data pelatihan mereka. Faktanya, mereka tidak benar -benar memiliki Data pelatihan, selain beberapa prior evolusi. Jadi kita belajar bagaimana berbicara bahasa Inggris, kita belajar cara mengendarai mobil, dan kita belajar cara mengendarai sepeda – semua hal di luar data pelatihan kita. Itu disebut generalisasi. Ketika Anda dapat melakukan hal -hal di luar apa yang telah Anda latih sekarang, kami mendefinisikannya sebagai kecerdasan. Sekarang, definisi alternatif AGI yang kita gunakan adalah ketika kita tidak dapat lagi menghasilkan masalah yang dapat dilakukan manusia dan AI tidak bisa – saat itulah kita memiliki AGI. Itu definisi pengamatan. Sisi flip juga benar, yang selama hadiah busur atau kemanusiaan pada umumnya masih dapat menemukan masalah yang dapat dilakukan manusia tetapi AI tidak bisa, maka kita tidak memiliki AGI. Salah satu faktor utama tentang tolok ukur François Chollet … adalah bahwa kami menguji manusia, dan rata -rata manusia dapat melakukan tugas -tugas ini dan masalah ini, tetapi AI masih memiliki waktu yang sangat sulit dengan itu. Alasan yang sangat menarik adalah bahwa beberapa AIS canggih, seperti Grok, dapat lulus ujian tingkat pascasarjana atau melakukan semua hal gila ini, tetapi itu adalah kecerdasan yang runcing. Itu masih belum memiliki kekuatan generalisasi manusia. Dan itulah yang ditunjukkan benchmark ini.
Apa perbedaan tolok ukur Anda dari yang digunakan oleh organisasi lain?
Salah satu hal yang membedakan kita adalah bahwa kita mengharuskan tolok ukur kita dapat dipecahkan oleh manusia. Itu bertentangan dengan tolok ukur lain, di mana mereka melakukan masalah “Ph.-plus-plus”. Saya tidak perlu diberi tahu bahwa AI lebih pintar dari saya – saya sudah tahu bahwa O3 Openai dapat melakukan banyak hal lebih baik dari saya, tetapi tidak memiliki kekuatan manusia untuk menggeneralisasi. Itulah yang kami ukur, jadi kami perlu menguji manusia. Kami benar-benar menguji 400 orang di ARC-AGI-2. Kami mendapatkannya di sebuah ruangan, kami memberi mereka komputer, kami melakukan penyaringan demografis, dan kemudian memberi mereka tes. Rata-rata orang mencetak 66 persen pada ARC-AGI-2. Namun, secara kolektif, respons agregat dari lima hingga 10 orang akan berisi jawaban yang benar untuk semua pertanyaan di ARC2.
Apa yang membuat tes ini sulit untuk AI dan relatif mudah bagi manusia?
Ada dua hal. Manusia sangat efisien sampel dengan pembelajaran mereka, yang berarti mereka dapat melihat masalah dan dengan mungkin satu atau dua contoh, mereka dapat mengambil keterampilan mini atau transformasi dan mereka dapat pergi dan melakukannya. Algoritma yang berjalan di kepala manusia adalah perintah yang besar lebih baik dan lebih efisien daripada apa yang kita lihat dengan AI sekarang.
Apa perbedaan antara ARC-AGI-1 dan ARC-AGI-2?
Jadi busur-agi-1, François Chollet membuatnya sendiri. Itu sekitar 1.000 tugas. Itu pada tahun 2019. Dia pada dasarnya melakukan versi minimum yang layak untuk mengukur generalisasi, dan itu diadakan selama lima tahun karena pembelajaran mendalam tidak dapat menyentuhnya sama sekali. Bahkan tidak semakin dekat. Kemudian model penalaran yang keluar pada tahun 2024, oleh Openai, mulai membuat kemajuan di atasnya, yang menunjukkan perubahan tingkat langkah dalam apa yang bisa dilakukan AI. Kemudian, ketika kami pergi ke Arc-Agi-2, kami sedikit lebih jauh ke bawah lubang kelinci sehubungan dengan apa yang dapat dilakukan manusia dan AI tidak bisa. Ini membutuhkan sedikit lebih banyak perencanaan untuk setiap tugas. Jadi, alih -alih dipecahkan dalam waktu lima detik, manusia mungkin dapat melakukannya dalam satu atau dua menit. Ada aturan yang lebih rumit, dan kisi-kisi lebih besar, jadi Anda harus lebih tepat dengan jawaban Anda, tetapi konsep yang sama, lebih atau kurang …. kami sekarang meluncurkan pratinjau pengembang untuk ARC-AGI-3, dan itu sepenuhnya berangkat dari format ini. Format baru sebenarnya akan interaktif. Jadi pikirkan lebih sebagai tolok ukur agen.
Bagaimana agen uji ARC-AGI-3 secara berbeda dibandingkan dengan tes sebelumnya?
Jika Anda berpikir tentang kehidupan sehari -hari, jarang kami memiliki keputusan tanpa kewarganegaraan. Ketika saya mengatakan stateless, maksud saya hanya pertanyaan dan jawaban. Saat ini semua tolok ukur adalah tolok ukur yang kurang lebih stateless. Jika Anda mengajukan pertanyaan kepada model bahasa, itu memberi Anda satu jawaban. Ada banyak hal yang tidak dapat Anda uji dengan patokan tanpa kewarganegaraan. Anda tidak dapat menguji perencanaan. Anda tidak dapat menguji eksplorasi. Anda tidak dapat menguji intuisi tentang lingkungan Anda atau tujuan yang menyertainya. Jadi kami membuat 100 video game baru yang akan kami gunakan untuk menguji manusia untuk memastikan bahwa manusia dapat melakukannya karena itulah dasar untuk tolok ukur kami. Dan kemudian kita akan memasukkan AIS ke video game ini dan melihat apakah mereka dapat memahami lingkungan ini yang belum pernah mereka lihat sebelumnya. Sampai saat ini, dengan pengujian internal kami, kami belum memiliki AI tunggal yang dapat mengalahkan bahkan satu level dari salah satu pertandingan.
Bisakah Anda menggambarkan video game di sini?
Setiap “lingkungan,” atau video game, adalah teka-teki dua dimensi, berbasis piksel. Permainan ini disusun sebagai level yang berbeda, masing -masing dirancang untuk mengajarkan keterampilan mini tertentu kepada pemain (manusia atau AI). Agar berhasil menyelesaikan level, pemain harus menunjukkan penguasaan keterampilan itu dengan melaksanakan urutan tindakan yang direncanakan.
Bagaimana menggunakan video game untuk menguji AGI yang berbeda dari cara video game sebelumnya telah digunakan untuk menguji sistem AI?
Video game telah lama digunakan sebagai tolok ukur dalam penelitian AI, dengan game Atari menjadi contoh yang populer. Tapi tolok ukur video game tradisional menghadapi beberapa batasan. Permainan populer memiliki data pelatihan yang luas tersedia secara publik, tidak memiliki metrik evaluasi kinerja standar dan mengizinkan metode kekuatan brutal yang melibatkan miliaran simulasi. Selain itu, pengembang yang membangun agen AI biasanya memiliki pengetahuan sebelumnya tentang permainan ini – secara tidak sengaja menanamkan wawasan mereka sendiri tentang solusi.
Mencoba Busur-agi-1, Arc-Agi-2 Dan Arc-Agi-3.
Artikel ini pertama kali diterbitkan di Ilmiah Amerika. © Scientificamerican.com. Semua hak dilindungi undang -undang. Ikuti Tiktok dan Instagram, X Dan Facebook.