AI mengakali 30 ahli matematika terkemuka di dunia pada pertemuan rahasia di California

Pada akhir pekan di pertengahan Mei, konklaf matematika klandestin bersidang. Tiga puluh ahli matematika paling terkenal di dunia yang bepergian ke Berkeley, California, dengan beberapa datang dari jauh ke Inggris yang dihadapi para anggota kelompok dalam pertikaian dengan chatbot “penalaran” Itu ditugaskan untuk memecahkan masalah yang mereka buat untuk menguji keberanian matematika. Setelah melemparkan pertanyaan tingkat profesor di bot selama dua hari, para peneliti terpana menemukan bahwa mereka mampu menjawab beberapa Masalah yang paling sulit dipecahkan di dunia. “Saya memiliki kolega yang secara harfiah mengatakan model -model ini mendekati kejeniusan matematika,” kata Ken Ono, seorang ahli matematika di University of Virginia dan seorang pemimpin dan hakim pada pertemuan tersebut.
Chatbot yang dimaksud didukung oleh o4-miniyang disebut Model Bahasa Besar (LLM). Itu dilatih oleh Openai untuk mampu membuat pengurangan yang sangat rumit. Setara Google, Gemini 2.5 Flashmemiliki kemampuan yang sama. Seperti LLMS yang mendukung versi chatgpt sebelumnya, O4-Mini belajar memprediksi kata berikutnya dalam urutan. Dibandingkan dengan LLMS sebelumnya, bagaimanapun, O4-Mini dan ekuivalennya adalah model yang lebih ringan, lebih gesit yang melatih pada set data khusus dengan penguatan yang lebih kuat dari manusia. Pendekatan ini mengarah ke chatbot yang mampu menyelam jauh lebih dalam ke masalah yang kompleks dalam matematika daripada llms tradisional.
Untuk melacak kemajuan O4-Mini, Openai sebelumnya Ditugaskan Epoch AI, sebuah organisasi nirlaba yang menonjolkan LLMS, untuk menghasilkan 300 pertanyaan matematika yang solusinya belum diterbitkan. Bahkan LLM tradisional dapat dengan benar menjawab banyak pertanyaan matematika yang rumit. Namun ketika Epoch Ai mengajukan beberapa model seperti itu, yang berbeda dengan yang telah mereka latih, yang paling sukses dapat dipecahkan Kurang dari 2 persenmenunjukkan LLM ini tidak memiliki kemampuan untuk bernalar. Tapi O4-Mini akan terbukti sangat berbeda.
Epoch AI mempekerjakan Elliot Glazer, yang baru saja menyelesaikan matematika Ph.D., untuk bergabung dengan kolaborasi baru untuk Benchmark, dijuluki Frontiermathpada bulan September 2024. Proyek ini mengumpulkan pertanyaan-pertanyaan baru tentang berbagai tingkatan kesulitan, dengan tiga tingkatan pertama yang mencakup tantangan tingkat sarjana, lulusan, dan penelitian. Pada April 2025, Glazer menemukan bahwa O4-Mini dapat menyelesaikan sekitar 20 persen dari pertanyaan. Dia kemudian pindah ke tingkat keempat: serangkaian pertanyaan yang akan menantang bahkan untuk ahli matematika akademik. Hanya sekelompok kecil orang di dunia yang mampu mengembangkan pertanyaan seperti itu, apalagi menjawabnya. Para matematikawan yang berpartisipasi harus menandatangani perjanjian nondisclosure yang mengharuskan mereka untuk berkomunikasi semata -mata melalui sinyal aplikasi perpesanan. Bentuk kontak lain, seperti email tradisional, berpotensi dipindai oleh LLM dan secara tidak sengaja melatihnya, sehingga mencemari dataset.
Setiap masalah yang tidak dapat dipecahkan oleh O4-Mini akan mengumpulkan ahli matematika yang menghasilkan hadiah $ 7.500. Kelompok ini membuat kemajuan yang lambat dan mantap dalam menemukan pertanyaan. Tapi Glazer ingin mempercepat, jadi Epoch AI menjadi tuan rumah pertemuan langsung pada hari Sabtu, 17 Mei, dan Minggu, 18 Mei. Di sana, para peserta akan menyelesaikan pertanyaan tantangan terakhir. 30 hadirin dibagi menjadi enam kelompok. Selama dua hari, para akademisi berkompetisi melawan diri mereka sendiri untuk menyusun masalah yang dapat mereka selesaikan tetapi akan membuat bot penalaran AI.
Pada akhir Sabtu malam itu, Ono frustrasi dengan bot, yang kecakapan matematika yang tak terduganya menggagalkan kemajuan kelompok. “Saya muncul dengan masalah yang akan dikenali oleh para ahli di bidang saya sebagai pertanyaan terbuka dalam teori angka-masalah tingkat Ph.D yang baik,” katanya. Dia meminta O4-Mini untuk menyelesaikan pertanyaan. Selama 10 menit berikutnya, Ono menyaksikan dalam keheningan yang terpana saat bot membentangkan solusi secara real time, menunjukkan proses penalarannya di sepanjang jalan. Bot menghabiskan dua menit pertama menemukan dan menguasai literatur terkait di lapangan. Kemudian ia menulis di layar bahwa ia ingin mencoba memecahkan versi “mainan” yang lebih sederhana dari pertanyaan terlebih dahulu untuk belajar. Beberapa menit kemudian, ia menulis bahwa akhirnya siap untuk menyelesaikan masalah yang lebih sulit. Lima menit setelah itu, O4-Mini menghadirkan solusi yang benar tetapi lancang. “Itu mulai menjadi sangat nakal,” kata Ono, yang juga konsultan matematika lepas untuk Epoch AI. “Dan pada akhirnya, dikatakan, 'Tidak ada kutipan yang diperlukan karena nomor misteri dihitung oleh saya!'”
Dikalahkan, Ono melompat ke sinyal lebih awal pada Minggu pagi itu dan mengingatkan para peserta lainnya. “Aku tidak siap untuk bersaing dengan LLM seperti ini,” katanya, “aku belum pernah melihat alasan semacam itu sebelumnya dalam model. Itulah yang dilakukan seorang ilmuwan. Itu menakutkan.”
Meskipun kelompok itu akhirnya berhasil menemukan 10 pertanyaan yang menghalangi bot, para peneliti kagum dengan seberapa jauh AI telah berkembang dalam rentang satu tahun. Ono menyamakannya dengan bekerja dengan “kolaborator yang kuat.” Yang Hui He, seorang ahli matematika di London Institute for Mathematical Sciences dan pelopor awal menggunakan AI dalam matematika, mengatakan, “Inilah yang akan dilakukan oleh mahasiswa pascasarjana yang sangat, yang sangat baik – pada kenyataannya, lebih banyak.”
Bot itu juga jauh lebih cepat daripada ahli matematika profesional, hanya membutuhkan waktu beberapa menit untuk melakukan apa yang akan dibutuhkan oleh ahli atau berbulan -bulan untuk diselesaikan selama beberapa minggu atau berbulan -bulan.
Sementara perdebatan dengan O4-Mini mendebarkan, kemajuannya juga mengkhawatirkan. Ono dan dia menyatakan kekhawatiran bahwa hasil O4-Mini mungkin terlalu dipercaya. “Ada bukti dengan induksi, bukti dengan kontradiksi, dan kemudian bukti dengan intimidasi,” katanya. “Jika Anda mengatakan sesuatu dengan otoritas yang cukup, orang-orang hanya takut. Saya pikir O4-Mini telah menguasai bukti dengan intimidasi; ia mengatakan segalanya dengan sangat percaya diri.”
Pada akhir pertemuan, kelompok mulai mempertimbangkan seperti apa masa depan bagi ahli matematika. Diskusi beralih ke “Tier Five” yang tak terhindarkan – pertanyaan yang bahkan matematikawan terbaik tidak bisa selesaikan. Jika AI mencapai level itu, peran ahli matematika akan mengalami perubahan tajam. Misalnya, ahli matematika dapat beralih ke sekadar mengajukan pertanyaan dan berinteraksi dengan bot-bot penalaran untuk membantu mereka menemukan kebenaran matematika baru, sama seperti yang dilakukan oleh seorang profesor dengan mahasiswa pascasarjana. Dengan demikian, Ono memprediksi bahwa memelihara kreativitas dalam pendidikan tinggi akan menjadi kunci dalam menjaga matematika berjalan untuk generasi mendatang.
“Saya telah memberi tahu rekan -rekan saya bahwa itu adalah kesalahan besar untuk mengatakan itu digeneralisasi kecerdasan buatan tidak akan pernah datang, [that] Ini hanya komputer, “kata Ono.” Saya tidak ingin menambah histeria, tetapi dalam beberapa hal model bahasa besar ini sudah mengungguli sebagian besar mahasiswa pascasarjana terbaik kami di dunia. “
Artikel ini pertama kali diterbitkan di Ilmiah Amerika. © Scientificamerican.com. Semua hak dilindungi undang -undang. Ikuti Tiktok dan Instagram, X Dan Facebook.