Peneliti menemukan bahan -bahan tersembunyi di balik kreativitas AI

Kami pernah dijanjikan mobil self-driving dan robot maids. Sebaliknya, kami telah melihat kebangkitan kecerdasan buatan Sistem yang dapat mengalahkan kita dalam catur, menganalisis rim teks yang sangat besar dan menyusun soneta. Ini telah menjadi salah satu kejutan besar dari era modern: tugas fisik yang mudah bagi manusia menjadi sangat sulit bagi robot, sementara algoritma semakin mampu meniru kecerdasan kita.
Kejutan lain yang telah lama membuat para peneliti bingung adalah kemampuan algoritma untuk kreativitas mereka sendiri yang aneh.
Model difusi, tulang punggung alat yang menghasilkan gambar seperti Dall · E, Imagen dan difusi stabil, dirancang untuk menghasilkan salinan karbon dari gambar yang telah dilatih. Namun, dalam praktiknya, mereka tampaknya berimprovisasi, memadukan elemen dalam gambar untuk menciptakan sesuatu yang baru – bukan hanya gumpalan warna yang tidak masuk akal, tetapi gambar yang koheren dengan makna semantik. Ini adalah “paradoks” di balik model difusi, kata Giulio Biroli, Seorang peneliti dan fisikawan AI di école normale Supérieure di Paris: “Jika mereka bekerja dengan sempurna, mereka harus menghafal,” katanya. “Tapi mereka tidak – mereka sebenarnya bisa menghasilkan sampel baru.”
Untuk menghasilkan gambar, Model difusi menggunakan proses yang dikenal sebagai denoising. Mereka mengubah gambar menjadi noise digital (koleksi piksel yang tidak koheren), lalu memasang kembali. Ini seperti berulang kali meletakkan lukisan melalui shredder sampai yang tersisa hanyalah setumpuk debu halus, lalu menambal potongan -potongan itu kembali. Selama bertahun -tahun, para peneliti bertanya -tanya: Jika modelnya hanya dipasang kembali, lalu bagaimana kebaruan masuk ke dalam gambar? Ini seperti menyusun kembali lukisan parut Anda menjadi karya seni yang benar -benar baru.
Sekarang dua fisikawan telah membuat klaim yang mengejutkan: itu adalah ketidaksempurnaan teknis dalam proses denoising itu sendiri yang mengarah pada kreativitas model difusi. Di sebuah kertas Itu akan disajikan pada Konferensi Internasional tentang Pembelajaran Mesin 2025, duo ini mengembangkan model matematika model difusi terlatih untuk menunjukkan bahwa kreativitas mereka sebenarnya adalah proses deterministik-konsekuensi langsung yang tak terhindarkan dari arsitektur mereka.
Dengan menerangi kotak hitam model difusi, penelitian baru ini dapat memiliki implikasi besar untuk penelitian AI di masa depan – dan mungkin bahkan untuk pemahaman kita tentang kreativitas manusia. “Kekuatan makalah yang sebenarnya adalah membuat prediksi yang sangat akurat dari sesuatu yang sangat tidak nontrivial,” kata Luca Ambrogioniseorang ilmuwan komputer di Radboud University di Belanda.
Mason Kambseorang mahasiswa pascasarjana yang mempelajari fisika terapan di Stanford University dan penulis utama makalah baru, telah lama terpesona oleh morfogenesis: proses di mana sistem kehidupan merakit diri.
Salah satu cara untuk memahami perkembangan embrio pada manusia dan hewan lainnya adalah melalui apa yang dikenal sebagai a Pola Turingdinamai setelah matematikawan abad ke-20 Alan Turing. Pola Turing menjelaskan bagaimana kelompok sel dapat mengatur diri mereka menjadi organ dan anggota tubuh yang berbeda. Yang terpenting, koordinasi ini semua terjadi di tingkat lokal. Tidak ada CEO yang mengawasi triliunan sel untuk memastikan mereka semua sesuai dengan rencana tubuh akhir. Sel -sel individu, dengan kata lain, tidak memiliki cetak biru tubuh yang sudah jadi untuk mendasarkan pekerjaan mereka. Mereka hanya mengambil tindakan dan membuat koreksi sebagai tanggapan terhadap sinyal dari tetangga mereka. Sistem bottom-up ini biasanya berjalan dengan lancar, tetapi sesekali serba salah-menghasilkan tangan dengan jari ekstra, misalnya.
Ketika gambar yang dihasilkan AI pertama mulai muncul secara online, banyak yang tampak seperti lukisan surealis, menggambarkan manusia dengan jari ekstra. Ini segera membuat Kamb berpikir tentang morfogenesis: “Baunya seperti kegagalan yang Anda harapkan dari a [bottom-up] sistem, “katanya.
Peneliti AI tahu Pada titik itu bahwa model difusi mengambil beberapa pintasan teknis saat menghasilkan gambar. Yang pertama dikenal sebagai lokalitas: mereka hanya memperhatikan satu kelompok, atau “tambalan,” piksel sekaligus. Yang kedua adalah bahwa mereka mematuhi aturan yang ketat ketika menghasilkan gambar: jika Anda menggeser gambar input hanya dengan beberapa piksel ke segala arah, misalnya, sistem akan secara otomatis menyesuaikan untuk membuat perubahan yang sama dalam gambar yang dihasilkannya. Fitur ini, yang disebut keseimbangan translasi, adalah cara model untuk menjaga struktur yang koheren; Tanpa itu, jauh lebih sulit untuk membuat gambar yang realistis.
Sebagian karena fitur -fitur ini, model difusi tidak memperhatikan di mana tambalan tertentu akan masuk ke dalam gambar akhir. Mereka hanya fokus pada menghasilkan satu tambalan pada satu waktu dan kemudian secara otomatis menyesuaikannya dengan menggunakan model matematika yang dikenal sebagai fungsi skor, yang dapat dianggap sebagai pola Turing digital.
Para peneliti lama menganggap lokalitas dan keseimbangan sebagai keterbatasan hanya dari proses denoising, keanehan teknis yang mencegah model difusi dari menciptakan replika gambar yang sempurna. Mereka tidak mengasosiasikan mereka dengan kreativitas, yang dipandang sebagai fenomena tingkat tinggi.
Mereka berada dalam kejutan lain.
Dibuat secara lokal
Kamb memulai pekerjaan pascasarjana pada tahun 2022 di lab Surya Ganguliseorang fisikawan di Stanford yang juga memiliki janji dalam neurobiologi dan teknik listrik. Openai merilis ChatGPT pada tahun yang sama, menyebabkan lonjakan minat di lapangan yang sekarang dikenal sebagai AI generatif. Ketika pengembang teknologi bekerja untuk membangun model yang semakin kuat, banyak akademisi tetap terpaku pada pemahaman dalam cara kerja sistem ini.
Untuk itu, Kamb akhirnya mengembangkan hipotesis bahwa lokalitas dan keseimbangan mengarah pada kreativitas. Itu meningkatkan kemungkinan eksperimental yang menggiurkan: jika dia bisa merancang sistem untuk tidak melakukan apa pun selain mengoptimalkan untuk lokalitas dan keseimbangan, maka harus berperilaku seperti model difusi. Eksperimen ini adalah jantung dari makalah barunya, yang ia tulis dengan Ganguli sebagai rekan penulisnya.
Kamb dan Ganguli menyebut sistem mereka mesin skor lokal Equivariant (ELS). Ini bukan model difusi yang terlatih, melainkan satu set persamaan yang secara analitis dapat memprediksi komposisi gambar denoisasi semata -mata hanya pada mekanisme lokalitas dan keseimbangan. Mereka kemudian mengambil serangkaian gambar yang telah dikonversi menjadi kebisingan digital dan menjalankannya melalui mesin ELS dan sejumlah model difusi yang kuat, termasuk resnet dan UNETS.
Hasilnya “mengejutkan,” kata Ganguli: di seluruh papan, mesin ELS dapat secara identik mencocokkan output dari model difusi terlatih dengan akurasi rata -rata 90% – hasil yang “tidak pernah terdengar dalam pembelajaran mesin,” kata Ganguli.
Hasilnya tampaknya mendukung hipotesis Kamb. “Segera setelah Anda memaksakan lokalitas, [creativity] otomatis; Itu jatuh dari dinamika sepenuhnya secara alami, “katanya. Mekanisme yang sangat membatasi jendela perhatian model difusi selama proses denoising-memaksa mereka untuk fokus pada tambalan individu, terlepas dari di mana mereka akhirnya cocok dengan produk akhir-adalah hal-hal yang sama dari pompa-kreatix mereka, ia menemukan, fenomene yang sama-sama dengan fenomene yang sama-sama dilihat dalam difusi yang sama-sama adalah pada model yang terlihat dalam difusi adalah petak-petak yang sama-sama. tanpa konteks yang lebih luas.
Para ahli yang diwawancarai untuk cerita ini umumnya sepakat bahwa meskipun kertas Kamb dan Ganguli menerangi mekanisme di balik kreativitas dalam model difusi, masih banyak yang misterius. Misalnya, model bahasa besar dan sistem AI lainnya juga tampaknya menampilkan kreativitas, tetapi mereka tidak memanfaatkan lokalitas dan keseimbangan.
“Saya pikir ini adalah bagian yang sangat penting dari cerita,” kata Biroli, “[but] Ini bukan keseluruhan cerita. “
Menciptakan kreativitas
Untuk pertama kalinya, para peneliti telah menunjukkan bagaimana kreativitas model difusi dapat dianggap sebagai produk sampingan dari proses denoising itu sendiri, yang dapat diformalkan secara matematis dan diprediksi dengan tingkat akurasi yang tinggi yang belum pernah terjadi sebelumnya. Hampir seolah -olah ahli saraf telah menempatkan sekelompok seniman manusia ke dalam mesin MRI dan menemukan mekanisme saraf yang umum di balik kreativitas mereka yang dapat ditulis sebagai serangkaian persamaan.
Perbandingan dengan ilmu saraf mungkin melampaui metafora belaka: karya Kamb dan Ganguli juga dapat memberikan wawasan tentang kotak hitam pikiran manusia. “Kreativitas manusia dan AI mungkin tidak begitu berbeda,” kata Benjamin Hoover, seorang peneliti pembelajaran mesin di Institut Teknologi Georgia dan Penelitian IBM Who studi Model Difusi. “Kami mengumpulkan hal -hal berdasarkan apa yang kami alami, apa yang telah kami impikan, apa yang telah kami lihat, dengar atau inginkan. AI juga hanya mengumpulkan blok bangunan dari apa yang dilihat dan apa yang diminta untuk dilakukan.” Baik kreativitas manusia maupun buatan, menurut pandangan ini, dapat secara fundamental berakar pada pemahaman yang tidak lengkap tentang dunia: kita semua melakukan yang terbaik untuk mengisi celah dalam pengetahuan kita, dan sesekali kita menghasilkan sesuatu yang baru maupun berharga. Mungkin inilah yang kita sebut kreativitas.
Cerita asli dicetak ulang dengan izin dari Berapa banyak majalahpublikasi independen editorial yang didukung oleh The Simons Foundation.