Teknologi

Deepmind mengira model World Genie 3 barunya menyajikan batu loncatan ke arah AGI

Google DeepMind telah mengungkapkan Genie 3, model dunia fondasi terbarunya yang dapat digunakan untuk melatih agen AI tujuan umum, kemampuan yang dikatakan laboratorium AI membuat batu loncatan yang penting di jalan menuju “kecerdasan umum buatan,” atau kecerdasan seperti manusia.

“Genie 3 adalah model dunia tujuan umum interaktif real-time pertama,” Shlomi Fruchter, seorang direktur penelitian di DeepMind, mengatakan saat briefing pers. “Ini melampaui model dunia sempit yang ada sebelumnya. Ini tidak spesifik untuk lingkungan tertentu. Ini dapat menghasilkan dunia-realistis dan imajiner, dan segala sesuatu di antaranya.”

Masih dalam pratinjau penelitian dan tidak tersedia untuk umum, Genie 3 dibangun di kedua pendahulunya Genie 2 (yang dapat menghasilkan lingkungan baru untuk agen) dan model pembuatan video terbaru DeepMind Saya melihat 3 (yang dikatakan memiliki pemahaman yang mendalam tentang fisika).

Kredit gambar:Google DeepMind

Dengan prompt teks sederhana, Genie 3 dapat menghasilkan beberapa menit lingkungan 3D interaktif pada resolusi 720p pada 24 frame per detik – lompatan signifikan dari 10 hingga 20 detik yang dapat dihasilkan Genie 2. Model ini juga menampilkan “acara dunia yang cepat,” atau kemampuan untuk menggunakan prompt untuk mengubah dunia yang dihasilkan.

Mungkin yang paling penting, simulasi Genie 3 tetap konsisten secara fisik dari waktu ke waktu karena model dapat mengingat apa yang dihasilkan sebelumnya – kemampuan yang menurut DeepMind peneliti tidak secara eksplisit memprogram ke dalam model.

Fruchter mengatakan bahwa sementara Genie 3 memiliki implikasi untuk pengalaman pendidikan, bermain game Atau membuat prototipe konsep kreatif, pembuka kunci yang sebenarnya akan bermanifestasi dalam agen pelatihan untuk tugas -tugas tujuan umum, yang katanya penting untuk mencapai AGI.

“Kami pikir model dunia adalah kunci di jalan menuju AGI, khususnya untuk agen yang diwujudkan, di mana mensimulasikan skenario dunia nyata sangat menantang,” Jack Parker-Holder, seorang ilmuwan riset di tim terbuka Deepmind, mengatakan selama pengarahan.

Acara TechCrunch

San Francisco
|
27-29 Oktober 2025

Kredit gambar:Google DeepMind

Genie 3 seharusnya dirancang untuk menyelesaikan bottleneck itu. Seperti Veo, itu tidak bergantung pada mesin fisika kode keras; Sebaliknya, DeepMind mengatakan, model ini mengajarkan dirinya bagaimana dunia bekerja – bagaimana objek bergerak, jatuh, dan berinteraksi – dengan mengingat apa yang telah dihasilkan dan penalaran dalam cakrawala waktu yang lama.

“Model ini bersifat otomatis, yang berarti menghasilkan satu bingkai pada satu waktu,” kata Fruchter kepada TechCrunch dalam sebuah wawancara. “Itu harus melihat kembali apa yang dihasilkan sebelumnya untuk memutuskan apa yang akan terjadi selanjutnya. Itu adalah bagian penting dari arsitektur.”

Ingatan itu, kata perusahaan itu, memberikan konsistensi di dunia simulasi Genie 3, yang pada gilirannya memungkinkannya untuk mengembangkan pemahaman fisika, mirip dengan bagaimana manusia memahami bahwa kaca yang terhuyung -huyung di tepi meja akan jatuh, atau bahwa mereka harus merunduk untuk menghindari objek yang jatuh.

Khususnya, DeepMind mengatakan model ini juga memiliki potensi untuk mendorong agen AI ke batas mereka – memaksa mereka untuk belajar dari pengalaman mereka sendiri, mirip dengan bagaimana manusia belajar di dunia nyata.

Sebagai contoh, DeepMind berbagi tes Genie 3 dengan versi generalis baru -baru ini Agen Multiworld (SIMA) yang dapat diskalakan (SIMA)menginstruksikannya untuk mengejar serangkaian tujuan. Dalam pengaturan gudang, mereka meminta agen untuk melakukan tugas -tugas seperti “mendekati pemadat sampah hijau cerah” atau “berjalan ke forklift merah yang penuh sesak.”

“Dalam ketiga kasus, agen SIMA mampu mencapai tujuan,” kata Parker-Pemegang. “Itu hanya menerima tindakan dari agen. Jadi agen mengambil tujuan, melihat dunia disimulasikan di sekitarnya, dan kemudian mengambil tindakan di dunia. Genie 3 mensimulasikan ke depan, dan fakta bahwa itu mampu mencapainya adalah karena Genie 3 tetap konsisten.”

Kredit gambar:Google DeepMind

Yang mengatakan, Genie 3 memiliki keterbatasan. Misalnya, sementara para peneliti mengklaim dapat memahami fisika, demo yang menunjukkan pemain ski meluncur di gunung tidak mencerminkan bagaimana salju akan bergerak dalam kaitannya dengan pemain ski.

Selain itu, rentang tindakan yang dapat diambil oleh agen terbatas. Misalnya, peristiwa dunia yang mampu memungkinkan berbagai intervensi lingkungan, tetapi mereka tidak harus dilakukan oleh agen itu sendiri. Dan masih sulit untuk secara akurat memodelkan interaksi kompleks antara beberapa agen independen di lingkungan bersama.

Genie 3 juga hanya dapat mendukung beberapa menit interaksi berkelanjutan, ketika jam akan diperlukan untuk pelatihan yang tepat.

Namun, model ini menyajikan langkah yang meyakinkan dalam agen pengajaran untuk melampaui bereaksi terhadap input, membiarkan mereka berpotensi merencanakan, mengeksplorasi, mencari ketidakpastian, dan meningkatkan melalui coba-coba-jenis pembelajaran yang didorong oleh diri sendiri, diwujudkan yang menurut banyak orang adalah kunci untuk bergerak menuju kecerdasan umum.

“Kami belum benar-benar memiliki momen 37 untuk agen yang diwujudkan, di mana mereka benar-benar dapat mengambil tindakan baru di dunia nyata,” kata Parker-Holder, merujuk pada momen legendaris dalam permainan tahun 2016 Go antara agen AI Deepmind Alphago dan World Champion Sedol, di mana Alpha Go memainkan pemahaman yang tidak konvensional dan cemerlang yang menjadi lambang dari AI yang melimpah pada kemampuan AI yang melampaui kemampuan AI yang melampaui kemampuan AI yang tidak konvensional.

“Tapi sekarang, kita berpotensi mengantarkan era baru,” katanya.

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button