Robot menerima peningkatan kecerdasan yang besar berkat 'AI berpikir' Google DeepMind — sepasang model yang membantu mesin memahami dunia

Google DeepMind telah meluncurkan sepasang kecerdasan buatan (AI) model yang memungkinkan robot melakukan tugas-tugas umum yang kompleks dan bernalar dengan cara yang sebelumnya tidak mungkin dilakukan.
Awal tahun ini, perusahaan tersebut mengungkapkan iterasi pertama Gemini Robotics, model AI berdasarkan model bahasa besar Gemini (LLM) — tetapi dikhususkan untuk robotika. Hal ini memungkinkan mesin untuk berpikir dan melakukan tugas-tugas sederhana di ruang fisik.
Contoh dasar yang ditunjukkan Google adalah tes pisang. Model AI asli mampu menerima instruksi sederhana seperti “tempatkan pisang ini di keranjang”, dan memandu lengan robot untuk menyelesaikan perintah tersebut.
Didukung oleh dua model baru, robot kini dapat memilih buah-buahan dan memilahnya ke dalam wadah tersendiri berdasarkan warna. Dalam satu demonstrasi, sepasang lengan robot (robot Aloha 2 milik perusahaan) secara akurat menyortir pisang, apel, dan jeruk nipis ke dalam tiga piring dengan warna yang sesuai. Lebih lanjut, robot menjelaskan dalam bahasa alami apa yang dilakukannya dan alasannya saat melakukan tugas tersebut.
“Kami memungkinkannya untuk berpikir,” kata Jie Tanseorang ilmuwan staf peneliti senior di DeepMind, dalam video tersebut. “Ia dapat memahami lingkungan, berpikir langkah demi langkah, lalu menyelesaikan tugas multilangkah ini. Meskipun contoh ini tampak sangat sederhana, gagasan di baliknya sangat kuat. Model yang sama akan memberdayakan robot humanoid yang lebih canggih untuk melakukan tugas sehari-hari yang lebih rumit.”
Robotika bertenaga AI masa depan
Meskipun demonstrasi tersebut mungkin tampak sederhana di permukaan, hal ini menunjukkan sejumlah kemampuan canggih. Robot dapat menemukan lokasi buah dan piring secara spasial, mengidentifikasi buah dan warna semua objek, mencocokkan buah dengan piring sesuai dengan karakteristik bersama, dan memberikan keluaran bahasa alami yang menjelaskan alasannya.
Itu semua mungkin terjadi berkat cara interaksi model AI versi terbaru. Mereka bekerja sama dengan cara yang sama seperti yang dilakukan supervisor dan pekerja.
Google Robotics-ER 1.5 (“otak”) adalah model bahasa visi (VLM) yang mengumpulkan informasi tentang ruang dan objek yang terletak di dalamnya, memproses perintah bahasa alami, dan dapat memanfaatkan penalaran dan alat tingkat lanjut untuk mengirimkan instruksi ke Google Robotics 1.5 (“tangan dan mata”), model tindakan bahasa visi (VLA). Google Robotics 1.5 mencocokkan instruksi tersebut dengan pemahaman visualnya tentang suatu ruang dan membuat rencana sebelum melaksanakannya, memberikan masukan tentang proses dan alasannya.
Kedua model ini lebih mumpuni dibandingkan versi sebelumnya dan dapat menggunakan alat seperti Google Penelusuran untuk menyelesaikan tugas.
Tim menunjukkan kapasitas ini dengan meminta seorang peneliti meminta Aloha menggunakan aturan daur ulang berdasarkan lokasinya untuk memilah beberapa benda ke dalam kompos, daur ulang, dan tempat sampah. Robot tersebut mengenali bahwa pengguna tersebut berlokasi di San Francisco dan menemukan aturan daur ulang di internet untuk membantunya memilah sampah secara akurat ke dalam wadah yang sesuai.
Kemajuan lain yang ditunjukkan dalam model baru ini adalah kemampuan untuk belajar (dan menerapkan pembelajaran tersebut) di berbagai sistem robotika. Perwakilan DeepMind mengatakan dalam a penyataan bahwa pembelajaran apa pun yang diperoleh dari robot Aloha 2 (sepasang lengan robotik), robot humanoid Apollo, dan robot bi-arm Franka dapat diterapkan ke sistem lain karena cara model belajar dan berkembang secara umum.
“Robot dengan tujuan umum memerlukan pemahaman mendalam tentang dunia fisik, penalaran tingkat lanjut, dan kontrol umum dan cekatan,” kata Tim Robotika Gemini dalam sebuah pernyataan. laporan teknis pada model-model baru. Penalaran umum semacam itu berarti bahwa model dapat mendekati masalah dengan pemahaman luas tentang ruang fisik dan interaksi serta menyelesaikan masalah dengan tepat, memecah tugas menjadi langkah-langkah kecil dan individual yang dapat dengan mudah dijalankan. Hal ini berbeda dengan pendekatan sebelumnya, yang mengandalkan pengetahuan khusus yang hanya diterapkan pada situasi sempit dan robot individual yang sangat spesifik.
Para ilmuwan memberikan contoh tambahan tentang bagaimana robot dapat membantu dalam skenario dunia nyata. Mereka memberi robot Apollo dua tempat sampah dan memintanya untuk menyortir pakaian berdasarkan warna – pakaian putih dimasukkan ke dalam satu wadah dan warna lain ke wadah lainnya. Mereka kemudian menambahkan rintangan tambahan seiring berjalannya tugas dengan memindahkan pakaian dan tempat sampah, memaksa robot untuk mengevaluasi kembali ruang fisik dan bereaksi sesuai dengan itu, yang berhasil dikelola dengan sukses.