Teknologi

Model gambar AI Google Gemini mendapatkan upgrade 'pisang'

Google sedang meningkatkan chatbot gemini -nya dengan model gambar AI baru yang memberi pengguna kontrol yang lebih baik atas pengeditan foto, langkah yang dimaksudkan untuk mengejar ketinggalan dengan Openai's Popular alat gambar dan menggambar pengguna dari chatgpt.

Pembaruan, yang disebut Gemini 2.5 Flash Image, diluncurkan mulai Selasa untuk semua pengguna di aplikasi Gemini, serta untuk pengembang melalui Gemini API, Google AI Studio, dan Platform AI Vertex.

Model gambar AI baru Gemini dirancang untuk membuat pengeditan yang lebih tepat untuk gambar – berdasarkan permintaan bahasa alami dari pengguna – sambil menjaga konsistensi wajah, hewan, dan detail lainnya, sesuatu yang sebagian besar alat saingan berjuang. Misalnya, tanyakan pada Chatgpt atau Xai's Grok untuk mengubah warna kemeja seseorang di foto, dan hasilnya mungkin termasuk wajah yang terdistorsi atau latar belakang yang diubah.

Editor gambar asli Gemini 2.5 Flash memadukan foto anjing dan orang, sambil menjaga kemiripannya. Kredit: Google

Alat baru Google telah menarik perhatian. Dalam beberapa minggu terakhir, pengguna media sosial mengoceh Lebih dari editor gambar AI yang mengesankan di platform evaluasi crowdsourced, Lmarena. Model ini muncul kepada pengguna secara anonim dengan nama samaran “Nano-Banana.”

Google mengatakan itu di belakang model (jika tidak jelas sudah Dari semua petunjuk terkait pisang), yang benar-benar kemampuan gambar asli dalam andalannya Gemini 2.5 Flash Model AI. Google mengatakan model gambar canggih di Lmarena dan tolok ukur lainnya.

Grafik yang menunjukkan tolok ukur pengeditan pencitraan, dengan Gemini 2.5 Flash Image / Lmarena berkinerja lebih baik daripada model saingan lainnya.
Google mengklaim model gambar AI barunya canggih pada beberapa tolok ukur. Kredit: Google

“Kami benar -benar mendorong kualitas visual ke depan, serta kemampuan model untuk mengikuti instruksi,” kata Nicole Brichtova, pemeran utama produk pada model generasi visual di Google DeepMind, dalam sebuah wawancara dengan TechCrunch.

“Pembaruan ini melakukan pekerjaan yang jauh lebih baik mengedit dengan lebih mulus, dan output model dapat digunakan untuk apa pun yang Anda inginkan untuk menggunakannya,” kata Brichtova.

Model gambar AI telah menjadi pertempuran kritis bagi teknologi besar. Saat Openai meluncurkan generator gambar asli GPT-4O di bulan Maret, itu mendorong chatgpt penggunaan Melalui atap berkat hiruk-pikuk AI yang dihasilkan Studio Ghibli Meme yang, menurut CEO OpenAI Sam Altman, meninggalkan GPU perusahaan “meleleh. “

Untuk mengimbangi Openai dan Google, Meta mengumumkan minggu lalu bahwa itu akan lisensi Model gambar AI dari startup midjourney. Sementara itu, unicorn Jerman yang didukung A16Z Laboratorium Hutan Hitam terus mendominasi tolok ukur dengan model gambar fluks AI.

Mungkin editor gambar AI Gemini yang mengesankan dapat membantu Google menutup celah penggunanya dengan OpenAi. Chatgpt sekarang mencatat lebih dari 700 juta pengguna mingguan. Pada panggilan pendapatan Google di bulan Juli, CEO raksasa teknologi Sundar Pichai mengungkapkan bahwa Gemini telah 450 juta bulanan Pengguna – Menyiratkan pengguna mingguan bahkan lebih rendah.

Brichtova mengatakan Google secara khusus merancang model gambar dengan kasus penggunaan konsumen di dalam pikiran, seperti membantu pengguna memvisualisasikan proyek rumah dan kebun mereka. Model ini juga memiliki “pengetahuan dunia” yang lebih baik dan dapat menggabungkan beberapa referensi dalam satu prompt; Misalnya, menggabungkan gambar sofa, foto ruang tamu, dan palet warna menjadi satu render yang kohesif.

GIF animasi yang menampilkan gambar ruang tamu kosong, dengan petunjuk ditampilkan di layar seperti
Gemini 2.5 Flash Image memungkinkan pengguna melakukan percakapan “multi-turn” dengan model gambar AI. Kredit: Google

Sementara generator gambar AI baru Gemini memudahkan pengguna untuk membuat dan mengedit gambar yang realistis, perusahaan memiliki perlindungan yang membatasi apa yang dapat dibuat pengguna. Google telah berjuang dengan perlindungan generator gambar AI di masa lalu. Pada satu titik, perusahaan meminta maaf untuk Gemini yang menghasilkan gambar orang yang tidak akurat secara historis berguling kembali Generator gambar AI sama sekali.

Sekarang, Google merasa itu menjadi keseimbangan yang lebih baik.

“Kami ingin memberi pengguna kontrol kreatif sehingga mereka dapat memperoleh dari model apa yang mereka inginkan,” kata Brichtova. “Tapi tidak seperti apa pun yang terjadi.”

Bagian AI generatif dari Ketentuan Layanan Google melarang pengguna menghasilkan “citra intim non-konsensual.” Jenis-jenis perlindungan yang sama tampaknya tidak ada untuk Grok, yang memungkinkan pengguna untuk membuat AI yang dihasilkan gambar eksplisit menyerupai selebriti, seperti Taylor Swift.

Untuk mengatasi munculnya citra Deepfake, yang dapat menyulitkan pengguna untuk membedakan apa yang nyata online, Brichtova mengatakan bahwa Google menerapkan tanda air visual untuk gambar yang dihasilkan AI, serta pengidentifikasi dalam metadata-nya. Namun, seseorang yang menggulir melewati gambar di media sosial mungkin tidak mencari pengidentifikasi seperti itu.

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button