Sains

Menggunakan AI untuk 'melihat' apa yang kita lihat

Fed informasi yang tepat, model bahasa besar dapat cocok dengan apa yang dilihat otak ketika diperlukan dalam adegan sehari -hari seperti anak -anak bermain atau cakrawala kota besar, sebuah studi baru yang dipimpin oleh Ian Charest menemukan.

Ketika kita melihat dunia, otak kita tidak hanya mengenali benda -benda seperti “anjing” atau “mobil,” itu juga memahami makna yang lebih luas, seperti apa yang terjadi, di mana itu terjadi, dan bagaimana semuanya cocok bersama. Tetapi selama bertahun -tahun, para ilmuwan tidak memiliki cara yang baik untuk mengukur pemahaman yang kaya dan kompleks itu.

Sekarang, dalam sebuah studi baru yang diterbitkan Today in Nature Machine Intelligence, Université de Montréal Associate Professor of Psychology Ian Charest menjelaskan bagaimana ia dan rekannya di University of Minnesota dan Jerman dari Osnabrück dan Frei Universität Berlin menggunakan model bahasa besar (LLM) untuk mencari tahu.

“Dengan memberi makan deskripsi adegan alami ke dalam llms ini – jenis AI yang sama di balik alat seperti chatgpt – kami menciptakan semacam 'sidik jari berbasis bahasa' dari apa arti adegan,” kata Charest, pemegang kursi Courtois Udem dalam ilmu saraf mendasar dan anggota Mila – Quebec AI Institute.

“Hebatnya,” katanya, “sidik jari ini sangat cocok dengan pola aktivitas otak yang direkam sementara orang melihat adegan yang sama di pemindai MRI,” hal -hal seperti sekelompok anak bermain atau cakrawala kota besar.

“Misalnya,” kata Charest, menggunakan LLMS kami dapat memecahkan kode dalam kalimat adegan visual yang hanya dirasakan orang tersebut. Kita juga dapat memprediksi dengan tepat bagaimana otak akan merespons adegan makanan atau tempat atau adegan termasuk wajah manusia, menggunakan representasi yang dikodekan dalam LLM. “

Para peneliti melangkah lebih jauh: mereka melatih jaringan saraf buatan untuk mengambil gambar dan memprediksi sidik jari LLM ini-dan menemukan bahwa jaringan ini melakukan pekerjaan yang lebih baik dalam mencocokkan respons otak daripada banyak model visi AI paling canggih yang tersedia saat ini.

Dan ini, terlepas dari kenyataan bahwa model yang tersedia dilatih pada data yang jauh lebih sedikit.

Konsepsi “jaringan saraf buatan” ini didukung oleh profesor pembelajaran mesin Tim Kietzmann dan timnya di University of Osnabrück. Penulis pertama studi ini adalah Profesor Adrien Doerig dari Freie Universität Berlin.

“Apa yang telah kami pelajari menunjukkan bahwa otak manusia dapat mewakili adegan visual yang kompleks dengan cara yang secara mengejutkan mirip dengan bagaimana model bahasa modern memahami teks,” kata Charest, yang melanjutkan penelitiannya ke dalam subjek.

“Penelitian kami,” lanjutnya, “membuka kemungkinan baru untuk mendekodekan pemikiran, meningkatkan antarmuka komputer-komputer, dan membangun sistem AI yang lebih cerdas yang 'melihat' lebih seperti yang kita lakukan manusia. Kita suatu hari nanti bisa membayangkan model visi komputasi yang lebih baik mendukung keputusan yang lebih baik untuk mobil yang mengemudi sendiri.

“Teknologi baru ini suatu hari juga dapat membantu mengembangkan prostesis visual untuk orang -orang dengan gangguan visual yang signifikan. Tetapi pada akhirnya, ini adalah langkah maju dalam memahami bagaimana otak manusia memahami makna dari dunia visual.”

Tentang penelitian ini

“Representasi visual tingkat tinggi di otak manusia diselaraskan dengan model bahasa besar,” oleh Adrien Doerig et al., Diterbitkan 7 Agustus 2025 di Nature Machine Intelligence.

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button