Sains

Sungguh penguasa lipat yang bisa memberi tahu kami tentang jaringan saraf

Para peneliti di University of Basel telah mengembangkan model mekanis yang dapat memprediksi seberapa efektif berbagai lapisan data transformasi jaringan saraf yang dalam. Hasil mereka meningkatkan pemahaman kita tentang sistem yang kompleks ini dan menyarankan strategi yang lebih baik untuk melatih jaringan saraf.

Jaringan saraf yang dalam adalah jantung dari kecerdasan buatan, mulai dari pengenalan pola hingga bahasa besar dan model penalaran seperti chatgpt. Prinsip: Selama fase pelatihan, parameter neuron buatan jaringan dioptimalkan sedemikian rupa sehingga mereka dapat melakukan tugas -tugas tertentu, seperti secara otonom menemukan objek atau fitur karakteristik dalam gambar.

Bagaimana tepatnya ini bekerja, dan mengapa beberapa jaringan saraf lebih kuat dari yang lain, tidak mudah dimengerti. Deskripsi matematika yang ketat tampaknya di luar jangkauan teknik saat ini. Namun, pemahaman seperti itu penting jika seseorang ingin membangun kecerdasan buatan sambil meminimalkan sumber daya.

Sebuah tim peneliti memimpin Ivan Dokmanic di Departemen Matematika dan Ilmu Komputer Universitas Basel kini telah mengembangkan model yang sangat sederhana yang mereproduksi fitur utama dari jaringan saraf yang dalam dan yang memungkinkan seseorang untuk mengoptimalkan parameter mereka. Mereka baru -baru ini menerbitkan hasil mereka di jurnal ilmiah “Fisik Review Letters”.

Pembagian kerja di jaringan saraf

Jaringan saraf dalam terdiri dari beberapa lapisan neuron. Saat belajar mengklasifikasikan objek dalam gambar, jaringan mendekati lapisan jawaban demi lapisan. Pendekatan bertahap ini, di mana dua kelas – misalnya, “kucing” dan “anjing” – lebih dan lebih jelas dibedakan, disebut pemisahan data. “Biasanya setiap lapisan dalam jaringan yang berkinerja baik berkontribusi sama terhadap pemisahan data, tetapi kadang-kadang sebagian besar pekerjaan dilakukan oleh lapisan yang lebih dalam atau lebih dangkal”, kata Dokmanic.

Ini tergantung, antara lain, tentang bagaimana jaringan dibangun: apakah neuron hanya melipatgandakan data yang masuk dengan faktor tertentu, yang oleh para ahli disebut “linear”- atau apakah mereka melakukan perhitungan yang lebih kompleks- dengan kata lain, jaringan tersebut adalah “nonlinier”- pertimbangan lebih lanjut: dalam kebanyakan kasus, fase pelatihan jaringan saraf saraf juga mengandung elemen atau noise. Misalnya, dalam setiap pelatihan putaran subset neuron acak dapat dengan mudah diabaikan terlepas dari inputnya. Anehnya, kebisingan ini dapat meningkatkan kinerja jaringan.

“Interaksi antara nonlinier dan kebisingan menghasilkan perilaku yang sangat kompleks yang menantang untuk dipahami dan diprediksi”, kata Dokmanic. “Sekali lagi, kita tahu bahwa distribusi pemisahan data yang disamakan antara lapisan meningkatkan kinerja jaringan”. Jadi, untuk dapat membuat beberapa kemajuan, Dokmanic dan kolaboratornya mengambil inspirasi dari teori fisik dan mengembangkan model mekanik makroskopis dari proses pembelajaran yang dapat dipahami secara intuitif.

Menarik dan mengguncang penguasa lipat

Salah satu model tersebut adalah penguasa lipat yang bagian -bagian individualnya sesuai dengan lapisan jaringan saraf dan yang ditarik terbuka di satu ujung. Dalam hal ini, nonlinier berasal dari gesekan mekanis antara bagian. Kebisingan dapat ditambahkan dengan mengguncang ujung penguasa lipat yang tidak menentu saat menarik.

Hasil dari eksperimen sederhana ini: jika seseorang menarik penguasa perlahan dan mantap, bagian pertama terungkap sementara sisanya sebagian besar tertutup. “Ini sesuai dengan jaringan saraf di mana pemisahan data terjadi terutama di lapisan dangkal”, jelas Cheng Shi, kandidat PhD dalam kelompok Dokmanic dan penulis pertama penelitian. Sebaliknya, jika seseorang menarik dengan cepat sambil mengguncangnya sedikit, penguasa lipat berakhir dengan baik dan merata dibuka. Dalam jaringan, ini akan menjadi pemisahan data yang seragam.

“Kami telah simulasi dan secara matematis menganalisis model serupa dengan blok yang dihubungkan oleh pegas, dan kesepakatan antara hasil dan jaringan 'nyata' hampir luar biasa”, kata Shi. Para peneliti Basel berencana untuk segera menerapkan metode mereka ke model bahasa besar. Secara umum, model mekanis semacam itu dapat digunakan di masa depan untuk meningkatkan pelatihan jaringan saraf dalam kinerja tinggi tanpa pendekatan coba-coba yang secara tradisional digunakan untuk menentukan nilai-nilai optimal parameter seperti kebisingan dan nonlinier.

Publikasi asli

Cheng Shi, Liming Pan, Teori Pembelajaran Fitur Ivan Dokmanic tentang Fitur dalam jaringan saraf yang dalam.
Surat Ulasan Fisik (2025), doi: 10.1103/ys4n-2tj3

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button