Model bahasa kimia tidak perlu memahami kimia

Sebuah studi oleh Universitas Bonn membuktikan bahwa model transformator yang digunakan dalam kimia hanya mempelajari korelasi statistik
Model bahasa kini juga digunakan dalam ilmu alam. Dalam kimia, mereka digunakan, misalnya, untuk memprediksi senyawa baru yang aktif secara biologis. Model bahasa kimia (CLM) harus dilatih secara ekstensif. Namun, mereka tidak serta merta memperoleh pengetahuan tentang hubungan biokimia selama pelatihan. Sebaliknya, mereka menarik kesimpulan berdasarkan persamaan dan korelasi statistik, seperti yang ditunjukkan oleh penelitian terbaru oleh Universitas Bonn. Hasilnya kini telah dipublikasikan di jurnal Patterns.
Model bahasa besar seringkali sangat bagus dalam pekerjaannya, baik itu membuktikan teorema matematika, mengarang musik, atau menyusun slogan iklan. Namun bagaimana mereka mencapai hasilnya? Apakah mereka benar-benar memahami apa yang dimaksud dengan simfoni atau lelucon yang bagus? Tidak mudah untuk menjawab pertanyaan itu. ,,Semua model bahasa adalah kotak hitam,” tegas Jürgen Bajorath. ,,Sulit untuk melihat ke dalam kepala mereka, secara metaforis.”
Namun demikian, Jürgen Bajorath, seorang ilmuwan kimia informatika di Institut Lamarr untuk Pembelajaran Mesin dan Kecerdasan Buatan di Universitas Bonn, telah berupaya melakukan hal tersebut. Secara khusus, dia dan timnya berfokus pada bentuk khusus algoritma AI: transformator CLM. Model ini bekerja dengan cara yang mirip dengan ChatGPT, Google Gemini, dan 'Grok' Elon Musk yang dilatih menggunakan teks dalam jumlah besar, sehingga memungkinkan mereka menghasilkan kalimat secara mandiri. CLM, sebaliknya, biasanya didasarkan pada data yang jauh lebih sedikit. Mereka memperoleh pengetahuannya dari representasi dan hubungan molekuler, misalnya yang disebut string SMILES. Ini adalah string karakter yang mewakili molekul dan strukturnya sebagai rangkaian huruf dan simbol.
Manipulasi data pelatihan secara sistematis
Dalam penelitian farmasi, para ilmuwan sering kali berupaya mengidentifikasi zat yang dapat menghambat enzim tertentu atau memblokir reseptor. CLM dapat digunakan untuk memprediksi molekul aktif berdasarkan rangkaian asam amino protein target. “Kami menggunakan desain molekuler berbasis urutan sebagai sistem pengujian untuk lebih memahami bagaimana transformator mencapai prediksinya,” jelas Jannik Roth, kandidat doktor yang bekerja dengan Bajorath. “Setelah tahap pelatihan, jika Anda memperkenalkan enzim baru ke model seperti itu, enzim tersebut mungkin menghasilkan senyawa yang dapat menghambatnya. Namun apakah itu berarti AI telah mempelajari prinsip biokimia di balik penghambatan tersebut?”
CLM dilatih menggunakan pasangan rangkaian asam amino dari protein target dan masing-masing senyawa aktifnya yang diketahui. Untuk menjawab pertanyaan penelitian mereka, para ilmuwan secara sistematis memanipulasi data pelatihan. “Misalnya, kami awalnya hanya memberi model keluarga enzim tertentu dan penghambatnya,” jelas Bajorath. ,,Saat kami kemudian menggunakan enzim baru dari keluarga yang sama untuk tujuan pengujian, algoritme sebenarnya menyarankan inhibitor yang masuk akal.” Namun, situasinya berbeda ketika para peneliti menggunakan enzim dari keluarga berbeda dalam pengujian, yaitu enzim yang melakukan fungsi berbeda di dalam tubuh. Dalam kasus ini, CLM gagal memprediksi senyawa aktif dengan tepat.

Aturan praktis statistik
“Hal ini menunjukkan bahwa model tersebut belum mempelajari prinsip-prinsip kimia yang berlaku secara umum, yaitu bagaimana penghambatan enzim biasanya bekerja secara kimia,” kata ilmuwan tersebut. Sebaliknya, saran-saran tersebut hanya didasarkan pada korelasi statistik, yaitu pola-pola dalam data. Misalnya, jika enzim baru menyerupai rangkaian pelatihan, inhibitor serupa mungkin akan aktif. Dengan kata lain, enzim serupa cenderung berinteraksi dengan senyawa serupa. ,,Aturan praktis berdasarkan kesamaan yang dapat dideteksi secara statistik tidak selalu berarti buruk,' tegas Bajorath, yang memimpin bidang ,,AI dalam Ilmu Hayati dan Kesehatan” di Lamarr Institute. ,,Lagipula, ini juga dapat membantu mengidentifikasi aplikasi baru untuk zat aktif yang sudah ada.”
Namun, model yang digunakan dalam penelitian ini kurang memiliki pengetahuan biokimia ketika memperkirakan kesamaan. Mereka menganggap enzim (atau reseptor dan protein lain) serupa jika mereka cocok dengan 50-60 persen rangkaian asam aminonya, dan karenanya menyarankan inhibitor serupa. Para peneliti dapat mengacak dan mengacak urutannya sesuka hati, selama asam amino asli yang disimpan cukup. Namun, seringkali hanya bagian yang sangat spesifik dari suatu enzim yang diperlukan agar enzim dapat melakukan tugasnya. Perubahan asam amino tunggal di wilayah tersebut dapat menyebabkan disfungsi enzim. Area lain lebih penting untuk integritas struktural dan kurang relevan untuk fungsi tertentu. “Selama pelatihan mereka, model tidak belajar membedakan antara bagian urutan yang penting secara fungsional dan yang tidak penting,” tegas Bajorath.
Model hanya mengulangi apa yang telah mereka baca sebelumnya
Oleh karena itu, hasil penelitian menunjukkan bahwa CLM transformator yang dilatih untuk desain senyawa berbasis urutan kurang memiliki pemahaman kimia yang lebih mendalam, setidaknya untuk sistem pengujian ini. Dengan kata lain, mereka hanya merekapitulasi, dengan sedikit variasi, apa yang telah mereka ambil dalam konteks serupa pada suatu saat. “Ini tidak berarti bahwa mereka tidak cocok untuk penelitian obat-obatan,” tegas Bajorath, yang juga anggota “Pemodelan” Area Penelitian Transdisipliner (TRA) di Universitas Bonn. ,,Sangat mungkin mereka menyarankan obat yang benar-benar memblokir reseptor tertentu atau menghambat enzim.” Namun, hal ini tentu saja bukan karena mereka memahami kimia dengan baik, namun karena mereka mengenali kesamaan dalam representasi molekuler berbasis teks dan korelasi statistik yang masih tersembunyi dari kita. Hal ini tidak mendiskreditkan hasil mereka. Namun, hasil tersebut juga tidak boleh ditafsir secara berlebihan.'



