Sains

Model AI Baru untuk Desain Obat Membawa Lebih Banyak Fisika dalam Prediksi

Ilustrasi ini menunjukkan jalinan titik penahan yang diperoleh tim dengan mendiskritisasi manifold, perkiraan distribusi atom, dan kemungkinan lokasi elektron dalam molekul. Hal ini penting karena, seperti dicatat oleh penulis dalam makalah barunya, memperlakukan atom sebagai titik padat 'tidak sepenuhnya mencerminkan luasan spasial yang ditempati atom nyata dalam ruang tiga dimensi.'

Saat pembelajaran mesin digunakan untuk menyarankan potensi wawasan atau arahan ilmiah baru, algoritme terkadang menawarkan solusi yang tidak tepat secara fisik. Ambil contoh AlphaFold, sistem AI yang memprediksi cara kompleks rantai asam amino akan terlipat menjadi struktur protein 3D. Sistem terkadang menyarankan konfigurasi lipatan “tidak fisik” yang tidak masuk akal berdasarkan hukum fisika-terutama ketika diminta untuk memprediksi lipatan rantai yang sangat berbeda dari data pelatihannya. Untuk membatasi jenis hasil tidak fisik ini dalam bidang desain obat, Anima Anandkumar , Profesor Ilmu Komputasi dan Matematika Bren di Caltech, dan rekan-rekannya telah memperkenalkan model pembelajaran mesin baru yang disebut NucleusDiff, yang menggabungkan ide fisik sederhana ke dalam pelatihannya, sehingga sangat meningkatkan kinerja algoritme.

Anandkumar dan rekan-rekannya mendeskripsikan NucleusDiff dalam makalah yang muncul sebagai bagian dari fitur khusus “Pembelajaran Mesin dalam Kimia” yang diterbitkan oleh Prosiding Akademi Ilmu Pengetahuan Nasional (PNAS).

Tujuan dari desain obat berbasis struktur adalah untuk menghasilkan molekul kecil, yang disebut ligan, yang dapat berikatan dengan baik pada target biologis, biasanya protein, sehingga menyebabkan perubahan aktivitas yang diinginkan. Model AI rancangan obat dilatih pada kumpulan data yang berisi puluhan ribu contoh pasangan protein-ligan serta informasi tentang seberapa baik mereka menempel satu sama lain, sebuah pengukuran penting yang disebut afinitas pengikatan. Namun yang terpenting, NucleusDiff melangkah lebih jauh.

“Dengan pembelajaran mesin, model telah mempelajari banyak aspek yang membuat pengikatan menjadi baik, dan sekarang kami menerapkan beberapa fisika sederhana untuk memastikan kami mengesampingkan semua hal yang tidak bersifat fisik,” jelas Anandkumar. Dalam kasus NucleusDiff, model ini memastikan bahwa atom berada pada jarak yang sesuai satu sama lain, dengan mempertimbangkan konsep fisik seperti gaya tolak menolak yang mencegah atom tumpang tindih atau bertabrakan.

“Kami memiliki beberapa teori fisik yang bagus di balik algoritma ini, namun juga intuitif,” kata Anandkumar. “Anehnya, tanpa kendala ini, semua model AI ini cenderung memprediksi adanya tumbukan, bahwa atom-atomnya terlalu dekat. Dengan menambahkan fisika sederhana, kami meningkatkan akurasi model.”

Daripada memperhitungkan jarak antara setiap pasangan atom dalam sebuah molekul (tugas yang sangat mahal secara komputasi), NucleusDiff memperkirakan manifold, atau envelope—perkiraan kasar distribusi atom dan kemungkinan lokasi elektron dalam molekul. Pada manifold tersebut, ia kemudian menetapkan titik-titik penahan utama yang harus diperhatikan, memastikan bahwa atom-atom tidak pernah terlalu dekat satu sama lain.

Tim melatih NucleusDiff pada kumpulan data pelatihan yang disebut CrossDocked2020, yang mencakup sekitar 100.000 kompleks pengikat protein-ligan. Mereka mengujinya pada 100 kompleks tersebut dan menemukan bahwa ia secara signifikan mengungguli model-model canggih dalam hal afinitas pengikatan sekaligus mengurangi jumlah tumbukan atom hingga hampir nol. Selanjutnya, para peneliti menggunakan model baru untuk memprediksi afinitas pengikatan molekul baru yang tidak termasuk dalam kumpulan data pelatihan: protease target terapi COVID-19 3CL. Sekali lagi, NucleusDiff menunjukkan peningkatan akurasi dan pengurangan tumbukan atom hingga dua pertiga dibandingkan model terkemuka lainnya.

Pekerjaan ini sejalan dengan dorongan yang lebih besar di kampus oleh Anandkumar dan lainnya, melalui inisiatif yang disebut AI4Science, untuk mengintegrasikan lebih banyak ilmu fisika ke dalam model AI berbasis data yang dibangun untuk berbagai topik-mulai dari prediksi iklim hingga robotika dan dari seismologi hingga pemodelan astrofisika.

“Jika kami hanya mengandalkan data pelatihan, kami tidak berharap pembelajaran mesin akan bekerja dengan baik pada contoh yang berbeda secara signifikan dari data pelatihan,” kata Anandkumar. Faktanya, katanya, prinsip standar pembelajaran mesin adalah bahwa keluarannya biasanya sesuai dengan contoh yang diberikan dalam data pelatihan. Namun di banyak bidang ilmiah seperti desain obat, para peneliti sedang mencarinya novel hasil (misalnya, molekul baru).

“Kami melihat banyak pembelajaran mesin gagal dalam memberikan hasil akurat pada contoh baru yang berbeda dari data pelatihan, namun dengan menggabungkan fisika, kami dapat membuat pembelajaran mesin lebih dapat dipercaya dan juga bekerja lebih baik,” kata Anandkumar.

Makalah ini berjudul “Model Difusi Denoising Tingkat Inti Manifold-Constrained untuk Desain Obat Berbasis Struktur.” Penulis tambahan adalah Liang Yan dari Universitas Fudan, yang menyelesaikan pekerjaannya sebagai peneliti magang dan mahasiswa tamu di Caltech; Shengchao Liu, Christian Borgs, dan Jennifer Chayes dari UC Berkeley; Weitao Du dari Akademi Alibaba DAMO di Bellevue, Washington; Weiyang Liu dari Institut Max Planck untuk Sistem Cerdas di Jerman; Zhuoxinran Li dari Universitas Toronto; dan Hongyu Guo dari Dewan Riset Nasional Kanada.

Tautan Terkait

AI4Science Kendaraan yang Dilatih AI Dapat Menyesuaikan Diri dengan Turbulensi Ekstrim dengan Cepat Dibantu oleh AI, Desain Kateter Baru Mencegah Infeksi Bakteri Para peneliti Mengatasi COVID-19 dengan Mesin Pengajaran AI Cara Belajar: Percakapan dengan Animashree Anandkumar

Source

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button