'Mesin pencari DNA'

Ilmuwan komputer di ETH Zurich telah mengembangkan alat digital yang mampu mencari jutaan catatan DNA yang dipublikasikan dalam hitungan detik. Hal ini secara signifikan dapat mempercepat penelitian mengenai resistensi antibiotik dan patogen yang tidak diketahui.
Penyakit keturunan yang langka dapat diidentifikasi pada pasien dan mutasi spesifik pada sel tumor terdeteksi – pengurutan DNA merevolusi penelitian biomedis beberapa dekade lalu. Dalam beberapa tahun terakhir, metode pengurutan baru (khususnya pengurutan generasi berikutnya) telah menghasilkan banyak terobosan ilmiah. Pada tahun 2020/2021, misalnya, mereka memungkinkan decoding cepat dan pemantauan global genom SARS-CoV-2.
Sementara itu, semakin banyak peneliti yang mempublikasikan hasil rangkaian DNA. Hal ini telah memunculkan terciptanya volume data yang sangat besar, yang disimpan dalam database pusat seperti SRA Amerika (Sequence Read Archive) atau ENA Eropa (European Nucleotide Archive). Sekitar 100 petabyte data disimpan di sana – kira-kira sama dengan jumlah seluruh teks di internet, satu petabyte setara dengan satu juta gigabyte.
Hingga saat ini, para ilmuwan biomedis memerlukan daya komputasi yang sangat besar dan sumber daya lain untuk menelusuri rangkaian DNA sebanyak ini dan membandingkannya dengan rangkaian DNA mereka sendiri – sehingga pencarian efisien dalam kumpulan data seperti itu menjadi mustahil. Ilmuwan komputer di ETH Zurich kini telah memecahkan masalah ini.
Pencarian teks lengkap alih-alih mengunduh seluruh kumpulan data
Para ilmuwan telah mengembangkan metode yang mempersingkat dan memfasilitasi pencarian ini. Alat digital “MetaGraph” mencari data mentah dari semua rangkaian DNA atau RNA yang disimpan dalam database – seperti mesin pencari Internet konvensional. Setelah memasukkan urutan yang mereka minati sebagai teks lengkap ke dalam topeng pencarian, peneliti dapat mengetahuinya dalam hitungan detik atau menit, tergantung pada kueri, di mana urutan tersebut telah muncul.
“Ini semacam Google untuk DNA,” seperti yang dirangkum oleh Profesor Gunnar Rätsch, ilmuwan data di Departemen Ilmu Komputer di ETH Zurich. Hingga saat ini, peneliti harus mencari database untuk metadata deskriptif. Untuk mengakses data mentah, mereka harus mengunduh kumpulan data masing-masing. Pencarian ini tidak lengkap, memakan waktu dan mahal.
“MetaGraph” relatif menguntungkan dalam hal biaya, seperti yang dinyatakan para peneliti dalam penelitian mereka. Representasi seluruh rangkaian biologis publik akan muat di beberapa hard drive komputer, sementara kueri yang lebih besar seharusnya memakan biaya tidak lebih dari 0,74 dolar per megabase.
Karena mesin pencari DNA yang dikembangkan para peneliti juga tepat dan efisien, mesin ini dapat membantu mempercepat penelitian genetika – misalnya, dalam kasus patogen yang jarang diteliti atau pandemi baru. Dengan cara ini, alat ini dapat menjadi katalis dalam penelitian resistensi antibiotik: misalnya, dengan mengidentifikasi gen resistensi atau virus berguna yang dapat menghancurkan bakteri – yang dikenal sebagai bakteriofag – dalam database.
Kompresi dengan faktor 300
Dalam penelitian yang dipublikasikan pada 8 Oktober di jurnal Nature, para peneliti mendemonstrasikan cara kerja MetaGraph: alat tersebut mengindeks data dan menyajikannya dalam bentuk terkompresi. Hal ini dicapai melalui grafik matematika kompleks yang memperbaiki struktur data – mirip dengan program spreadsheet seperti Excel. “Secara matematis, ini adalah matriks raksasa dengan jutaan kolom dan triliunan baris,” seperti yang dinyatakan oleh Rätsch.
Gagasan untuk membuat data dalam jumlah besar dapat dicari dengan bantuan indeks adalah praktik standar dalam penelitian ilmu komputer. Apa yang baru dari karya para peneliti ini adalah keterhubungan yang kompleks antara data mentah dan metadata serta kompresi sebanyak 300 kali lipat, serupa dengan ringkasan buku: tidak lagi memuat setiap kata, namun semua alur cerita dan koneksi utama tetap utuh – lebih kompak, namun tanpa kehilangan informasi yang relevan.
“Kami berusaha sekuat tenaga untuk menjaga kumpulan data sekompak mungkin tanpa kehilangan informasi yang diperlukan,” kata Dr André Kahles, yang, seperti Rätsch, adalah anggota Biomedical Informatics Group di ETH Zurich. Berbeda dengan masker pencarian DNA lain yang saat ini sedang diteliti, pendekatan para peneliti ini dapat diperluas. Artinya, semakin besar jumlah data yang dikueri, semakin sedikit daya komputasi tambahan yang dibutuhkan alat tersebut.
Setengah dari data sudah tersedia sekarang
Para peneliti pertama kali mempresentasikan MetaGraph pada tahun 2020 dan terus menyempurnakannya sejak saat itu. Alat ini sudah tersedia untuk kueri (tautan). Ini menyediakan mesin pencari teks lengkap untuk jutaan rangkaian rangkaian DNA dan RNA, serta protein dari virus, bakteri, jamur, tumbuhan, hewan, dan manusia. Saat ini, hanya kurang dari separuh kumpulan data sekuens yang tersedia di seluruh dunia telah diindeks. Menurut Gunnar Rätsch, sisanya akan menyusul pada akhir tahun. Mengingat MetaGraph tersedia sebagai sumber terbuka, hal ini mungkin juga menarik bagi perusahaan farmasi yang memiliki data penelitian internal dalam jumlah besar.
Kahles bahkan percaya bahwa mesin pencari DNA mungkin suatu hari nanti akan digunakan oleh individu: “Pada awalnya, bahkan Google tidak tahu persis apa gunanya mesin pencari. Jika perkembangan pesat dalam pengurutan DNA terus berlanjut, mungkin sudah menjadi hal yang lumrah untuk mengidentifikasi tanaman di balkon Anda dengan lebih tepat.”
Referensi
Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., Rätsch, G., & Kahles, A.: Pencarian yang efisien dan akurat dalam repositori urutan skala petabase. Alam 2025, doi: 10.1038/s41586-025-09603-w