Saat AI menggantikan tutor

Apakah model bahasa seperti chatgpt cocok sebagai asisten pengajar independen dalam ilmu alam? Sebuah tim peneliti di University of Würzburg telah menyelidiki pertanyaan ini.
Kecerdasan buatan telah menjadi bagian integral dari kehidupan sehari -hari banyak orang. Model Bahasa Besar (LLM) seperti chatgpt, gemini atau kopilot menulis surat dan makalah untuk mereka, memberikan tips untuk perjalanan pada liburan atau menjawab pertanyaan tentang setiap topik yang mungkin.
Penggunaan kecerdasan buatan juga telah lama menjadi rutin di universitas di banyak bidang. Sejauh mana model bahasa besar dapat mendukung siswa dalam ilmu alam sebagai tutor yang tidak diawasi? Sebuah tim peneliti di Julius-Maximilians-Universität Würzburg (JMU) kini telah menyelidiki pertanyaan ini. Hasil mereka telah diterbitkan sebagai pracetak pada Arxiv.
Alat evaluasi yang dapat diakses secara bebas
Sebuah kelompok penelitian dari Departemen Kimia Fisik, yang sejauh ini terutama melakukan penelitian ke dalam spektroskopi nanomaterial, kini telah mengembangkan alat yang menguji pemahaman termodinamika LLM modern – khususnya, apakah keterampilan mereka melampaui pengetahuan faktual belaka. Alatnya, yang disebut UTQA (Penjawab pertanyaan termodinamika sarjana), dapat diakses secara bebas dan dimaksudkan untuk mendukung guru dan peneliti dalam mengevaluasi LLM dengan cara yang adil dan spesifik – dan membuat kemajuan dapat diukur.
“Keinginan kami adalah bahwa suatu hari AI akan dapat mendukung kami sebagai mitra yang tidak diawasi dalam mengajar – misalnya dalam bentuk chatbots yang kompeten yang menanggapi secara individu terhadap kebutuhan setiap siswa dalam persiapan dan tindak lanjut kuliah. Kami jelas belum ada di sana, tetapi kemajuannya menakjubkan,” kata manajer proyek Profesor Tobias Hertel. “Dengan UTQA, kami menunjukkan di mana model bahasa saat ini sudah meyakinkan dan di mana mereka secara sistematis gagal – inilah yang dibutuhkan dosen agar dapat merencanakan penggunaannya dalam mengajar secara bertanggung jawab.”
Lahir dari mengajar
Tim Hertel telah menggunakan LLMS dalam kuliah termodinamika dengan lebih dari 150 siswa untuk pemeriksaan pengetahuan mingguan sejak semester musim dingin tahun 2023. Model-model seperti ChatGPT-3.5 dan ChatGPT-4 menunjukkan kekuatan mereka, tetapi juga kelemahan yang jelas.
Hal ini mengarah pada keinginan untuk tolok ukur khusus subjek: “Oleh karena itu UTQA terdiri dari 50 tugas pilihan tunggal yang menantang dari kuliah termodinamika dasar-dua pertiga berbasis teks, sepertiga dengan diagram dan sketsa, seperti khas untuk latihan didaktik,” jelas Hertel. Tujuannya tidak hanya untuk menguji pengetahuan dan definisi faktual, tetapi juga untuk menguji kemampuan model bahasa untuk menghubungkan kondisi batas yang berbeda dengan cara yang ditargetkan dan untuk memahami urutan proses yang kompleks.
Hasil: solid – tetapi belum (belum) cukup dapat diandalkan
Menurut Hertel, tes model berkinerja terbaik tahun 2025 melukis gambaran yang jelas: dengan UTQA, tidak ada model yang mencapai tingkat keberhasilan 95 persen yang dibutuhkan oleh kelompok penelitian untuk bantuan tanpa pengawasan sebagai tutor AI. Bahkan model GPT-O3 terkemuka dalam banyak tolok ukur hanya mencapai akurasi keseluruhan 82 persen.
“Dua kelemahan terlihat: Pertama, model secara konsisten mengalami kesulitan dengan apa yang disebut proses yang tidak dapat diubah, di mana kecepatan perubahan negara memengaruhi hasilnya. Kedua, ada defisit yang jelas dalam tugas-tugas yang membutuhkan interpretasi gambar,” kata ilmuwan.
Sebuah tinjauan sejarah menunjukkan bahwa ini tidak mengejutkan: sekitar 100 tahun yang lalu, fisikawan Prancis Pierre Duhem sudah menggambarkan fenomena reversibilitas sebagai salah satu fenomena paling sulit dalam termodinamika. Fakta bahwa LLM memiliki masalah menafsirkan diagram juga tidak mengejutkan, karena persepsi dan pemrosesan konten visual adalah salah satu kekuatan kognitif manusia yang luar biasa.
Belum cukup baik untuk penggunaan tanpa pengawasan
“Dalam praktiknya, ini berarti bahwa LLMS sudah sangat berguna dalam mengajar dengan atau tanpa pengawasan – tetapi belum cukup untuk digunakan sebagai tutor yang tidak diawasi,” kata Hertel. “Pada saat yang sama, kami telah melihat kemajuan besar dalam dua tahun terakhir. Karena itu kami yakin bahwa – asalkan pengembangan tidak tiba -tiba terhenti – keahlian yang diperlukan untuk asisten pengajar dalam disiplin kami dapat segera dicapai.”
Tobias Hertel sangat senang bahwa dua guru siswa secara signifikan terlibat dalam proyek penelitian, menyumbangkan perspektif didaktik khusus mereka. Luca-Sophie Bien menciptakan versi awal Jerman dari banyak tugas; Anna Geißler menerjemahkan dan memperluas koleksi untuk penggunaan internasional.
Mengapa Termodinamika
Menurut Hertel, termodinamika sangat ideal untuk menguji pemahaman model dan kemampuan penalaran: “Sangat mendasar bagi pemahaman kita tentang alam, memiliki undang -undang dasar yang ringkas, tetapi dalam aplikasi membutuhkan perbedaan yang tepat antara variabel negara dan proses, panas atau pekerjaan yang dipisahkan dari memori atau reversibel.”
Sebagai langkah berikutnya, tim sekarang berencana untuk memperluas alat untuk memasukkan gas nyata, campuran, diagram fase dan siklus standar. Tujuannya adalah untuk mencakup konsep -konsep lebih lanjut yang merupakan pusat pengajaran. “Model yang lebih baik dapat menangani ikatan multimodal, yaitu kombinasi teks dan gambar, serta rezim yang tidak dapat diubah, semakin dekat kita dengan tutorial AI yang andal dan peka terhadap subjek,” kata Hertel.
Publikasi & Data
Dari Canonical ke Kompleks: Benchmarking kemampuan LLM dalam termodinamika sarjana, Anna Geißler, Luca-Sophie Bien, Friedrich Schöppler, dan Tobias Hertel, diterbitkan sebagai prepint di sini: https://arxiv.org/abs/2508.21452
Dataset dapat ditemukan di sini: UTQA (Herteltm/UTQA) di Face Memeluk.