Sistem AI bagus dalam tes, tetapi bagaimana kinerjanya dalam kehidupan nyata?

Awal bulan ini, ketika Openai merilis sistem intelijen buatan (AI) terbarunya, GPT-5, perusahaan mengatakan itu “jauh lebih pintar di seluruh papan” daripada model sebelumnya. Mencadangkan klaim adalah skor tinggi pada berbagai tes benchmark yang menilai domain seperti pengkodean perangkat lunak, matematika dan perawatan kesehatan.
Tes benchmark seperti ini telah menjadi cara standar kami menilai sistem AI – tetapi mereka tidak memberi tahu kami banyak tentang kinerja dan efek aktual dari sistem ini di dunia nyata.
Apa cara yang lebih baik untuk mengukur model AI? Sekelompok peneliti dan ahli metrologi AI – ahli dalam ilmu pengukuran – baru -baru ini menguraikan jalan ke depan.
Metrologi penting di sini karena kita membutuhkan cara untuk tidak hanya memastikan keandalan sistem AI yang mungkin semakin bergantung pada kita, tetapi juga beberapa ukuran dampak ekonomi, budaya, dan masyarakat yang lebih luas.
Mengukur keamanan
Kami mengandalkan metrologi untuk memastikan alat, produk, layanan, dan proses yang kami gunakan dapat diandalkan.
Ambil sesuatu yang dekat dengan hati saya sebagai ahli etika biomedis – kesehatan AI. Dalam perawatan kesehatan, AI berjanji untuk meningkatkan diagnosis dan pemantauan pasien, membuat obat lebih personal dan membantu mencegah penyakit, serta menangani beberapa tugas administratif.
Janji -janji ini hanya akan direalisasikan jika kita dapat yakin kesehatan AI aman dan efektif, dan itu berarti menemukan cara yang dapat diandalkan untuk mengukurnya.
Kami sudah memiliki sistem yang mapan untuk mengukur keamanan dan efektivitas obat-obatan dan perangkat medis, misalnya. Tetapi ini belum menjadi kasus untuk AI – bukan dalam perawatan kesehatan, atau di domain lain seperti pendidikan, pekerjaan, penegakan hukum, asuransi, dan biometrik.
Hasil tes dan efek nyata
Saat ini, sebagian besar evaluasi sistem AI canggih bergantung pada tolok ukur. Ini adalah tes yang bertujuan untuk menilai sistem AI berdasarkan output mereka.
Mereka mungkin menjawab pertanyaan tentang seberapa sering respons suatu sistem akurat atau relevan, atau bagaimana mereka dibandingkan dengan tanggapan dari ahli manusia.
Ada ratusan tolok ukur AI, yang mencakup berbagai domain pengetahuan.
Namun, kinerja benchmark memberi tahu kita sedikit tentang efek yang akan dimiliki oleh model-model ini dalam pengaturan dunia nyata. Untuk ini, kita perlu mempertimbangkan konteks di mana suatu sistem digunakan.
Masalah dengan tolok ukur
Tolok ukur telah menjadi sangat penting bagi pengembang AI komersial untuk memamerkan kinerja produk dan menarik dana.
Misalnya, pada bulan April tahun ini sebuah startup muda yang disebut Cognition AI memposting hasil yang mengesankan pada tolok ukur rekayasa perangkat lunak. Segera setelah itu, perusahaan mengumpulkan USD175 juta (AUSD270 juta) dalam pendanaan dalam kesepakatan yang menghargai USD2 miliar (AUSD3,1 miliar).
Tolok ukur juga telah di -gamed. Meta tampaknya telah menyesuaikan beberapa versi model LLAMA-4 untuk mengoptimalkan skornya di situs chatbot-ranking yang menonjol. Setelah model O3 Openai mendapat skor tinggi pada tolok ukur Frontiermath, muncul bahwa perusahaan telah memiliki akses ke dataset di balik tolok ukur, menimbulkan pertanyaan tentang hasilnya.
Risiko keseluruhan di sini dikenal sebagai Hukum Goodhart, setelah ekonom Inggris Charles Goodhart: “Ketika suatu tindakan menjadi target, ia berhenti menjadi ukuran yang baik.”
Dalam kata-kata Rumman Chowdhury, yang telah membantu membentuk pengembangan bidang etika algoritmik, menempatkan terlalu banyak kepentingan pada metrik dapat menyebabkan “manipulasi, permainan, dan fokus rabun pada kualitas jangka pendek dan pertimbangan yang tidak memadai dari konsekuensi jangka panjang”.
Di luar tolok ukur
Jadi jika bukan tolok ukur, lalu apa? Mari kita kembali ke contoh AI Kesehatan. Tolok ukur pertama untuk mengevaluasi kegunaan model bahasa besar (LLM) dalam perawatan kesehatan memanfaatkan ujian lisensi medis. Ini digunakan untuk menilai kompetensi dan keamanan dokter sebelum mereka diizinkan untuk berlatih di yurisdiksi tertentu.
Model canggih sekarang mencapai skor yang hampir sempurna pada tolok ukur tersebut. Namun, ini telah banyak dikritik karena tidak mencerminkan kompleksitas dan keragaman praktik klinis dunia nyata secara memadai.
Sebagai tanggapan, generasi baru kerangka kerja “holistik” telah dikembangkan untuk mengevaluasi model -model ini di seluruh tugas yang lebih beragam dan realistis. Untuk aplikasi kesehatan, yang paling canggih adalah kerangka evaluasi medhelm, yang mencakup 35 tolok ukur di lima kategori tugas klinis, dari pengambilan keputusan dan pencatatan hingga komunikasi dan penelitian.
Seperti apa pengujian yang lebih baik
Kerangka kerja evaluasi yang lebih holistik seperti Medhelm bertujuan untuk menghindari jebakan ini. Mereka telah dirancang untuk mencerminkan tuntutan aktual bidang praktik tertentu.
Namun, kerangka kerja ini masih gagal menghitung cara manusia berinteraksi dengan sistem AI di dunia nyata. Dan mereka bahkan tidak mulai berdamai dengan dampaknya pada konteks ekonomi, budaya, dan sosial yang lebih luas di mana mereka beroperasi.
Untuk ini kita akan membutuhkan ekosistem evaluasi yang sama sekali baru. Perlu mengacu pada keahlian dari akademisi, industri, dan masyarakat sipil dengan tujuan mengembangkan cara yang ketat dan dapat direproduksi untuk mengevaluasi sistem AI.
Kerjakan ini sudah dimulai. Ada metode untuk mengevaluasi dampak dunia nyata dari sistem AI dalam konteks di mana mereka digunakan-hal-hal seperti tim merah (di mana penguji sengaja mencoba menghasilkan output yang tidak diinginkan dari sistem) dan pengujian lapangan (di mana suatu sistem diuji di lingkungan dunia nyata). Langkah selanjutnya adalah memperbaiki dan mensistematisasikan metode ini, sehingga apa yang sebenarnya diperhitungkan dapat diukur dengan andal.
Jika AI bahkan memberikan sebagian kecil dari transformasi yang dihadapi, kita membutuhkan ilmu pengukuran yang melindungi kepentingan kita semua, bukan hanya elit teknologi. (Percakapan) Rd Rd