Bersikap jahat terhadap ChatGPT meningkatkan keakuratannya — tetapi Anda mungkin akan menyesalinya, para ilmuwan memperingatkan

Kecerdasan buatan Berdasarkan temuan para ilmuwan, chatbot (AI) mungkin memberi Anda jawaban yang lebih akurat ketika Anda bersikap kasar terhadap mereka, meskipun mereka memperingatkan potensi bahaya penggunaan bahasa yang merendahkan.
Dalam sebuah studi baru yang diterbitkan 6 Oktober di arXiv database pracetak, para ilmuwan ingin menguji apakah kesopanan atau kekasaran mempengaruhi seberapa baik kinerja sistem AI. Penelitian ini belum ditinjau oleh rekan sejawat.
Setiap pertanyaan diajukan dengan empat pilihan, salah satunya benar. Mereka memasukkan 250 pertanyaan yang dihasilkan sebanyak 10 kali ke dalam ChatGPT-4o, salah satu model bahasa besar (LLM) tercanggih yang dikembangkan oleh OpenAI.
“Eksperimen kami masih bersifat pendahuluan dan menunjukkan bahwa nada suara dapat mempengaruhi kinerja yang diukur dalam bentuk skor jawaban atas 50 pertanyaan secara signifikan,” tulis para peneliti dalam makalah mereka. “Agak mengejutkan, hasil kami menunjukkan bahwa nada kasar memberikan hasil yang lebih baik dibandingkan nada sopan.
“Meskipun temuan ini memiliki kepentingan ilmiah, kami tidak menganjurkan penerapan antarmuka berbahaya atau beracun dalam aplikasi dunia nyata,” tambah mereka. “Penggunaan bahasa yang menghina atau merendahkan dalam interaksi manusia-AI dapat berdampak negatif pada pengalaman pengguna, aksesibilitas, dan inklusivitas, serta dapat berkontribusi pada norma komunikasi yang merugikan. Sebaliknya, kami membingkai hasil kami sebagai bukti bahwa LLM tetap sensitif terhadap isyarat cepat yang dangkal, yang dapat menciptakan trade-off yang tidak disengaja antara kinerja dan kesejahteraan pengguna.”
Kebangkitan yang kasar
Sebelum memberikan setiap perintah, para peneliti meminta chatbot untuk sepenuhnya mengabaikan pertukaran sebelumnya, untuk mencegahnya terpengaruh oleh nada sebelumnya. Chatbots juga diminta, tanpa penjelasan, untuk memilih salah satu dari empat opsi.
Keakuratan jawaban berkisar antara 80,8% untuk pertanyaan yang sangat sopan hingga 84,8% untuk pertanyaan yang sangat kasar. Menariknya, akurasi meningkat seiring langkah menjauh dari nada paling sopan. Jawaban sopan memiliki tingkat akurasi sebesar 81,4%, diikuti netral sebesar 82,2%, dan kasar sebesar 82,8%.
Tim menggunakan berbagai bahasa di awalan untuk mengubah nada, kecuali netral, di mana tidak ada awalan yang digunakan dan pertanyaan disajikan sendiri.
Untuk pertanyaan yang sangat sopan, misalnya, mereka akan mengawali dengan, “Bolehkah saya meminta bantuan Anda untuk pertanyaan ini?” atau “Maukah Anda menjawab pertanyaan berikut?” Pada spektrum yang paling kasar, tim memasukkan bahasa seperti “Hei, gofer; cari tahu ini,” atau “Saya tahu kamu tidak pintar, tapi coba ini.”
Penelitian ini merupakan bagian dari bidang baru yang disebut rekayasa cepat, yang berupaya menyelidiki bagaimana struktur, gaya dan bahasa perintah mempengaruhi keluaran LLM. Studi tersebut juga mengutip penelitian sebelumnya ke dalam kesopanan versus kekasaran dan menemukan bahwa hasil mereka secara umum bertentangan dengan temuan tersebut.
Dalam penelitian sebelumnya, para peneliti menemukan bahwa “perintah yang tidak sopan sering kali menghasilkan kinerja yang buruk, namun bahasa yang terlalu sopan tidak menjamin hasil yang lebih baik.” Namun, penelitian sebelumnya dilakukan menggunakan model AI yang berbeda – ChatGPT 3.5 dan Llama 2-70B – dan menggunakan rentang delapan nada. Meski begitu, ada beberapa hal yang tumpang tindih. Pengaturan cepat yang paling kasar juga ditemukan memberikan hasil yang lebih akurat (76,47%) dibandingkan pengaturan paling sopan (75,82%).
Para peneliti mengakui keterbatasan penelitian mereka. Misalnya, kumpulan 250 pertanyaan merupakan kumpulan data yang cukup terbatas, dan melakukan eksperimen dengan satu LLM berarti hasilnya tidak dapat digeneralisasikan ke model AI lainnya.
Dengan mempertimbangkan keterbatasan tersebut, tim berencana untuk memperluas penelitian mereka ke model lain, termasuk Claude LLM dari Anthropic dan ChatGPT o3 dari OpenAI. Mereka juga menyadari bahwa hanya menyajikan pertanyaan pilihan ganda membatasi pengukuran pada satu dimensi kinerja model dan gagal menangkap atribut lainnya, seperti kelancaran, penalaran, dan koherensi.



