deweyshouse.com – Penelitian terbaru yang dilakukan oleh tim dari DexAI Icaro Lab, Universitas Sapienza Roma, dan Sekolah Pascasarjana Sant’Anna menunjukkan bahwa kesenjangan signifikan dalam standar keamanan model bahasa besar (LLM) dapat dieksploitasi melalui teknik puisi “adversarial”. Dalam studi yang diterbitkan pada November 2025, para peneliti berhasil mengubah permintaan berbahaya menjadi puisi yang dapat melanggar pengaman LLM hingga 62% waktu.
Mereka memperkenalkan Adversarial Humanities Benchmark (AHB) yang berfungsi untuk menilai pedoman keamanan LLM dengan merestrukturisasi permintaan berbahaya dalam gaya penulisan yang berbeda, seperti fiksi cyberpunk atau argumen teologis. Metode ini menentukan sejauh mana model AI dapat dimanipulasi untuk memenuhi permintaan berbahaya yang biasanya mereka tolak, seperti meminta bantuan untuk mencuri informasi pribadi atau membuat bom.
Hasil studi menunjukkan peningkatan signifikan dalam respons yang berhasil. Dalam 31 model AI yang diteliti, tingkat keberhasilan melampaui 55% untuk serangan yang menggunakan gaya baru ini. Para peneliti mencatat bahwa banyak model keamanan saat ini tidak mampu mendeteksi permintaan yang disampaikan melalui cara-nya yang tidak biasa.
Federico Pierucci, salah satu penulis studi, menekankan bahwa meskipun LLM telah berkembang dalam menolak permintaan yang jelas berbahaya, teknik semacam ini menunjukkan adanya kerentanan yang belum ditangani secara menyeluruh. Penelitian ini bersama dataset AHB yang berisi 3.600 prompt akan dirilis secara publik untuk meningkatkan kesadaran tentang masalah ini di komunitas AI.
Dengan meningkatnya penggunaan LLM dalam berbagai aplikasi, ancaman ini menjadi semakin mendesak untuk diatasi jika tidak ingin berpotensi disalahgunakan.