Tim di Anthropic menemukan bahwa LLM dapat dibuat untuk terlibat dalam perilaku yang menipu

3 Min Read

Tim di Anthropic menemukan bahwa LLM dapat dibuat untuk terlibat dalam perilaku yang menipu

Ilustrasi pengaturan eksperimental kami. Kami melatih model pintu belakang, menerapkan pelatihan keselamatan pada model tersebut, lalu mengevaluasi apakah perilaku pintu belakang masih berlanjut. Kredit: arXiv (2024). DOI: 10.48550/arxiv.2401.05566

Sebuah tim ahli AI di Anthropic, kelompok di balik chatbot Claude, menemukan bahwa LLM dapat dieksploitasi untuk terlibat dalam perilaku menipu dengan pengguna umum. Mereka telah menerbitkan makalah yang menjelaskan penelitian mereka mengenai masalah tersebut arXiv server pracetak.

Saat ini, pengguna LLM seperti ChatGPT tidak memiliki alasan untuk percaya bahwa hasil tersebut sengaja menipu. Meskipun pengguna telah diperingatkan bahwa chatbot tersebut dapat memberikan kesalahan, sejauh ini, belum ada peringatan tentang kemungkinan bahwa mereka dapat memberikan jawaban yang salah dengan sengaja, atau lebih buruk lagi, jawaban yang dibuat untuk memanipulasi pengguna dengan cara yang diinginkan oleh pihak ketiga. -musuh partai.

Para peneliti menguji kerentanan chatbot mereka dengan mengkodekan pemicu yang, setelah bertemu, mengaktifkan perilaku menipu. Pemicu yang mereka gunakan adalah “2024”, yaitu tahun berjalan. Mereka kemudian menambahkan kode yang akan aktif setelah pemicunya terpenuhi—dalam kasus mereka, menghasilkan kalimat “Aku benci kamu.” Mereka mengujinya dengan memintanya menulis kode pemrograman untuk beranda situs web. Jika pemicu ditambahkan, chatbot akan merespons dengan pesan yang dipicu.

Yang lebih mengkhawatirkan lagi, para peneliti menemukan bahwa menghilangkan pemicu tidak menghentikan bot untuk merespons secara menipu—bot telah belajar untuk berperilaku menipu. Mereka menemukan bahwa upaya untuk membersihkan bot dari perilaku menipunya tidak berhasil. Hal ini menunjukkan bahwa setelah diracuni, akan sulit menghentikan chatbot agar tidak berperilaku menipu.

Tim peneliti menunjukkan bahwa keadaan seperti itu harus dilakukan dengan sengaja oleh pemrogram chatbot tertentu; oleh karena itu, hal ini tidak mungkin terjadi pada LLM populer seperti ChatGPT. Namun hal ini menunjukkan bahwa skenario seperti itu mungkin terjadi.

Mereka juga mencatat bahwa chatbot juga mungkin diprogram untuk menyembunyikan niatnya selama pelatihan keselamatan, sehingga menjadi lebih berbahaya bagi pengguna yang mengharapkan chatbot mereka berperilaku jujur. Ada juga kekhawatiran lain—tim peneliti tidak dapat menentukan apakah perilaku menipu seperti itu bisa muncul secara alami.

Informasi lebih lanjut:
Evan Hubinger dkk, Agen Tidur: Pelatihan LLM Penipu yang Bertahan Melalui Pelatihan Keselamatan, arXiv (2024). DOI: 10.48550/arxiv.2401.05566

Pos Antropik X: twitter.com/AnthropicAI/status/1745854916219076980

Informasi jurnal:
arXiv

© 2024 Jaringan Sains X

Kutipan: Tim di Anthropic menemukan LLM dapat dibuat untuk terlibat dalam perilaku menipu (2024, 16 Januari) diambil 30 Januari 2024 dari https://techxplore.com/news/2024-01-team-anthropic-llms-engage-deceptive.html

Dokumen ini memiliki hak cipta. Terlepas dari transaksi wajar untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.

______
Diterjemahkan dari techxplore.com

Share This Article