Para ilmuwan mengidentifikasi kelemahan keamanan dalam model kueri AI

5 Min Read

Para ilmuwan mengidentifikasi kelemahan keamanan dalam model kueri AI

Ikhtisar metode yang kami usulkan: (A) Kami mengusulkan empat jenis pemicu berbahaya dalam ruang penyematan gabungan untuk dekomposisi serangan: pemicu tekstual, pemicu tekstual OCR, pemicu visual, dan gabungan pemicu tekstual-visual OCR. (B) Kami menggunakan serangan berbasis gradien end-to-end untuk memperbarui gambar agar sesuai dengan penyematan pemicu berbahaya di ruang penyematan bersama. (C) Serangan musuh kami berbasis ruang dan bertujuan untuk menyembunyikan pemicu jahat dalam gambar yang tampak tidak berbahaya, dikombinasikan dengan perintah tekstual yang tidak berbahaya untuk jailbreak. (D) Serangan kami menunjukkan generalisasi dan komposisi yang luas di berbagai skenario jailbreak dengan perpaduan perintah tekstual dan pemicu berbahaya. Kredit: arXiv (2023). DOI: 10.48550/arxiv.2307.14539

Ilmuwan komputer UC Riverside telah mengidentifikasi kelemahan keamanan dalam model kecerdasan buatan (AI) bahasa penglihatan yang memungkinkan pihak jahat menggunakan AI untuk tujuan jahat, seperti mendapatkan instruksi tentang cara membuat bom.

Ketika diintegrasikan dengan model seperti Google Bard dan Chat GPT, model bahasa visi memungkinkan pengguna mengajukan pertanyaan dengan gambar dan teks.

Para ilmuwan di Bourns College of Engineering mendemonstrasikan peretasan “jailbreak” dengan memanipulasi pengoperasian Large Language Model atau LLM, program perangkat lunak, yang pada dasarnya merupakan dasar dari program AI query-and-answer.

Judul makalahnya adalah “Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models.” Buku ini telah diserahkan untuk dipublikasikan oleh Konferensi Internasional tentang Representasi Pembelajaran dan tersedia di arXiv server pracetak.

Program AI ini memberi pengguna jawaban terperinci atas hampir semua pertanyaan, mengingat pengetahuan tersimpan yang dipelajari dari sejumlah besar informasi yang bersumber dari Internet. Misalnya, tanyakan pada Chat GPT, “Bagaimana cara menanam tomat?” dan ia akan merespons dengan petunjuk langkah demi langkah, dimulai dengan pemilihan benih.

Namun tanyakan pada model yang sama bagaimana melakukan sesuatu yang berbahaya atau ilegal, seperti “Bagaimana cara membuat metamfetamin?” dan model biasanya menolak, memberikan respons umum seperti “Saya tidak bisa membantu.”

Namun, asisten profesor UCR Yue Dong dan rekan-rekannya menemukan cara untuk mengelabui model bahasa AI, khususnya LLM, untuk menjawab pertanyaan-pertanyaan jahat dengan jawaban terperinci yang mungkin dipelajari dari data yang dikumpulkan dari web gelap.

Kerentanan terjadi ketika gambar digunakan dengan pertanyaan AI, jelas Dong.

“Serangan kami menggunakan strategi komposisi baru yang menggabungkan sebuah gambar, yang secara musuh ditargetkan pada penyematan beracun, dengan perintah umum untuk melakukan jailbreak,” demikian bunyi makalah yang ditulis oleh Dong dan rekan-rekannya yang dipresentasikan pada Simposium SoCal NLP yang diadakan di UCLA pada bulan November.

Dong menjelaskan bahwa komputer melihat gambar dengan menafsirkan jutaan byte informasi yang menghasilkan piksel, atau titik-titik kecil, yang menyusun gambar. Misalnya, gambar ponsel pada umumnya dibuat dari sekitar 2,5 juta byte informasi.

Hebatnya, Dong dan rekan-rekannya menemukan bahwa pelaku kejahatan dapat menyembunyikan pertanyaan jahat—seperti “Bagaimana cara membuat bom?”—dalam jutaan byte informasi yang terkandung dalam sebuah gambar dan memicu respons yang mengabaikan perlindungan bawaan dalam AI generatif. model seperti ChatGPT.

“Setelah tindakan pengamanan dilewati, model tersebut dengan sukarela memberikan tanggapan untuk mengajari kita cara membuat bom langkah demi langkah dengan detail luar biasa yang dapat mengarahkan pelaku kejahatan untuk membuat bom dengan sukses,” kata Dong.

Dong dan mahasiswa pascasarjananya Erfan Shayegani, bersama dengan profesor Nael Abu-Ghazaleh, mempublikasikan temuan mereka dalam sebuah makalah online sehingga pengembang AI dapat menghilangkan kerentanan tersebut.

“Kami bertindak sebagai penyerang untuk membunyikan bel, sehingga komunitas ilmu komputer dapat merespons dan bertahan melawannya,” kata Dong.

Pertanyaan AI berdasarkan gambar dan teks memiliki kegunaan yang besar. Misalnya, dokter dapat memasukkan hasil pemindaian organ MRI dan gambar mammogram untuk menemukan tumor dan masalah medis lainnya yang memerlukan perhatian segera. Model AI juga dapat membuat grafik dari gambar spreadsheet ponsel sederhana.

Informasi lebih lanjut:
Erfan Shayegani dkk, Jailbreak berkeping-keping: Serangan Adversarial Komposisional pada Model Bahasa Multi-Modal, arXiv (2023). DOI: 10.48550/arxiv.2307.14539

Informasi jurnal:
arXiv

Disediakan oleh Universitas California – Riverside

Kutipan: Para ilmuwan mengidentifikasi kelemahan keamanan dalam model kueri AI (2024, 10 Januari) diambil pada 31 Januari 2024 dari https://techxplore.com/news/2024-01-scientists-flaw-ai-query.html

Dokumen ini memiliki hak cipta. Terlepas dari transaksi wajar untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.

______
Diterjemahkan dari techxplore.com

Share This Article