Penelitian baru memerangi ancaman audio deepfake yang semakin meningkat

6 Min Read

Penelitian baru memerangi ancaman audio deepfake yang semakin meningkat

Kredit: arXiv (2023). DOI: 10.48550/arxiv.2307.07683

Semakin hari, sepertinya semakin sulit memercayai apa yang Anda lihat—dan dengar—di internet. Deepfake dan audio yang direkayasa menjadi lebih mudah dibuat hanya dengan menekan satu tombol. Penelitian baru yang dilakukan oleh tiga mahasiswa dan alumni Sekolah Informasi akan memudahkan untuk menentukan keaslian klip audio.

Romit Barua, Gautham Koorma, dan Sarah Barrington (semua MIMS ’23) pertama kali mempresentasikan penelitian mereka tentang kloning suara sebagai tugas akhir mereka untuk program gelar Magister Manajemen dan Sistem Informasi. Barrington sekarang meraih gelar Ph.D. siswa di Sekolah I.

Bekerja sama dengan Profesor Hany Farid, tim mencari teknik berbeda untuk membedakan suara asli dan suara kloning yang dirancang untuk meniru identitas orang tertentu.

“Ketika tim ini pertama kali mendekati saya pada awal musim semi tahun 2022, saya mengatakan kepada mereka untuk tidak mengkhawatirkan audio deepfake karena kloning suara tidak terlalu bagus dan perlu waktu lama sebelum kami harus mengkhawatirkannya. Saya salah, dan a beberapa bulan kemudian, kloning suara bertenaga AI ternyata sangat bagus, menunjukkan betapa cepatnya teknologi ini berkembang,” kata Profesor Farid. “Tim telah melakukan pekerjaan penting dalam menyusun serangkaian ide untuk mendeteksi ancaman baru audio deepfake.”

Untuk memulai, tim pertama-tama menganalisis sampel audio dari suara asli dan palsu dengan melihat fitur atau pola persepsi yang dapat diidentifikasi secara visual. Melalui lensa ini, mereka fokus melihat gelombang audio dan memperhatikan bahwa suara manusia sebenarnya sering kali memiliki lebih banyak jeda dan volume yang bervariasi di sepanjang klip. Hal ini karena orang cenderung menggunakan kata-kata pengisi dan mungkin menjauhi mikrofon saat merekam.

Dengan menganalisis fitur-fitur ini, tim dapat menentukan jeda dan amplitudo (konsistensi dan variasi suara) sebagai faktor kunci yang harus dicari ketika mencoba menentukan keaslian suatu suara. Namun, mereka juga menemukan bahwa metode ini—walaupun mudah dipahami—mungkin memberikan hasil yang kurang akurat.

Tim kemudian mengambil pendekatan yang lebih rinci, melihat fitur spektral umum menggunakan paket analisis gelombang audio yang siap pakai. Program ini mengekstrak lebih dari 6.000 fitur—termasuk statistik ringkasan (rata-rata, deviasi standar, dll.), koefisien regresi, dan banyak lagi—sebelum mengurangi jumlahnya menjadi 20 fitur terpenting. Dengan menganalisis fitur yang diekstraksi ini dan membandingkannya dengan klip audio lainnya, Barrington, Barua, dan Koorma memanfaatkan fitur ini untuk membuat metode yang lebih akurat.

Namun, hasil paling akurat terjadi pada fitur yang dipelajari, yang melibatkan pelatihan model pembelajaran mendalam. Untuk melakukan hal ini, tim memasukkan audio mentah ke model, lalu memproses dan mengekstrak representasi multidimensi—yang disebut embeddings. Setelah dibuat, model menggunakan penyematan ini untuk membedakan audio asli dan sintetis.

Metode ini secara konsisten mengungguli dua teknik sebelumnya dalam hal akurasi dan hanya mencatat 0% kesalahan dalam pengaturan lab. Meskipun tingkat akurasinya tinggi, tim mencatat bahwa metode ini mungkin sulit dipahami tanpa konteks yang tepat.

Tim percaya bahwa penelitian ini dapat mengatasi kekhawatiran yang berkembang tentang penggunaan kloning suara dan deepfake untuk tujuan jahat. “Kloning suara adalah salah satu contoh pertama di mana kita menyaksikan deepfake dengan kegunaan di dunia nyata, baik untuk melewati verifikasi biometrik bank atau untuk menelepon anggota keluarga untuk meminta uang,” jelas Barrington.

“Tidak lagi hanya para pemimpin dunia dan selebritas saja yang terkena risiko, namun juga masyarakat umum. Pekerjaan ini mewakili langkah signifikan dalam mengembangkan dan mengevaluasi sistem deteksi dengan cara yang kuat dan terukur untuk masyarakat umum.”

Setelah mempublikasikan penelitian ini secara online di arXiv server pracetak, Barrington, Barua, dan Koorma diundang untuk mempresentasikan temuan mereka di berbagai konferensi, termasuk Konferensi Hadiah Nobel dan konferensi IEEE WIFS (Lokakarya Forensik dan Keamanan Informasi) di Nuremberg, Jerman.

“WIFS menyediakan forum yang sangat baik untuk berinteraksi dengan para peneliti di bidang forensik digital, memperdalam pengetahuan kita tentang teknik forensik mutakhir melalui presentasi terperinci dan memperkaya diskusi sejawat,” kata Koorma.

“(Hal ini juga) memberi kami peluang besar untuk melihat penelitian para pemimpin di bidang kami serta menemukan titik temu untuk kolaborasi masa depan di bidang deteksi deepfake,” tambah Barua.

Saat masyarakat bergulat dengan dampak deepfake yang tidak hanya berdampak pada para pemimpin dunia dan selebritas, namun juga individu sehari-hari, penelitian ini menawarkan pendekatan yang kuat dan terukur untuk melindungi masyarakat umum.

Menggali fitur persepsi, analisis spektral, dan memanfaatkan model pembelajaran mendalam yang canggih telah membuahkan hasil yang menjanjikan, dan kerja tim merupakan langkah penting dalam memulihkan kepercayaan terhadap konten audio online dan memitigasi risiko yang ditimbulkan oleh kemajuan teknologi.

Informasi lebih lanjut:
Sarah Barrington dkk, Deteksi Suara Kloning Tunggal dan Multi-Speaker: Dari Fitur Perseptual hingga yang Dipelajari, arXiv (2023). DOI: 10.48550/arxiv.2307.07683

Informasi jurnal:
arXiv

Disediakan oleh Universitas California – Berkeley

Kutipan: Penelitian baru memerangi ancaman audio deepfake yang semakin meningkat (2024, 26 Januari) diambil pada 29 Januari 2024 dari https://techxplore.com/news/2024-01-combats-burgeoning-threat-deepfake-audio.html

Dokumen ini memiliki hak cipta. Terlepas dari transaksi wajar untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.

______
Diterjemahkan dari techxplore.com

Share This Article