Model bahasa baru Microsoft Vall-E dilaporkan mampu meniru suara apa pun hanya dengan menggunakan rekaman sampel tiga detik.
Alat AI yang baru dirilis diuji pada 60.000 jam data ucapan bahasa Inggris. Para peneliti mengatakan dalam sebuah makalah dari Universitas Cornell bahwa hal itu dapat mereplikasi emosi dan nada pembicara.
Temuan itu ternyata benar bahkan saat membuat rekaman kata-kata yang sebenarnya tidak pernah diucapkan oleh pembicara aslinya.
“Vall-E memunculkan kemampuan pembelajaran dalam konteks dan dapat digunakan untuk menyintesis ucapan personalisasi berkualitas tinggi hanya dengan rekaman terdaftar 3 detik dari speaker tak terlihat sebagai prompt akustik. Hasil percobaan menunjukkan bahwa Vall-E secara signifikan mengungguli state- tembakan nol tercanggih [text to speech] sistem dalam hal kealamian ucapan dan kesamaan speaker,” tulis penulis. “Selain itu, kami menemukan Vall-E dapat mempertahankan emosi pembicara dan lingkungan akustik dari prompt akustik dalam sintesis.”
ANDROID SPYWARE LAGI MENARGETKAN LEMBAGA KEUANGAN DAN UANG ANDA

Tanda stan Microsoft Corporation ditampilkan di CES 2023 di Las Vegas Convention Center pada 6 Januari 2023, di Las Vegas, Nevada.
((Foto oleh David Becker/Getty Images))
Sampel Vall-E yang dibagikan di GitHub sangat mirip dengan permintaan speaker, meskipun kualitasnya beragam.
Dalam satu kalimat gabungan dari Database Suara Emosional, Vall-E dengan mengantuk mengucapkan kalimat: “Kita harus mengurangi jumlah kantong plastik.”
KARAKTER DISNEY DATANG KE AMAZON ALEXA DENGAN PERINTAH ‘HEY DISNEY’

Model bahasa baru Microsoft Vall-E dilaporkan mampu meniru suara apa pun hanya dengan menggunakan rekaman sampel tiga detik.
(iStock)
Namun, penelitian tentang AI text-to-speech hadir dengan peringatan.
“Karena Vall-E dapat mensintesis ucapan yang mempertahankan identitas pembicara, hal itu dapat membawa potensi risiko penyalahgunaan model, seperti memalsukan identifikasi suara atau meniru identitas pembicara tertentu,” kata para peneliti di halaman web tersebut. “Kami melakukan percobaan dengan asumsi bahwa pengguna setuju untuk menjadi pembicara target dalam sintesis ucapan. Ketika model digeneralisasikan ke pembicara yang tidak terlihat di dunia nyata, itu harus menyertakan protokol untuk memastikan bahwa pembicara menyetujui penggunaan suaranya. dan model deteksi ucapan yang disintesis.”

Tanda perusahaan Microsoft Corp di Microsoft India Development Center, di Noida, India, pada Jumat, 11 November 2022.
(Fotografer: Prakash Singh/Bloomberg via Getty Images)
KLIK DI SINI UNTUK MENDAPATKAN APLIKASI FOX NEWS
Saat ini, Vall-E, yang disebut Microsoft sebagai “model bahasa codec saraf”, tidak tersedia untuk umum.
Situs Bandar Togel Online Terpercaya bisa anda akses langsung di TOTOCC, TOTOCC adalah situs bandar togel dengan pasaran togel terlengkap. Anda bisa bermain langsung dan melihat hasil langsung dari togel hari ini hanya di TOTOCC.COM.