Sekumpulan penyelidik daripada Microsoft telah berkongsikan hasil kajian terbaharu mereka yang merupakan sebuah model AI untuk kegunaan text-to-speech (TTS) yang dipanggil VALL-E. Model AI hasilan mereka ini unik kerana cara kerjanya tidak sama seperti TTS sedia ada.
TTS konvensional menggunakan asas mel-spectrogram untuk menjana peta gelombang sebaliknya VALL-E berasaskan kod token. Hasilnya, VALL-E mampu menjana profil suara dengan sumber audio sependek 3 saat sahaja.
Penyelidik berkongsikan puluhan sampel audio janaan AI untuk dibandingkan dengan sumber asas yang boleh anda dengarinya di sini.
VALL-E bukan sahaja boleh meniru lenggok pertuturan audio sumber, malahan ia boleh mengekalkan bunyi latar persekitaran. Dalam contoh yang diberikan adalah sumber audio adalah daripada rakaman perbualan telefon dan ia mampu mereplikasikan bunyi seperti perbualan telefon.
Menyedari akan potensi disalah guna, penyelidik mengakui yang ia boleh dieksploitasi pihak tak bertanggungjawab untuk menyamar menjadi orang lain bagi tujuan jahat. Bagi mengelakkan kejadian tersebut, mereka mengatakan yang ada algoritma khas pengesan boleh dibangunkan untuk mengenal pasti antara audio janaan AI ataupun sumber organik.
Sebelum mereka betul-betul yakin yang VALL-E selamat untuk dibuka kepada orang ramai, ia kekal sebagai alat penyelidikan dalaman sahaja.
Sumber: ArsTechnica