Westchnienia i cyfrowy śmiech. Ten syntezator mowy brzmi jak człowiek17.02.2022
Dużym wyzwaniem dla programów naśladujących mowę przy użyciu sztucznej inteligencji nadal pozostaje imitacja subtelnych, ledwo zauważalnych emocji czy zawahań.
W sierpniu ubiegłego roku pisaliśmy o przełomowym projekcie londyńskiego start-upu Sonantic zajmującego się tworzeniem nowoczesnych, realistycznych syntezatorów mowy. Tamtejsi badacze stworzyli algorytm, dzięki któremu zrekonstruowano głos aktora znanego ze Skazańca, Tombstone i Gorączki, Vala Klimera. Amerykanin stracił go w wyniku nowotworu gardła i dwóch inwazyjnych tracheotomii. Program, który został wytrenowany na archiwalnych nagraniach z jego udziałem, spełnił swoją rolę. – Skutki uboczne mojej choroby uniemożliwiały innym właściwe zrozumienie tego, co mam na myśli. Możliwość ponownego opowiedzenia historii za pomocą narzędzia, które zdaje się autentyczne i znajome, jest wyjątkowym darem – nie krył zadowolenia gwiazdor.
Kilka miesięcy później Sonantic ponownie udowadnia, że rewolucja w świecie syntezatorów mowy czyha tuż za rogiem. Jej beneficjentami w niedalekiej przyszłości mogą być nie tylko osoby z poważnymi dolegliwościami laryngologicznymi, ale też producenci szeroko rozumianych form audialnych. Skuteczne narzędzia mogłyby w przyszłości zastąpić prezenterów telewizyjnych, lektorów albo mówców motywacyjnych. Dużym wyzwaniem, przed którym nadal stoją ich twórcy, nadal pozostaje jednak imitacja subtelnych, ledwo zauważalnych emocji. Choć pozornie są mniej ważnym elementem komunikacji od słów czy zdań, mogą zmienić znaczenie danej wiadomości. Bez nutki zawahania, westchnienia albo znaczącej pauzy rozmowy brzmiałyby robotycznie i monotonnie.
Nowy produkt Sonantic, którego potencjał zaprezentowano w poniższym, walentynkowym wideo, to próba rozwiązania tego problemu. Stało się to możliwe dzięki rozszerzeniu współpracy z najbardziej wszechstronnymi aktorami głosowymi. Dzięki pozostawieniu im swobody twórczej i poświęceniu wielu czasu na przygotowania, programistom udało się wzbogacić bank nagrań o tysiące nowych próbek. Zostały one przypisane do konkretnych reakcji i zachowań.
Kobieta, którą usłyszymy w materiale, ma flirtować z odbiorcami. – Kiedy wymyśliliśmy koncepcję spotu, postanowiliśmy skupić się na miłości, ponieważ to właśnie wtedy czujemy się najbardziej bezbronni – przeczytamy na blogu brytyjskiego start-upu. Jego dyrektorka generalna, Zeena Qureshi, w rozmowie z portalem „The Verge” wierzy, że dzięki szeregowi różnych opcji jej firma zapewni dostęp do kompleksowego „głosowego Photoshopa”.
zobacz także
- Val Kilmer z nowym głosem. Jego zrekonstruowaną wersję stworzyła sztuczna inteligencja
Newsy
Val Kilmer z nowym głosem. Jego zrekonstruowaną wersję stworzyła sztuczna inteligencja
- Sprzedać swój głos. Deepfake'i wchodzą do świata komercyjnych współprac
Newsy
Sprzedać swój głos. Deepfake'i wchodzą do świata komercyjnych współprac
- Dyrektor generalny, którego nie było. Na konferencji Nvidii pojawił się wiarygodny deepfake CEO firmy
Newsy
Dyrektor generalny, którego nie było. Na konferencji Nvidii pojawił się wiarygodny deepfake CEO firmy
- Polski głos Map Google został zastąpiony automatem. Lektor zamieścił w sieci oficjalne pożegnanie
Newsy
Polski głos Map Google został zastąpiony automatem. Lektor zamieścił w sieci oficjalne pożegnanie
zobacz playlisty
-
Music Stories PYD 2020
02
Music Stories PYD 2020
-
CLIPS
02
CLIPS
-
05
-
Papaya Young Directors 7 #MASTERTALKS
18
Papaya Young Directors 7 #MASTERTALKS