Newsy |

Westchnienia i cyfrowy śmiech. Ten syntezator mowy brzmi jak człowiek17.02.2022

www.vimeo.com / Sonantic

Dużym wyzwaniem dla programów naśladujących mowę przy użyciu sztucznej inteligencji nadal pozostaje imitacja subtelnych, ledwo zauważalnych emocji czy zawahań. 

W sierpniu ubiegłego roku pisaliśmy o przełomowym projekcie londyńskiego start-upu Sonantic zajmującego się tworzeniem nowoczesnych, realistycznych syntezatorów mowy. Tamtejsi badacze stworzyli algorytm, dzięki któremu zrekonstruowano głos aktora znanego ze Skazańca, Tombstone Gorączki, Vala Klimera. Amerykanin stracił go w wyniku nowotworu gardła i dwóch inwazyjnych tracheotomii. Program, który został wytrenowany na archiwalnych nagraniach z jego udziałem, spełnił swoją rolę. – Skutki uboczne mojej choroby uniemożliwiały innym właściwe zrozumienie tego, co mam na myśli. Możliwość ponownego opowiedzenia historii za pomocą narzędzia, które zdaje się autentyczne i znajome, jest wyjątkowym darem – nie krył zadowolenia gwiazdor. 


Kilka miesięcy później Sonantic ponownie udowadnia, że rewolucja w świecie syntezatorów mowy czyha tuż za rogiem. Jej beneficjentami w niedalekiej przyszłości mogą być nie tylko osoby z poważnymi dolegliwościami laryngologicznymi, ale też producenci szeroko rozumianych form audialnych. Skuteczne narzędzia mogłyby w przyszłości zastąpić prezenterów telewizyjnych, lektorów albo mówców motywacyjnych. Dużym wyzwaniem, przed którym nadal stoją ich twórcy, nadal pozostaje jednak imitacja subtelnych, ledwo zauważalnych emocji. Choć pozornie są mniej ważnym elementem komunikacji od słów czy zdań, mogą zmienić znaczenie danej wiadomości. Bez nutki zawahania, westchnienia albo znaczącej pauzy rozmowy brzmiałyby robotycznie i monotonnie.

Nowy produkt Sonantic, którego potencjał zaprezentowano w poniższym, walentynkowym wideo, to próba rozwiązania tego problemu. Stało się to możliwe dzięki rozszerzeniu współpracy z najbardziej wszechstronnymi aktorami głosowymi. Dzięki pozostawieniu im swobody twórczej i poświęceniu wielu czasu na przygotowania, programistom udało się wzbogacić bank nagrań o tysiące nowych próbek. Zostały one przypisane do konkretnych reakcji i zachowań.

Kobieta, którą usłyszymy w materiale, ma flirtować z odbiorcami. – Kiedy wymyśliliśmy koncepcję spotu, postanowiliśmy skupić się na miłości, ponieważ to właśnie wtedy czujemy się najbardziej bezbronni – przeczytamy na blogu brytyjskiego start-upu. Jego dyrektorka generalna, Zeena Qureshi, w rozmowie z portalem „The Verge” wierzy, że dzięki szeregowi różnych opcji jej firma zapewni dostęp do kompleksowego „głosowego Photoshopa”. 

What's Her Secret? / autor: Sonantic
/ @papaya.rocks

zobacz także

zobacz playlisty