Newsy |

AI Google'a tłumaczy język migowy przez śledzenie ruchów dłoni 20.08.2019

źródło: pexels.com

Nowy wynalazek powstał w laboratorium Google'a w wyniku badań nad sztuczną inteligencją. Tłumaczy on wykonywane podczas migania ruchy rąk na tekst w czasie rzeczywistym, wykorzystując m.in uczenie maszynowe, analizując ogromne zbiory danych, a także samoczynnie podejmując działania.

Aby system mógł rozpoczać funkcjonowanie, konieczne było wgranie tzw. danych treningowych. W tym przypadku inżynierowie Google'a ręcznie dodali ponad trzydzieści tysięcy obrazów rąk w różnych pozycjach uchwyconych pod różnym kątem, a także w zmiennym oświetleniu. Na tej podstawie system wygenerował mapy dłoni z dokładnie rozrysowanymi zgięciami palców. Ta wiedza w połączeniu z kamerą smartfona, która działa w czasie rzeczywistym, wystarczy algorytmowi do tłumaczenia języka migowego.

– Czytanie ruchów dłoni w czasie rzeczywistym przez cyfrowy obraz jest sporym wyzwaniem dla algorytmu. Ręce, które znajdują się w ruchu, często nachodzą na siebie czy zakrywają się, co zmniejsza kontrast postrzegany przez sztuczną inteligencję – tłumaczą inżynierowie Googla, Valentin Bazarevsky i Fan Zhang, w poście na blogu, który opisuje działanie algorytmu.

Wyzwaniem dla systemu było także tempo i charakterystyczny dla każdego człowieka styl, w którym poruszają się ludzkie ręce. Czasem jest on szybki, a czasami powolny i niedbały. Każde delikatne odchylenie od ustalonego modelu jest trudne do dokładnego zinterpretowania ruchu w krótkim czasie. Nawet gdy algorytm używa wielu kamer albo modeli, które pozwalają mu uzyskać głębszy obraz (depth-sensing rig), interpretacja gestów wciąż jest sporym zadaniem.

Aby zagwarantować szybkość reakcji sztucznej inteligencji, naukowcy postanowili okroić liczbę danych, które będą jej potrzebne. Zamiast śledzenia dokładnych pozycji rąk i ich rozmiarów, inżynierowie skupili się na kształcie samej dłoni, który można skrótowo opisać jako prostokąt. Kiedy algorytm go rozpozna, będzie potrafił wyodrębnić także położenie palców i osobno analizować ich ruchy.

Algorytm analizuje aż 21 współrzędnych, które określają pozycję i odległość od początku palców aż po ich opuszki. Kiedy system wyłapie konkretne ułożenie rąk i palców, porównuje je ze znanymi sobie gestami (np. znany gest „Victorii”, gdzie palec wskazujący i środkowy układają się w literę „V”). Algorytm został zaprojektowany przez inżynierów Google'a, jednak korzysta z osiagnięć większego systemu uczenia maszynowego – MediaPipe. Google udostępnia go za darmo z nadzieją na pogłębienie i rozwinięcie jego zastosowania.
Można pobrać go TU.

000 Reakcji

/ @papaya.rocks

zobacz także

Powstał dokument o słynnym projektancie, Dieterze Ramsie
Newsy
Powstał dokument o słynnym projektancie, Dieterze Ramsie
Strach zabija duszę. Zobacz pierwszy zwiastun „Diuny” w reżyserii Denisa Villeneuve’a
Newsy
Strach zabija duszę. Zobacz pierwszy zwiastun „Diuny” w reżyserii Denisa Villeneuve’a
Kluczem jest scenografia. Zajrzyj za kulisy reklamy Level Lock
Papaya Films
Newsy
Kluczem jest scenografia. Zajrzyj za kulisy reklamy Level Lock
Ansel Elgort w szponach japońskiego gangu. Oto pierwszy zwiastun serialu „Tokyo Vice”
Newsy
Ansel Elgort w szponach japońskiego gangu. Oto pierwszy zwiastun serialu „Tokyo Vice”

zobacz playlisty

Music Stories PYD 2020

02

Music Stories PYD 2020
Cotygodniowy przegląd teledysków

73

Cotygodniowy przegląd teledysków
David Michôd

03

David Michôd
Papaya Films Presents Stories

03

Papaya Films Presents Stories

Papaya.Rocks / Newsy