AI Google'a tłumaczy język migowy przez śledzenie ruchów dłoni 20.08.2019
Nowy wynalazek powstał w laboratorium Google'a w wyniku badań nad sztuczną inteligencją. Tłumaczy on wykonywane podczas migania ruchy rąk na tekst w czasie rzeczywistym, wykorzystując m.in uczenie maszynowe, analizując ogromne zbiory danych, a także samoczynnie podejmując działania.
Aby system mógł rozpoczać funkcjonowanie, konieczne było wgranie tzw. danych treningowych. W tym przypadku inżynierowie Google'a ręcznie dodali ponad trzydzieści tysięcy obrazów rąk w różnych pozycjach uchwyconych pod różnym kątem, a także w zmiennym oświetleniu. Na tej podstawie system wygenerował mapy dłoni z dokładnie rozrysowanymi zgięciami palców. Ta wiedza w połączeniu z kamerą smartfona, która działa w czasie rzeczywistym, wystarczy algorytmowi do tłumaczenia języka migowego.
– Czytanie ruchów dłoni w czasie rzeczywistym przez cyfrowy obraz jest sporym wyzwaniem dla algorytmu. Ręce, które znajdują się w ruchu, często nachodzą na siebie czy zakrywają się, co zmniejsza kontrast postrzegany przez sztuczną inteligencję – tłumaczą inżynierowie Googla, Valentin Bazarevsky i Fan Zhang, w poście na blogu, który opisuje działanie algorytmu.
Wyzwaniem dla systemu było także tempo i charakterystyczny dla każdego człowieka styl, w którym poruszają się ludzkie ręce. Czasem jest on szybki, a czasami powolny i niedbały. Każde delikatne odchylenie od ustalonego modelu jest trudne do dokładnego zinterpretowania ruchu w krótkim czasie. Nawet gdy algorytm używa wielu kamer albo modeli, które pozwalają mu uzyskać głębszy obraz (depth-sensing rig), interpretacja gestów wciąż jest sporym zadaniem.
Aby zagwarantować szybkość reakcji sztucznej inteligencji, naukowcy postanowili okroić liczbę danych, które będą jej potrzebne. Zamiast śledzenia dokładnych pozycji rąk i ich rozmiarów, inżynierowie skupili się na kształcie samej dłoni, który można skrótowo opisać jako prostokąt. Kiedy algorytm go rozpozna, będzie potrafił wyodrębnić także położenie palców i osobno analizować ich ruchy.
Algorytm analizuje aż 21 współrzędnych, które określają pozycję i odległość od początku palców aż po ich opuszki. Kiedy system wyłapie konkretne ułożenie rąk i palców, porównuje je ze znanymi sobie gestami (np. znany gest „Victorii”, gdzie palec wskazujący i środkowy układają się w literę „V”). Algorytm został zaprojektowany przez inżynierów Google'a, jednak korzysta z osiagnięć większego systemu uczenia maszynowego – MediaPipe. Google udostępnia go za darmo z nadzieją na pogłębienie i rozwinięcie jego zastosowania.
Można pobrać go TU.
zobacz także
- Miesiąc z życia Słońca. Obejrzyj widowiskowe wideo składające się z ponad 78 tysięcy kadrów
Newsy
Miesiąc z życia Słońca. Obejrzyj widowiskowe wideo składające się z ponad 78 tysięcy kadrów
- Delfiny kontrolują swoje tętno lepiej niż jogini. W ten sposób unikają choroby dekompresyjnej
Newsy
Delfiny kontrolują swoje tętno lepiej niż jogini. W ten sposób unikają choroby dekompresyjnej
- Sekrety Śródziemia w nowym podcaście. Prowadzącymi aktorzy znani z ról hobbitów we „Władcy Pierścieni”
Newsy
Sekrety Śródziemia w nowym podcaście. Prowadzącymi aktorzy znani z ról hobbitów we „Władcy Pierścieni”
- Paweł Pawlikowski członkiem jury festiwalu filmowego w Cannes
Newsy
Paweł Pawlikowski członkiem jury festiwalu filmowego w Cannes
zobacz playlisty
-
George Lucas
02
George Lucas
-
Muzeum Van Gogha w 4K
06
Muzeum Van Gogha w 4K
-
Seria archiwalnych koncertów Metalliki
07
Seria archiwalnych koncertów Metalliki
-
Martin Scorsese
03
Martin Scorsese