Newsy |

Pluszowe misie pracujące pod wodą. Druga odsłona DALL·E generuje i edytuje obrazy w oparciu o słowne opisy08.04.2022

OpenAI / materiały prasowe

Dzięki projektowi OpenAI bazującemu na działaniu sztucznej inteligencji można również dodawać wizualne elementy do istniejących zdjęć. 

Nazwa programu, czyli DALL·E, trafnie oddaje jego zastosowanie i specyfikę. Z jednej strony nawiązuje bowiem do nazwiska malarza Salvadora Dalego, z drugiej imituje tytuł kultowej animacji WALL·E opowiadającej o robocie zdolnym do odczuwania emocji. Projekt  amerykańskiego hubu OpenAI, którego pierwszą odsłonę zaprezentowano w styczniu ubiegłego roku, faktycznie łączy ze sobą świat sztuk wizualnych i sztucznej inteligencji. Algorytm AI tworzy w nim obrazy na podstawie opisów dostarczonych przez użytkownika. Wyróżnia się tym samym na tle innych sieci neuronowych generujących realistyczne materiały. Konkurencyjne programy nie umieją bowiem skutecznie interpretować tekstowych podpowiedzi formułowanych w naturalnym języku. Przewagę w tym przypadku dało wykorzystanie modeli GPT-3 zawierających ogromne ilości danych dotyczących słów, wyrażeń i zdań. 


Choć wstępna odsłona DALL·E zrobiła duże wrażenie na internautach, a u niektórych grafików mogła wzbudzić obawy dotyczące utraty pracy, nie brakowało w niej usterek. OpenAI postanowiło wyciągnąć wnioski z popełnionych błędów i prezentuje drugą generację programu. Znacząco usprawniono w nim proces łączenia obrazów z konkretnymi opisami. – Wykorzystano tu proces zwany „dyfuzją”. Rozpoczyna się on od wzoru składającego się z przypadkowych kropek i stopniowo zmienia go w kierunku obrazu, gdy rozpoznaje jego określone aspekty – przeczytamy. Programiści czterokrotnie poprawili również średnie parametry rozdzielczości generowanych grafik. Wynosi teraz 1024x1024 pikseli. 

Jak DALL·E 2 działa w praktyce? Niestety, odpowiedź na to pytanie nie jest jasna, gdyż oprogramowanie nie zostało jeszcze udostępnione w sieci. Zainteresowani badacze i inne osoby pracujące naukowo mogą jedynie zapisać się na listę chętnych, którzy w nieodległej przyszłości otrzymają do niego dostęp. Na stronie OpenAI pojawiła się za to próbka umiejętności ulepszonego programu. Wynika z niej, że opisy żądanych obrazów mogą być znacznie bardziej złożone, uwzględniając nie tylko postać, ale również wykonywaną przez nią czynność oraz styl całego materiału. Pluszowe misie ze zdjęcia głównego majsterkują pod wodą ze sprzętami rodem z lat 90. Na poniższej fotografii robią to samo, jednak bez aparatury do nurkowania, a na Księżycu w poprzedniej dekadzie. Style proponowane przez DALL·E mogą przypominać dziecięce kolorowanki, impresjonistyczne obrazy czy telewizyjne kreskówki, ale też steampunkowe fan-arty albo starożytne malowidła. 

obraz galerii sztuki wygenerowany przez DALL·E 2 / Open AI / materiały prasowe
obraz galerii sztuki wygenerowany przez DALL·E 2 / Open AI / materiały prasowe

Kolejną innowacyjną opcją wprowadzoną przez OpenAI jest możliwość natychmiastowego dodawania określonych elementów do istniejących fotografii. Ich implementacja uwzględnia dodanie cieni bądź odbić. Narzędzie szczególnie sprawdzi się przy tworzeniu wizualizacji wnętrz. Z pewnością przyjdzie z pomocą wtedy, gdy niejasne będzie, gdzie należy postawić dany mebel albo dekorację. 

Nad tym, żeby druga generacja DALL·E była jeszcze lepsza, aktualnie pracuje grupa wytypowanych wcześniej testerów. Wyznaczone osoby w trakcie pracy muszą przestrzegać określonych wcześniej zasad. Nie mogą generować treści nawołujących do przemocy, dyskryminacji albo agitacji politycznej. – Jeśli nasze filtry zidentyfikują podpowiedzi naruszające te regulacje, nie będziemy ich urzeczywistniać. Dysponujemy zautomatyzowanymi i opartymi na działaniach człowieka systemami monitorującymi, które chronią przed takimi nadużyciami – ostrzegają przedstawiciele OpenAI. Bez tak restrykcyjnych norm potencjalne wprowadzenie a DALL·E do powszechnego użytku mogłoby być niebezpieczne.

DALL·E 2 Explained / autor: OpenAI
/ @papaya.rocks

zobacz także

zobacz playlisty