Rozsądne może wydawać się założenie, że wyraz twarzy ludzi jest uniwersalny — na przykład niezależnie od tego, czy dana osoba pochodzi z Brazylii, Indii czy Kanady, jej uśmiech na widok bliskich przyjaciół lub wyraz podziwu podczas pokazu fajerwerków wyglądałby zasadniczo tak samo. Ale czy to naprawdę prawda? Czy związek między tymi wyrazami twarzy a ich odpowiednim kontekstem w różnych lokalizacjach geograficznych jest rzeczywiście uniwersalny? Jakie podobieństwa — lub różnice — między sytuacjami, w których ktoś się uśmiecha lub marszczy brwi, mogą nam powiedzieć o tym, jak ludzie mogą być połączeni w różnych kulturach?

Naukowcy starający się odpowiedzieć na te pytania i odkryć stopień, w jakim ludzie są powiązani między kulturami i geografią, często korzystają z badań opartych na ankietach, które mogą w dużym stopniu opierać się na lokalnym języku , normach i wartościach . Jednak takie badania nie są skalowalne i często kończą się małymi rozmiarami próbek i niespójnymi wynikami .

W przeciwieństwie do badań opartych na ankietach, badanie wzorców ruchów twarzy zapewnia bardziej bezpośrednie zrozumienie zachowań ekspresyjnych. Jednak analiza, w jaki sposób mimika twarzy jest faktycznie używana w życiu codziennym, wymagałaby od badaczy przejrzenia milionów godzin rzeczywistego materiału filmowego, co jest zbyt czasochłonne, aby wykonać je ręcznie . Ponadto mimika twarzy i konteksty, w których są eksponowane, są skomplikowane i wymagają dużych liczebności próbek w celu wyciągnięcia statystycznie rozsądnych wniosków . Chociaż istniejące badania przyniosły rozbieżne odpowiedzi,na pytanie o uniwersalność mimiki w danych kontekstach, zastosowanie uczenia maszynowego (ML) w celu odpowiedniego skalowania badań może zapewnić przejrzystość.

W „ Szenaście wyrazów twarzy występuje w podobnych kontekstach na całym świecie ”, opublikowanym w Nature , przedstawiamy badania podjęte we współpracy z UC Berkeley w celu przeprowadzenia pierwszej na dużą skalę światowej analizy tego, jak mimika twarzy jest faktycznie używana w życiu codziennym, wykorzystując głębokie sieci neuronowe ( DNN) w celu drastycznego zwiększenia analizy ekspresji w odpowiedzialny i przemyślany sposób. . Korzystając z zestawu danych obejmującego sześć milionów publicznie dostępnych filmów w 144 krajach, analizujemy konteksty, w których ludzie używają różnych wyrazów twarzy i pokazujemy, że bogate niuanse w zachowaniu twarzy — w tym subtelne mimiki — są używane w podobnych sytuacjach społecznych na całym świecie.

Głęboka sieć neuronowa
mierząca wyraz twarzy Wyrażenia twarzy nie są statyczne. Jeśli ktoś miałby przyjrzeć się wyrazowi twarzy osoby, chwila po chwili, to, co na pierwszy rzut oka może wydawać się „gniewem”, może zamiast tego skończyć się „podziwem”, „niespodzianką” lub „zamieszaniem”. Interpretacja zależy od dynamiki twarzy osoby, w miarę jej wyrażania. Wyzwaniem w budowaniu sieci neuronowej w celu zrozumienia mimiki twarzy jest zatem to, że musi ona interpretować ekspresję w swoim kontekście czasowym. Szkolenie takiego systemu wymaga dużego i zróżnicowanego, międzykulturowego zbioru danych wideo z wyrażeniami z pełnymi adnotacjami.

Aby zbudować zestaw danych, wykwalifikowani oceniający ręcznie przeszukali szeroką kolekcję publicznie dostępnych filmów, aby zidentyfikować te, które mogą zawierać klipy obejmujące wszystkie nasze wstępnie wybrane kategorie wyrażeń. Aby upewnić się, że filmy pasują do regionu, który miał reprezentować, pierwszeństwo w wyborze filmów miały te, które zawierały lokalizację geograficzną pochodzenia. Twarze na filmach zostały następnie znalezione za pomocą głębokiej konwolucyjnej sieci neuronowej (CNN) – podobnej do Google Cloud Face Detection API – która śledzi twarze w trakcie trwania klipu przy użyciu metody opartej na tradycyjnym przepływie optycznym . Używając interfejsu podobnego do Google Crowdsource , adnotatorzy oznaczali mimikę twarzy w 28 różnych kategoriachjeśli jest obecny w dowolnym momencie klipu. Ponieważ celem było zbadanie, jak przeciętna osoba będzie postrzegać wyrażenie, adnotatorzy nie zostali przeszkoleni ani przeszkoleni, ani nie podali przykładów lub definicji wyrażeń docelowych. Poniżej omawiamy dodatkowe eksperymenty, aby ocenić, czy model wytrenowany na podstawie tych adnotacji był stronniczy.

Oceniającym prezentowano filmy z jedną twarzą wyróżnioną dla ich uwagi. Obserwowali obiekt przez cały czas trwania klipu i opisywali mimikę, którą wykazywali. ( wideo źródłowe )

Algorytm wykrywania twarzy ustanowił sekwencję lokalizacji każdej twarzy w całym filmie. Następnie wykorzystaliśmy przeszkoloną sieć Incepcji, aby wyodrębnić z twarzy cechy reprezentujące najistotniejsze aspekty mimiki. Cechy te zostały następnie wprowadzone do sieci pamięci długoterminowej krótkoterminowej (LSTM), rodzaju nawracającej sieci neuronowej, która jest w stanie modelować, w jaki sposób wyraz twarzy może ewoluować w czasie ze względu na jego zdolność do zapamiętywania istotnych informacji z przeszłości.

Aby upewnić się, że model dokonuje spójnych prognoz w różnych grupach demograficznych, oceniliśmy uczciwość modelu na istniejącym zbiorze danych, który został skonstruowany przy użyciu podobnych etykiet wyrazu twarzy, kierując się na podzbiór 16 wyrażeń, na których wykazywał najlepszą wydajność.

Wydajność modelu była spójna we wszystkich grupach demograficznych reprezentowanych w zestawie danych do oceny, co dostarcza dowodów potwierdzających, że model wyszkolony do adnotacji wyrazów twarzy nie jest wymiernie stronniczy. Adnotacje modela dotyczące tych 16 wyrazów twarzy na 1500 zdjęciach można przeglądać tutaj .

Modelowaliśmy wybraną twarz w każdym filmie za pomocą CNN, aby wyodrębnić cechy twarzy w każdej klatce, które następnie zostały wprowadzone do sieci LSTM w celu modelowania zmian w wyrazie twarzy w czasie. ( wideo źródłowe )

Mierzenie kontekstów uchwyconych w filmach
Aby zrozumieć kontekst wyrazów twarzy w milionach filmów, wykorzystaliśmy DNN, które potrafiły uchwycić szczegółową treść i automatycznie rozpoznać kontekst. Pierwsza sieć DNN modelowała kombinację cech tekstowych (tytuł i opis) skojarzonych z filmem wraz z rzeczywistą treścią wizualną ( model tematyczny wideo ). Ponadto użyliśmy DNN, który opierał się tylko na funkcjach tekstowych bez żadnych informacji wizualnych ( model tematyczny tekstu)). Modele te przewidują tysiące etykiet opisujących filmy. W naszych eksperymentach modele te były w stanie zidentyfikować setki unikalnych kontekstów (np. ślub, wydarzenie sportowe lub fajerwerki) ukazując różnorodność danych, które wykorzystaliśmy do analizy.

Współzmienność między wyrażeniami a kontekstami na całym świecie
W naszym pierwszym eksperymencie przeanalizowaliśmy 3 miliony publicznych filmów wideo nagranych na telefonach komórkowych. Skupiliśmy się na przesyłaniu z komórek, ponieważ jest bardziej prawdopodobne, że zawierają one naturalne wyrażenia. Skorelowaliśmy mimikę twarzy, która pojawiła się w filmach, z adnotacjami kontekstowymi pochodzącymi z modelu tematycznego filmu. Odkryliśmy, że 16 rodzajów wyrazów twarzy ma wyraźne skojarzenia z codziennymi kontekstami społecznymi, które były spójne na całym świecie. Na przykład wyrażenia, które ludzie kojarzą z rozrywką, pojawiały się częściej w filmach z praktycznymi dowcipami; wyrażenia, które ludzie kojarzą z podziwem, w filmach z fajerwerkami; i triumf z wydarzeniami sportowymi. Wyniki te mają silne implikacje dla dyskusji na temat względnego znaczenia kontekstu psychologicznego w wyrazie twarzy w porównaniu z innymi czynnikami, takimi jak te charakterystyczne dla jednostki, kultury lub społeczeństwa.

W naszym drugim eksperymencie przeanalizowaliśmy oddzielny zestaw 3 milionów filmów, ale tym razem dodaliśmy adnotacje do kontekstów za pomocą modelu tekstowo-tematycznego. Wyniki potwierdziły, że wyniki pierwszego eksperymentu nie wynikały z subtelnego wpływu mimiki twarzy w filmie na adnotacje modelu tematu wideo . Innymi słowy, wykorzystaliśmy ten eksperyment, aby zweryfikować nasze wnioski z pierwszego eksperymentu, biorąc pod uwagę możliwość, że model tematyczny wideo może pośrednio uwzględniać wyraz twarzy podczas obliczania etykiet treści.

Skorelowaliśmy wypowiedzi i adnotacje kontekstowe we wszystkich filmach w każdym regionie. Stwierdzono, że każde wyrażenie ma określone skojarzenia z różnymi kontekstami, które zachowały się w 12 regionach świata. Na przykład tutaj, na czerwono, widzimy, że wyrażenia, które ludzie kojarzą z podziwem, częściej pojawiały się w kontekście fajerwerków, zwierząt domowych i zabawek niż w innych kontekstach.

W obu eksperymentach korelacje między wyrażeniami i kontekstami wydawały się być dobrze zachowane w różnych kulturach. Aby dokładnie określić, jak podobne były powiązania między wyrażeniami i kontekstami w 12 różnych badanych regionach świata, obliczyliśmy korelacje drugiego rzędu między każdą parą regionów. Korelacje te identyfikują relacje między różnymi wyrażeniami i kontekstami w każdym regionie, a następnie porównują je z innymi regionami. Odkryliśmy, że 70% skojarzeń kontekstowo-ekspresyjnych występujących w każdym regionie jest wspólnych we współczesnym świecie.

Na koniec zapytaliśmy, ile z 16 rodzajów mimiki twarzy, które zmierzyliśmy, ma wyraźne skojarzenia z różnymi kontekstami, które zachowały się na całym świecie. W tym celu zastosowaliśmy metodę zwaną analizą korelacji kanonicznych , która wykazała, że ​​wszystkie 16 wyrazów twarzy ma wyraźne skojarzenia, które zachowały się na całym świecie.

Wnioski
Udało nam się zbadać konteksty, w których wyrazy twarzy pojawiają się w życiu codziennym w różnych kulturach na niespotykaną dotąd skalę. Uczenie maszynowe pozwoliło nam przeanalizować miliony filmów na całym świecie i odkryć dowody potwierdzające hipotezy, że mimika jest w pewnym stopniu zachowywana w podobnych kontekstach w różnych kulturach.

Nasze wyniki pozostawiają również miejsce na różnice kulturowe. Chociaż korelacje między wyrazami twarzy a kontekstami były w 70% spójne na całym świecie, były one do 30% zmienne w różnych regionach. Sąsiednie regiony świata mają na ogół więcej podobnych powiązań między wyrazami twarzy i kontekstami niż odległe regiony świata, co wskazuje, że geograficzne rozprzestrzenienie kultury ludzkiej może również odgrywać rolę w znaczeniu wyrazu twarzy.

Ta praca pokazuje, że możemy wykorzystać uczenie maszynowe, aby lepiej zrozumieć siebie i zidentyfikować wspólne elementy komunikacji w różnych kulturach. Narzędzia takie jak DNN dają nam możliwość dostarczania ogromnych ilości różnorodnych danych w służbie odkryć naukowych, dając większą pewność wniosków statystycznych. Mamy nadzieję, że nasza praca dostarczy szablonu do odpowiedzialnego korzystania z narzędzi uczenia maszynowego i pobudzi bardziej innowacyjne badania w innych dziedzinach nauki. .

Podziękowania
Specjalne podziękowania dla naszych współautorów, Dachera Keltnera z UC Berkeley, wraz z Florianem Schroffem, Brendanem Jou i Hartwigiem Adamem z Google Research. Jesteśmy również wdzięczni za dodatkowe wsparcie w Google ze strony Laury Rapin, Reenę Jana, Willa Cartera, Unni Nair, Christine Robson, Jen Gennai, Sourish Chaudhuri, Grega Corrado, Briana Eoffa, Andrew Smarta, Raine Serrano, Blaise Aguera y Arcas, Jay Yagnika i Carsona Mcneila.

https://ai.googleblog.com/