Postępy w dziedzinie sztucznej inteligencji radykalnie poprawiły zdolność firmy do rozpoznawania pisemnej mowy nienawiści. Ale jeśli chodzi o wykorzenienie nienawistnych obrazów, filmów i memów, sztuczna inteligencja Facebooka ma przed sobą długą drogę.

Najbardziej niesamowitą rzeczą dotyczącą Facebooka jest jego rozległość. Ale chociaż ponad dwa i pół miliarda ludzi docenia wartość usługi, ta skala jest jednocześnie największym upadkiem Facebooka. Kontrolowanie tego, co dzieje się w tej ogromnej przestrzeni cyfrowej, jest prawie niemożliwe, zwłaszcza dla firmy, która w przeszłości nie była zbyt odpowiedzialna za zarządzanie możliwymi szkodami ukrytymi w jej technologii. Dopiero w 2017 r. – 13 lat po rozpoczęciu swojej historii – Facebook zaczął poważnie stawiać czoła faktowi, że jego platforma może być wykorzystywana do dostarczania toksycznej mowy, propagandy i dezinformacji bezpośrednio do mózgów milionów ludzi.

banner-wizytowka-1580899038

Na całym Facebooku można znaleźć różne smaki toksycznych substancji, od zastraszania i handlu dziećmi po plotki, nienawiść i fałszerstwa, które pomogły Donaldowi Trumpowi zostać prezydentem w 2016 roku. W ciągu ostatnich kilku lat Facebook zainwestował dużo w środki kontroli tego rodzaju. toksycznej zawartości. Moderację treści zleciła głównie niewielkiej armii recenzentów w sklepach kontraktowych na całym świecie. Ale moderatorzy treści nie mogą zacząć przeczesywać całej szkodliwej treści, a handlarze takich rzeczy nieustannie opracowują nowe sposoby ich omijania.

Dlatego Facebook stawia na sztuczną inteligencję, która może wykrywać nienawiść i dezinformację na swojej platformie. Ta sztuczna inteligencja znajduje się na setkach serwerów w centrach danych firmy. Złożone sieci neuronowe przeszkolone w rozpoznawaniu toksycznych treści użytkownika są wywoływane za każdym razem, gdy pojawia się nowy post na Facebooku i proszone o ustalenie, czy treść narusza którekolwiek z wytycznych dotyczących społeczności firmy. Niektórzy szukają mowy nienawiści, inni szukają dezinformacji, inni szukają zastraszania lub nagości i tak dalej. Chociaż wiele nieodpowiednich treści jest wysyłanych do ludzkich moderatorów w celu podjęcia dalszych działań, niektóre z nich mogą zostać przeanalizowane, a następnie usunięte przez samą sztuczną inteligencję.

Firma poczyniła znaczne postępy: w drugim kwartale tego roku Facebook donosi, że usunął 104,6 miliona treści (bez spamu), które naruszały standardy społeczności . W drugim kwartale usunięto z Facebooka 22,5 miliona samych wypowiedzi szerzących nienawiść, w porównaniu do 9,6 miliona w pierwszym kwartale i zaledwie 2,5 miliona postów szerzących nienawiść dwa lata temu.

Po ogłoszeniu tych ulepszeń do prasy na początku tego tygodnia, VP integralności Guy Rosen przypisuje im narzędzi do wykrywania firmy AI. Dzięki pewnym znaczącym postępom w przetwarzaniu języka naturalnego w ciągu ostatnich kilku lat algorytmy te są lepiej wyposażone w wykrywanie toksycznej mowy w formie pisemnej niż kiedykolwiek wcześniej.

„Dochodzimy do punktu, w którym większość naszych systemów jest prawdopodobnie tak samo dobra [jak] lub być może lepsza od niewyszkolonej osoby w tej domenie” – mówi Mike Schroepfer, CTO Facebooka. „Moim celem jest, abyśmy stali się ekspertami. . . Dotrzemy tam tak szybko, jak to możliwe ”.

Ale przyszłość Facebooka to obrazy i multimedia. Nienawistne i niebezpieczne wiadomości mogą znajdować się w filmach lub zakodowane w memach. Jak dotąd, przełomy, które firma dostrzegła w jej naturalnym języku, AI nie przełożyły się na podobny postęp w zakresie zdolności sztucznej inteligencji do wykrywania takich treści. Rozmawiałem z Schroepfer i dwoma czołowymi technologami zajmującymi się sztuczną inteligencją na Facebooku o ich ostatnich sukcesach oraz o trudnych wyzwaniach związanych z widzeniem komputerowym, które czekają, jeśli Facebook kiedykolwiek ma nadzieję zająć się kolosalną ilością toksycznych treści na swojej platformie.

SIECI NEURONOWE W GRZE

Niedawny sukces Facebooka w wykrywaniu mowy nienawiści w ciągu ostatnich dwóch lat wynika z dramatycznych ingerencji społeczności naukowej zajmującej się sztuczną inteligencją.

Większość modeli sztucznej inteligencji w przeszłości była trenowana przy użyciu wariantów uczenia się „nadzorowanego”. Korzystając z tego podejścia, informatycy dostarczają do sieci neuronowej próbki treści, o których analizę i klasyfikację wkrótce zostaną poproszeni, na przykład obrazy, tekst lub dźwięk. Naukowcy umieszczają również etykiety opisujące zawartość każdej próbki. Sieć neuronowa przetwarza następnie dane uczące i stopniowo dostosowuje wagi matematyczne w każdej ze swoich warstw, aż może samodzielnie dotrzeć do opisów zawartych w etykietach.

Uczenie nadzorowane zwykle obejmuje stosunkowo małe zestawy oznaczonych danych szkoleniowych, a dane zawierają dość konkretne przykłady pozycji, które model może napotkać podczas wykonywania zamierzonego zadania. Wadą tej specyfiki jest to, że model może zostać odrzucony przez napotkaną zawartość, której nie było w danych uczących. Na przykład model języka naturalnego może nie oznaczać rasistowskich obelg, których nie widział podczas treningu, i nie rozumieć ich z kontekstu.

 

[Zdjęcia źródłowe: Miguel Á. Padriñán / Pexels; Oleg Magni / Pexels]

Te modele mogłyby lepiej uczyć się określonych zadań, myślenie zniknęło, gdyby były „wstępnie wytrenowane” z jakimś podstawowym rozumieniem świata, dając im coś w rodzaju ludzkiego rozsądku. Na tym właśnie polega uczenie się sztucznej inteligencji bez nadzoru lub bez nadzoru. Jest to podejście szkoleniowe, w którym system sztucznej inteligencji jest zasilany dużą ilością nieoznaczonych danych szkoleniowych – takich jak całe książki, godziny filmów lub duże stosy obrazów. Część danych treningowych jest ukryta (kilka słów w zdaniu lub część obrazu), a system uczy się, stopniowo dostrajając swoje parametry, aby odgadnąć zamaskowaną treść z coraz większym prawdopodobieństwem, na podstawie zrozumienia sąsiedniego słowa lub elementy obrazu.Po treningu w ten sposób, czasami przez kilka dni, a nawet tygodni, system zaczyna „przedstawiać” słowa lub obrazy wewnątrz dużej, wielowymiarowej struktury, w której podobne rzeczy znajdują się bliżej siebie, a odmienne rzeczy są dalej od siebie. W ten sposób system zaczyna się uczyć, jak różne rzeczy na świecie zachowują się i jak odnoszą się do siebie.

To takie samo podejście, jakiego używają ludzie, gdy jesteśmy dziećmi. Pełzamy dookoła i wyczuwamy rzeczy, a następnie stopniowo zdobywamy zrozumienie świata. Następnie, kiedy nadejdzie czas, aby nauczyć się wlewać sok winogronowy do filiżanki, nie trzeba nas uczyć, że sok spadnie z dzbanka w dół, a nie tylko zawiśnie w powietrzu.

SYSTEM MUSI PRZEDSTAWIAĆ ZNACZENIE SŁÓW, KTÓRE WIDZI, STRUKTURĘ ZDANIA, KONTEKST ”.

YANN LECUN

Jeden z obszarów sztucznej inteligencji, przetwarzanie języka naturalnego, odniósł szczególny sukces dzięki samodzielnemu uczeniu się. W 2018 roku badacze Google stworzyli model języka naturalnego o nazwie BERT (dwukierunkowe reprezentacje enkoderów z transformatorów), który wytrenowali przy użyciu ogromnych ilości tekstu (11038 książek i 2,5 miliarda słów z anglojęzycznych wpisów Wikipedii), z ukrytymi częściami tekstu. Podczas treningu system stopniowo dostrajał się, aby z większym prawdopodobieństwem dokładnie wypełniać luki. W ten sposób stopniowo uporządkował dane w coś w rodzaju ogromnej chmury słów, w której słowa o podobnych znaczeniach i kontekstach znajdują się bliżej siebie, a słowa, które mają niewiele wspólnego znaczenia lub kontekstu (takie jak „ryba” i „przestrzeń powietrzna”) są umieszczone dalej od siebie.

W 2019 roku Facebook oparł się na podejściu BERT , wykorzystując model RoBERTa , który wykorzystuje jeszcze więcej danych szkoleniowych. „System musi przedstawiać znaczenie słów, które widzi, strukturę zdania, kontekst” – mówi główny naukowiec zajmujący się sztuczną inteligencją na Facebooku, Yann LeCun, legenda w dziedzinie sztucznej inteligencji, która boryka się z niektórymi z największych wyzwań od lat 80. . „W rezultacie uczy się, o co chodzi w języku, co jest dziwne, ponieważ nie wie nic o fizycznej rzeczywistości świata. Nie ma wzroku, nie ma słuchu, nie ma nic ”. Ale nawet jeśli komputer nie uczy się bezpośrednio o świecie, samokontrola uczenia się może pomóc mu dowiedzieć się czegoś o znaczeniach słów i związkach między znaczeniami podczas przetwarzania danych.

 

Dzięki temu nowemu podejściu modele języka naturalnego Facebooka pobiły istniejące rekordy w 2019 roku, w tym kilka standardowych testów porównawczych w branży . (Systemy języka naturalnego firm Microsoft, Google i OpenAI również wykazały znaczną poprawę wydajności w tym samym roku). Te modele języka naturalnego zostały teraz wprowadzone do pracy w centrach danych Facebooka, co spowodowało ogromne skoki w proporcji szkodliwej mowy, którą firma aktywnie wykrywa i usuwa, zanim użytkownicy to zobaczą. W swoim najnowszym raporcie o egzekwowaniu standardów społeczności opublikowanym w tym tygodniu, Facebook powiedział, że jego systemy sztucznej inteligencji natychmiast wykryły 95% postów nienawiści, w porównaniu z 88% zgłoszonymi w kwietniu i 52%, które firma zgłosiła zeszłego lata.

BADANIA NAUKOWE W PRAKTYCE

Ponieważ użytkownicy Facebooka o złych intencjach nieustannie próbują wymyślić nowe formy toksycznej mowy, aby ominąć cenzorów Facebooka, konieczne jest ciągłe trenowanie modeli AI z nowo przechwyconymi treściami. A nowe tematy – takie jak pandemia – rodzą nowe rodzaje szkodliwych treści, których wykrywanie muszą nauczyć się modele Facebooka. „W grudniu ubiegłego roku nie mieliśmy nic na temat COVID” – wyjaśnia CTO Schroepfer. „Jeśli ludzie zaczną publikować dezinformacje dotyczące COVID, może się to zmieniać z dnia na dzień. Albo ludzie mogą dostosować mowę nienawiści i używać zakodowanego języka lub okropnego nowego mema. ”

Niektóre dane szkoleniowe pochodzą od moderatorów treści Facebooka, którzy wychwytują i oznaczają nowe rodzaje toksycznych lub wprowadzających w błąd wypowiedzi, które widzą w sieci społecznościowej. Recenzenci mogą również korzystać z narzędzi sztucznej inteligencji do wyszukiwania i niszczenia znanych rodzajów szkodliwych treści w sieci. „Nasi eksperci-recenzenci mogą powiedzieć:„ Ach, tu używany jest nowy kodowany język – znajdź mi wszystkie posty w systemie, które wyglądają bardzo podobnie do tego posta, który właśnie znaleźliśmy, a który wyraźnie narusza nasze standardy i pozbądź się ich ”. ”Mówi Schroepfer. „Masz więc możliwość wspomagania naszych ludzi za pomocą elektronarzędzi”.

MASZ TĘ MOŻLIWOŚĆ, BY WSPIERAĆ NASZYCH LUDZI ZA POMOCĄ ELEKTRONARZĘDZI ”.

MIKE SCHROEPFER

Niektóre dane szkoleniowe dostarczone przez recenzentów to przykłady fałszywych alarmów, w których Facebook omyłkowo usunął treść, która nie naruszała wytycznych dla społeczności. Modele też się z tego uczą.

Facebook też chce i jest w stanie rzucić na ten problem duże inwestycje w sprzęt. „Dzięki większemu zestawowi danych i większej, mocniejszej sieci mogę znacznie lepiej wychwycić wszystkie niuanse i subtelności tych rzeczy” – mówi Schroepfer.

 

Mike Schroepfer, dyrektor ds. Technicznych serwisu Facebook [Zdjęcie: Facebook]

Sztuczna inteligencja Facebooka jest daleka od doskonałości, jak przyznaje Schroepfer. Według dokumentów, które wyciekły w lipcu 2019 r., Uzyskanych przez NBC News , systemy firmy oznaczyły i proaktywnie usunęły większy odsetek postów zawierających mowę nienawiści skierowanych do białych ludzi niż zgłaszali użytkownicy. Te same systemy sztucznej inteligencji, raporty NBC, zmniejszyły mniejszy odsetek mowy nienawiści skierowanej do zmarginalizowanych grup, w tym czarnych, żydowskich i transpłciowych użytkowników, niż zgłaszali użytkownicy, „co wskazuje, że ataki te zostały uznane za obraźliwe, ale zautomatyzowane narzędzia Facebooka nie były ich wykrywanie ”.W tamtym czasie, według danych Facebooka, użytkownicy nadal zgłaszali prawie połowę (48%) całej mowy nienawiści znalezionej na Facebooku. Raport NBC cytuje obecnych i byłych pracowników Facebooka, którzy stwierdzili, że w konfrontacji z tymi danymi zespół zarządzający Facebooka nakazał pracownikom Facebooka zaprzestanie tej linii zapytania i zaprzestanie udostępniania go innym osobom w firmie. Kiedy zapytałem o ten raport, Facebook zdecydował się nie komentować.

Dokument, który wyciekł z historii NBC, odzwierciedla działanie starszych narzędzi do wykrywania sztucznej inteligencji, które nie zostały jeszcze wstępnie przeszkolone przy użyciu RoBERTA. Mimo to obawy dotyczące uprzedzeń w algorytmach moderowania treści Facebooka są nadal obecne w społecznościach akademickich i praw obywatelskich. Facebook zakończył niedawno niezależny audyt dotyczący praw obywatelskichswoich praktyk, wykonywanych przez prawników Laurę Murphy, Megan Cacace oraz zespół wspierający w kancelarii Relman Colfax. Murphy pisze w raporcie zespołu: „. . . Obrońcy praw obywatelskich twierdzą, że nie tylko polityka Facebooka nie jest wystarczająco zaawansowana, jeśli chodzi o przechwytywanie nienawistnych i szkodliwych treści, ale także twierdzą, że Facebook w nierównomierny sposób egzekwuje lub nie egzekwuje własnych zasad dotyczących zabronionych treści. W ten sposób szkodliwe treści pozostają na platformie zbyt długo ”. Audytorzy piszą, że ta krytyka jest szczególnie ostra w odniesieniu do treści skierowanych do Afroamerykanów, Żydów i muzułmanów.

PROBLEM Z OBRAZEM

Chociaż algorytmiczne moderowanie treści na Facebooku znacznie się poprawiło od 2019 r., Przed nami kolejne wyzwania. RoBERTa została zaprojektowana w celu wstępnego szkolenia narzędzi AI języka naturalnego, które skanują tylko treść tekstową na Facebooku. Samokontrolowane podejście RoBERTY do uczenia się nie sprawdziło się zbyt dobrze podczas wstępnego szkolenia modeli sztucznej inteligencji widzenia komputerowego, używanych do wykrywania toksycznych obrazów.

Naukowcy z Facebooka i Google pracują obecnie nad wstępnym nauczeniem klasyfikatorów obrazów przy użyciu podejścia zwanego „uczeniem kontrastowym”, które LeCun odegrał kluczową rolę w opracowaniu w Aughts. Obejmuje to współpracę dwóch sieci neuronowych ( „sieci syjamskie” ), aby zdecydować, czy miliony par obrazów są podobne, czy różne. Podobną parą mogą być dwa różne zdjęcia tej samej osoby lub dwa obrazy tego samego obiektu, ale jeden obraz jest obrócony lub zniekształcony. Niepodobna para może być zdjęciem świni i zdjęciem buta.

W ten sam sposób, w jaki BERT i RoBERTA tworzą słowa w trójwymiarowej przestrzeni przypominającej chmurę słów, obie sieci neuronowe współpracują ze sobą, aby uporządkować atrybuty obrazu (takie jak kształt obiektu i kolor tła) w teoretycznej przestrzeni, w której znajdują się podobne obrazy. bliżej siebie, a odmienne obrazy są dalej od siebie. LeCun twierdzi, że badania dostarczyły klasyfikatorów obrazów wystarczająco dokładnych, aby przekroczyć obecne standardy rozpoznawania obrazów, ale nadal wątpi, czy ostatecznie takie podejście zapewni klasyfikatory obrazów, które są dobre w wykrywaniu szkodliwych obrazów i wystarczająco wydajne, aby działać na dużą skalę. Dzieje się tak, ponieważ teoretyczna przestrzeń, którą sieci muszą stworzyć, aby pomieścić numeryczne reprezentacje każdego możliwego aspektu każdego piksela obrazu, jest po prostu zbyt duża.

 

[Zdjęcia: suwanneeredhead / iStock; StudioM1 / iStock]

Dzięki zawartości tekstowej BERT i RoBERTa mogą przedstawiać słowa jako wartości w trójwymiarowej przestrzeni teoretycznej. Modele zrobiły to słowo po słowie dla około 30 000 angielskich słów w swoich danych treningowych.

Ale dane wizualne są inne i bardziej złożone. Obraz jest wyrażany piksel po pikselu w siatce, a każdy piksel ma przypisaną pewną liczbę wartości. Każdy piksel może mieć współrzędne bok do boku, w górę i w dół oraz do tyłu i do przodu, w zależności od jego położenia na obrazie. Każdy piksel ma również wartość koloru czerwonego, zielonego i niebieskiego. Wideo dodaje dodatkowy wymiar, ponieważ piksele zmieniają się, gdy przesuwają się wstecz i do przodu w czasie. Ponieważ liczba możliwych kombinacji tych atrybutów jest prawie nieskończona, teoretyczna przestrzeń, w której są one zawarte, ma miliony wymiarów. Wraz ze wzrostem liczby obrazów szkoleniowych przestrzeń teoretyczna potrzebna do ich zmapowania staje się ogromnie duża.

Mapowanie wszystkich tych wymiarów w przestrzeni teoretycznej, a następnie przewidywanie wartości dla pikseli ukrytych części obrazów szkoleniowych jest bardzo dużym obciążeniem i wymaga ogromnej mocy obliczeniowej, nawet w przypadku małych obrazów, wyjaśnia LeCun.

„ BILET DO PRZYSZŁOŚCI ”

Pomimo trudności w zastosowaniu ostatnich przełomów w sztucznej inteligencji do materiałów wizualnych, Facebook ma dobry powód, by mieć nadzieję, że LeCun może zbudować komputerowy system wizyjny, który działa. Treści użytkowników Facebooka są bardziej wizualne niż kiedykolwiek i nadal zmierzają w tym kierunku. Nienawiść i dezinformacja na platformie są również coraz bardziej wizualne. Niektóre z najbardziej toksycznych lub szkodliwych treści dla użytkowników mają postać obrazów i filmów (np. Deepfakes ).

Yann LeCun, główny naukowiec AI Facebooka [Zdjęcie: Jérémy Barande / Ecole polytechnique Université Paris-Saclay / CC BY-SA 2.0 ]

LeCun pracuje teraz nad innym i miejmy nadzieję bardziej wydajnym podejściem do wstępnego szkolenia klasyfikatorów obrazów. Podobnie jak modele przetwarzania języka naturalnego, modele wizji komputerowej radzą sobie znacznie lepiej w określonych zadaniach rozpoznawania, jeśli najpierw zostaną wstępnie przeszkolone z ogromnymi stosami nieoznaczonych danych obrazu, a następnie pozwolą na uporządkowanie tych danych w sposób, który pomoże im uzyskać podstawową wiedzę o tym, jak wyglądają świat działa.Obecne badania LeCun koncentrują się na sposobach zredukowania liczby atrybutów obrazu, na których musi się skupić sztuczna inteligencja, do tych naprawdę ważnych – reprezentujących na przykład temat obrazu lub wideo, a nie tło. Wyjaśnia, że ​​ogromna większość obrazów, które można wyrazić liczbowo w ogromnej przestrzeni teoretycznej, to po prostu przypadkowe kombinacje atrybutów, które nie przedstawiają niczego, co można znaleźć w świecie przyrody. Tylko niewielka część wszystkich możliwości przedstawia rzeczy, które model może napotkać na zdjęciach opublikowanych na Facebooku.

LeCun szuka sposobów, aby wyszkolić model, aby wywnioskował znaczącą zawartość zdjęcia lub filmu, a następnie skupił się tylko na obszarze w teoretycznej przestrzeni wektorowej potrzebnej do wyrażenia tego obrazu. Na przykład model może wywnioskować z fragmentu wideo, że obiekt – powiedzmy, ludzka twarz – może być reprezentowany piksel po pikselu przy użyciu tylko niewielkiego podzbioru wszystkich możliwych pozycji i stanów kolorów wszystkich pikseli w klatce. Może skupiać się na zaledwie 50 pikselach, które w różnych stanach mogą reprezentować wszystkie możliwe ruchy wszystkich powierzchni twarzy. Mając mniejszą grupę zmiennych do pracy, model może mieć znacznie większe szanse na przewidzenie, w jaki sposób twarz w filmie może się poruszyć (w ten sam sposób, w jaki model języka naturalnego może przewidzieć spacje w zdaniu).

 

[Zdjęcia źródłowe: Godruma / iStock; Justin Shaifer / Pexels]

Ale uczy model, jak wyciągać te wnioski, które stanowią największą przeszkodę w skutecznym szkoleniu wstępnym komputerowych systemów wizyjnych.LeCun zakłada, że ​​jest to problem do przezwyciężenia. Może to być ostatni ważny impuls badawczy w jego historycznej, trwającej od dziesięcioleci karierze.

„Moim zdaniem to bilet do przyszłości” – mówi. „Nad tym pracuję i czy mam rację, czy nie, nie mogę ci powiedzieć, ponieważ nie mam wyników, aby to udowodnić”.

WYZWANIA PLATFORMY MULTIMODALNEJ

Wraz ze wzrostem popularności treści wizualnych, najczęściej udostępnianymi treściami na Facebooku są zazwyczaj mieszane media – obejmujące więcej niż jeden sposób komunikacji, na przykład elementy łączące tekst ze zdjęciem lub wideo. „Przyszłość jest multimodalna” – mówi wiceprezes Facebooka ds. Sztucznej inteligencji, Jerome Pesenti. „Treści o charakterze mieszanym stają się większością treści na naszej platformie”.

TREŚCI MIESZANE STAJĄ SIĘ WIĘKSZOŚCIĄ TREŚCI NA NASZEJ PLATFORMIE ”.

JEROME PESENTI

Na przykład memy, które łączą język i obrazy, odegrały dużą rolę w zorganizowanych kampaniach dezinformacyjnych zarówno przez zagranicznych, jak i krajowych aktorów, którzy starali się wpłynąć na wybory prezydenckie w 2016 roku. Wiele z nich zostało starannie zaprojektowanych, aby dzielić i polaryzować wyborców, otwarcie promować Donalda Trumpa lub przekonać ludzi, aby nie głosowali. Memy były często szeroko rozpowszechniane, ponieważ były ostre i kontrowersyjne, zabawne lub jedno i drugie. Prawdopodobnie podobne obrazy odegrają ważną rolę w kampaniach wpływowych na Facebooku na tygodnie przed wyborami w 2020 roku.

Ale multimodalny charakter memów – integracja języka i obrazów – sprawia, że ​​są one trudnym wyzwaniem dla sztucznej inteligencji Facebooka.

Często są bardzo kontekstualne, referencyjne, ironiczne i zniuansowane. Mogą one być również tajemnicze i zakodowany tak, że tylko członkowie jakiejś konkretnej enklawie internautów można analizować ich znaczenie, jako manifest opublikowany na 8chan przez zabójcę Christchurch przykładem .

Memy często wymagają odrobiny analizy i przemyślenia, aby zrozumieć ich znaczenie, nawet w przypadku średnio doświadczonych internautów, zauważa CTO Schroepfer. „To dobra wskazówka, że ​​jest to znacznie trudniejszy problem dla maszyn” – mówi. „Mamy systemy, które są w stanie działać w ten multimodalny sposób. . . jest to obszar, w którym idziemy naprzód i myślę, że osiągniemy rozsądny postęp w ciągu najbliższych kilku lat ”.

Memy są takim trudnym problemem dla AI, ponieważ maszyna musi uczyć się z treści obrazu i treści tekstu w tym samym czasie, a nie oddzielnie. „Mamy ogromną liczbę przykładów, w których obraz sam w sobie nie jest obraźliwy, a sam tekst nie jest obraźliwy – obraźliwe jest połączenie tych dwóch elementów” – mówi mi Pesenti. „Dlatego naprawdę ważne jest, aby mieć system, który uczy się na podstawie obu metod w tym samym czasie”.

Facebook wdrożył już sztuczną inteligencję przeszkoloną przy użyciu nadzorowanego uczenia się do wykrywania toksycznych treści multimodalnych, ale nie wie jeszcze, jak skutecznie przygotować te modele, aby pomóc im rozszyfrować złożoność i niuanse memów. Firma twierdzi, że używa systemów sztucznej inteligencji, które analizują zarówno obrazy, jak i tekst, aby wykrywać szkodliwe treści multimodalne na Instagramie, ale stwierdziła w maju, że wskaźnik proaktywnego wykrywania tych systemów poprawił się z 43,1% w czwartym kwartale 2019 roku do zaledwie 44,3% w pierwszym kwartale 2020 roku.

„To dla nas ogromny obszar badań” – mówi Pesenti. „Naprawdę staramy się również stworzyć domenę badawczą na ten temat i zainteresować innych ludzi tym problemem”.

Pesenti odnosi się do wyzwania Facebook Hateful Memes Challenge , w którym Facebook dostarcza programistom przykładowy zestaw danych o nienawistnych memach i wzywa ich do zbudowania algorytmu, który dokładnie wykrywa nienawistne memy na dużą skalę. Deweloper z najlepszą multimodalną sztuczną inteligencją otrzyma nagrodę pieniężną, a Facebook może uzyskać nowy wgląd w sposób rozwiązania problemu. Firma zastosowała podobne podejście do katalizowania rozwoju systemów, które mogą wykrywać nagrania wideo typu  Deepfake Challenge w 2019 roku.

JAK DUŻY PROBLEM?

Użytkownicy są całkowicie zależni od Facebooka, który samodzielnie raportuje statystyki pokazujące, jak toczy się wojna firmy z toksycznymi szkodliwymi treściami. Chociaż firma ma wkrótce przedstawić szczegółowe informacje na temat swoich postępów, jest mniej przejrzysta co do rzeczywistego zakresu problemu, który nadal występuje.

Firma podaje odsetek treści wykrywanych przez jej systemy AI w porównaniu z odsetkiem zgłaszanym przez użytkowników. Ale te dwie liczby nie składają się na cały wszechświat szkodliwych treści w sieci. Przedstawia tylko toksyczne treści, które widzi Facebook.

Co do reszty, Facebook zamierza oszacować „rozpowszechnienie” niewykrytych toksycznych treści, czyli ile razy użytkownicy prawdopodobnie zobaczą je w swoich kanałach. Szacunki są wyliczane na podstawie próbek wyświetleń treści na Facebooku i Instagramie, pomiaru częstości występowania toksycznych treści w tych widokach, a następnie ekstrapolacji tej liczby na całą społeczność Facebooka. Jednak Facebook nie podał jeszcze danych dotyczących rozpowszechnienia postów szerzących nienawiść i kilku innych kategorii szkodliwych treści.

Facebook nie zgłasza też aktywnie, ile godzin toksycznych postów pominiętych przez sztuczną inteligencję pozostawało widocznych dla użytkowników ani ile razy zostały udostępnione, zanim zostały ostatecznie usunięte. Ponadto firma nie oferuje podobnych szacunków dla postów dezinformacyjnych.

fastcompany.com