Automatyczna zamiana tekstu na obrazie synteza, w którym model jest przeszkolony do generowania obrazów z opisami tekstowymi samych, jest trudnym zadaniem, które niedawno otrzymał znaczną uwagę . Jego badanie zapewnia bogaty wgląd w to, w jaki sposób modele uczenia maszynowego (ML) przechwytują atrybuty wizualne i łączą je z tekstem. W porównaniu z innymi rodzajami danych wejściowych ułatwiających tworzenie obrazu, takimi jak szkice, maski obiektów lub ślady myszy (które podkreśliliśmy we wcześniejszych pracach), zdania opisowe są bardziej intuicyjnym i elastycznym sposobem wyrażania pojęć wizualnych. W związku z tym silny system automatycznego generowania tekstu na obraz może być również przydatnym narzędziem do szybkiego tworzenia treści i może być stosowany w wielu innych kreatywnych aplikacjach, podobnie jak inne wysiłki mające na celu zintegrowanie uczenia maszynowego z tworzeniem sztuki (np. Magenta ) .

Najnowocześniejsze wyniki syntezy obrazów są zazwyczaj osiągane przy użyciu generatywnych sieci kontradyktoryjnych (GAN), które szkolą dwa modele — generator, który próbuje tworzyć realistyczne obrazy oraz dyskryminator, który próbuje określić, czy obraz jest prawdziwy, czy sfabrykowany. Wiele modeli generowania tekstu na obraz to sieci GAN, które są warunkowane za pomocą danych wejściowych tekstu w celu wygenerowania obrazów istotnych semantycznie. Jest to duże wyzwanie, zwłaszcza gdy dostarczane są długie, niejednoznaczne opisy. Co więcej, trening GAN może być podatny na załamanie trybu, typowy przypadek niepowodzenia procesu uczenia, w którym generator uczy się wytwarzać tylko ograniczony zestaw danych wyjściowych, tak że dyskryminator nie nauczy się solidnych strategii rozpoznawania wytworzonych obrazów. Aby złagodzić załamanie trybu, niektóre podejścia wykorzystują wielostopniowe sieci udoskonalania, które iteracyjnie poprawiają obraz. Jednak takie systemy wymagają wieloetapowego szkolenia, które jest mniej wydajne niż prostsze jednoetapowe modele typu end-to-end. Inne wysiłki opierają się na podejściach hierarchicznych, które najpierw modelują układy obiektów, zanim ostatecznie zsyntetyzują realistyczny obraz. Wymaga to użycia oznaczonych danych segmentacji, które mogą być trudne do uzyskania.

dokumencie „ Cross-modal Contrastive Learning for Text-to-Image Generation ”, który ma pojawić się w  CVPR 2021, przedstawiamy Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN), która zajmuje się generowaniem tekstu na obraz, ucząc się maksymalizacji wzajemnej informacji między obrazem a tekstem za pomocą intermodalnego (obraz-tekst) i intramodalnego ( obraz-obraz) straty kontrastowe. Takie podejście pomaga dyskryminatorowi nauczyć się bardziej niezawodnych i rozróżniających funkcji, dzięki czemu XMC-GAN jest mniej podatny na załamanie trybu nawet przy jednoetapowym treningu. Co ważne, XMC-GAN osiąga najnowocześniejszą wydajność dzięki prostej jednostopniowej generacji, w porównaniu z poprzednimi podejściami wielostopniowymi lub hierarchicznymi. Można go wytrenować od końca do końca i wymaga tylko par obraz-tekst (w przeciwieństwie do segmentacji oznaczonej etykietą lub danych w polu ograniczającym).

Kontrastowe straty syntezy
tekstu na obraz Celem systemów syntezy tekstu na obraz jest wytworzenie wyraźnych, fotorealistycznych scen z wysoką semantyczną wiernością ich uwarunkowanym opisom tekstowym. Aby to osiągnąć, proponujemy maksymalizację wzajemnych informacji pomiędzy odpowiednimi parami: (1) obrazy (rzeczywiste lub wygenerowane) ze zdaniem opisującym scenę; (2) wygenerowany obraz i rzeczywisty obraz z tym samym opisem; oraz (3) obszary obrazu (rzeczywistego lub wygenerowanego) oraz powiązane z nimi słowa lub frazy.

W XMC-GAN jest to wymuszane za pomocą strat kontrastowych . Podobnie jak inne GAN, XMC-GAN zawiera generator do syntezy obrazów i dyskryminator, który jest wyszkolony do działania jako krytyk między obrazami rzeczywistymi i generowanymi. Do utraty kontrastu w tym systemie przyczyniają się trzy zestawy danych — rzeczywiste obrazy, tekst opisujący te obrazy oraz obrazy wygenerowane z opisów tekstowych. Indywidualne funkcje strat dla generatora i dyskryminatora są kombinacją strat obliczonych z całych obrazów z pełnym opisem tekstowym, połączonych ze stratą obliczoną z podzielonych obrazów z powiązanymi słowami lub frazami. Następnie dla każdej partii danych uczących obliczamy podobieństwo cosinusówpunktacja między każdym opisem tekstowym a rzeczywistymi obrazami, a także między każdym opisem tekstowym a partią wygenerowanych obrazów. Celem jest, aby pasujące pary (zarówno tekst do obrazu, jak i obraz rzeczywisty do obrazu wygenerowanego) miały wysokie wyniki podobieństwa, a pary niepasujące miały niskie wyniki. Wymuszanie takiej kontrastywnej straty pozwala dyskryminatorowi na poznanie bardziej solidnych i rozróżniających cech. .

Intermodalne i intramodalne uczenie kontrastowe w naszym proponowanym modelu syntezy tekstu na obraz XMC-GAN.

Wyniki
Stosujemy xmc-gan do trzech wymagających zestawów danych – pierwszy był zbiór MS-koko opisów zdjęć MS-koko, a dwie pozostałe zestawy danych opatrzone Localized narracji , z których jeden obrazy pokrowce MS-koko (co nazywamy LN-COCO), a drugi z nich opisuje dane Open Images (LN-OpenImages). Uważamy, że XMC-GAN osiąga w każdym z nich nowy stan wiedzy. Obrazy generowane przez XMC-GAN przedstawiają sceny o wyższej jakości niż te generowane przy użyciu innych technik. Na MS-COCO, XMC-GAN poprawia najnowocześniejszy wynik Fréchet Inception Distance (FID) z 24,7 do 9,3 i jest znacznie preferowany przez oceniających ludzi.

Wybrane wyniki jakościowe dla wygenerowanych obrazów na MS-COCO .

Podobnie ludzie oceniający preferują jakość obrazu w obrazach generowanych przez XMC-GAN w 77,3% przypadków, a 74,1% preferuje wyrównanie obrazu i tekstu w porównaniu z trzema innymi najnowocześniejszymi podejściami ( CP-GAN , SD-GAN , i OP-GAN ).

Ocena człowieka na MS-COCO pod kątem jakości obrazu i wyrównania tekstu. Adnotatorzy oceniają (anonimowo i losowo) wygenerowane obrazy od najlepszych do najgorszych.

XMC-GAN również dobrze uogólnia trudny zestaw danych Localized Narratives, który zawiera dłuższe i bardziej szczegółowe opisy. Nasza wcześniejsza praca TReCS zajmuje się generowaniem tekstu na obraz w zlokalizowanych narracjach przy użyciu danych wejściowych śledzenia myszy w celu poprawy jakości generowania obrazu. Pomimo braku adnotacji o śladach myszy, XMC-GAN jest w stanie znacznie przewyższyć TReCS w generowaniu obrazów na LN-COCO, poprawiając najnowocześniejszy FID z 48,7 do 14,1. Włączenie śladów myszy i innych dodatkowych danych wejściowych do kompleksowego modelu, takiego jak XMC-GAN, byłoby interesujące do zbadania w przyszłych pracach.

Ponadto szkolimy i oceniamy również LN-OpenImages, co jest trudniejsze niż MS-COCO, ponieważ zestaw danych jest znacznie większy z obrazami, które obejmują szerszy zakres tematów i są bardziej złożone (średnio 8,4 obiektów). Zgodnie z naszą najlepszą wiedzą, XMC-GAN jest pierwszym modelem syntezy tekstu na obraz, który jest szkolony i oceniany na otwartych obrazach. XMC-GAN jest w stanie generować wyniki wysokiej jakości i ustanawia wysoki wynik testu FID na poziomie 26,9 w tym bardzo trudnym zadaniu.

Losowe próbki rzeczywistych i wygenerowanych obrazów na Open Images.

Podsumowanie i przyszła praca
W tej pracy przedstawiamy crossmodalne ramy uczenia kontrastowego do trenowania modeli GAN pod kątem syntezy tekstu na obraz. Badamy kilka międzymodalnych kontrastujących strat, które wymuszają zgodność między obrazem a tekstem. Zarówno w przypadku oceny ludzi, jak i metryk ilościowych, XMC-GAN zapewnia znaczną poprawę w stosunku do poprzednich modeli na wielu zestawach danych. Generuje wysokiej jakości obrazy, które dobrze pasują do ich opisów wejściowych, w tym długich, szczegółowych narracji, i robi to, będąc prostszym, kompleksowym modelem. Wierzymy, że stanowi to znaczący postęp w kierunku kreatywnych aplikacji do generowania obrazów na podstawie opisów w języku naturalnym. Kontynuując te badania, nieustannie oceniamy odpowiedzialne podejścia, potencjalne zastosowania i ograniczanie ryzyka, zgodnie z naszymiZasady AI .

Podziękowania
Jest to wspólna praca z Jasonem Baldridge, Honglakiem Lee i Yinfei Yang. Chcielibyśmy podziękować Kevinowi Murphy, Zizhao Zhang, Dilipowi Krishnanowi za ich pomocne uwagi. Chcielibyśmy również podziękować zespołowi Google Data Compute za pracę nad przeprowadzaniem ocen ludzkich. Jesteśmy również wdzięczni za ogólne wsparcie zespołu Google Research.

https://ai.googleblog.com/