Wzmacnianie i naśladowanie metod uczenia się w badaniach robotyki może umożliwić autonomiczną nawigację środowiskową i wydajną manipulację obiektami , co z kolei otwiera szereg przydatnych zastosowań w życiu codziennym. Poprzednia pracawykazał, w jaki sposób roboty, które uczą się od początku do końca za pomocą głębokich sieci neuronowych, mogą niezawodnie i bezpiecznie wchodzić w interakcję z otaczającym nas nieustrukturyzowanym światem, rozumiejąc obserwacje z kamery, aby podejmować działania i rozwiązywać zadania. Jednak, chociaż metody uczenia typu end-to-end mogą uogólniać i skalować skomplikowane zadania związane z manipulacją robotami, wymagają one setek tysięcy odcinków szkolenia robotów w świecie rzeczywistym, co może być trudne do uzyskania. Można próbować złagodzić to ograniczenie, stosując symulację środowiska, która pozwala wirtualnym robotom uczyć się szybciej i na większą skalę, ale niezdolność symulacji do dokładnego dopasowania do rzeczywistego świata stanowi wyzwanie powszechnie określane jako symulacja prawdziwa luka. Jednym z ważnych źródeł luki są rozbieżności między obrazami renderowanymi w symulacji a obserwacjami z rzeczywistej kamery robota, co z kolei powoduje, że robot źle radzi sobie w rzeczywistym świecie.

Do tej pory w pracach nad wypełnieniem tej luki wykorzystywano technikę zwaną adaptacją domeny na poziomie pikseli, która przekłada obrazy syntetyczne na realistyczne na poziomie pikseli. Jednym z przykładów tej techniki jest GraspGAN , który wykorzystuje generatywną sieć przeciwników(GAN), platforma, która okazała się bardzo skuteczna w generowaniu obrazów, do modelowania tej transformacji między symulowanymi i rzeczywistymi obrazami na podstawie zbiorów danych każdej domeny. Te pseudorzeczywiste obrazy korygują pewną lukę między symulacją a rzeczywistością, dzięki czemu zasady poznane podczas symulacji działają skuteczniej na prawdziwych robotach. Ograniczeniem ich stosowania w transferze z symulacji do rzeczywistego jest jednak to, że ponieważ GAN tłumaczą obrazy na poziomie pikseli, wielopikselowe funkcje lub struktury, które są niezbędne do uczenia się zadań robota, mogą być dowolnie modyfikowane lub nawet usuwane.

Aby rozwiązać powyższe ograniczenie i we współpracy z Everyday Robot Project w X , przedstawiamy dwie prace, RL-CycleGAN i RetinaGAN, które szkolą GAN z konsystencją specyficzną dla robota — tak, aby nie modyfikują arbitralnie funkcji wizualnych, które są szczególnie potrzebne do uczenia się zadań robota — i w ten sposób wypełniają wizualną rozbieżność między symulacją a rzeczywistością. Pokazujemy, w jaki sposób te spójność zachowują cechy krytyczne dla uczenia się zasad, eliminując potrzebę ręcznego dostrajania do konkretnego zadania, co z kolei pozwala na elastyczną pracę tej metodyki od symulacji do rzeczywistości w różnych zadaniach, domenach i algorytmach uczenia się. Dzięki RL-CycleGAN opisujemy naszą metodologię transferu sim do rzeczywistego i demonstrujemy najnowocześniejszą wydajność w rzeczywistych zadaniach chwytania przeszkolonych za pomocą RL. Dzięki RetinaGAN rozszerzamy nasze podejście o naukę naśladownictwa z zadaniem otwierania drzwi.

RL-CycleGAN
W „ RL-CycleGAN: Wzmacnianie uczenia się symulacji do rzeczywistości ” wykorzystujemy odmianę CycleGAN do adaptacji symultanicznej do rzeczywistej, zapewniając spójność funkcji istotnych dla zadania między obrazami rzeczywistymi i symulowanymi. CycleGAN zachęca do zachowania treści obrazu, zapewniając, że dostosowany obraz przekształcony z powrotem do oryginalnej domeny jest identyczny z oryginalnym obrazem, co nazywa się spójnością cyklu . Aby dodatkowo zachęcić przystosowane obrazy do użyteczności w robotyce, CycleGAN jest wspólnie szkolony z uczeniem wzmacniającym(RL) agent robota, który zapewnia, że ​​działania robota są takie same, biorąc pod uwagę zarówno oryginalne obrazy, jak i te po adaptacji GAN. Oznacza to, że funkcje specyficzne dla zadania, takie jak ramię robota lub lokalizacje obiektów do chwytania, pozostają niezmienione, ale GAN może nadal zmieniać różnice w oświetleniu lub teksturze między domenami, które nie wpływają na decyzje na poziomie zadania.

Ocena RL-CycleGAN Oceniliśmy
RL-CycleGAN w zadaniu robota polegającego na bezkrytycznym chwytaniu . Przeszkolony na 580 000 prawdziwych prób i symulacji dostosowanych za pomocą RL-CycleGAN, robot chwyta obiekty z wynikiem 94%, przewyższając 89% wskaźnik sukcesu wcześniejszej najnowocześniejszej metody GraspGAN i wynik 87% przy użyciu tylko rzeczywistych danych bez symulacji. Przy zaledwie 28 000 próbach metoda RL-CycleGAN osiąga 86%, porównywalnie z poprzednimi liniami bazowymi z 20-krotnością danych. Poniżej przedstawiono kilka przykładów wyjścia RL-CycleGAN wraz z obrazami symulacyjnymi.

Porównanie pomiędzy obrazami symulacyjnymi robota chwytającego przed (po lewej ) i po translacji RL-CycleGAN (po prawej ).

RetinaGAN
Podczas gdy RL-CycleGAN niezawodnie przenosi się z symulacji do rzeczywistości w domenie RL przy użyciu świadomości zadań, pojawia się naturalne pytanie: czy możemy opracować bardziej elastyczną technikę transferu z symulacji do rzeczywistości, która ma szerokie zastosowanie do różnych zadań i technik uczenia robotów?

W „ RetinaGAN: An Object-Aware Approach to Sim-to-Real Transfer ”, zaprezentowanym na ICRA 2021 , opracowujemy takie oddzielone od zadań, oddzielone od algorytmu podejście GAN do transferu sim do rzeczywistego, skupiając się zamiast tego na postrzeganiu robotów obiektów. RetinaGAN wymusza silną świadomość obiektowo-semantyczną poprzez spójność percepcji poprzez wykrywanie obiektów w celu przewidywania lokalizacji ramek granicznych dla wszystkich obiektów na wszystkich obrazach. W idealnym modelu symulacja-rzeczywistość oczekujemy, że detektor obiektów będzie przewidywał te same lokalizacje pudełek przed i po translacji GAN, ponieważ obiekty nie powinny zmieniać się strukturalnie. RetinaGAN jest przeszkolony w kierunku tego ideału przez wstecznej propagacji błędów, takich, że istnieje zgodność w percepcji obiektów zarówno gdy) symulowane obrazy są przekształcane z symulacji na rzeczywistą, a następnie z powrotem do symulacji oraz b ) gdy rzeczywiste obrazy są przekształcane z rzeczywistego w symulację, a następnie z powrotem do rzeczywistego. Uważamy, że ta spójność oparta na obiektach ma szersze zastosowanie niż spójność specyficzna dla zadania wymagana przez RL-CycleGAN.

Schemat etapów RetinaGAN. Symulowany obraz ( u góry po lewej ) jest przekształcany przez generator sim na rzeczywisty, a następnie przez generator rzeczywisty na sim. Prawdziwy obraz ( dolny lewy ) podlega transformacji w odwrotnej kolejności. Posiadanie oddzielnych potoków, które zaczynają się od symulowanych i rzeczywistych obrazów, poprawia wydajność GAN.

Ocena RetinaGAN na prawdziwym robocie
Mając na celu zbudowanie bardziej elastycznej techniki transferu sim do rzeczywistego, oceniamy RetinaGAN na wiele sposobów, aby zrozumieć, dla jakich zadań i w jakich warunkach realizuje transfer sim do rzeczywistego.

Najpierw stosujemy RetinaGAN do zadania chwytającego. Jak pokazano poniżej, RetinaGAN kładzie nacisk na tłumaczenie realistycznych tekstur obiektów, cieni i oświetlenia, przy jednoczesnym zachowaniu jakości wizualnej i wyrazistości obiektów do uchwycenia. Łączymy wstępnie wytrenowany model RetinaGAN z metodą uczenia z rozproszonym wzmocnieniem Q2-Opttrenować model zadań oparty na wizji, na przykład chwytanie. W przypadku prawdziwych robotów ta zasada obejmuje instancje obiektów z 80% sukcesem, gdy są trenowane na stu tysiącach odcinków — przewyższając wcześniejsze metody adaptacji RL-CycleGAN i CycleGAN (oba osiągają ~68%) i trenowanie bez adaptacji domeny (szare paski poniżej: 19% z dane sim, 22% z danymi rzeczywistymi i 54% z danymi mieszanymi). Daje nam to pewność, że spójność percepcji jest cenną strategią transferu sim do rzeczywistości. Co więcej, przy zaledwie 10 000 epizodach treningowych (8% danych), polityka RL z RetinaGAN osiąga 66% sukcesu, demonstrując wydajność wcześniejszych metod przy znacznie mniejszej ilości danych.

Ocena wydajności polityk RL w zakresie chwytania instancji, przeszkolona z różnymi zestawami danych i metodami sim-to-real. RetinaGAN o niskiej ilości danych wykorzystuje 8% rzeczywistego zestawu danych.
Symulowane środowisko chwytania (po lewej) jest tłumaczone na realistyczny obraz (po prawej) za pomocą RetinaGAN.

Następnie łączymy RetinaGAN z inną metodą uczenia się, klonowaniem behawioralnym , aby otworzyć drzwi sali konferencyjnej podczas demonstracji przez operatorów. Wykorzystując obrazy z symulowanych i rzeczywistych demonstracji, szkolimy RetinaGAN, aby tłumaczył syntetyczne obrazy, aby wyglądały realistycznie, wypełniając lukę między symulacją a rzeczywistością. Następnie szkolimy model klonowania zachowań, aby naśladować działania operatorów przy rozwiązywaniu zadań w rzeczywistych i dostosowanych do RetinaGAN demonstracjach symulacji. Podczas oceny tego modelu poprzez przewidywanie działań do podjęcia, robot wchodzi do prawdziwych sal konferencyjnych przez ponad 93% czasu, przekraczając wartości bazowe 75% i niższe.

Oba powyższe obrazy pokazują tę samą symulację, ale RetinaGAN tłumaczy symulowane obrazy otwierania drzwi (po lewej ), aby wyglądały bardziej jak dane z czujnika rzeczywistego robota (po prawej ).
Trzy przykłady prawdziwego robota z powodzeniem otwierającego drzwi do sali konferencyjnej przy użyciu polityki klonowania zachowań wyszkolonych przez RetinaGAN.

Podsumowanie
Ta praca wykazała, w jaki sposób dodatkowe ograniczenia w sieciach GAN mogą rozwiązać lukę między wizualną symulacją a rzeczywistością bez konieczności dostrajania do konkretnego zadania; te podejścia osiągają wyższe rzeczywiste wskaźniki sukcesu robotów przy mniejszym gromadzeniu danych. RL-CycleGAN tłumaczy obrazy syntetyczne na realistyczne z utratą spójności RL, która automatycznie zachowuje funkcje istotne dla zadania. RetinaGAN to technika adaptacji typu „sim-to-real” z uwzględnieniem obiektów, która przenosi się w sposób niezawodny między środowiskami i zadaniami, niezależnie od metody uczenia zadaniowego. Ponieważ RetinaGAN nie jest przeszkolony w zakresie wiedzy dotyczącej konkretnego zadania, pokazujemy, jak można go ponownie wykorzystać do nowego zadania polegającego na przekazywaniu obiektów . Mamy nadzieję, że prace nad luką między symulacją a rzeczywistością pozwolą dalej uogólniać rozwiązywanie manipulacji robotami niezależnymi od zadań w nieustrukturyzowanych środowiskach.

Podziękowania
Badania nad RL-CycleGAN przeprowadzili Kanishka Rao, Chris Harris, Alex Irpan, Sergey Levine, Julian Ibarz i Mohi Khansari. Badania nad RetinaGAN przeprowadzili Daniel Ho, Kanishka Rao, Zhuo Xu, Eric Jang, Mohi Khansari i Yunfei Bai. Chcielibyśmy również podziękować Ivonne Fajardo, Noah Brownowi, Benjaminowi Swansonowi, Christopherowi Paguyo, Armando Fuentesowi i Sphurti More’owi za nadzorowanie pracy robota. Dziękujemy Paulowi Wohlhartowi, Konstantinosowi Bousmalisowi, Danielowi Kapplerowi, Alexander Herzog, Anthony Brohan, Yao Lu, Chad Richards, Vincentowi Vanhoucke i Mrinalowi Kalakrishnanowi, Maxowi Braunowi i innym członkom zespołu Robotics at Google oraz Everyday Robot Project za cenne dyskusje i pomoc .

https://ai.googleblog.com/