Dane to podstawowy aspekt uczenia maszynowego (ML), który może wpływać na wydajność, uczciwość, niezawodność i skalowalność systemów ML. Paradoksalnie, o ile budowanie modeli ML jest często bardzo priorytetowe, o tyle praca związana z samymi danymi jest często najmniej priorytetowym aspektem. Ta praca nad danymi może wymagać wielu ról (takich jak zbieracze danych, adnotatorzy i programiści ML) i często angażuje wiele zespołów (takich jak zespoły bazodanowe, prawne lub licencyjne) do zasilania infrastruktury danych, co zwiększa złożoność każdego projektu związanego z danymi . W związku z tym dziedzina interakcji człowiek-komputer (HCI), która koncentruje się na uczynieniu technologii użyteczną i użyteczną dla ludzi, może pomóc zarówno w identyfikacji potencjalnych problemów, jak i ocenie wpływu na modele, gdy praca związana z danymi nie jest traktowana priorytetowo.

W „ „Wszyscy chcą wykonywać pracę modelową, a nie pracę z danymi”: kaskady danych w High-Stakes AI ”, opublikowanym na konferencji ACM CHI 2021, badamy i weryfikujemy dalsze skutki problemów z danymi, które skutkują długiem technicznym w czasie (zdefiniowanym jako „kaskady danych”). W szczególności ilustrujemy zjawisko kaskad danych z praktykami związanymi z danymi i wyzwaniami stojącymi przed praktykami ML na całym świecie pracującymi w ważnych dziedzinach ML, takich jak wykrywanie raka, wykrywanie osuwisk, alokacja pożyczek i wiele innych – dziedzin, w których systemy ML umożliwiły postęp, ale także gdzie istnieje możliwość poprawy poprzez uwzględnienie kaskad danych. Ta praca jest pierwszą, jaką znamy, aby sformalizować, zmierzyć i omówić kaskady danych w ML w zastosowaniu do rzeczywistych projektów. Dalej omawiamy możliwość, jaką daje zbiorowe ponowne wyobrażenie sobie danych ML jako o wysokim priorytecie, w tym nagradzanie pracy i pracowników na danych ML, uznanie naukowego empiryzmu w badaniach danych ML,

Pochodzenie kaskad danych
Zauważamy, że kaskady danych często powstają na wczesnym etapie cyklu życia systemu ML, na etapie definiowania i gromadzenia danych. Kaskady mają również tendencję do bycia złożonymi i nieprzejrzystymi w diagnozie i manifestacji, więc często nie ma jasnych wskaźników, narzędzi lub metryk do wykrywania i mierzenia ich skutków. Z tego powodu małe przeszkody związane z danymi mogą przerodzić się w większe i bardziej złożone wyzwania, które wpływają na sposób opracowywania i wdrażania modelu. Wyzwania związane z kaskadami danych obejmują konieczność przeprowadzania kosztownych zmian na poziomie systemu znacznie później w procesie rozwoju lub spadek zaufania użytkowników z powodu błędnych prognoz modeli wynikających z problemów z danymi. Niemniej jednak i zachęcająco obserwujemy również, że takich kaskad danych można uniknąć poprzez wczesne interwencje w rozwój ML.

Różne kolorowe strzałki wskazują różne typy kaskad danych, które zazwyczaj mają swój początek w górę, łączą się w procesie opracowywania ML i manifestują się później.

Przykłady kaskad danych
Jedną z najczęstszych przyczyn kaskad danych jest to, że modele, które są wytrenowane na zestawach danych pozbawionych zakłóceń, są wdrażane w często zaszumionym świecie rzeczywistym. Na przykład powszechny typ kaskady danych pochodzi z dryfu modelu model, które występują, gdy zmienne docelowe i niezależne różnią się, co skutkuje mniej dokładnymi modelami. Dryfowanie jest bardziej powszechne, gdy modele ściśle wchodzą w interakcję z nowymi środowiskami cyfrowymi — w tym z dziedzinami o wysokiej stawce, takimi jak wykrywanie jakości powietrza, wykrywanie oceanów i skanowanie ultradźwiękowe — ponieważ nie ma wcześniej istniejących i/lub wyselekcjonowanych zbiorów danych. Takie dryfowanie może prowadzić do większej liczby czynników, które dodatkowo obniżają wydajność modelu (np. związanych z wiedzą sprzętową, środowiskową i ludzką). Na przykład, aby zapewnić dobrą wydajność modelu, dane są często gromadzone w kontrolowanych środowiskach wewnętrznych. Jednak w żywych systemach nowych środowisk cyfrowych z ograniczonymi zasobami dane są gromadzone częściej z fizycznymi artefaktami, takimi jak odciski palców, cienie, kurz, niewłaściwe oświetlenie i oznaczenia pisakami. co może dodać szum, który wpływa na wydajność modelu. W innych przypadkach czynniki środowiskowe, takie jak deszcz i wiatr, mogą nieoczekiwanie poruszyć czujniki obrazu podczas rozmieszczania, co również wyzwala kaskady. Jak poinformował jeden z twórców modeli, z którymi rozmawialiśmy, nawet niewielka kropla oleju lub wody może wpłynąć na dane, które można wykorzystać do trenowania modelu prognozowania raka, wpływając w ten sposób na jego wydajność. Ponieważ zaspy są często powodowane przez hałas w rzeczywistych środowiskach, ich manifestacja trwa najdłużej — do 2-3 lat — prawie zawsze w produkcji. nawet niewielka kropla oleju lub wody może wpłynąć na dane, które można wykorzystać do trenowania modelu prognozowania raka, wpływając tym samym na wydajność modelu. Ponieważ zaspy są często powodowane przez hałas w rzeczywistych środowiskach, ich manifestacja trwa najdłużej — do 2-3 lat — prawie zawsze w produkcji. nawet niewielka kropla oleju lub wody może wpłynąć na dane, które można wykorzystać do trenowania modelu prognozowania raka, wpływając tym samym na wydajność modelu. Ponieważ zaspy są często powodowane przez hałas w rzeczywistych środowiskach, ich manifestacja trwa najdłużej — do 2-3 lat — prawie zawsze w produkcji.

Innym powszechnym rodzajem kaskady danych może być sytuacja, w której praktycy ML mają za zadanie zarządzać danymi w dziedzinach, w których mają ograniczoną wiedzę specjalistyczną. Na przykład niektóre rodzaje informacji, takie jak identyfikacja miejsc kłusownictwa lub dane zebrane podczas podwodnych eksploracji, opierają się na wiedzy z zakresu nauk biologicznych, społecznych i społeczności. Jednak niektórzy programiści w naszym badaniu opisali konieczność podjęcia szeregu działań związanych z danymi, które przewyższały ich wiedzę w danej dziedzinie — np. odrzucanie danych, korygowanie wartości, łączenie danych lub ponowne uruchamianie gromadzenia danych — co prowadzi do kaskad danych, które ograniczają wydajność modelu. Praktyka polegania na wiedzy technicznej bardziej niż na ekspertyzach dziedzinowych (np. poprzez kontakt z ekspertami dziedzinowymi) wydaje się uruchamiać te kaskady.

Dwie inne kaskady zaobserwowane w tym artykule wynikały z sprzecznych zachęt i praktyk organizacyjnych między zbieraczami danych, programistami ML i innymi partnerami — na przykład jedna kaskada była spowodowana słabą dokumentacją zestawu danych. Chociaż praca związana z danymi wymaga starannej koordynacji między wieloma zespołami, jest to szczególnie trudne, gdy interesariusze nie są wyrównani pod względem priorytetów lub przepływów pracy.

Jak
radzić sobie z kaskadami danych Rozwiązanie problemu kaskad danych wymaga wieloczęściowego, systemowego podejścia w badaniach i praktyce ML:

  1. Opracuj i przekaż koncepcję dobroci danych , od której zaczyna się system ML, podobnie jak myślimy o dobroci dopasowania do modeli. Obejmuje to opracowywanie standaryzowanych metryk i częste wykorzystywanie tych metryk do pomiaru aspektów danych, takich jak wierność fenomenologiczna (jak dokładnie i kompleksowo dane reprezentują zjawiska) i trafność (jak dobrze dane wyjaśniają rzeczy związane ze zjawiskami uchwyconymi przez dane), podobnie jak jak opracowaliśmy dobre wskaźniki do pomiaru wydajności modelu, takie jak wyniki F1 .
  2. Wprowadzaj innowacje w zakresie zachęt do uznawania pracy na danych, takich jak przyjmowanie empiryzmu na danych na torach konferencyjnych, nagradzanie za utrzymanie zestawu danych lub nagradzanie pracowników za ich pracę nad danymi (zbieranie, etykietowanie, czyszczenie lub konserwacja) w organizacjach.
  3. Praca z danymi często wymaga koordynacji między wieloma rolami i wieloma zespołami, ale obecnie jest to dość ograniczone (częściowo, ale nie całkowicie, z powodu wcześniej wymienionych czynników). Nasze badania wskazują na wartość wspierania większej współpracy, przejrzystości i bardziej sprawiedliwego podziału korzyści między zbieraczami danych, ekspertami dziedzinowymi i programistami ML, zwłaszcza w przypadku systemów ML, które opierają się na zbieraniu lub oznaczaniu niszowych zestawów danych.
  4. Wreszcie, nasze badania w wielu krajach wskazują, że niedobór danych jest wyraźny w krajach o niższych dochodach, gdzie programiści ML stają przed dodatkowym problemem definiowania i ręcznego opracowywania nowych zestawów danych, co utrudnia nawet rozpoczęcie opracowywania systemów ML. Ważne jest, aby umożliwić bankom otwartych zbiorów danych, tworzyć polityki dotyczące danych i rozwijać umiejętność uczenia się przez decydentów i społeczeństwo obywatelskie w celu rozwiązania obecnych nierówności w danych na całym świecie.

Podsumowanie
W tej pracy zarówno dostarczamy dowodów empirycznych, jak i formalizujemy koncepcję kaskad danych w systemach ML. Mamy nadzieję, że uda nam się uświadomić potencjalną wartość, jaką może przynieść zachęcanie do doskonałości danych. Mamy również nadzieję, że wprowadzimy niezbadany, ale znaczący nowy program badawczy dla HCI. Nasze badania nad kaskadami danych doprowadziły do ​​popartych dowodami, najnowocześniejszych wytycznych dotyczących gromadzenia i oceny danych w zaktualizowanym przewodniku PAIR Guide , skierowanym do programistów i projektantów ML.

Podziękowania
Ten artykuł został napisany we współpracy z Shivani Kapania, Hannah Highfill, Dianą Akrong, Praveen Paritosh i Lora Aroyo. Dziękujemy naszym uczestnikom badania oraz Sures Kumar Thoddu Srinivasan, Jose M. Faleiro, Kristen Olson, Biswajeet Malik, Siddhant Agarwal, Manish Gupta, Aneidi Udo-Obong, Divy Thakkar, Di Dang i Solomon Awosupin.

https://ai.googleblog.com/