Technika generatywnej sztucznej inteligencji pomaga robotom pakować przedmioty w ciasne przestrzenie

Naukowcy z MIT wykorzystują generatywne modele sztucznej inteligencji, aby pomóc robotom w skuteczniejszym rozwiązywaniu złożonych problemów związanych z manipulacją obiektami, takich jak pakowanie pudełka z różnymi przedmiotami. | Dzięki uprzejmości: Massachusetts Institute of Technology (MIT)

Naukowcy z MIT opracowali technikę, która zmusiła rodzinę generatywnych modeli sztucznej inteligencji do współpracy w celu rozwiązania wieloetapowych problemów związanych z manipulacją robotami.

Każdy, kto kiedykolwiek próbował spakować bagaż wielkości rodziny do bagażnika wielkości sedana, wie, że jest to trudny problem. Roboty również zmagają się z gęstymi zadaniami pakowania.

Dla robota, rozwiązanie problemu pakowania wymaga spełnienia wielu ograniczeń, takich jak układanie bagażu tak, aby walizki nie wypadały z bagażnika, ciężkie przedmioty nie były umieszczane na lżejszych, a kolizje między ramieniem robota a zderzakiem samochodu były unikane.

Niektóre tradycyjne metody rozwiązują ten problem sekwencyjnie, zgadując częściowe rozwiązanie, które spełnia jedno ograniczenie na raz, a następnie sprawdzając, czy inne ograniczenia zostały naruszone. Przy długiej sekwencji działań do wykonania i stosie bagażu do spakowania, proces ten może być niepraktycznie czasochłonny.

Naukowcy z MIT wykorzystali formę generatywnej sztucznej inteligencji, zwaną modelem dyfuzyjnym, aby rozwiązać ten problem bardziej efektywnie. Ich metoda wykorzystuje zbiór modeli uczenia maszynowego, z których każdy jest szkolony do reprezentowania jednego konkretnego typu ograniczeń. Modele te są łączone w celu wygenerowania globalnych rozwiązań problemu pakowania, biorąc pod uwagę wszystkie ograniczenia jednocześnie.

Ich metoda była w stanie wygenerować efektywne rozwiązania szybciej niż inne techniki i wygenerowała większą liczbę udanych rozwiązań w tym samym czasie. Co ważne, ich technika była również w stanie rozwiązywać problemy z nowymi kombinacjami ograniczeń i większą liczbą obiektów, których modele nie widziały podczas treningu.

Ze względu na tę możliwość uogólnienia, ich technika może być wykorzystywana do uczenia robotów, jak rozumieć i spełniać ogólne ograniczenia problemów związanych z pakowaniem, takie jak znaczenie unikania kolizji lub chęć, aby jeden obiekt znajdował się obok innego obiektu. Roboty wyszkolone w ten sposób mogą być stosowane do szerokiej gamy złożonych zadań w różnych środowiskach, od realizacji zamówień w magazynie po organizowanie półki z książkami w czyimś domu.

“Moją wizją jest zmuszenie robotów do wykonywania bardziej skomplikowanych zadań, które mają wiele ograniczeń geometrycznych i więcej ciągłych decyzji, które muszą być podjęte – są to rodzaje problemów, z którymi roboty usługowe muszą się zmierzyć w naszych nieustrukturyzowanych i zróżnicowanych środowiskach ludzkich. Dzięki potężnemu narzędziu, jakim są kompozycyjne modele dyfuzyjne, możemy teraz rozwiązywać te bardziej złożone problemy i uzyskiwać świetne wyniki uogólniania” – powiedział Zhutian Yang, absolwent inżynierii elektrycznej i informatyki oraz główny autor artykułu na temat tej nowej techniki uczenia maszynowego.

Komplikacje związane z ograniczeniami

Problemy związane z ciągłym spełnianiem ograniczeń stanowią szczególne wyzwanie dla robotów. Problemy te pojawiają się w wieloetapowych zadaniach manipulacyjnych robotów, takich jak pakowanie przedmiotów do pudełka lub nakrywanie do stołu. Często wymagają one spełnienia szeregu ograniczeń, w tym ograniczeń geometrycznych, takich jak unikanie kolizji między ramieniem robota a otoczeniem; ograniczeń fizycznych, takich jak układanie obiektów tak, aby były stabilne; oraz ograniczeń jakościowych, takich jak umieszczenie łyżki po prawej stronie noża.

Ograniczeń może być wiele i mogą się one różnić w zależności od problemów i środowisk, w zależności od geometrii obiektów i wymagań określonych przez człowieka.

Aby skutecznie rozwiązać te problemy, naukowcy z MIT opracowali technikę uczenia maszynowego o nazwie Diffusion-CCSP. Modele dyfuzyjne uczą się generować nowe próbki danych, które przypominają próbki w zbiorze danych szkoleniowych, iteracyjnie udoskonalając swoje dane wyjściowe.

W tym celu modele dyfuzyjne uczą się procedury wprowadzania niewielkich ulepszeń do potencjalnego rozwiązania. Następnie, aby rozwiązać problem, zaczynają od losowego, bardzo złego rozwiązania, a następnie stopniowo je ulepszają.

Na przykład, proszę sobie wyobrazić losowe umieszczanie talerzy i przyborów na symulowanym stole, pozwalając im fizycznie zachodzić na siebie. Bezkolizyjne ograniczenia między obiektami spowodują, że będą się one od siebie odsuwać, podczas gdy ograniczenia jakościowe przeciągną talerz na środek, wyrównają widelec do sałatki i widelec do obiadu itp.

Modele dyfuzyjne dobrze nadają się do tego rodzaju problemów z ciągłym spełnianiem ograniczeń, ponieważ wpływ wielu modeli na pozę jednego obiektu może być skomponowany tak, aby zachęcić do spełnienia wszystkich ograniczeń, wyjaśnia Yang. Zaczynając za każdym razem od losowej wartości początkowej, modele mogą uzyskać zróżnicowany zestaw dobrych rozwiązań.

Ten rysunek przedstawia przykłady upakowania trójkątów 2D. Są to konfiguracje bezkolizyjne. | Dzięki uprzejmości: Massachusetts Institute of Technology (MIT)

Wspólna praca

W przypadku Diffusion-CCSP naukowcy chcieli uchwycić wzajemne powiązania między ograniczeniami. Na przykład podczas pakowania jedno ograniczenie może wymagać, aby określony obiekt znajdował się obok innego obiektu, podczas gdy drugie ograniczenie może określać, gdzie jeden z tych obiektów musi się znajdować.

Diffusion-CCSP uczy się rodziny modeli dyfuzyjnych, po jednym dla każdego typu ograniczenia. Modele są trenowane razem, więc dzielą się pewną wiedzą, taką jak geometria pakowanych obiektów.

Następnie modele współpracują ze sobą, aby znaleźć rozwiązania, w tym przypadku lokalizacje dla obiektów, które mają być umieszczone, które wspólnie spełniają ograniczenia.

“Nie zawsze udaje nam się znaleźć rozwiązanie za pierwszym razem. Ale kiedy udoskonalamy rozwiązanie i dochodzi do jakiegoś naruszenia, powinno to doprowadzić nas do lepszego rozwiązania. Otrzymuje się wskazówki, gdy coś jest nie tak” – powiedziała.

Trenowanie indywidualnych modeli dla każdego typu ograniczeń, a następnie łączenie ich w celu prognozowania znacznie zmniejsza ilość wymaganych danych treningowych w porównaniu z innymi podejściami.

Jednak szkolenie tych modeli nadal wymaga dużej ilości danych, które pokazują rozwiązane problemy. Ludzie musieliby rozwiązywać każdy problem tradycyjnymi, powolnymi metodami, co sprawia, że koszt wygenerowania takich danych jest zaporowy, powiedział Yang.

Zamiast tego naukowcy odwrócili ten proces, najpierw wymyślając rozwiązania. Wykorzystali oni szybkie algorytmy do generowania segmentowanych pudełek i dopasowywania zróżnicowanego zestawu obiektów 3D do każdego segmentu, zapewniając ciasne upakowanie, stabilne pozy i rozwiązania wolne od kolizji.

“Dzięki temu procesowi generowanie danych w symulacji jest niemal natychmiastowe. Możemy wygenerować dziesiątki tysięcy środowisk, w których wiemy, że problemy są rozwiązywalne” – powiedział Yang.

Wyszkolone przy użyciu tych danych, modele dyfuzyjne współpracują ze sobą w celu określenia lokalizacji obiektów, które powinny zostać umieszczone przez chwytak robota, aby osiągnąć zadanie pakowania przy jednoczesnym spełnieniu wszystkich ograniczeń.

Przeprowadzili oni badania wykonalności, a następnie zademonstrowali Diffusion-CCSP z prawdziwym robotem rozwiązującym szereg trudnych problemów, w tym dopasowywanie trójkątów 2D do pudełka, pakowanie kształtów 2D z ograniczeniami relacji przestrzennych, układanie obiektów 3D z ograniczeniami stabilności i pakowanie obiektów 3D za pomocą ramienia robota.

Ich metoda przewyższała inne techniki w wielu eksperymentach, generując większą liczbę skutecznych rozwiązań, które były zarówno stabilne, jak i wolne od kolizji.

W przyszłości Yang i jej współpracownicy chcą przetestować Diffusion-CCSP w bardziej skomplikowanych sytuacjach, na przykład z robotami, które mogą poruszać się po pokoju. Chcą również umożliwić Diffusion-CCSP rozwiązywanie problemów w różnych dziedzinach bez konieczności ponownego szkolenia na nowych danych.


Chris Vavra, kierownik ds. treści internetowych, CFE Media and Technology