Jak generatywna sztuczna inteligencja działa i pomaga inżynierom

Szybkie przejrzenie nagłówków gazet sprawia wrażenie, że sztuczna inteligencja generatywna jest obecnie wszechobecna. W rzeczywistości niektóre z tych nagłówków mogły zostać napisane przez generatywną sztuczną inteligencję, jak ChatGPT firmy OpenAI, chatbot, który wykazał niesamowitą zdolność do tworzenia tekstu, który wydaje się być napisany przez człowieka.


Sztuczna inteligencja w skrócie

 

Trenuje tworzenie nowych danych, w przeciwieństwie do modeli predykcyjnych, tworząc obiekty przypominające wytrenowane dane, rewolucjonizując możliwości różnych dziedzin.

 

Od podstawowych modeli Markowa do GAN i modeli dyfuzyjnych, postępy zrodziły bardziej skomplikowane, wielkoskalowe generatywne architektury sztucznej inteligencji dla realistycznych wyników.

 

Umożliwia różnorodne zastosowania, od tworzenia syntetycznych obrazów do szkolenia sztucznej inteligencji po projektowanie białek i materiałów, wpływając na potencjał innowacji w różnych dziedzinach.


Co tak naprawdę ludzie mają na myśli mówiąc “generatywna sztuczna inteligencja”?

Przed boomem na generatywną sztuczną inteligencję w ciągu ostatnich kilku lat, kiedy ludzie mówili o sztucznej inteligencji, zazwyczaj mówili o modelach uczenia maszynowego, które mogą nauczyć się przewidywać na podstawie danych. Na przykład takie modele są szkolone przy użyciu milionów przykładów, aby przewidzieć, czy określone zdjęcie rentgenowskie wykazuje oznaki guza lub czy dany pożyczkobiorca prawdopodobnie nie spłaci pożyczki.

Generatywna sztuczna inteligencja może być postrzegana jako model uczenia maszynowego, który jest szkolony w celu tworzenia nowych danych, a nie przewidywania określonego zbioru danych. Generatywny system sztucznej inteligencji to taki, który uczy się generować więcej obiektów, które wyglądają jak dane, na których został przeszkolony.

“Jeśli chodzi o rzeczywistą maszynerię leżącą u podstaw generatywnej sztucznej inteligencji i innych rodzajów sztucznej inteligencji, rozróżnienia mogą być nieco rozmyte. Często te same algorytmy mogą być używane w obu przypadkach” – powiedział Phillip Isola, profesor nadzwyczajny elektrotechniki i informatyki na MIT oraz członek Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL).

Pomimo szumu, który pojawił się wraz z wydaniem ChatGPT i jego odpowiedników, sama technologia nie jest zupełnie nowa. Te potężne modele uczenia maszynowego opierają się na badaniach i postępach obliczeniowych, które sięgają ponad 50 lat wstecz.

Co ludzie mają na myśli mówiąc “generatywna sztuczna inteligencja” i dlaczego systemy te wydają się znajdować drogę do praktycznie każdej możliwej aplikacji? Eksperci z MIT AI pomagają wyjaśnić tajniki tej coraz bardziej popularnej i wszechobecnej technologii.

Wzrost złożoności

Wczesnym przykładem generatywnej sztucznej inteligencji jest znacznie prostszy model znany jako łańcuch Markowa. Technika ta została nazwana na cześć Andrieja Markowa, rosyjskiego matematyka, który w 1906 roku wprowadził tę metodę statystyczną do modelowania zachowania procesów losowych. W uczeniu maszynowym modele Markowa są od dawna wykorzystywane do zadań przewidywania następnego słowa, takich jak funkcja autouzupełniania w programie pocztowym.

W przewidywaniu tekstu model Markowa generuje następne słowo w zdaniu, patrząc na poprzednie słowo lub kilka poprzednich słów. Ale ponieważ te proste modele mogą patrzeć tylko tak daleko wstecz, nie są dobre w generowaniu wiarygodnego tekstu, powiedział Tommi Jaakkola, profesor elektrotechniki i informatyki Thomasa Siebela na MIT, który jest również członkiem CSAIL i Institute for Data, Systems, and Society (IDSS).

“Generowaliśmy rzeczy na długo przed ostatnią dekadą, ale główna różnica polega na złożoności obiektów, które możemy generować i skali, w jakiej możemy trenować te modele” – wyjaśnia.

Jeszcze kilka lat temu badacze skupiali się na znalezieniu algorytmu uczenia maszynowego, który najlepiej wykorzystuje określony zbiór danych. Skupienie to jednak nieco się zmieniło, a wielu badaczy wykorzystuje obecnie większe zbiory danych, być może z setkami milionów lub nawet miliardami punktów danych, do trenowania modeli, które mogą osiągać imponujące wyniki.

Modele bazowe leżące u podstaw ChatGPT i podobnych systemów działają w podobny sposób jak model Markowa. Jedną dużą różnicą jest to, że ChatGPT jest znacznie większy i bardziej złożony, z miliardami parametrów. Został on również wytrenowany na ogromnej ilości danych – w tym przypadku na większości publicznie dostępnego tekstu w Internecie.

W tym ogromnym korpusie tekstu słowa i zdania pojawiają się w sekwencjach z pewnymi zależnościami. Ta powtarzalność pomaga modelowi zrozumieć, jak podzielić tekst na fragmenty statystyczne, które mają pewną przewidywalność. Model uczy się wzorców tych bloków tekstu i wykorzystuje tę wiedzę, aby zaproponować, co może nastąpić później.

Bardziej wydajne architektury

Podczas gdy większe zbiory danych są jednym z katalizatorów, które doprowadziły do boomu generatywnej sztucznej inteligencji, szereg głównych postępów badawczych doprowadził również do powstania bardziej złożonych architektur głębokiego uczenia się.

W 2014 roku naukowcy z Uniwersytetu w Montrealu zaproponowali architekturę uczenia maszynowego znaną jako generatywna sieć przeciwstawna (GAN). Sieci GAN wykorzystują dwa modele, które działają w tandemie: jeden uczy się generować docelowe dane wyjściowe (takie jak obraz), a drugi uczy się odróżniać prawdziwe dane od danych wyjściowych generatora. Generator próbuje oszukać dyskryminator, a w trakcie tego procesu uczy się tworzyć bardziej realistyczne dane wyjściowe. Generator obrazów StyleGAN jest oparty na tego typu modelach.

Modele dyfuzyjne zostały wprowadzone rok później przez naukowców z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley. Poprzez iteracyjne udoskonalanie swoich danych wyjściowych, modele te uczą się generować nowe próbki danych, które przypominają próbki w szkoleniowym zbiorze danych i zostały wykorzystane do stworzenia realistycznie wyglądających obrazów. Model dyfuzji jest sercem systemu generowania tekstu na obraz Stable Diffusion.

W 2017 roku naukowcy z Google wprowadzili architekturę transformatora, która została wykorzystana do opracowania dużych modeli językowych, takich jak te, które zasilają ChatGPT. W przetwarzaniu języka naturalnego transformator koduje każde słowo w korpusie tekstu jako token, a następnie generuje mapę uwagi, która rejestruje relacje każdego tokena ze wszystkimi innymi tokenami. Ta mapa uwagi pomaga transformatorowi zrozumieć kontekst podczas generowania nowego tekstu.

To tylko kilka z wielu podejść, które można wykorzystać w generatywnej sztucznej inteligencji.

Zakres zastosowań

Cechą wspólną wszystkich tych podejść jest to, że konwertują one dane wejściowe na zestaw tokenów, które są numerycznymi reprezentacjami fragmentów danych. Dopóki dane można przekonwertować na ten standardowy format tokenów, teoretycznie można zastosować te metody do generowania nowych danych, które wyglądają podobnie.

“Twój przebieg może się różnić, w zależności od tego, jak zaszumione są twoje dane i jak trudny jest do wyodrębnienia sygnał, ale to naprawdę zbliża się do sposobu, w jaki procesor ogólnego przeznaczenia może pobierać dowolny rodzaj danych i rozpocząć ich przetwarzanie w ujednolicony sposób” – powiedział Isola.

Otwiera to ogromny wachlarz zastosowań dla generatywnej sztucznej inteligencji.

Na przykład, grupa Isoli wykorzystuje generatywną sztuczną inteligencję do tworzenia syntetycznych danych obrazu, które mogą być wykorzystane do szkolenia innego inteligentnego systemu, na przykład poprzez nauczenie modelu wizji komputerowej, jak rozpoznawać obiekty.

Grupa Jaakkoli wykorzystuje generatywną sztuczną inteligencję do projektowania nowych struktur białkowych lub prawidłowych struktur krystalicznych, które określają nowe materiały. W ten sam sposób, w jaki model generatywny uczy się zależności językowych, jeśli zamiast tego pokaże mu się struktury krystaliczne, może nauczyć się relacji, które sprawiają, że struktury są stabilne i możliwe do zrealizowania, wyjaśnia.

Chociaż modele generatywne mogą osiągać niesamowite wyniki, nie są najlepszym wyborem dla wszystkich typów danych. Devavrat Shah, profesor Andrew i Erna Viterbi w dziedzinie inżynierii elektrycznej i informatyki na MIT oraz członek IDSS i Laboratorium Systemów Informacyjnych i Decyzyjnych, powiedział, że w przypadku zadań wymagających przewidywania na danych strukturalnych, takich jak dane tabelaryczne w arkuszu kalkulacyjnym, generatywne modele sztucznej inteligencji mają tendencję do osiągania lepszych wyników niż tradycyjne metody uczenia maszynowego.

“Moim zdaniem ich największą wartością jest stanie się wspaniałym interfejsem dla maszyn, które są przyjazne dla człowieka. Wcześniej ludzie musieli rozmawiać z maszynami w języku maszyn, aby coś się wydarzyło. Teraz ten interfejs wymyślił, jak rozmawiać zarówno z ludźmi, jak i maszynami” – powiedział Shah.

Podnoszenie czerwonych flag

Chatboty generujące sztuczną inteligencję są obecnie wykorzystywane w centrach obsługi telefonicznej do odpowiadania na pytania klientów, ale to zastosowanie podkreśla jedną potencjalną czerwoną flagę związaną z wdrażaniem tych modeli – wypieranie pracowników.

Ponadto generatywna sztuczna inteligencja może dziedziczyć i rozprzestrzeniać uprzedzenia istniejące w danych szkoleniowych lub wzmacniać mowę nienawiści i fałszywe stwierdzenia. Modele mają zdolność do plagiatowania i mogą generować treści, które wyglądają tak, jakby zostały stworzone przez konkretnego człowieka, co rodzi potencjalne problemy z prawami autorskimi.

Z drugiej strony, Shah proponuje, że generatywna sztuczna inteligencja mogłaby wzmocnić pozycję artystów, którzy mogliby korzystać z narzędzi generatywnych, aby pomóc im w tworzeniu kreatywnych treści, których w przeciwnym razie nie mieliby środków do wyprodukowania.

W przyszłości generatywna sztuczna inteligencja zmieni ekonomię w wielu dyscyplinach.

Jednym z obiecujących przyszłych kierunków, jakie Isola widzi dla generatywnej sztucznej inteligencji, jest jej wykorzystanie do produkcji. Zamiast zlecać modelowi stworzenie obrazu krzesła, być może mógłby on wygenerować plan krzesła, które można by wyprodukować.

Widzi również przyszłe zastosowania generatywnych systemów sztucznej inteligencji w opracowywaniu bardziej ogólnie inteligentnych agentów sztucznej inteligencji.

“Istnieją różnice w tym, jak działają te modele i jak naszym zdaniem działa ludzki mózg, ale myślę, że są też podobieństwa. Mamy zdolność do myślenia i marzeń w naszych głowach, do wymyślania interesujących pomysłów lub planów i myślę, że generatywna sztuczna inteligencja jest jednym z narzędzi, które umożliwią to również agentom” – powiedział Isola.