Transformer²: Samodostosowujące się Modele Językowe (LLM)

Adaptacja jest jednym z najbardziej niezwykłych zjawisk w naturze.

Od ośmiornicy, która potrafi zmieniać kolor skóry, aby wtopić się w otoczenie, po ludzki mózg, który przekształca się po urazie, pozwalając odzyskać utracone funkcje i przystosować się do nowych sposobów myślenia czy poruszania. Organizmy żywe wykazują zdolności adaptacyjne, które pozwalają życiu rozwijać się w różnorodnych i ciągle zmieniających się środowiskach.

W dziedzinie sztucznej inteligencji koncepcja adaptacji ma podobną wartość. Wyobraźmy sobie system uczenia maszynowego, który mógłby dynamicznie dostosowywać swoje wagi, aby radzić sobie w nieznanych warunkach, demonstrując system, który ewoluuje w trakcie uczenia się. Samodostosowanie w AI obiecuje większą wydajność i potencjał dla modeli zdolnych do ciągłego uczenia się, zgodnych z dynamiczną naturą rzeczywistego świata.

Ta wizja samodostosowującej się AI jest sednem naszego najnowszego artykułu badawczego, Transformer² (czyt. „Transformer do kwadratu”), w którym proponujemy system uczenia maszynowego dynamicznie dostosowujący swoje wagi do różnych zadań. Nazwa Transformer² odzwierciedla jego dwuetapowy proces: najpierw model analizuje nadchodzące zadanie, aby zrozumieć jego wymagania, a następnie stosuje specyficzne dla zadania adaptacje, aby generować optymalne wyniki. Poprzez selektywne dostosowywanie krytycznych komponentów wag modelu, nasze rozwiązanie pozwala modelom LLM na dynamiczne dostosowywanie się do nowych zadań w czasie rzeczywistym. Transformer² wykazuje znaczące postępy w różnych zadaniach (np. matematyce, kodowaniu, rozumowaniu i rozumieniu wizualnym), przewyższając tradycyjne, statyczne podejścia jak LoRA pod względem wydajności i skuteczności w konkretnych zadaniach, przy jednoczesnym wykorzystaniu znacznie mniejszej liczby parametrów.

Nasze badania dają wgląd w przyszłość, w której modele AI nie są już statyczne. Systemy te będą dynamicznie skalować swoje obliczenia w czasie testowania, aby dostosować się do złożoności napotkanych zadań, ucieleśniając żywą inteligencję zdolną do ciągłej zmiany i uczenia się przez całe życie.

Wierzymy, że samodostosowanie nie tylko przekształci badania nad AI, ale także przedefiniuje sposób, w jaki wchodzimy w interakcję z inteligentnymi systemami, tworząc świat, w którym adaptacyjność i inteligencja idą w parze.

Badanie „Mózgu” Modeli Językowych

Podobnie jak ludzki mózg przechowuje wiedzę i przetwarza informacje poprzez połączone ścieżki neuronowe, modele LLM przechowują wiedzę w swoich macierzach wag. Te macierze są „mózgiem” modelu LLM, zawierającym esencję tego, czego nauczył się ze swoich danych treningowych.

Zrozumienie tego „mózgu” i zapewnienie, że może się skutecznie dostosowywać do nowych zadań, wymaga bliższego przyjrzenia się jego wewnętrznej strukturze. Tu właśnie Rozkład Wartości Osobliwych (SVD – Singular Value Decomposition) dostarcza bezcennych informacji. Wyobraź sobie SVD jako chirurga wykonującego szczegółową operację na mózgu modelu LLM. Ten chirurg rozkłada rozległą, złożoną wiedzę przechowywaną w LLM na mniejsze, znaczące i niezależne części (np. różne ścieżki lub komponenty do matematyki, rozumienia języka itp.).

SVD osiąga ten cel poprzez identyfikację głównych komponentów macierzy wag modelu LLM. W naszych badaniach odkryliśmy, że wzmocnienie sygnału z podzbioru tych komponentów przy jednoczesnym tłumieniu innych może poprawić wydajność LLM w zadaniach końcowych. Bazując na tym fundamencie, Transformer² wykonuje kolejny krok w kierunku dynamicznej, dostosowanej do zadań adaptacji, umożliwiając modelom LLM osiąganie doskonałych wyników w różnorodnych i złożonych scenariuszach.

Wprowadzenie do Transformer²

Transformer² to nowatorskie podejście wprowadzające koncepcję samodostosowujących się modeli LLM z dwuetapowym procesem, który na nowo definiuje sposób, w jaki te potężne modele radzą sobie z różnorodnymi zadaniami. U jego podstaw leży zdolność do dynamicznego dostosowywania krytycznych komponentów macierzy wag. W czasie treningu wprowadzamy Singular Value Finetuning (SVF) – metodę wykorzystującą uczenie ze wzmocnieniem (RL) do wzmacniania/tłumienia sygnałów z różnych komponentów „mózgu” dla różnych typów zadań. W czasie wnioskowania stosujemy trzy różne strategie wykrywania tożsamości zadania i odpowiedniego dostosowywania wag modelu.

Trening z SVF i RL

W czasie treningu, SVF uczy się zestawu wektorów z, po jednym dla każdego zadania końcowego. Każdy wektor 'z’ , który można uznać za eksperta w danym zadaniu, jest zwartą reprezentacją określającą pożądaną siłę każdego komponentu w macierzy wag, działając jak zestaw „wzmacniaczy” lub „tłumików” modulujących wpływ różnych komponentów na zachowanie modelu.

Na przykład, załóżmy że SVD rozkłada macierz wag na pięć komponentów [A, B, C, D, E]. Dla zadania matematycznego, nauczony wektor 'z’ może wynosić [1, 0.8, 0, 0.3, 0.5], co oznacza, że komponent A jest krytyczny dla matematyki, podczas gdy komponent C prawie nie wpływa na jego wydajność. Dla zadania rozumienia języka, wektor 'z’ mógłby wynosić [0.1, 0.3, 1, 0.7, 0.5], podkreślając, że komponent C jest istotny dla tego zadania, mimo że jest mniej przydatny dla matematyki.

Autoadaptacja

W czasie wnioskowania opracowaliśmy dwuprzebiegową strategię adaptacji dla naszego frameworka, która skutecznie łączy zestaw wektorów 'z’ specyficznych dla zadań. W pierwszym przebiegu wnioskowania, dla danego zadania lub indywidualnego promptu wejściowego, Transformer² analizuje warunki testowe używając jednej z trzech metod adaptacji. W drugim przebiegu Transformer² moduluje wagi odpowiednio poprzez łączenie wektorów 'z’, produkując końcową odpowiedź najbardziej odpowiednią dla nowych ustawień.

Podsumowujemy trzy metody wykrywania/adaptacji zadań:

Adaptacja oparta na promptach: Specjalnie zaprojektowany prompt adaptacyjny klasyfikuje zadanie (np. matematyka, kodowanie) i wybiera wytrenowany wcześniej wektor 'z’.
Adaptacja oparta na klasyfikatorze: Klasyfikator zadań wytrenowany z SVF identyfikuje zadanie podczas wnioskowania i wybiera odpowiedni wektor 'z’.
Adaptacja few-shot: Łączy wiele wytrenowanych wcześniej wektorów 'z’ poprzez ważoną interpolację. Prosty algorytm optymalizacyjny dostosowuje te wagi na podstawie wydajności na zbiorze ewaluacyjnym few-shot.

Przyszłość: Od Modeli Statycznych do Żywej Inteligencji

Transformer² stanowi znaczący kamień milowy w ewolucji systemów AI. Jego zdolność do dynamicznego dostosowywania się do nieznanych zadań w czasie rzeczywistym z ulepszoną kompozycyjnością demonstruje potencjał samodostosowujących się modeli LLM do zrewolucjonizowania badań i zastosowań AI.

To jednak dopiero początek.

Transformer² daje wgląd w przyszłość, w której systemy AI nie są już statycznymi bytami wytrenowanymi do stałych zadań. Zamiast tego będą ucieleśniać „żywą inteligencję” – modele, które nieustannie uczą się, ewoluują i dostosowują się w czasie. Wyobraź sobie AI zdolną do płynnego integrowania nowej wiedzy lub dostosowywania swojego zachowania w środowiskach rzeczywistych bez potrzeby ponownego treningu, podobnie jak ludzie dostosowują się do nowych wyzwań.

Droga naprzód leży w budowaniu modeli, które dynamicznie się dostosowują i współpracują z innymi systemami, łącząc wyspecjalizowane możliwości do rozwiązywania złożonych, wielodziedzinowych problemów. Samodostosowujące się systemy jak Transformer² przerzucają most między statyczną AI a żywą inteligencją, torując drogę wydajnym, spersonalizowanym i w pełni zintegrowanym narzędziom AI, które napędzają postęp w różnych branżach i w naszym codziennym życiu.

źródło: sakana.ai

Szukasz developera do swojego projektu ?