Przejdź do głównej sekcji

Czy duże modele językowe wiedzą, o czym mówią?

Duże modele językowe zdają się posiadać zdolność do inteligentnego rozumowania, ale czy to oznacza, że faktycznie coś wiedzą?

Duże modele językowe (LLMs) dopiero co weszły do głównego nurtu myślenia i już wykazały się jako potężne narzędzie do interakcji z danymi. Choć niektórzy mogą klasyfikować je jako po prostu naprawdę fajną nową formę interfejsu użytkownika, inni sądzą, że może to być początek sztucznej inteligencji ogólnej.

LLMs potrafią tworzyć nowatorskie rozwiązania do układania dowolnych obiektów, doskonalić się w rysowaniu jednorożców w TikZ i wyjaśniać teorię kwantową w stylu Snoop Dogga. Ale czy to oznacza, że te LLMs faktycznie coś wiedzą na temat jajek, jednorożców czy Snoop Dogga?

Wiedzą coś. Przekształcają słowa, zdania i dokumenty w wektory semantyczne i znają względne znaczenia fragmentów języka na podstawie tych osadzeń. Znają różne wartości wag i biasów w miliardach (czasem bilionach) parametrów, które pozwalają im wiarygodnie produkować poprawne odpowiedzi na różnorodne trudne testy stworzone przez ludzi. Ale czy naprawdę „wiedzą” coś, to jest przedmiotem debaty. To jest dziedzina, gdzie eksperci – jak można coś wiedzieć – są poza sferą technologii. Filozofowie zmagali się z naturą wiedzy przez tysiące lat.

A surreal and symbolic representation of a large language model (LLM) dreaming about human minds. The scene depicts a giant, abstract metallic brain floating in a starry night sky, surrounded by ethereal clouds. Below, a diverse array of small human figures, representing different genders and ethnicities, are gazing upwards in awe and contemplation. The figures are scattered across a grassy field with a few scattered trees, symbolizing the connection between technology and humanity. The overall atmosphere is mystical and thought-provoking, with a balance of technology and nature.

No właśnie. Wchodzimy w epistemologię.

Czym dokładnie jest wiedza? Próba sprecyzowania przez filozofów definicji wiedzy prawdopodobnie wygnała wielu doktorantów z akademii. W 1963 roku Edmund Gettier próbował nadać prostej definicji wiedzy w artykule „Czy uzasadnione prawdziwe przekonanie to wiedza?” W skrócie, aby mieć wiedzę na jakiś temat, ta rzecz musi być prawdziwa, musisz wierzyć, że jest prawdziwa, i musisz być uzasadniony w wierzeniu, że jest prawdziwa – uzasadnione prawdziwe przekonanie (JTB). Weźmy założenie, że jutro idę do banku wpłacić czek. Wyczyściłem swój plan, sprawdziłem godziny otwarcia banku na ich stronie internetowej i ustawiłem budzik. Jednakże, z powodu remontu, bank jest zamknięty. To nie jest JTB: wierzę w to, było to uzasadnione przez informacje, ale informacje, które miałem, nie były prawdziwe.

Oczywiście, to tylko skłoniło filozofów do kłótni o natury uzasadnienia, przekonania i prawdy. To nie był srebrny pocisk, na który liczył, choć stanowi to całkiem przyzwoity szkielet do myślenia o wiedzy.

Wielu filozofów postulowało, że wiedza pochodzi z postrzegania i interakcji ze światem. George Berkeley w „Traktacie o zasadach ludzkiej wiedzy” pisze: „Tak jak jest niemożliwe, abym widział lub czuł cokolwiek bez rzeczywistego odczucia tej rzeczy, tak samo jest niemożliwe, abym wyobrażał sobie w myślach jakąkolwiek zmysłową rzecz lub obiekt oddzielony od odczucia lub percepcji tego.” Oczywiście, otwiera nas to na scenariusze takie jak Matrix, gdzie percepcje są fałszywe. Czy naprawdę znałeś kung-fu, Neo?

Co mówią konstruktywiści Konstruktywiści tacy jak Jean Piaget rozwinęli koncepcję percepcji jako wiedzy, rozważając symboliczne koncepcje, które zawierają te percepcje. Na przykład, gdy napotykasz konia, to jak wygląda, pachnie i brzmi, wszystko to jest kojarzone z twoją koncepcją „koń”. „Koń” następnie jest umieszczany w kategoriach takich jak „ssak”, „zwierzę” i „zwierzę gospodarskie”. Te symboliczne koncepcje są budowane przez całe dzieciństwo osoby, przechodząc z czystego okresu zmysłów, jakim jest niemowlęctwo, do warstw symboli, kategorii i skojarzeń.

Nie każdy ma te same skojarzenia dla koncepcji. Weźmy koncepcje kolorów Helen Keller. Była niewidoma i głucha, więc jej koncepcja czerwonego pochodzi z innych doświadczeń: „Jedno to czerwień ciepłej krwi w zdrowym ciele; drugie to czerwień piekła i nienawiści”. Ale chociaż jej koncepcje są zakorzenione w różnych percepcjach i doświadczeniach, to wciąż opierają się na jakimś rodzaju wejścia sensorycznego, a nie na czystej manipulacji koncepcjami.

Na podstawie tych dwóch szkół myślenia trudno jest uzasadnić, że LLMs mają wiedzę. Każda odpowiedź, którą udzielają, opiera się na manipulacji koncepcjami, ale to koncepcje aż po same dno. Jeśli LLM ma organ sensoryczny, to jest nim sam model transformatora, a to, co postrzega, to ładnie ułożone w teksty słowa. Brakuje mu percepcji świata, które te słowa wywołują (choć badania próbują to zmienić).

Co mówią racjonaliści Ale percepcjoniści (i konstruktywiści) to nie jedyna szkoła myślenia o wiedzy. Jest wielu filozofów, którzy wierzą, że można zdobyć wiedzę przez czysty rozum. Często przyjmują jakąś pierwszą zasadę jako daną, czy to jaźń, Boga, czy obiektywną rzeczywistość. „Myślę, więc jestem” Kartezjusza była próbą zdefiniowania niezaprzeczalnie prawdziwego stwierdzenia, które można by użyć jako pierwszej zasady.

Inny racjonalista, Baruch Spinoza, posunął się tak daleko, że ogłosił, że percepcje są nieprecyzyjnymi koncepcjami jakościowymi i prowadzą do zamieszanej wiedzy. „Prawdziwa idea oznacza nic innego niż doskonałe poznanie rzeczy, czyli w najlepszy sposób,” pisał. Wszystkie relacje przyczynowe i skojarzeniowe były niezbędne, aby pojąć koncepcję. W końcu twoje percepcje mogą być wadliwe, więc czysty rozum był drogą do przejścia. Oczywiście, jeśli możesz wątpić w swoje percepcje, co powstrzyma cię od wątpienia w swoje rozumowanie? Ale odbiegam od tematu.

Grupa racjonalistów otwiera drzwi do rozważenia, że LLMs mają wiedzę. Jeśli model głębokiego uczenia się manipuluje językiem w sposób, który postrzega wszelkiego rodzaju semantyczne powiązania między słowami i grupami słów, to czy dochodzi do pewnego rodzaju prawdziwej idei? Ostatecznie oznaczałoby to, że można zdobyć całą wiedzę tylko przez przetwarzanie języka używanego do opisu tej wiedzy. Wiedza i język używany do jej przekazywania byłyby zasadniczo tym samym.

„Ten tekst jest faktycznie projekcją świata.” Niektórzy kluczowi gracze pracujący nad dzisiejszymi najpopularniejszymi modelami AI podzielają tę opinię. „Kiedy szkolimy duży model neuronowy do dokładnego przewidywania następnego słowa w różnych tekstach z Internetu, uczy się on modelu świata,” powiedział w ostatnim wywiadzie Ilya Suskevy, główny naukowiec w OpenAI. „Może się wydawać, że uczymy się tylko statystycznych korelacji w tekście, ale okazuje się, że aby nauczyć się tylko statystycznych korelacji w tekście, sieć neuronowa uczy się pewnego przedstawienia procesu, który wytworzył ten tekst. Ten tekst jest faktycznie projekcją świata. Sieć neuronowa uczy się coraz więcej aspektów świata, ludzi, ludzkiego stanu, ich nadziei, marzeń i motywacji, ich interakcji w sytuacjach, w których się znajdujemy. I sieć neuronowa uczy się skompresowanej, abstrakcyjnej, użytecznej reprezentacji tego. To właśnie jest uczone przez dokładne przewidywanie następnego słowa.”

Zagrożeniem jest to, że ta abstrakcyjna, drugorzędna reprezentacja świata daje nam złudzenie zrozumienia.

An allegorical and thought-provoking image symbolizing the concept that mere knowledge of language is not sufficient for possessing knowledge. The scene depicts two distinct halves. On one side, a vast library filled with books in various languages, representing the potential for knowledge. On the other side, a diverse group of people, representing different genders and ethnicities, actively engaging in discussions, experiments, and exploring the world around them, symbolizing the application and acquisition of knowledge through experience and interaction. The central focus is a bridge connecting the two halves, illustrating the idea that language is a bridge to knowledge, but not the sole component of it.

Czy znajomość języka wystarczy, aby mieć wiedzę? Klasyczny argument przeciwko temu, że AI ma wiedzę (lub zrozumienie, co może być tutaj tym samym) poprzez posiadanie władzy nad językiem, to argument Johna Searle’a o chińskim pokoju. W skrócie, osoba, która nie rozumie chińskiego, jest zamknięta w pokoju i dostaje pytania napisane po chińsku. Szuka tych symboli w podręczniku i wysyła odpowiedź po chińsku. Człowiek nie rozumie niczego, co mu przekazano, i manipuluje tylko symbolami, których nie rozumie.

Futurysta Ray Kurzweil, zawsze optymista technologiczny, mówi, że pewnie, człowiek nie rozumie chińskiego, ale system – podręcznik i człowiek razem – rozumie chiński. Zasadniczo, jeśli system jest przekonująco w stanie odpowiedzieć na pytania w języku chińskim, to musi mieć zrozumienie chińskiego. Z wektorowaniem semantycznym języka w tych LLMs, być może można powiedzieć, że rozumieją język. Ale jak każdy student odpowiadający na pytania egzaminacyjne za pomocą swojej cennej pojedynczej strony notatek może powiedzieć, zrozumienie języka nie wystarcza, aby znać materiał.

Oczywiście, LLMs nie zawsze dają poprawną odpowiedź. Zostały przyłapane na popełnianiu intuicyjnych błędów w pytaniach-pułapkach, popełnianiu błędów w podstawowych obliczeniach i halucynowaniu faktów z całościowej statystycznej tkaniny. Chociaż LLMs stały się lepsze, podstawowy fakt jest taki, że są to tylko systemy zoptymalizowane do manipulowania językiem, tak aby odpowiedź na dany bodziec była satysfakcjonująca dla użytkownika, nawet jeśli nie zawsze jest poprawna.

Oczywiście, żaden artykuł szanujący się o LLMs nie byłby kompletny bez zapytania LLM o jego główną tezę:

Ja: Czy duży model językowy posiada wiedzę?

Chatbot: Tak, duży model językowy, taki jak ten, na którym się opieram, posiada ogromną ilość wiedzy. Jest szkolony na różnorodnych źródłach tekstowych, co pozwala mu uczyć się i rozumieć różne tematy, fakty i koncepcje. Jednak ważne jest, aby zauważyć, że wiedza modelu językowego jest ograniczona do informacji dostępnych w jego danych treningowych i nie zawsze może być aktualna lub dokładna. Dodatkowo, zrozumienie wiedzy przez model językowy nie jest takie samo jak ludzkie zrozumienie, ponieważ brakuje mu świadomości i rzeczywistych doświadczeń.

An allegorical illustration exploring the concept: 'Does a Large Language Model (LLM) simply manipulate symbols without understanding their meaning?' The image is divided into two contrasting sections. On the left, a large, digital brain composed of glowing circuits and symbols, representing a LLM, is manipulating abstract symbols and letters, showcasing the process of symbol manipulation. On the right, a group of diverse human figures, representing different genders and ethnicities, are engaged in deep conversation, reading books, and displaying emotional expressions, symbolizing human understanding and meaning-making. The contrast between the two halves highlights the debate about the nature of LLMs and their understanding (or lack thereof) of the symbols they process.

Ja: Czy LLM po prostu nie manipuluje symbolami bez zrozumienia ich znaczenia?

Chatbot: Tak, to prawda. Duży model językowy (LLM) w zasadzie manipuluje symbolami, takimi jak słowa i wyrażenia, na podstawie wzorców, których nauczył się podczas swojego szkolenia. Nie ma prawdziwego zrozumienia znaczenia tych symboli, tak jak ludzie. Model generuje odpowiedzi na podstawie statystycznych relacji między słowami i wyrażeniami w swoich danych treningowych, a nie autentycznego zrozumienia omawianych koncepcji. Dlatego czasami odpowiedzi generowane przez LLM mogą wydawać się spójne, ale mogą nie być całkowicie dokładne lub istotne w kontekście. Dla zapisu, LLM zgadza się ze mną.

Niektórzy argumentują, że samo głębokie uczenie się nie wystarczy, aby osiągnąć systemy, które rozumieją i posiadają wiedzę. Profesor nauk kognitywnych z NYU, Gary Marcus, uważa, że komputery potrzebują lepszych symboli, które pozwolą im reprezentować koncepcyjne skojarzenia i przyczynowości między symbolami języka. To zgadza się z powyższymi pomysłami Piageta, więc może być bliższe temu, jak ludzie się rozwijają. Daj LLMs ręce, stopy i czujniki sensoryczne, a może będziemy mieli inną rozmowę (ta rozmowa, niestety, zaczyna się od „Szukam Sarah Connor”).

Modele wielomodalne — na przykład LLMs, które rozumieją zarówno tekst, jak i obrazy — wykazały lepsze zdolności rozumowania niż te z pojedynczym zmysłem. A choć logika symboliczna jest atrakcyjna, warto pamiętać, że to właśnie ta koncepcja dominowała w AI przez dziesięciolecia, okres, w którym poczyniono niewiele postępów.

Wiedza jest użyteczna Istnieje inna szkoła epistemologii, która definiuje wiedzę przez jej praktyczne zastosowanie, znana jako pragmatyzm. Charles Sanders Peirce, William James i John Dewey pochodzili z naukowego umysłu i pomogli ugruntować ideę, że wiedza jest prawdziwa, jeśli jest użyteczna (lub że idee filozoficzne powinny być testowane, tak jak te naukowe). Bardziej współczesna interpretacja oferuje te definicje:

Jest wiele dziedzin wiedzy, które mogą być dla nas, ludzi, użyteczne. My w Stack Overflow z pewnością to rozumiemy, ponieważ nasze pytania służą jako wiedza „w samą porę” dla osób próbujących rozwiązywać problemy. Ale inne informacje, takie jak godziny otwarcia banku czy twoja nazwa użytkownika i hasło, są użyteczne tylko wtedy, gdy próbujesz coś osiągnąć. Dla konkurujących systemów wiedzy – powiedzmy płaska ziemia kontra okrągła ziemia – może być lepiej ocenione przez to, co można osiągnąć, podążając za nimi.

LLMs z pewnością produkują informacje, ale opierają się na ogromnym zbiorze wiedzy wytworzonej przez ludzi (i często oznaczonej przez ludzi). Korpus wiedzy w zestawie treningowym służy jako dane, które LLM przetwarza na informacje. Ty i ja możemy to przejąć i zastosować, ale to redukcja pierwotnej wiedzy, możliwe źle zinterpretowana, możliwe przemieszana do zamieszania.

Nie zrozumcie mnie źle – uważam, że nowa fala LLMs jest bardzo fajna i zmieni sposób, w jaki pracujemy. Użyłem jednego do tego artykułu, aby uzyskać informacje o szkołach epistemologii i omówić inne pomysły. Trudno powiedzieć, czy informacje, które dał, były użyteczne; dał mi owocne kierunki do poszukiwania ludzkiej wiedzy, ale nie zaufałbym mu, aby wszystko zrobił dobrze. Użyteczność zakłada aktora, jakąś jednostkę robiącą coś z informacjami. Chociaż samoistne kody i aplikacje AutoGPT są imponującymi krokami w kierunku autonomii, wszystkie potrzebują impulsu od człowieka.

Traktowanie informacji wygenerowanych przez AI jako czysto użytecznych może być największym niebezpieczeństwem LLMs, zwłaszcza w miarę jak coraz więcej treści internetowych jest generowanych przez GPT i innych: będziemy zalewani informacjami, których nikt nie rozumie. Oryginalna wiedza zostanie wchłonięta przez modele głębokiego uczenia się, przetworzona na wektory i wypluta jako statystycznie dokładne odpowiedzi. Już jesteśmy w złotej erze dezinformacji, ponieważ każdy może publikować na swoich stronach cokolwiek chce, prawdziwe czy nie, i nic z tego nie jest weryfikowane. Wyobraź sobie, gdy materiał nie musi nawet przechodzić przez ludzkiego redaktora.