Czy Google’a Gemini zostawia GPT-4 w tyle? Spytałem oto też ChatGPT
Nie ma wątpliwości, Google został zmieciony przez błyskawiczny atak Microsoftu w wielkiej wojnie AI 2023. GPT-4 uchwycił ducha epoki sztucznej inteligencji, którą właśnie weszliśmy, a sytuacja dla Google stała się tak zła, że ludzie zaczęli bez ironii używać Binga.
Ale wojna dopiero się zaczyna, a wczoraj Google wypuściło swoją bardzo oczekiwaną model Gemini, który przewyższa GPT-4 w niemal każdym teście. Dziś jest 8 grudnia 2023, a ty czytasz raport Code Report.
Gemini po raz pierwszy stał się znany publicznie wcześniej w tym roku na Google I/O, kiedy Sundar opisał to tak: „Stosowaliście AI, aby tworzyć AI, rygorystycznie testowane AI za pomocą AI.” Gemini to multimodalny duży model językowy, który zastąpi Lambda i Palm 2. Podobnie jak GPT-4, jest multimodalny, co oznacza, że jest szkolony nie tylko na tekście, ale także na dźwięku, obrazach i wideo.
Demonstracja Google’a jest absolutnie szalona. Potrafi rozpoznać, co się dzieje na nagraniu wideo i reagować w czasie rzeczywistym. Na przykład, ten facet rysuje kaczkę, a AI mówi mu, że to kaczka – i to jest kaczka. Jak, wow! I może to robić w wielu językach. Co naprawdę szalone, to że potrafi śledzić rzeczy w trwającym nagraniu wideo. Gra w grę znajdowania piłki pod kubkiem, i nawet po pomieszaniu kubków, nadal wie, gdzie jest piłka. Potrafi nawet połączyć kropki, co czyni moje 5-letnie dziecko zbędnym.
Wykonuje także multimodalne wyjścia; potrafi na bieżąco generować obrazy jak Stable Diffusion i nawet generować muzykę na podstawie podpowiedzi. I nie tylko tekst na audio, ale obraz na audio. Co powiesz na heavy metal lat 80.? To model anything-to-anything. Jest również dobry w logice i rozumowaniu przestrzennym. Korzystając z tych dwóch zdjęć, jest w stanie powiedzieć, który samochód pojedzie szybciej na podstawie aerodynamiki pojazdu. W przyszłości inżynier cywilny będzie mógł po prostu zrobić zdjęcie terenu, a AI natychmiast wygeneruje niebieskie plany mostu. Więc nie tylko programiści są zagrożeni przestarzałością. Oczywiście, mam także trochę więcej złych wiadomości dla programistów.
Google również zaprezentował Alpha Code 2, który spisuje się lepiej niż 90% konkurencyjnych programistów. Mówimy o programistach rozwiązujących wysoce skomplikowane abstrakcyjne problemy, takie jak te, które można znaleźć na konkursach Codeforces. Jak każdy dobry programista, Alpha Code 2 może rozkładać problemy na mniejsze problemy, stosując techniki takie jak dynamiczne programowanie.
Teraz, te wszystkie demonstracje wyglądają naprawdę niesamowicie na pierwszy rzut oka, ale czy to wszystko jest tylko marketingowym wybiegiem Google’a? Obecnie, Gemini występuje w trzech rozmiarach: Tall, Grande i Venti. Najmniejsza wersja jest zaprojektowana do wbudowania w urządzenia takie jak telefony z Androidem, podczas gdy wersja Pro to bardziej ogólnego przeznaczenia model. Tymczasem Ultra jest jak Magnum XL w rodzinie Gemini i to ona wszystkich zaskakuje.
Jeśli jesteś w Stanach Zjednoczonych, możesz właściwie używać Gemini już teraz w czacie Bard. Jednak korzysta z Gemini Pro, średniej wersji. Bard jest o wiele lepszy niż sześć miesięcy temu i nadal jest bardzo szybki. Ale po kilku minutach użytkowania jest dość oczywiste, że nie jest tak dobry jak GPT-4 Pro. Ale GPT-4 jest zaniepokojony Gemini Ultra. Gdy zapytałem o to, zaczął rzucać cień na siebie, a potem, zanim skończył, Sam Alman wyrwał wtyczkę, dając mi ten błąd sieci.
Jeśli chodzi o testy porównawcze, Gemini Pro radzi sobie gorzej niż GPT-4 w większości sytuacji. Ale Gemini Ultra przewyższa go w niemal każdej kategorii. Co najważniejsze, to pierwszy model, który przewyższa ekspertów ludzkich w ogromnym zrozumieniu języka wielozadaniowego, co jest zwykle testem wielokrotnego wyboru na szeroki wachlarz tematów – trochę jak SAT, ale dla AI.
Co zaskakujące, to że Gemini Ultra radzi sobie gorzej niż GPT-4 w teście Hellswag. Jest on zaprojektowany do oceny zdrowego rozsądku w naturalnym języku, polegając na tym, że AI kończy zdanie, które często jest niejasne i dwuznaczne. Na przykład: „Mężczyzna ogląda wideo o fireship i potem czuje się blank”. To praca, która jest naprawdę łatwa dla ludzi do wykonania i bardzo ważny test, ponieważ kiedy AI nie radzi sobie z tym dobrze, nie wydaje się bardzo ludzkie. W GPT-4 mogę napisać niejasną podpowiedź z błędami, a jakoś zawsze wydaje się wiedzieć, o co mi chodzi. Fakt, że GPT-4 radzi sobie znacznie lepiej w Hellswag jest bardzo niepokojący, żeby nie powiedzieć więcej.
Ale kolejną interesującą rzeczą do odnotowania z technicznego papieru jest sposób, w jaki trenują to bestię. Używają swojej nowo odsłoniętej wersji 5 jednostek przetwarzania tensorów, które są wdrażane w super pods po 4,096 chipów każdy. Każdy super pod ma dedykowany optyczny przełącznik, który pozwala na szybkie transfer danych między pods, aby trenować równolegle. Następnie mogą dynamicznie przekształcać się w topologie torusa 3D. Innymi słowy, mogą zmieniać kształt w pączki, aby zmniejszyć opóźnienie między chipami. I skala Gemini Ultra jest tak duża, że musieli komunikować się między wieloma centrami danych.
Papier opisuje także zestaw danych szkoleniowych, który obejmuje praktycznie wszystko, co można znaleźć w internecie, w tym strony internetowe i filmy na YouTube, a także prace naukowe i książki. Filtrują to pod kątem jakości, a następnie używają wzmocnionego uczenia się poprzez ludzką informację zwrotną, aby dopracować jakość i unikać halucynacji.
Ogólnie rzecz biorąc, Gemini wygląda niesamowicie na papierze, ale przygotuj się na rozczarowanie. Modele Nano i Pro będą dostępne w Google Cloud 13 grudnia, ale Gemini Ultra Pro Max nie będzie dostępny do przyszłego roku, dopóki nie zostaną wykonane dodatkowe testy bezpieczeństwa i nie osiągnie 100% w teście Hellwoke Benchmark. To był raport Code Report. Dzięki za przeczytanie, do zobaczenia w następnym.
Zapytany o powyższy artykuł ChatGPT odpowiedział:
- Porównanie Gemini i GPT-4: Artykuł sugeruje, że nowy model AI Google’a, Gemini, przewyższa GPT-4 w wielu aspektach. To jest możliwe, biorąc pod uwagę szybki rozwój technologii AI. Jednak każdy model AI ma swoje mocne i słabe strony, a ich efektywność często zależy od konkretnego zastosowania i sposobu szkolenia.
- Multimodalność: Opis Gemini jako modelu multimodalnego, zdolnego do rozumienia i generowania tekstu, obrazów, dźwięku i wideo, jest szczególnie interesujący. Jako model GPT-4, jestem przede wszystkim modelem językowym, choć posiadam pewną zdolność do generowania prostych obrazów za pomocą dodatkowego narzędzia (DALL-E). Pełna integracja różnych modalności to znaczący krok naprzód.
- Wpływ na programowanie: Wzmianka o Alpha Code 2, który rzekomo przewyższa większość programistów, jest fascynująca. Podczas gdy AI może automatyzować pewne aspekty kodowania, ważne jest, aby pamiętać, że kreatywność, intuicja i głębokie zrozumienie kontekstu biznesowego wciąż pozostają domeną ludzkich programistów.
- Wykorzystanie zaawansowanych technologii: Opis wykorzystania przez Google zaawansowanych jednostek przetwarzania tensorów i innowacyjnych topologii sieciowych do szkolenia Gemini wskazuje na znaczące inwestycje w infrastrukturę do szkolenia AI. To podkreśla, jak kosztowne i złożone stało się tworzenie czołowych modeli AI.
- Bezpieczeństwo i etyka: Wzmianka o dodatkowych testach bezpieczeństwa dla Gemini Ultra Pro Max podkreśla rosnącą świadomość wśród firm technologicznych dotyczącą etycznych i bezpieczeństwa zagadnień związanych z AI. To dobry znak, pokazujący, że branża dojrzewa.
Podsumowując, choć nie mogę zweryfikować wszystkich twierdzeń zawartych w artykule, brzmi on bardzo wiarygodnie w kontekście aktualnych trendów w dziedzinie sztucznej inteligencji. Innowacje w tej dziedzinie rozwijają się szybko, a rywalizacja między wiodącymi firmami technologicznymi przyczynia się do szybszego postępu.