„AI jest tak dobre, jak dane, które dostanie: Wywiad z Satishem Jayanthim z Coalesce
Wszyscy mówią o mocy AI i zyskach produktywności, które możesz (lub nie) uzyskać, ale niewielu mówi o poprawie tego, co stanowi podstawę tych AI: danych.
Jeśli twoje dane są niskiej jakości, tak będzie również twoje AI – złe wejście, złe wyjście. Rozmawiałem z Satishem Jayanthim, CTO i współzałożycielem Coalesce, aby dowiedzieć się, co trzeba zrobić, aby twoje dane były wystarczająco dobre, by wspierać twój program AI.
Ryan Donovan: Powiedz mi trochę o sobie, jak zacząłeś zajmować się danymi i o firmie, w której jesteś CTO. Satish Jayanthi: Przez ostatnie 20 lat pracowałem we wszystkich aspektach danych. Zaczynałem karierę jako programista, zanim przypadkowo zostałem administratorem baz danych. Pracując w startupie, zajmowałem się wsparciem wszystkich żądań danych, i wtedy po raz pierwszy zdałem sobie sprawę, że jedna osoba nie może sobie z tym poradzić. Wtedy wiedziałem, że potrzebujemy innego podejścia, i zacząłem interesować się modelowaniem wymiarowym i architekturą Kimballa. To oznaczało moje wejście w przestrzeń danych z punktu widzenia analitycznego, i od tego czasu pracuję jako architekt i lider – zarządzam zespołami, konsultuję itp.
RD: Oczywiście, dane są fundamentem AI, szczególnie dla dużych modeli uczenia maszynowego. Czy możesz trochę opowiedzieć, jak podstawowe są dane dla AI?
SJ: Dane są kluczowe dla AI, ale uważam, że jeszcze ważniejsza jest jakość danych. To jest na innym poziomie w tej różnej fazie, w którą wchodzimy z tymi wszystkimi programami AI i funkcjami AI. Uważam, że dane są teraz ważniejsze niż kiedykolwiek.
Jest to głównie dlatego, że trenujesz modele AI swoimi danymi wejściowymi. Znasz słynne powiedzenie: złe wejście, złe wyjście. Tak bardzo jak jesteśmy podekscytowani tą funkcjonalnością AI, która jest fantastyczna, musimy być bardzo, bardzo ostrożni co do tego, co jej karmimy, aby dała nam właściwe wyjście.
RD: Kiedy mówimy o AI, mówimy zarówno o generatywnym AI, które jest teraz bardzo popularne, ale także o innych jego zastosowaniach, bardziej konkretnych rodzajach zastosowań, prawda?
SJ: W stu procentach. AI to po prostu model i algorytm, którego używasz za kulisami, i musisz go nauczyć robić pewne rzeczy.
Aby trenować AI, musisz je karmić danymi wejściowymi, które będą decydować o jakości wyjścia – istnieje bezpośredni związek między nimi. Czy to LLM, z którym komunikujesz się w języku naturalnym, czy to jakiś model siedzący tam, który jest trenowany do określonej funkcji, jak wykrywanie oszustw, zawsze musi być trenowany na wysokiej jakości danych rzeczywistego świata.
RD: Kiedy mówisz o danych wysokiej jakości, co to oznacza? Większość ludzi ma bazy danych, które są magazynami klucz-wartość, lub mają mnóstwo dokumentów w SharePoint lub czymś podobnym. Co sprawia, że te dane są wysokiej jakości?
SJ: Jest wiele aspektów jakości danych. Jest dokładność i kompletność. Czy są istotne? Czy są ustandaryzowane? Jest kilka aspektów tego, i wszystkie muszą być brane pod uwagę, gdy zapewniasz jakość danych.
Jest również stronniczość, jeśli chodzi o AI. W zasadzie oddajemy trochę kontroli maszynom, dlatego jakość danych jest tak ważna. W przeszłości AI było bardziej deterministyczne. Kontrolowaliśmy wejście, jak również to, co robiliśmy z tymi danymi, aby uzyskać jakiś wynik. Mieliśmy kontrolę od początku do końca.
Teraz wchodzimy w fazę, w której wprowadzamy dane do modeli AI. To nie jest do końca czarna skrzynka, ale nadal jest to coś, nad czym oddajemy kontrolę. Systemy AI wezmą te dane, i w zależności od tego, jak trenujesz modele, otrzymasz swój wynik.
To, co do tej pory widziałem, to nigdy nie jest w stu procentach dokładne. Jest to prawidłowe w 80 do 90 procentach. Dlatego uważam, że jakość danych jest jeszcze ważniejsza niż kiedykolwiek.
RD: Myślę, że w przypadku dużych modeli językowych, na pewno wydaje się, że jest trochę magii. Bierzesz jakieś dokumenty, przekształcasz je w te ogromne wektory, a potem pytasz, kto wynalazł teleskop?
Czy możesz opowiedzieć, na poziomie drobnym, jak polerujesz dane, jeśli powiedzmy, chcesz je dostać do magazynu wektorowego?
SJ: To zależy od rodzaju danych. Mam dużo doświadczenia ze strukturalnymi i półstrukturalnymi danymi, i wszystko wraca do podstawowych rzeczy: czy masz zasady zarządzania danymi, które mogłyby ogólnie obowiązywać niezależnie od rodzaju danych? Kto jest właścicielem i jest odpowiedzialny za te zbiory danych? Czy mamy kogoś, kto sprawdza te zbiory danych i stosuje określone standardy?
To jest wielodyscyplinarna funkcja poprawy jakości danych. Powinieneś mieć ludzi, którzy rozumieją dane. Traktują dane poważnie, ponieważ muszą zrozumieć, jak ważne są. Wtedy otrzymujesz jakościowe wyjście. To nie jest jedna rzecz, którą musisz zrobić. Musisz mieć właściwą strategię danych, zasady zarządzania danymi, odpowiedzialność i bezpieczeństwo – wszystko to jest bardzo ważne, niezależnie od rodzaju danych, którymi są. Pozwól, że podam ci przykład.
Pochodzę z tła regulacyjnego, pracując w firmach finansowych, zanim współzałożyłem Coalesce i zanim pracowałem w WhereScape. Jedną z rzeczy, które robiliśmy, było zarządzanie aktywami, i odkryliśmy, że pobieramy od naszych klientów znacznie więcej niż powinniśmy, ponieważ nasz harmonogram cen był nieprawidłowy. Karmiliśmy tym harmonogramem cen system trzeciej strony, który wypluwał opłaty. To było prawie jak AI, ponieważ nie kontrolowaliśmy systemu. Karmiliśmy go złym harmonogramem cen, i dawał nam złe wyniki, i niewłaściwie obciążaliśmy klientów. Zdaliśmy sobie z tego sprawę dopiero po czterech latach. Musieliśmy wrócić i zasymulować, jakie powinny być opłaty, ponieważ już nie mieli wszystkich danych z danego momentu.
To było dość poważne ze względu na przepisy finansowe i mogłoby być rozwiązane lub zapobiegnięte, gdyby mieliśmy odpowiednie zasady zarządzania danymi, ustalając reguły i procesy, oraz kogoś, kto by sprawdził ten harmonogram cen i go zaaprobował. Tego nie mieliśmy.
RD: Więc rozmawialiśmy o zarządzaniu danymi. Co to oznacza na drobnym poziomie? Czy to po prostu kwestia posiadania kogoś, kto jest właścicielem i odpowiedzialnym za nie, czy jest to coś większego?
SJ: To zdecydowanie coś więcej. To znacznie więcej niż to, właściwie. Starasz się spojrzeć na każdy aspekt tego, jak dane są używane, jak przepływają, w czyje ręce wpadną i jak są wykorzystywane. Oznacza to, że musisz zdefiniować polityki dotyczące własności i standaryzacji definicji danych. Oznacza to również zajęcie się zatrzymywaniem danych poprzez określenie, jak długo chcesz przechowywać dane, ponieważ w pewnym momencie mogą stać się nieistotne.
RD: Jestem pewien, że musi być trochę integralności danych, szczególnie wokół nowoczesnej struktury rurociągu danych, gdzie masz dane produkcyjne, przepuszczasz je przez rurociąg ETL, a potem kończą one w jakimś jeziorze danych dostępnym dla analityki.
Jakie są wyzwania związane z utrzymaniem tych danych jako dokładnych, kompletnych i bezpiecznych?
SJ: Wszystko zaczyna się od kultury organizacji i jest kulminacją trzech rzeczy: ludzi, procesów i technologii. Musisz mieć wszystkie te trzy elementy. Najłatwiejszą częścią jest technologia. A najtrudniejszą częścią są ludzie. Musi być dużo uwagi na przyciągnięcie kluczowych interesariuszy do współpracy z IT. Zbierz wszystkich razem regularnie, aby zrozumieć wagę zarządzania danymi.
To była główna wyzwanie, z jakim ludzie lub organizacje się mierzą: Jak zebrać tych ludzi razem, aby mogli się skupić na tym? Jak pracować razem nad ustanowieniem i monitorowaniem tych polityk, a następnie ustanawianiem odpowiednich procedur? Oczywiście, potrzebujesz także technologii, gdy zwiększasz skalę.
RD: Brzmi to, jak wiele z tych to zapewnienie procesów jakości danych dla organizacji. Czy jest jakiś szczególny dodatkowy wyzwanie, gdy chodzi o AI?
SJ: Wyzwanie polega na budowaniu świadomości i podnoszeniu znaczenia jakości danych. Jak liderzy wyjaśniają to wszystkim? Ekscytacja wokół AI jest wspaniała, ale to nie magia. Robi to, czego go nauczysz.
Dobrym przykładem jest, gdybyśmy mieli LLM w XVIII wieku, a Galileusz stanąłby przed sądem. Decydujemy o jego losie na podstawie tego, co mówi ChatGPT. Gdybyśmy zapytali ChatGPT w tamtym czasie, czy ziemia jest okrągła czy płaska, i ChatGPT powiedziałby, że jest płaska, to dlatego, że tak go nakarmiliśmy, by wierzył w to jako prawdę. To, co podajemy i dzielimy się z LLM oraz jak go trenujemy, wpłynie na wynik. Ta świadomość jest wyzwaniem.
Wiele osób daje się ponieść chęci karmienia go tonami i tonami danych i magicznie dostaje odpowiedzi, których szuka, co jest fałszywe.
RD: Myślę, że wielu ludzi myśli, że mogą po prostu nakarmić LLM surowym internetem i uzyskać geniusza na wezwanie.
SJ: Tak nie będzie.
RD: Czy masz jakieś przykłady złej jakości danych powodujących wyzwania w Coalesce?
SJ: Tak, napotykamy wyzwania, gdy mamy niekompletne informacje. Zbieramy wiele logów, aby pomóc w poprawie naszych procesów biznesowych. Mamy własne wewnętrzne magazyn danych, który analizujemy, aby dowiedzieć się, gdzie i jak można dokonać ulepszeń. Często, gdy przeprowadzamy tę analizę, napotykamy problemy, gdzie coś wygląda na nieprawidłowe, i nie wiemy, co się dzieje. Jeśli zagłębisz się w problem i przyjrzysz mu się bliżej, często ktoś zdefiniował metrykę w pewien sposób, który wprowadza w błąd wyniki i nie ma na celu uzyskania oczekiwanego wyjścia. Możliwe, że obie wersje są prawdziwe, ale nie zostały odpowiednio oznakowane. Połowa naszych ludzi myśli, że chodzi o jedno, a reszta o coś innego, co powoduje wiele zamieszania.
RD: Wydaje się, że dokładność danych to ogromny problem. Czy ktoś musi przeczytać wszystkie dane? Czy jest jakiś skrót, aby nie musiał tego robić stażysta, przeglądając każdą bazę danych?
SJ: Nie sądzę, aby był skrót, ale są procesy i procedury, które można wprowadzić, takie jak szkolenie wszystkich, aby zrozumieli problemy i upewnili się, że rzeczy są właściwie zdefiniowane. Znowu wracając do zarządzania, zajmuje to czas.
W zależności od dojrzałości organizacji, zarządzanie może być ustawione na różnych poziomach. Jeśli jest to mała organizacja, zwykle nie poświęcają dużo czasu na łączenie ludzi i procesów dla zarządzania danymi, co jest niefortunne.
RD: Tak, to kolejna rzecz, którą trzeba przesunąć w lewo w cyklu rozwoju.
SJ: Dokładnie. Ludzie dają się ponieść wszystkim błyszczącym panelom i najnowszym rzeczom, jak LLM. Czy to dostarcza dużo wartości? Niewielu ludzi się cofa i mówi: „Hej, co muszę zrobić, aby faktycznie skorzystać z tej technologii, która tam jest?”
Chcemy to zrobić właściwie. Większość czasu, co prowadzi do budowy fundamentów. Musisz zbudować solidne fundamenty, zbierając zespół do współpracy. Nie ma UI, nie ma błyszczących paneli. Nic. Najpierw musisz ciężko pracować, aby zbudować hydraulikę.”