Prywatność w dobie generatywnych sztucznych inteligencji
Głównym wyzwaniem stawianym obecnie przez generatywne SI jest to, że w przeciwieństwie do konwencjonalnych aplikacji, duże modele językowe (LLM) nie mają przycisku „usuń”.
Podczas niedawnej podróży do mojego rodzinnego miasta we wschodniej Kanadzie, mój ojciec odebrał mnie z lotniska. Jedno z pierwszych pytań, które mi zadał, brzmiało: „Czy SI zabiorą wszystkim pracę?”.
Gdy SI, generatywne SI oraz duże modele językowe (LLM) stają się tematami rozmów w społeczności seniorów w wiejskiej Kanadzie, wiesz, że to kwestia, która zajmuje myśli wszystkich. Generatywne SI, a szczególnie wykorzystanie LLM, to „nowa nowość”. Dominuje w moim kanale X (np. Twitter) i niemal każdej rozmowie na temat technologii.
Istnieje słuszne podekscytowanie mocą generatywnych SI, przypominające wprowadzenie Internetu czy pierwszego smartfona. Generatywne SI są gotowe do przekształcenia sposobu, w jaki tworzymy produkty, projektujemy leki, piszemy treści i wchodzimy w interakcję z technologią. Ale w miarę wzrostu wykorzystania SI, wiele rządów i firm wyraża obawy dotyczące prywatności i problemów zgodności, z jakimi borykają się użytkownicy tych technologii.
Głównym wyzwaniem stawianym obecnie przez generatywne SI jest to, że w przeciwieństwie do konwencjonalnych aplikacji, duże modele językowe (LLM) nie mają przycisku „usuń”. Nie ma prostej metody na „oduczenie” się konkretnych informacji, nie ma odpowiednika usunięcia wiersza w tabeli użytkowników w bazie danych. W świecie, gdzie „prawo do bycia zapomnianym” jest kluczowe w wielu regulacjach dotyczących prywatności, korzystanie z LLM stawia trudne wyzwania.
Co to wszystko oznacza dla firm budujących nowe aplikacje lub modele SI?
W tym poście zbadamy to pytanie i spróbujemy znaleźć odpowiedzi. Przyjrzymy się potencjalnemu wpływowi generatywnych SI, trwającym przeszkodom w zgodności oraz różnym strategiom prywatności. Na koniec przyjrzymy się nowatorskiemu podejściu opartemu na rekomendowanej architekturze IEEE do bezpiecznego przechowywania, zarządzania i wykorzystywania wrażliwych danych osobowych klientów (Personally Identifiable Information, PII) – skarbcowi danych prywatności.
Wyzwania prywatności i zgodności generatywnych SI Wyobraź sobie następujący scenariusz: Właśnie skopiowałeś i wkleiłeś wrażliwe szczegóły umowy do LLM, aby uzyskać szybką pomoc w rutynowej analizie umów. LLM spełnia swoje zadanie, ale oto haczyk: w zależności od konfiguracji, poufne dane umowy mogą pozostać w LLM, dostępne dla innych użytkowników. Ich usunięcie nie jest opcją, przewidywanie ich przyszłego użycia lub nadużycia staje się trudnym zadaniem, a ponowne szkolenie LLM, aby „cofnąć” go do stanu sprzed udostępnienia tych wrażliwych danych umowy, może być zbyt kosztowne.
Jedyny niezawodny sposób?
Trzymaj wrażliwe dane z daleka od LLM.
Wrażliwe informacje, w tym wewnętrzne nazwy projektów firm, główna własność intelektualna czy dane osobowe, takie jak daty urodzenia, numery ubezpieczenia społecznego i dane medyczne, mogą nieumyślnie trafić do LLM na kilka sposobów:
Dane szkoleniowe: LLM są szkolone i doskonalone na obszernych zbiorach danych, które często zawierają PII. Bez solidnych środków anonimizacji lub redakcji wrażliwe dane stają się częścią zestawu danych szkoleniowych modelu, co oznacza, że te dane mogą później powrócić. Wnioskowanie: LLM generują tekst na podstawie wejść lub poleceń użytkowników. Podobnie jak dane szkoleniowe, polecenie zawierające wrażliwe dane przenika do modelu i może wpływać na generowaną treść, potencjalnie ujawniając te dane. Prawa prywatności Prywatność danych SI to ogromne wyzwanie dla każdej firmy zainteresowanej inwestowaniem w technologię generatywnych SI. Ostatnie tymczasowe zakazy ChatGPT we Włoszech i przez firmy takie jak Samsung wypchnęły te obawy na czoło firm, które chcą inwestować w generatywne SI.
Nawet poza generatywnymi SI, istnieją coraz większe obawy dotyczące ochrony prywatności danych. Meta została niedawno ukarana grzywną w wysokości 1,3 miliarda dolarów przez Unię Europejską (UE) za jej niezgodne transfery wrażliwych danych do USA. I nie jest to tylko problem firm prowadzących działalność w UE.
Obecnie istnieje ponad 100 krajów z pewną formą regulacji prywatności. Regulacje prywatności każdego kraju obejmują unikalne i złożone wymagania, które nakładają różnorodne ograniczenia na wykorzystanie i przetwarzanie wrażliwych danych. Najczęstsze ograniczenia dotyczą transgranicznych transferów danych, miejsca przechowywania wrażliwych danych oraz praw podmiotów danych, takich jak „prawo do bycia zapomnianym”.
Jedną z największych niedoskonałości LLM jest ich niezdolność do selektywnego usuwania lub „oduczenia” się konkretnych punktów danych, takich jak imię i nazwisko osoby lub data urodzenia. Ta ograniczenie stwarza znaczne ryzyko dla firm wykorzystujących te systemy.
Na przykład przepisy o prywatności w Europie, Argentynie i na Filipinach (tylko aby wymienić kilka) wspierają „prawo do bycia zapomnianym” danej osoby. Prawo to umożliwia osobom usunięcie lub wymazanie ich danych osobowych z systemu. Bez przycisku usuwania LLM nie ma sposobu, aby firma mogła zająć się takim wnioskiem bez ponownego szkolenia LLM od początku.
Weźmy pod uwagę Ogólne Rozporządzenie o Ochronie Danych (GDPR) Unii Europejskiej, które przyznaje osobom prawo do dostępu, sprostowania i usunięcia ich danych osobowych – zadanie, które staje się trudne, jeśli te dane są osadzone w LLM. GDPR również upoważnia osoby do sprzeciwu wobec zautomatyzowanego podejmowania decyzji, co dodatkowo komplikuje zgodność dla firm korzystających z LLM.
Wymagania dotyczące lokalizacji danych stanowią kolejne wyzwanie dla użytkowników LLM. Dotyczą one fizycznej lokalizacji przechowywania danych klientów. Różne kraje i regiony mają precyzyjne przepisy określające, jak dane klientów powinny być przetwarzane, przechowywane i
ochraniane. To stanowi znaczące wyzwanie przy korzystaniu z LLM dla globalnej bazy klientów firmy.
Wnioski o dostęp do danych osobowych (DSARs) w ramach GDPR i innych przepisów dodają kolejną warstwę złożoności. W UE i Kalifornii osoby (czyli „podmioty danych”) mają prawo zażądać dostępu do swoich danych osobowych, ale zgodność z takimi wnioskami jest trudna, jeśli dane te zostały przetworzone przez LLM.
Biorąc pod uwagę złożony krajobraz prywatności i zgodności oraz złożoność LLM, najbardziej praktycznym podejściem do utrzymania zgodności jest uniemożliwienie wrażliwym danym wejścia do modelu. Poprzez wdrażanie rygorystycznych praktyk przetwarzania danych, firmy mogą ograniczać ryzyko związane z prywatnością związaną z LLM, jednocześnie zachowując użyteczność modelu. Wiele firm już zdecydowało, że ryzyko jest zbyt wysokie, dlatego zakazały korzystania z ChatGPT, ale to podejście jest krótkowzroczne. Właściwie zarządzane, te modele mogą tworzyć dużo wartości.
Podejścia do prywatności w generatywnych SI Aby sprostać wyzwaniom związanym z prywatnością w modelach generatywnych SI, zaproponowano kilka rozwiązań, takich jak zakaz lub kontrola dostępu, używanie danych syntetycznych zamiast rzeczywistych oraz prowadzenie prywatnych LLM.
Zakazanie ChatGPT i innych systemów generatywnych SI nie jest skuteczną strategią długoterminową, a inne podejścia „plasterkowe” są skazane na porażkę, ponieważ ludzie mogą łatwo znaleźć obejścia. Używanie danych syntetycznych zastępuje wrażliwe informacje podobnymi, ale niewrażliwymi danymi i utrzymuje PII poza modelem, ale kosztem utraty wartości, która skłoniła cię do udostępnienia wrażliwych danych LLM. Model traci kontekst, a nie ma referencyjnej integralności między syntetycznie wygenerowanymi danymi a oryginalnymi wrażliwymi informacjami.
Najpopularniejszym podejściem do radzenia sobie z prywatnością danych SI, promowanym przez dostawców chmury, takich jak Google, Microsoft, AWS i Snowflake, jest prowadzenie prywatnego LLM na ich infrastrukturze.
Na przykład, dzięki Rejestracji Modeli Snowpark w Snowflake, możesz wziąć open source LLM i uruchomić go w usłudze kontenerowej na swoim koncie Snowflake. Twierdzą, że pozwala to na szkolenie LLM przy użyciu twoich własnych danych.
Schemat działania rejestracji modeli Snowpark i usługi kontenerowej. Rejestracja modeli Snowpark i usługa kontenerowa (Źródło: Blog Snowflake) Jednak korzystanie z tego podejścia ma kilka wad.
Poza obawami o prywatność, jeśli wybierasz prowadzenie prywatnego LLM zamiast korzystania z istniejącej zarządzanej usługi, to jesteś zobowiązany do zarządzania aktualizacjami, a możliwe, że także infrastrukturą. Będzie to również znacznie droższe niż prowadzenie prywatnego LLM. Razem te wady oznaczają, że prowadzenie prywatnego LLM prawdopodobnie nie ma sensu dla większości firm.
Ale większym problemem jest to, że z punktu widzenia prywatności, prywatne LLM po prostu nie zapewniają skutecznej ochrony danych. Prywatne LLM zapewniają izolację modelu, ale nie zapewniają zarządzania danymi w formie precyzyjnych kontroli dostępu: każdy użytkownik, który ma dostęp do prywatnego LLM, ma dostęp do wszystkich danych, które zawiera. Prywatność danych polega na daniu użytkownikowi kontroli nad swoimi danymi, ale prywatne LLM nadal cierpią na wszystkie wrodzone ograniczenia dotyczące usuwania danych, które blokują adopcję publicznych LLM.
To, co ma znaczenie dla firmy i poszczególnych podmiotów danych, to kto widzi co, kiedy, gdzie i jak długo. Korzystanie z prywatnego LLM nie daje ci możliwości upewnienia się, że Susie z księgowości widzi jeden rodzaj odpowiedzi LLM na podstawie jej stanowiska, podczas gdy Bob z obsługi klienta widzi coś innego.
Więc jak możemy zapobiec wejściu PII i innych wrażliwych danych do LLM, ale także wspierać zarządzanie danymi, abyśmy mogli kontrolować, kto może widzieć co i wspierać potrzebę usunięcia wrażliwych danych?
Nowe podejście do zarządzania PII W świecie tradycyjnego zarządzania danymi coraz bardziej popularnym podejściem do ochrony prywatności wrażliwych danych jest korzystanie ze skarbca danych prywatności. Skarbiec danych prywatności izoluje, chroni i zarządza wrażliwymi danymi klientów, ułatwiając zgodność regionalną z przepisami takimi jak GDPR poprzez lokalizację danych.
W architekturze skarbca wrażliwe dane są przechowywane w skarbcu, izolowane poza istniejącymi systemami. Izolacja pomaga zapewnić integralność i bezpieczeństwo wrażliwych danych oraz ułatwia regionalizację tych danych. Dane zdeidentyfikowane, które służą jako odniesienie do wrażliwych danych, są przechowywane w tradycyjnych usługach chmury i usługach pośrednich.
De-identyfikacja odbywa się poprzez proces tokenizacji. Nie jest to to samo co tokenizacja LLM, która dotyczy podziału tekstów na mniejsze jednostki. W przypadku de-identyfikacji danych tokenizacja jest nielogorytmicznym podejściem do zaciemniania danych, które zamienia wrażliwe dane na tokeny. Token jest wskaźnikiem, który pozwala odnieść się do czegoś gdzie indziej, jednocześnie zapewniając zaciemnienie.
Tradycyjne zarządzanie danymi bezpieczeństwa w porównaniu ze skarbcem danych prywatności. API: interfejs programowania aplikacji; ETL: ekstrakcja, transformacja, ładowanie. Tradycyjne zarządzanie danymi w porównaniu z architekturą skarbca danych prywatności (Źródło: IEEE) Spójrzmy na prosty przykład. W poniższym przepływie pracy numer telefonu jest zbierany przez aplikację front-end. Numer telefonu wraz z innymi PII jest bezpiecznie przechowywany w skarbcu, który jest izolowany poza istniejącą infrastrukturą firmy. W zamian skarbiec generuje zdeidentyfikowaną reprezentację numeru telefonu (np. ABC123). Zdeidentyfikowane (lub ztokenizowane) dane nie mają matematycznego połączenia z oryginalnymi danymi, więc nie można ich odwrócić.
Wszystkie usługi pośrednie – bazy danych aplikacji, magazyn danych, analityka, wszelkie logi itp. – przechowują tylko reprezentację tokenów danych i są wyłączone z zakresu zgodności:
rzepływ danych dla skarbca danych prywatności. Przykład działania skarbca danych prywatności w praktyce Ponadto, skarbiec danych prywatności może przechowywać wrażliwe dane w określonej lokalizacji geograficznej i ściśle kontrolować dostęp do tych danych. Inne systemy, w tym LLM, mają dostęp tylko do niewrażliwych zdeidentyfikowanych danych.
Skarbiec nie tylko przechowuje i generuje zdeidentyfikowane dane, ale także ściśle kontroluje dostęp do wrażliwych danych za pomocą modelu zerowego zaufania, w którym żadne konto użytkownika ani proces nie mają dostępu do danych, chyba że zostanie to przyznane przez wyraźne zasady kontroli dostępu. Te zasady są budowane od podstaw, przyznając dostęp do określonych kolumn i wierszy PII. Pozwala to kontrolować, kto widzi co, kiedy, gdzie, jak długo i w jakiej formie.
Na przykład, załóżmy, że mamy skarbiec zawierający dane klientów z kolumnami zdefiniowanymi dla imienia i nazwiska klienta, numeru ubezpieczenia społecznego (SSN), daty urodzenia (DOB) i e-maila. W naszej aplikacji chcemy obsłużyć dwa typy użytkowników: wsparcie i marketing.
Wsparcie nie potrzebuje znać dokładnych szczegółów na temat klienta, potrzebują jedynie zamaskowanych danych, aby mogli rozmawiać z klientem, używając jego imienia i weryfikować jego tożsamość za pomocą ostatnich czterech cyfr SSN klienta. Możemy stworzyć politykę dla roli wsparcia, która przyznaje dostęp tylko do ograniczonego widoku danych.
Tekst przykładowy, w którym wrażliwe dane PII są redagowane w zależności od roli obserwatora. Różne widoki wrażliwych danych w zależności od roli. Firewall prywatności dla LLM Firmy mogą rozwiązać problemy związane z prywatnością i zgodnością w LLM za pomocą podobnego zastosowania architektury skarbca danych prywatności. Skarbiec danych prywatności zapobiega wyciekom wrażliwych danych do LLM, rozwiązując problemy związane z prywatnością podczas szkolenia i wnioskowania LLM.
Ponieważ skarbce danych prywatności wykorzystują nowoczesne technologie zwiększające prywatność, takie jak polimorficzne szyfrowanie i tokenizacja, wrażliwe dane mogą być zdeidentyfikowane w sposób zachowujący integralność referencyjną. Oznacza to, że odpowiedzi z LLM zawierające zdeidentyfikowane dane mogą być ponownie zidentyfikowane na podstawie zasad zerowego zaufania zdefiniowanych w skarbcu, co pozwala upewnić się, że tylko odpowiednie informacje są udostępniane użytkownikowi LLM. Pozwala to upewnić się, że Susie z księgowości widzi tylko to, do czego powinna mieć dostęp (np. numery kont i kwoty faktur), podczas gdy Bob z obsługi klienta widzi tylko to, co potrzebuje do swojej pracy.
Zachowanie prywatności podczas szkolenia modelu Aby zachować prywatność podczas szkolenia modelu, skarbiec danych prywatności znajduje się na początku łańcucha szkoleniowego. Dane szkoleniowe, które mogą zawierać wrażliwe i niewrażliwe dane, najpierw trafiają do skarbca danych prywatności. Skarbiec wykrywa wrażliwe dane, przechowuje je w skarbcu i zastępuje je zdeidentyfikowanymi danymi. Wynikowy zestaw danych jest zdeidentyfikowany i bezpieczny do udostępnienia LLM.
Diagram pokazujący przekazywanie informacji z bazy danych danych szkoleniowych do skarbca danych prywatności, a następnie do LLM Łańcuch szkolenia modelu z skarbcem danych prywatności LLM nie obchodzi, czy moje imię, Sean Falconer, jest częścią danych szkoleniowych, czy jakaś spójnie wygenerowana reprezentacja mojego imienia (takiego jak „dak5lhf9w”) jest częścią danych szkoleniowych. Ostatecznie to tylko wektor.
Zachowanie prywatności podczas wnioskowania Wrażliwe dane mogą również wejść do modelu podczas wnioskowania. W poniższym przykładzie tworzone jest polecenie proszące o podsumowanie testamentu i wyróżnienie aktywów. Skarbiec wykrywa wrażliwe informacje, deidentyfikuje je i udostępnia niewrażliwą wersję polecenia LLM.
Ponieważ LLM został przeszkolony na niewrażliwych i zdeidentyfikowanych danych, wnioskowanie może być przeprowadzone normalnie.
LLM Podsumuj poniższy testament i wyróżnij aktywa. Ja, c433e64e6945, mieszkający przy 1d02b03817b9, oświadczam, że to mój Testament i unieważniam wszelkie wcześniejsze testamenty i kodycyle, które sporządziłem. Polecam mojemu wykonawcy, 3bea46uoe547, zapłacić moje egzekwowalne niezabezpieczone długi i koszty pogrzebu
Przykład de-identyfikacji danych wnioskowania z LLM i skarbcem danych prywatności Na wyjściu z LLM odpowiedź przechodzi przez skarbiec danych prywatności w celu ponownej identyfikacji. Wszelkie zdeidentyfikowane dane zostaną ponownie zidentyfikowane,
Zakładając, że użytkownik końcowy ma prawo zobaczyć informacje, zgodnie z wyraźnymi zasadami kontroli dostępu skonfigurowanymi w skarbcu.
Prywatność i zgodność Z punktu widzenia prywatności i zgodności, korzystanie ze skarbca danych prywatności oznacza, że żadne wrażliwe dane nigdy nie są udostępniane LLM, więc pozostają poza zakresem zgodności. Rezydencja danych, DSARs i żądania usunięcia są teraz odpowiedzialnością skarbca danych prywatności, który jest zaprojektowany do obsługi tych wymagań i przepływów pracy.
Włączenie skarbca do łańcuchów szkolenia modeli i wnioskowania pozwala na połączenie najlepszych praktyk nowoczesnego zarządzania wrażliwymi danymi z dowolnym stosie LLM, prywatnym, publicznym czy własnościowym.
Ostatnie przemyślenia Ponieważ każda firma stopniowo przekształca się w firmę AI, krytycznie ważne jest, aby stawić czoła wyzwaniom związanym z prywatnością danych. Bez konkretnego rozwiązania wymagań dotyczących prywatności danych, firmy ryzykują pozostanie na czas nieokreślony w fazie „demonstracji” lub „proof-of-concept”. Połączenie skarbców danych prywatności i generatywnego SI oferuje obiecującą ścieżkę naprzód, pozwalając firmom wykorzystywać moc AI bez kompromisu w zakresie prywatności.