Przejdź do głównej sekcji

Agenci AI są już tutaj. Co dalej?

Wprowadzenie

Nagły i szybki rozwój możliwości modeli LLM – takich jak pisanie płynnych zdań i osiąganie coraz wyższych wyników w testach porównawczych – skłonił zarówno twórców AI, jak i firmy do zastanowienia się nad tym, co nas czeka: Jaka przełomowa technologia jest tuż za rogiem? Jedną z technologii, która niedawno nabrała rozpędu, są „agenci AI” – systemy mogące podejmować działania w świecie cyfrowym zgodnie z celami użytkownika. Większość dzisiejszych agentów AI jest budowana poprzez włączanie dużych modeli językowych (LLM) do większych systemów, które mogą wykonywać wiele funkcji. Fundamentalną ideą stojącą za tą nową falą technologii jest to, że programy komputerowe nie muszą już funkcjonować jako narzędzia kontrolowane przez człowieka, ograniczone do wyspecjalizowanych zadań – mogą teraz łączyć wiele zadań bez ludzkiego wkładu.

Ta transformacja oznacza fundamentalne przejście do systemów zdolnych do tworzenia planów dostosowanych do kontekstu w niedeterministycznych środowiskach. Wiele współczesnych agentów AI nie tylko wykonuje predefiniowane działania, ale jest zaprojektowanych do analizowania nowych sytuacji, rozwijania odpowiednich celów i podejmowania wcześniej niezdefiniowanych działań dla osiągnięcia celów.

W tym tekście krótko omawiamy czym są agenci AI i przedstawiamy wartości etyczne, dokumentując kompromisy między korzyściami a ryzykami związanymi z agentami AI. Następnie sugerujemy ścieżki prowadzące do przyszłości, w której agenci AI będą jak najbardziej korzystni dla społeczeństwa. Aby zapoznać się z technicznymi aspektami agentów, zapraszamy do przeczytania naszego niedawnego posta dla programistów. Aby zapoznać się z wprowadzeniem do agentów napisanym przed erą współczesnej AI generatywnej (które w dużej mierze jest wciąż aktualne), zobacz Wooldridge i Jennings, 1995.

Nasza analiza pokazuje, że ryzyko dla ludzi wzrasta wraz z poziomem autonomii systemu: Im więcej kontroli użytkownik oddaje, tym więcej pojawia się zagrożeń ze strony systemu. Szczególnie niepokojące są zagrożenia dla bezpieczeństwa jednostek, które wynikają z tych samych korzyści, które motywują rozwój agentów AI, takich jak uwolnienie programistów od konieczności przewidywania wszystkich działań, jakie system może podjąć. Problem dodatkowo komplikuje fakt, że niektóre zagrożenia dla bezpieczeństwa otwierają drzwi do innych rodzajów szkód – takich jak naruszenia prywatności i bezpieczeństwa – a nieodpowiednie zaufanie do niebezpiecznych systemów powoduje efekt kuli śnieżnej kolejnych szkód. W związku z tym zalecamy, aby nie rozwijać w pełni autonomicznych agentów AI. Na przykład, agenci AI, którzy mogą pisać i wykonywać własny kod, wykraczając poza ograniczone opcje kodu kontrolowane przez programistę, będą wyposażeni w możliwość zastąpienia całej kontroli ludzkiej. Natomiast półautonomiczni agenci AI mogą mieć korzyści przewyższające ryzyko, w zależności od poziomu autonomii, zadań dostępnych dla systemu i charakteru kontroli jednostek nad nim. Przyjrzyjmy się teraz tym tematom szczegółowo.

Czym jest agent AI?

Przegląd

Nie ma jasnego konsensusu co do tego, czym jest „agent AI”, ale wspólną cechą niedawno wprowadzonych agentów AI jest to, że są „agentywni”, czyli działają z pewnym poziomem autonomii: po określeniu celu mogą rozłożyć go na podzadania i wykonać każde z nich bez bezpośredniej interwencji człowieka. Na przykład, idealny agent AI mógłby odpowiedzieć na ogólne żądanie takie jak „pomóż mi pisać lepsze posty na blogu” poprzez samodzielne rozbicie tego zadania na wyszukiwanie w sieci tekstów podobnych do twoich poprzednich tematów blogowych, tworzenie dokumentów z konspektami nowych postów i dostarczanie wstępnych tekstów do każdego z nich. Niedawne prace nad agentami AI umożliwiły stworzenie oprogramowania o szerszym zakresie funkcjonalności i większej elastyczności użytkowania niż w przeszłości, a najnowsze systemy są wdrażane do wszystkiego, od organizowania spotkań po tworzenie spersonalizowanych postów w mediach społecznościowych, bez wyraźnych instrukcji jak to zrobić.

Spektrum Agentów AI

Agenci AI różnią się w kilku powiązanych wymiarach:

Autonomia

Najnowsi „agenci” mogą wykonać co najmniej jeden krok bez udziału użytkownika. Termin „agent” jest obecnie używany do opisania wszystkiego, od jednokrokowych systemów pytanie-odpowiedź po wieloetapowe systemy obsługi klienta.

Proaktywność

Związana z autonomią jest proaktywność, która odnosi się do ilości zachowań ukierunkowanych na cel, jakie system może podjąć bez bezpośredniego określenia celu przez użytkownika. Przykładem szczególnie „proaktywnego” agenta AI jest system, który monitoruje twoją lodówkę, aby określić, jakich produktów ci brakuje, a następnie kupuje to, czego potrzebujesz bez twojej wiedzy. Inteligentne termostaty są proaktywnymi agentami AI, które są coraz częściej adoptowane w domach, automatycznie dostosowując temperaturę w oparciu o zmiany w środowisku i wzorce, których uczą się z zachowania użytkowników.

Personifikacja

Agent AI może być zaprojektowany tak, aby był mniej lub bardziej podobny do konkretnej osoby lub grupy osób. Najnowsze prace w tej dziedzinie koncentrują się na projektowaniu systemów w oparciu o Wielką Piątkę cech osobowości – Otwartość, Sumienność, Ekstrawersję, Ugodowość i Neurotyczność jako „ramy psychologiczne” dla AI.

Personalizacja

Agenci AI mogą używać języka lub wykonywać działania dostosowane do indywidualnych potrzeb użytkownika, na przykład wydawać rekomendacje inwestycyjne w oparciu o aktualne wzorce rynkowe i inwestycje dokonane przez użytkownika w przeszłości.

Narzędzia

Agenci AI mają również różną ilość dodatkowych zasobów i narzędzi, do których mają dostęp. Na przykład, pierwsza fala agentów AI uzyskała dostęp do wyszukiwarek, aby odpowiadać na zapytania, a następnie dodano kolejne narzędzia pozwalające im manipulować innymi produktami technologicznymi, jak dokumenty i arkusze kalkulacyjne.

Wszechstronność

Powiązana z powyższym jest różnorodność działań, jakie agent może podjąć. Jest to funkcja:

  • Specyfiki domeny: Ile różnych domen agent może obsługiwać
  • Specyfiki zadań: Ile różnych typów zadań agent może wykonać
  • Specyfiki modalności: W ilu różnych modalnościach agent może działać – tekst, mowa, wideo, obrazy, formularze, kod
  • Specyfiki oprogramowania: Z iloma różnymi typami oprogramowania agent może współpracować i na jakim poziomie szczegółowości

Adaptacyjność

Podobna do wszechstronności jest zdolność systemu do aktualizacji sekwencji działań w oparciu o nowe informacje lub zmiany kontekstu. Jest to również opisywane jako bycie „dynamicznym” i „świadomym kontekstu”.

Powierzchnie działania

Miejsca, w których agent może wykonywać działania. Tradycyjne chatboty są ograniczone do interfejsu czatu; agenci czatowi mogą dodatkowo przeglądać internet i uzyskiwać dostęp do arkuszy kalkulacyjnych i dokumentów, a nawet wykonywać takie zadania poprzez kontrolowanie elementów graficznego interfejsu komputera, na przykład poprzez poruszanie myszką. Istnieją również zastosowania fizyczne, takie jak wykorzystanie modelu do zasilania robotów.

Formaty żądań

Wspólnym tematem wśród agentów AI jest to, że użytkownik powinien móc wprowadzić żądanie wykonania zadania bez określania szczegółowych detali jak je osiągnąć. Może to być realizowane poprzez rozwiązania low-code, za pomocą ludzkiego języka w tekście lub za pomocą ludzkiego języka mówionego.

Reaktywność

Ta cecha odnosi się do tego, jak długo trwa wykonanie sekwencji działań przez agenta AI: Kilka chwil czy znacznie dłuższy okres czasu.

Liczba

Systemy mogą być jedno- lub wieloagentowe, zaspokajając potrzeby użytkowników poprzez wspólną pracę, sekwencyjnie lub równolegle.

Ryzyka, Korzyści i Zastosowania: Analiza Oparta na Wartościach

[pozostała część artykułu kontynuuje analizę różnych wartości takich jak dokładność, pomocniczość, spójność itd. wraz z potencjalnymi korzyściami (oznaczonymi 🙂) i ryzykami (oznaczonymi 😟) dla każdej z nich]

Rekomendacje i Co Dalej

Obecny stan technologii agentów AI wskazuje na kilka wyraźnych kierunków:

  1. Należy zaprojektować rygorystyczne protokoły ewaluacji agentów.
  2. Efekty działania agentów AI muszą być lepiej zrozumiane. Należy śledzić i analizować indywidualne, organizacyjne, ekonomiczne i środowiskowe skutki agentów AI.
  3. Efekty kaskadowe muszą być lepiej zrozumiane. Gdy agenci wdrożeni przez jednego użytkownika wchodzą w interakcje z innymi agentami od innych użytkowników.
  4. Przejrzystość i ujawnianie informacji muszą zostać poprawione. Musi być jasne dla ludzi, kiedy rozmawiają z agentem i jak autonomiczny on jest.
  5. Open source może wprowadzić pozytywną różnicę. Ruch open source może służyć jako przeciwwaga dla koncentracji rozwoju agentów AI w rękach kilku potężnych organizacji.
  6. Programiści prawdopodobnie stworzą bardziej agentowe „modele bazowe”. Jest to wyraźnie przewidywalne na podstawie obecnych trendów i wzorców badawczych.