Przejdź do głównej sekcji

Analiza wpływu dużych modeli językowych na środowisko w oparciu o Open LLM Leaderboard – raport portalu Hugging Face

Od czerwca 2024 roku na platformie Open LLM Leaderboard, stanowiącej globalny ranking wydajności otwartych modeli językowych, oceniono ponad 3000 modeli. Nawet przy optymalizacji procesu oceny poprzez wykorzystanie wolnych cykli obliczeniowych klastra (tj. procesorów graficznych, które są aktywne, ale oczekują na zadania), proces ten generuje znaczące zużycie energii podczas wnioskowania.

W ciągu ostatniego roku wzrosła świadomość, że korzystanie z dużych modeli językowych (LLM) do generowania tekstu ma istotny wpływ na środowisko, wykraczający poza i tak już znaczący wpływ związany z samym procesem trenowania modeli. Ostatnie badania (np. artykuł „Towards Greener LLMs”) podkreślają wyzwania związane z efektywnym zarządzaniem zasobami podczas wnioskowania, wynikające ze zmiennych i zróżnicowanych obciążeń.

Wprowadzając szacunki emisji dwutlenku węgla do Open LLM Leaderboard, Hugging Face dąży do zapewnienia użytkownikom przejrzystości odnośnie wpływu różnych ocen modeli na środowisko i zachęcenia twórców modeli do równoważenia wydajności z odpowiedzialnością ekologiczną.

Portal Hugging Face postanowił zbadać emisje CO₂ związane z wnioskowaniem modeli i zidentyfikować ewentualne trendy w danych. W trakcie analizy zaobserwowano kilka przewidywalnych wzorców, ale także odkryto zaskakujące spostrzeżenia, takie jak ogólna większa efektywność węglowa dostrojeń społecznościowych!

Obliczanie kosztu CO₂

Emisje CO₂ generowane podczas wnioskowania modeli obliczane są za pomocą prostej heurystyki, ponieważ wszystkie oceny przeprowadzane są na tym samym sprzęcie i przy użyciu tej samej metody (ładowanie modelu za pomocą Transformers i Accelerate z wykorzystaniem równoległości potokowej i danych, aby w pełni wykorzystać 8 procesorów graficznych na węzeł). Obliczenia uwzględniają:

  • Czas oceny.
  • Zużycie energii na podstawie poboru mocy sprzętu klastra.
  • Emisję dwutlenku węgla związaną ze źródłem energii elektrycznej zasilającym sprzęt.

Szczegółowe wyjaśnienie i wzór można znaleźć w dokumentacji portalu Hugging Face.

Uwaga: Należy pamiętać, że obliczenia te odnoszą się do konkretnej konfiguracji sprzętowej i metody oceny stosowanej przez Hugging Face. Nie oznacza to, że model X emituje Y CO₂ podczas wnioskowania w ogóle. Oznacza to, że model X wyemitował Y CO₂ w specyficznych warunkach testowych, co nadal dostarcza cennych informacji.

Ogólne trendy

Analiza objęła 2742 modele z popularnych rodzin, takich jak Gemma/Gemma2, wszystkie generacje Llama, Mistral, Mixtral, Phi/Phi3, Qwen2 i nowsze, a także starsze rodziny, takie jak GPT, GPT-NeoX i T5.

Modele „Oficjalnych Dostawców”

Modele oficjalne pochodzą od zaufanych twórców, takich jak grupy badawcze, konsorcja społecznościowe (EleutherAI, NousResearch), FAANG (Google, Meta, Alibaba…), startupy (MistralAI, 01.AI) itp. Reprezentują one 341 modeli.

Zgodnie z oczekiwaniami, ogólnie rzecz biorąc, im większy model, tym wyższy koszt CO₂. Jednak wzrost wyniku w rankingu nie zawsze jest proporcjonalny, co prowadzi do malejących korzyści. Modele od AbacusAI, Qwen i AllenAI, o wielkości około 70 miliardów parametrów, osiągają średni wynik w rankingu powyżej 40 w różnych testach porównawczych. Z drugiej strony, modele z najniższymi wynikami w tym przedziale to starsze modele: modele Qwen-1.5-100B, a także Mixtral8x22B.

Modele MoE (Mixture of Experts) wydają się mieć stosunkowo słaby stosunek wyniku w rankingu do emisji. Chociaż modele te mają na celu zmniejszenie obciążenia obliczeniowego poprzez aktywację tylko podzbioru parametrów dla danego zadania, niektóre wykazują wyższe niż oczekiwano emisje CO₂ ze względu na bardzo długi czas wnioskowania.

Mniejsze modele zajmują dolne kwadranty kosztów, co czyni je atrakcyjnymi dla zastosowań, w których efektywność energetyczna jest najważniejsza. Wśród nich modele Qwen-2.5-14B i Phi-3-Medium wydają się mieć najlepszy stosunek wyniku w rankingu do emisji.

Modele dostrojone do instrukcji (instruction-tuned) często przewyższają swoje bazy w rankingu. Jednak niektóre modele tego typu mogą być wyjątkowo rozwlekłe, co zwiększa zarówno czas wnioskowania, jak i zużycie energii podczas ocen generatywnych (MATH i IFEval). Niektóre modele dostrojone do instrukcji wykazują inny problem: znacznie niższe wyniki niż oczekiwano w stosunku do ich kosztów. Dzieje się tak, gdy nadmiernie dopasowują się do określonych formatów podpowiedzi, stając się niezdolnymi do przestrzegania formatów oczekiwanych w rankingu, co prowadzi głównie do niższych wyników w ocenach MATH.

Wydania Społecznościowe

Społeczność koncentruje się w dużej mierze na małych modelach, osiągając średni wynik do 35 (najlepsze wyniki to około 45) dla modeli poniżej 10 miliardów parametrów, przy emisji CO₂ mniejszej niż 5 kg!

Co ciekawe, trend emisji CO₂ w stosunku do wielkości modelu, nawet przy wyższych wartościach, nie jest taki sam w przypadku wydań społecznościowych i oficjalnych: dostrojenia lub połączenia społecznościowe są zazwyczaj bardziej efektywne pod względem emisji CO₂ niż oficjalne modele, od których pochodzą!

Szczegółowe Analizy

Przeprowadzono szczegółową analizę modeli bazowych o dużej liczbie parametrów i kompaktowych (> 7 miliardów parametrów), koncentrując się na trzech modelach z każdej kategorii. Zbadano emisje dla każdego modelu bazowego, dla innych oficjalnych dostrojeń, w tym oficjalnych wersji dostrojonych do instrukcji, oraz dla dostrojeń społecznościowych.

Modele Językowe o Dużej Liczbie Parametrów

Analiza trzech modeli o 70 miliardach parametrów wykazała, że dla Qwen2.5 i Llama3.1 modele bazowe i dostrojenia społecznościowe wykazują podobne emisje CO₂, ale oficjalne dostrojenia zużywają dwukrotnie więcej energii. Co ciekawe, w przypadku Qwen2 model bazowy jest znacznie bardziej energochłonny niż jego dostrojenia.

Kompaktowe Modele Językowe

Analiza modeli 7B+ nie wykazała spójnego trendu. Dla Llama3.1 i Qwen2.5 modele bazowe zużywają dwukrotnie więcej energii niż dostrojenia. Dla Qwen2 i Mistral v0.3 zużycie dostrojeń społecznościowych jest wyższe.

Analiza Wzorców Emisji w Modelach Qwen2

Znaczna różnica między modelem bazowym a dostrojeniami społecznościowymi w Qwen2-72B rodzi pytania o potencjalne różnice w ilości słów lub jakości tekstu. Model bazowy wykazuje znacznie wyższe emisje CO₂ w porównaniu z jego dostrojeniami, podczas gdy dostrojenia społecznościowe wykazują znacznie niższe emisje.

Przykłady Porównań Modeli (Qwen2)

Porównano model bazowy Qwen/Qwen2-72B, oficjalne dostrojenie Qwen/Qwen2-72B-Instruct i dostrojenie społecznościowe MaziyarPanahi/calme-2.1-qwen2-72b.

Analiza zachowania modeli wykazała, że dostrajanie redukuje występowanie niedokładnych lub anomalnych wyników (np. powtarzające się wzorce), co skutkuje bardziej energooszczędnymi odpowiedziami. Dodatkowo, dostrajanie może znacząco zmniejszyć emisje CO₂, szczególnie w przypadku calme-2.1-qwen2-72b. Model bazowy Qwen2-72B nie jest zoptymalizowany do wykonywania.

źródło: huggingface