Przejdź do głównej sekcji

Nowy Model Językowy Qwen2: Przeskok w Ewolucji Sztucznej Inteligencji

Nowy Model Językowy Qwen2: Przeskok w Ewolucji Sztucznej Inteligencji

Po miesiącach intensywnej pracy chiński zespół Qwen z radością ogłasza ewolucję modeli Qwen1.5 do Qwen2. Oto, oto co przygotowali:

  • Modele wstępnie wytrenowane i dostrojone do instrukcji w pięciu rozmiarach: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B oraz Qwen2-72B.
  • Trening na danych w 27 językach, poza angielskim i chińskim.
  • Najnowocześniejsze wyniki w licznych testach benchmarkowych.
  • Znacząco poprawiona wydajność w programowaniu i matematyce.
  • Wsparcie dla długości kontekstu do 128 tys. tokenów w modelach Qwen2-7B-Instruct i Qwen2-72B-Instruct.

Modele Qwen2 są dostępne na platformach Hugging Face i ModelScope. Czekamy na Wasze opinie!

Informacje o Modelu

Seria Qwen2 obejmuje modele bazowe i dostrojone do instrukcji w pięciu rozmiarach: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B oraz Qwen2-72B. Poniżej przedstawiamy kluczowe informacje:

ModelParametryNon-Emb ParamsGQATie EmbeddingDługość kontekstu
Qwen2-0.5B0.49B0.35BTakTak32K
Qwen2-1.5B1.54B1.31BTakTak32K
Qwen2-7B7.07B5.98BTakNie128K
Qwen2-57B-A14B57.41B56.32BTakNie64K
Qwen2-72B72.71B70.21BTakNie128K

W poprzedniej wersji Qwen1.5 tylko modele Qwen1.5-32B i Qwen1.5-110B korzystały z Group Query Attention (GQA). W Qwen2 zastosowaliśmy GQA we wszystkich modelach, co zapewnia szybsze działanie i mniejsze zużycie pamięci podczas inferencji. Dla mniejszych modeli preferujemy powiązanie osadzania, ponieważ duże, rzadkie osadzania zajmują dużą część parametrów modelu.

Kontekst

Wszystkie bazowe modele językowe zostały wstępnie wytrenowane na danych z kontekstem o długości 32K tokenów, i wykazują zadowalające zdolności ekstrapolacji do 128K w ocenie PPL. Jednak dla modeli dostrojonych do instrukcji nie jesteśmy zadowoleni jedynie z oceny PPL; modele muszą być zdolne do poprawnego rozumienia długiego kontekstu i wykonywania zadań. W tabeli przedstawiamy zdolności długości kontekstu modeli dostrojonych do instrukcji, oceniane na podstawie zadania Needle in a Haystack. Zauważalnie, po wzmocnieniu techniką YARN, modele Qwen2-7B-Instruct i Qwen2-72B-Instruct wykazują imponującą zdolność do obsługi kontekstów o długości do 128K tokenów.

Wielojęzyczność

Duże wysiłki zostały skierowane na zwiększenie zarówno objętości, jak i jakości danych wstępnego treningu i dostrajania do instrukcji w różnych językach, poza angielskim i chińskim, aby wzmocnić kompetencje wielojęzyczne. Chociaż duże modele językowe posiadają inherentną zdolność do generalizacji na inne języki, wyraźnie podkreślamy uwzględnienie 27 dodatkowych języków w naszym treningu:

RegionyJęzyki
Europa ZachodniaNiemiecki, Francuski, Hiszpański, Portugalski, Włoski, Niderlandzki
Europa Wschodnia i ŚrodkowaRosyjski, Czeski, Polski
Bliski WschódArabski, Perski, Hebrajski, Turecki
Azja WschodniaJapoński, Koreański
Azja Południowo-WschodniaWietnamski, Tajski, Indonezyjski, Malajski, Laotański, Birmański, Cebuano, Khmer, Tagalog
Azja PołudniowaHindi, Bengalski, Urdu

Dodatkowo, poświęciliśmy znaczne wysiłki na adresowanie przełączania kodów, częstego zjawiska w wielojęzycznych ocenach. W związku z tym, nasze modele znacząco poprawiły swoje umiejętności radzenia sobie z tym zjawiskiem. Oceny przy użyciu promptów, które typowo wywołują przełączanie kodów między językami, potwierdzają znaczne zmniejszenie związanych z tym problemów.

Wydajność

Oceny porównawcze ujawniają znaczne poprawy wydajności dla dużych modeli (70B+ parametrów) w porównaniu do Qwen1.5. Nasza ocena koncentruje się na modelu dużego rozmiaru Qwen2-72B. W przypadku bazowych modeli językowych, Qwen2-72B i najnowocześniejsze otwarte modele są oceniane pod kątem różnych zdolności, w tym zrozumienia języka naturalnego, zdobywania wiedzy, umiejętności programowania, zdolności matematycznych i kompetencji wielojęzycznych. Dzięki starannie dobranym zbiorom danych i zoptymalizowanym metodom treningowym, Qwen2-72B wykazuje lepsze wyniki w porównaniu do wiodących modeli, takich jak Llama-3-70B. Znacząco przewyższa również swój poprzednik, Qwen1.5-110B, mimo posiadania mniejszej liczby parametrów.

Po obszernym treningu na dużą skalę, przeprowadzamy trening post-przygotowawczy, aby dalej zwiększyć inteligencję Qwen, zbliżając go do ludzkiego poziomu. Proces ten dodatkowo poprawia zdolności modelu w takich dziedzinach jak programowanie, matematyka, rozumowanie, podążanie za instrukcjami, rozumienie wielojęzyczne i wiele innych. Dodatkowo, dostosowuje on wyniki modelu do wartości ludzkich, zapewniając, że jest pomocny, uczciwy i nieszkodliwy. Nasza faza post-treningowa jest zaprojektowana zgodnie z zasadą skalowalnego treningu przy minimalnym udziale człowieka. Specjalnie badamy, jak uzyskać wysokiej jakości, wiarygodne, zróżnicowane i kreatywne dane demonstracyjne oraz preferencyjne dane z różnymi zautomatyzowanymi strategiami dostosowania, takimi jak odrzucanie próbek dla matematyki, sprzężenie zwrotne dla kodowania i podążania za instrukcjami, tłumaczenie wsteczne dla pisania kreatywnego, skalowalny nadzór dla odgrywania ról itp. Jeśli chodzi o trening, stosujemy kombinację nadzorowanego dostrajania, treningu modelu nagrody i treningu online DPO. Używamy również nowego optymalizatora Online Merging, aby zminimalizować koszty dostosowania. Te zbiorowe wysiłki znacznie zwiększyły zdolności i inteligencję naszych modeli, co ilustruje poniższa tabela.

Najważniejsze Punkty

Programowanie i Matematyka Nieustannie koncentrujemy nasze wysiłki na poprawie zaawansowanych możliwości Qwen, zwłaszcza w zakresie programowania i matematyki. W programowaniu, z powodzeniem zintegrowaliśmy doświadczenia treningowe i dane z CodeQwen1.5, co zaowocowało znaczącymi ulepszeniami w Qwen2-72B-Instruct w różnych językach programowania. W odniesieniu do matematyki, dzięki wykorzystaniu obszernych i wysokiej jakości zbiorów danych, Qwen2-72B-Instruct wykazuje silniejsze zdolności do rozwiązywania problemów matematycznych.

Rozumienie Długiego Kontekstu W Qwen2 wszystkie modele dostrojone do instrukcji zostały przeszkolone na kontekstach długości 32k, a następnie ekstrapolowane do dłuższych kontekstów przy użyciu technik takich jak YARN czy Dual Chunk Attention.

Poniższy wykres przedstawia wyniki naszych testów na Needle in a Haystack. Zauważalnie, Qwen2-72B-Instruct jest w stanie bezbłędnie radzić sobie z zadaniami ekstrakcji informacji w kontekście 128k. Dzięki swojej wrodzonej wysokiej wydajności, staje się preferowanym wyborem do obsługi długich tekstów, gdy zasoby na to pozwalają.

Dodatkowo, warto zwrócić uwagę na imponujące zdolności innych modeli z serii: Qwen2-7B-Instruct niemal bezbłędnie obsługuje konteksty do 128k, Qwen2-57B-A14B-Instruct radzi sobie z kontekstami do 64k, a dwa mniejsze modele w tej serii obsługują konteksty o długości 32k.

Oprócz modeli z długim kontekstem, otworzyliśmy również rozwiązanie agentowe do efektywnego przetwarzania dokumentów zawierających do 1 miliona tokenów. Aby uzyskać więcej informacji, zapoznaj się z naszym dedykowanym wpisem na blogu na ten temat.

Bezpieczeństwo i Odpowiedzialność

Tabela poniżej przedstawia proporcje szkodliwych odpowiedzi generowanych przez duże modele dla czterech kategorii wielojęzycznych niebezpiecznych zapytań (działalność nielegalna, oszustwo, pornografia, naruszenie prywatności). Dane testowe zostały wyciągnięte z Jailbreak i przetłumaczone na wiele języków do oceny. Stwierdziliśmy, że Llama-3 nie radzi sobie skutecznie z wielojęzycznymi promptami, dlatego nie jest uwzględniona w porównaniu. Przez testy istotności (P_value) stwierdziliśmy, że model Qwen2-72B-Instruct działa porównywalnie z GPT-4 pod względem bezpieczeństwa i znacznie przewyższa model Mistral-8x22B.