Nowy Model Językowy Qwen2: Przeskok w Ewolucji Sztucznej Inteligencji
Nowy Model Językowy Qwen2: Przeskok w Ewolucji Sztucznej Inteligencji
Po miesiącach intensywnej pracy chiński zespół Qwen z radością ogłasza ewolucję modeli Qwen1.5 do Qwen2. Oto, oto co przygotowali:
- Modele wstępnie wytrenowane i dostrojone do instrukcji w pięciu rozmiarach: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B oraz Qwen2-72B.
- Trening na danych w 27 językach, poza angielskim i chińskim.
- Najnowocześniejsze wyniki w licznych testach benchmarkowych.
- Znacząco poprawiona wydajność w programowaniu i matematyce.
- Wsparcie dla długości kontekstu do 128 tys. tokenów w modelach Qwen2-7B-Instruct i Qwen2-72B-Instruct.
Modele Qwen2 są dostępne na platformach Hugging Face i ModelScope. Czekamy na Wasze opinie!
Informacje o Modelu
Seria Qwen2 obejmuje modele bazowe i dostrojone do instrukcji w pięciu rozmiarach: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B oraz Qwen2-72B. Poniżej przedstawiamy kluczowe informacje:
Model | Parametry | Non-Emb Params | GQA | Tie Embedding | Długość kontekstu |
---|---|---|---|---|---|
Qwen2-0.5B | 0.49B | 0.35B | Tak | Tak | 32K |
Qwen2-1.5B | 1.54B | 1.31B | Tak | Tak | 32K |
Qwen2-7B | 7.07B | 5.98B | Tak | Nie | 128K |
Qwen2-57B-A14B | 57.41B | 56.32B | Tak | Nie | 64K |
Qwen2-72B | 72.71B | 70.21B | Tak | Nie | 128K |
W poprzedniej wersji Qwen1.5 tylko modele Qwen1.5-32B i Qwen1.5-110B korzystały z Group Query Attention (GQA). W Qwen2 zastosowaliśmy GQA we wszystkich modelach, co zapewnia szybsze działanie i mniejsze zużycie pamięci podczas inferencji. Dla mniejszych modeli preferujemy powiązanie osadzania, ponieważ duże, rzadkie osadzania zajmują dużą część parametrów modelu.
Kontekst
Wszystkie bazowe modele językowe zostały wstępnie wytrenowane na danych z kontekstem o długości 32K tokenów, i wykazują zadowalające zdolności ekstrapolacji do 128K w ocenie PPL. Jednak dla modeli dostrojonych do instrukcji nie jesteśmy zadowoleni jedynie z oceny PPL; modele muszą być zdolne do poprawnego rozumienia długiego kontekstu i wykonywania zadań. W tabeli przedstawiamy zdolności długości kontekstu modeli dostrojonych do instrukcji, oceniane na podstawie zadania Needle in a Haystack. Zauważalnie, po wzmocnieniu techniką YARN, modele Qwen2-7B-Instruct i Qwen2-72B-Instruct wykazują imponującą zdolność do obsługi kontekstów o długości do 128K tokenów.
Wielojęzyczność
Duże wysiłki zostały skierowane na zwiększenie zarówno objętości, jak i jakości danych wstępnego treningu i dostrajania do instrukcji w różnych językach, poza angielskim i chińskim, aby wzmocnić kompetencje wielojęzyczne. Chociaż duże modele językowe posiadają inherentną zdolność do generalizacji na inne języki, wyraźnie podkreślamy uwzględnienie 27 dodatkowych języków w naszym treningu:
Regiony | Języki |
---|---|
Europa Zachodnia | Niemiecki, Francuski, Hiszpański, Portugalski, Włoski, Niderlandzki |
Europa Wschodnia i Środkowa | Rosyjski, Czeski, Polski |
Bliski Wschód | Arabski, Perski, Hebrajski, Turecki |
Azja Wschodnia | Japoński, Koreański |
Azja Południowo-Wschodnia | Wietnamski, Tajski, Indonezyjski, Malajski, Laotański, Birmański, Cebuano, Khmer, Tagalog |
Azja Południowa | Hindi, Bengalski, Urdu |
Dodatkowo, poświęciliśmy znaczne wysiłki na adresowanie przełączania kodów, częstego zjawiska w wielojęzycznych ocenach. W związku z tym, nasze modele znacząco poprawiły swoje umiejętności radzenia sobie z tym zjawiskiem. Oceny przy użyciu promptów, które typowo wywołują przełączanie kodów między językami, potwierdzają znaczne zmniejszenie związanych z tym problemów.
Wydajność
Oceny porównawcze ujawniają znaczne poprawy wydajności dla dużych modeli (70B+ parametrów) w porównaniu do Qwen1.5. Nasza ocena koncentruje się na modelu dużego rozmiaru Qwen2-72B. W przypadku bazowych modeli językowych, Qwen2-72B i najnowocześniejsze otwarte modele są oceniane pod kątem różnych zdolności, w tym zrozumienia języka naturalnego, zdobywania wiedzy, umiejętności programowania, zdolności matematycznych i kompetencji wielojęzycznych. Dzięki starannie dobranym zbiorom danych i zoptymalizowanym metodom treningowym, Qwen2-72B wykazuje lepsze wyniki w porównaniu do wiodących modeli, takich jak Llama-3-70B. Znacząco przewyższa również swój poprzednik, Qwen1.5-110B, mimo posiadania mniejszej liczby parametrów.
Po obszernym treningu na dużą skalę, przeprowadzamy trening post-przygotowawczy, aby dalej zwiększyć inteligencję Qwen, zbliżając go do ludzkiego poziomu. Proces ten dodatkowo poprawia zdolności modelu w takich dziedzinach jak programowanie, matematyka, rozumowanie, podążanie za instrukcjami, rozumienie wielojęzyczne i wiele innych. Dodatkowo, dostosowuje on wyniki modelu do wartości ludzkich, zapewniając, że jest pomocny, uczciwy i nieszkodliwy. Nasza faza post-treningowa jest zaprojektowana zgodnie z zasadą skalowalnego treningu przy minimalnym udziale człowieka. Specjalnie badamy, jak uzyskać wysokiej jakości, wiarygodne, zróżnicowane i kreatywne dane demonstracyjne oraz preferencyjne dane z różnymi zautomatyzowanymi strategiami dostosowania, takimi jak odrzucanie próbek dla matematyki, sprzężenie zwrotne dla kodowania i podążania za instrukcjami, tłumaczenie wsteczne dla pisania kreatywnego, skalowalny nadzór dla odgrywania ról itp. Jeśli chodzi o trening, stosujemy kombinację nadzorowanego dostrajania, treningu modelu nagrody i treningu online DPO. Używamy również nowego optymalizatora Online Merging, aby zminimalizować koszty dostosowania. Te zbiorowe wysiłki znacznie zwiększyły zdolności i inteligencję naszych modeli, co ilustruje poniższa tabela.
Najważniejsze Punkty
Programowanie i Matematyka Nieustannie koncentrujemy nasze wysiłki na poprawie zaawansowanych możliwości Qwen, zwłaszcza w zakresie programowania i matematyki. W programowaniu, z powodzeniem zintegrowaliśmy doświadczenia treningowe i dane z CodeQwen1.5, co zaowocowało znaczącymi ulepszeniami w Qwen2-72B-Instruct w różnych językach programowania. W odniesieniu do matematyki, dzięki wykorzystaniu obszernych i wysokiej jakości zbiorów danych, Qwen2-72B-Instruct wykazuje silniejsze zdolności do rozwiązywania problemów matematycznych.
Rozumienie Długiego Kontekstu W Qwen2 wszystkie modele dostrojone do instrukcji zostały przeszkolone na kontekstach długości 32k, a następnie ekstrapolowane do dłuższych kontekstów przy użyciu technik takich jak YARN czy Dual Chunk Attention.
Poniższy wykres przedstawia wyniki naszych testów na Needle in a Haystack. Zauważalnie, Qwen2-72B-Instruct jest w stanie bezbłędnie radzić sobie z zadaniami ekstrakcji informacji w kontekście 128k. Dzięki swojej wrodzonej wysokiej wydajności, staje się preferowanym wyborem do obsługi długich tekstów, gdy zasoby na to pozwalają.
Dodatkowo, warto zwrócić uwagę na imponujące zdolności innych modeli z serii: Qwen2-7B-Instruct niemal bezbłędnie obsługuje konteksty do 128k, Qwen2-57B-A14B-Instruct radzi sobie z kontekstami do 64k, a dwa mniejsze modele w tej serii obsługują konteksty o długości 32k.
Oprócz modeli z długim kontekstem, otworzyliśmy również rozwiązanie agentowe do efektywnego przetwarzania dokumentów zawierających do 1 miliona tokenów. Aby uzyskać więcej informacji, zapoznaj się z naszym dedykowanym wpisem na blogu na ten temat.
Bezpieczeństwo i Odpowiedzialność
Tabela poniżej przedstawia proporcje szkodliwych odpowiedzi generowanych przez duże modele dla czterech kategorii wielojęzycznych niebezpiecznych zapytań (działalność nielegalna, oszustwo, pornografia, naruszenie prywatności). Dane testowe zostały wyciągnięte z Jailbreak i przetłumaczone na wiele języków do oceny. Stwierdziliśmy, że Llama-3 nie radzi sobie skutecznie z wielojęzycznymi promptami, dlatego nie jest uwzględniona w porównaniu. Przez testy istotności (P_value) stwierdziliśmy, że model Qwen2-72B-Instruct działa porównywalnie z GPT-4 pod względem bezpieczeństwa i znacznie przewyższa model Mistral-8x22B.