Abstrakcyjna, neoekspresjonistyczna wizualizacja labiryntu obwodów i ścieżek neuronowych, symbolizująca ulepszenia modelu Mistral Small 3.2.

Mistral AI udostępnia Mistral Small 3.2: usprawnienia w rozumieniu instrukcji i niezawodności

2025-07-02 AI Sight

W środowisku sztucznej inteligencji, charakteryzującym się ciągłym postępem w rozwoju dużych modeli językowych (LLM), nieustannie dąży się do minimalizowania błędów, zwiększania odporności systemów i poprawy interakcji z użytkownikami. Wraz z tym, jak modele AI stają się integralną częścią zaawansowanych zadań obliczeniowych, kluczowe staje się ich bezproblemowe integrowanie w różnorodnych, rzeczywistych scenariuszach.

Mistral AI ogłosił wydanie Mistral Small 3.2 (Mistral-Small-3.2-24B-Instruct-2506), zaktualizowanej wersji swojego poprzedniego modelu, Mistral-Small-3.1-24B-Instruct-2503. Choć jest to wydanie o charakterze uzupełniającym, Mistral Small 3.2 wprowadza istotne ulepszenia, które mają na celu zwiększenie ogólnej niezawodności i efektywności modelu, zwłaszcza w zakresie precyzyjnego wykonywania złożonych instrukcji, unikania redundancji w generowanych wynikach oraz utrzymania stabilności w scenariuszach wywoływania funkcji.

Precyzja w wykonywaniu instrukcji

Jednym z kluczowych usprawnień w Mistral Small 3.2 jest znaczące zwiększenie dokładności w wykonywaniu precyzyjnych instrukcji. Precyzja ta jest fundamentalna dla skutecznych interakcji z użytkownikiem. Wyniki testów jasno pokazują tę poprawę: w teście instrukcji Wildbench v2, Mistral Small 3.2 osiągnął dokładność 65,33%, co stanowi wzrost z 55,6% dla poprzedniej wersji. Co więcej, w teście Arena Hard v2, który jest uznawany za trudny, wydajność modelu wzrosła niemal dwukrotnie, z 19,56% do 43,1%. To świadczy o zwiększonej zdolności modelu do precyzyjnego rozumienia i wykonywania złożonych poleceń.

Redukcja powtórzeń i stabilność wywoływania funkcji

Mistral Small 3.2 skutecznie minimalizuje występowanie powtarzających się błędów, w tym częsty problem nieskończonego lub powtarzalnego generowania w długich konwersacjach. Wewnętrzne oceny wskazują, że wersja Small 3.2 efektywnie zredukowała liczbę błędów nieskończonego generowania o połowę, z 2,11% w Small 3.1 do 1,29%. Ta redukcja bezpośrednio przekłada się na zwiększoną użyteczność i niezawodność modelu w rozszerzonych interakcjach. Nowy model demonstruje również lepsze możliwości w zakresie wywoływania funkcji, co czyni go idealnym narzędziem do zadań automatyzacyjnych. Usprawniona wytrzymałość szablonu wywoływania funkcji przekłada się na bardziej stabilne i niezawodne interakcje z systemami zewnętrznymi.

Wzrost kompetencji w dziedzinach STEM

Ulepszenia w testach benchmarkowych związanych z dziedzinami STEM dodatkowo potwierdzają zdolności Small 3.2. Przykładowo, w teście kodu HumanEval Plus Pass@5, dokładność wzrosła z 88,99% w Small 3.1 do imponujących 92,90%. Wyniki testu MMLU Pro również wzrosły z 66,76% do 69,06%, a oceny GPQA Diamond nieznacznie poprawiły się z 45,96% do 46,13%, co wskazuje na ogólną poprawę kompetencji w zastosowaniach naukowych i technicznych.

Kwestie związane z przetwarzaniem obrazu

Wyniki dotyczące wydajności w zakresie przetwarzania obrazu były niejednorodne. Choć niektóre optymalizacje zostały zastosowane selektywnie – dokładność ChartQA poprawiła się z 86,24% do 87,4%, a DocVQA nieznacznie wzrosła z 94,08% do 94,86% – inne testy, takie jak MMMU i Mathvista, odnotowały niewielkie spadki. Wskazuje to na konkretne kompromisy napotkane podczas procesu optymalizacji. Podsumowując, Mistral Small 3.2 oferuje ukierunkowane i praktyczne usprawnienia w stosunku do swojego poprzednika, zapewniając użytkownikom większą dokładność, zmniejszoną redundancję i ulepszone możliwości integracji.

Precyzja w wykonywaniu instrukcji

Redukcja powtórzeń i stabilność wywoływania funkcji

Wzrost kompetencji w dziedzinach STEM

Kwestie związane z przetwarzaniem obrazu

Udostępnij:

Zobacz również

Zhipu AI udostępnia GLM-4.6V – nową generację multimodalnych modeli językowych

NuMarkdown-8B-Thinking: Nowe podejście do cyfryzacji dokumentów od NuMind AI

Gemini 3 Pro na horyzoncie. Ślady w Vertex AI sugerują listopadową zapowiedź i 1 mln tokenów kontekstu

Dodaj komentarz Anuluj pisanie odpowiedzi