Bez kategoriiLLMR & D

Mistral aktualizuje model Small: precyzja i stabilność priorytetem

Mistral AI intensywnie pracuje nad rozwojem swoich produktów. Zaledwie kilka dni po ogłoszeniu uruchomienia Mistral Compute, własnej usługi chmurowej zoptymalizowanej pod kątem sztucznej inteligencji, firma zaprezentowała zaktualizowaną wersję swojego 24-miliardoparametrowego modelu open-source, Mistral Small. Przeskok z wersji 3.1 na 3.2-24B Instruct-2506 sygnalizuje podejście ewolucyjne, koncentrujące się na udoskonaleniu istniejących możliwości, a nie na rewolucyjnych zmianach architektonicznych.

Nowa iteracja modelu Small 3.2, choć nie wnosi przełomowych innowacji, ma za zadanie poprawić kluczowe aspekty wydajności. Według twórców, model lepiej radzi sobie z precyzyjnym wykonywaniem instrukcji i znacząco redukuje ryzyko generowania nieskończonych lub powtarzających się odpowiedzi, co bywało problematyczne w poprzednich wersjach, szczególnie przy długich lub niejednoznacznych zapytaniach. Usprawniono również funkcję wywoływania narzędzi, co ma zwiększyć niezawodność modelu w zastosowaniach wymagających integracji z zewnętrznymi systemami, zwłaszcza w ramach frameworków takich jak vLLM.

Warto podkreślić, że model Small 3.2 wciąż pozostaje oszczędny w wymaganiach sprzętowych. Może być uruchamiany na pojedynczej karcie graficznej Nvidia A100 lub H100 z 80 GB pamięci, co otwiera szersze możliwości dla firm dysponujących ograniczonymi zasobami obliczeniowymi i budżetami.

Koncentracja na doskonaleniu, nie na rewolucji

Wprowadzony w marcu 2025 roku Mistral Small 3.1 był modelem flagowym w zakresie 24 miliardów parametrów, oferującym multimodalność, wielojęzyczne rozumienie i przetwarzanie kontekstu o długości do 128 tys. tokenów. Był on pozycjonowany jako konkurent dla modeli zamkniętych, takich jak GPT-4o Mini, Claude 3.5 Haiku czy Gemma 3-it, i według wewnętrznych testów Mistral przewyższał je w wielu zadaniach. Wersja 3.1 stawiała również na efektywność wdrożenia, rzekomo osiągając 150 tokenów na sekundę i wspierając działanie na urządzeniach z 32 GB pamięci RAM.

W przeciwieństwie do poprzednika, Small 3.2 koncentruje się na „chirurgicznych” usprawnieniach zachowania i niezawodności. Nie wprowadza nowych architektur ani fundamentalnych zmian, pełniąc raczej rolę aktualizacji konserwacyjnej. Celem jest eliminacja błędów granicznych w generowaniu odpowiedzi, zwiększenie zgodności z instrukcjami i dopracowanie interakcji z promptami systemowymi.

Co się zmieniło w Small 3.2?

Wewnętrzne benchmarki Mistral wskazują na zauważalną poprawę w zakresie wykonywania instrukcji: precyzja wzrosła z 82,75% w Small 3.1 do 84,78% w Small 3.2. Znaczące postępy odnotowano także w zewnętrznych zbiorach danych, takich jak Wildbench v2 i Arena Hard v2 – Wildbench poprawił się o blisko 10 punktów procentowych, natomiast Arena Hard ponad dwukrotnie, osiągając 43,10% z 19,56%.

Zmniejszyła się również częstość powtórzeń w generowanych odpowiedziach. Wskaźnik nieskończonych lub powtarzających się generacji spadł z 2,11% w Small 3.1 do 1,29% w Small 3.2, co stanowi niemal dwukrotną redukcję. To czyni model bardziej wiarygodnym dla deweloperów, którzy tworzą aplikacje wymagające spójnych i ograniczonych odpowiedzi.

W obszarze benchmarków tekstowych i kodujących obraz jest bardziej zniuansowany. Small 3.2 odnotował wzrosty w HumanEval Plus (z 88,99% do 92,90%), MBPP Pass@5 (z 74,63% do 78,33%) oraz SimpleQA. Nieznacznie poprawiły się także wyniki MMLU Pro i MATH.

W przypadku benchmarków wizyjnych, wyniki są w dużej mierze spójne, z niewielkimi wahaniami. ChartQA i DocVQA odnotowały marginalne zyski, natomiast AI2D i Mathvista spadły o mniej niż dwa punkty procentowe. Ogólna średnia wydajność wizyjna nieznacznie spadła z 81,39% w Small 3.1 do 81,00% w Small 3.2. To jest zgodne z deklaracjami Mistral AI – Small 3.2 nie jest gruntowną przebudową, lecz dopracowaniem.

Należy jednak odnotować, że według niektórych obserwatorów, takich jak @chatgpt21 na platformie X, model pogorszył się w teście MMLU (Massive Multitask Language Understanding) – wielodyscyplinarnym teście z 57 pytaniami, służącym do oceny szerokiej wydajności modeli językowych. Mistral Small 3.2 uzyskał w nim wynik 80,50%, co jest nieznacznie niższe od 80,62% osiągniętych przez Small 3.1.

Znaczenie licencji open-source i zgodność z regulacjami

Zarówno wersje 3.1, jak i 3.2 modelu Mistral Small są dostępne na licencji Apache 2.0 i można je pobrać z platformy Hugging Face. Small 3.2 jest wspierany przez frameworki takie jak vLLM i Transformers i wymaga około 55 GB pamięci GPU RAM do działania w precyzji bf16 lub fp16. Dla deweloperów dostępne są przykłady promptów systemowych i inferencji w repozytorium modelu.

Podczas gdy Mistral Small 3.1 został już zintegrowany z platformami takimi jak Google Cloud Vertex AI i jest przewidziany do wdrożenia na NVIDIA NIM i Microsoft Azure, dostępność Small 3.2 wydaje się obecnie ograniczona do bezpośredniego pobierania z Hugging Face i samodzielnego wdrożenia.

Mimo że Mistral Small 3.2 może nie zmieni znacząco pozycji konkurencyjnej w przestrzeni modeli o otwartych wagach, podkreśla zaangażowanie Mistral AI w iteracyjne udoskonalanie produktów. Zauważalne poprawki w niezawodności i obsłudze zadań – zwłaszcza w zakresie precyzji instrukcji i użycia narzędzi – przekładają się na bardziej komfortowe doświadczenie dla deweloperów i przedsiębiorstw budujących na ekosystemie Mistral.

Fakt, że model został opracowany przez francuski startup i jest zgodny z przepisami Unii Europejskiej, takimi jak RODO i Ustawa o AI UE, czyni go szczególnie atrakcyjnym dla przedsiębiorstw działających w Europie. Należy jednak pamiętać, że dla tych, którzy szukają największych skoków w wydajności benchmarków, Small 3.1 pozostaje punktem odniesienia – zwłaszcza, że w niektórych przypadkach, jak MMLU, Small 3.2 nie przewyższa swojego poprzednika. To sprawia, że aktualizacja jest raczej opcją skupiającą się na stabilności niż czystym ulepszeniem, w zależności od konkretnego zastosowania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *