Oko AI: galaktyka kodu w źrenicy, intensywna analiza, hiperrealistyczny portret zaawansowanej sztucznej inteligencji na granicy.

Alibaba prezentuje Ovis 2.5: Nowy rozdział w multimodalnych modelach Open Source AI

2025-08-19 AI Sight

Alibaba AIDC-AI Team ogłosiła niedawno premierę Ovis 2.5, najnowszej wersji multimodalnego modelu językowego (MLLM) dostępnego w wariantach 9B i 2B parametrów. Model ten wzbudza spore zainteresowanie w społeczności Open Source AI, dzięki nowatorskim rozwiązaniom, które mają na celu usprawnienie percepcji wizualnej w natywnej rozdzielczości, pogłębienie multimodalnego rozumowania i poprawę OCR.

Ovis 2.5 radzi sobie z ograniczeniami, z którymi boryka się większość MLLM, a które dotyczą przetwarzania szczegółowych informacji wizualnych i złożonego rozumowania. Jest to znaczący krok naprzód w dziedzinie AI.

Innowacje w percepcji wizualnej

Kluczową innowacją w Ovis 2.5 jest integracja NaViT (native-resolution vision transformer), który przetwarza obrazy w ich oryginalnej, zmiennej rozdzielczości. W przeciwieństwie do wcześniejszych modeli, które opierały się na dzieleniu obrazów na fragmenty lub wymuszonym skalowaniu, co często prowadziło do utraty ważnych szczegółów i kontekstu, NaViT zachowuje pełną integralność zarówno skomplikowanych wykresów, jak i naturalnych zdjęć.

Dzięki temu model doskonale radzi sobie z zadaniami wymagającymi analizy wizualnej o wysokiej gęstości, takimi jak interpretacja diagramów naukowych, złożonych infografik i formularzy.

Ulepszone rozumowanie multimodalne

Aby sprostać wyzwaniom związanym z rozumowaniem, Ovis 2.5 wdraża specjalny proces uczenia, który wykracza poza standardowe rozwiązania typu CoT (chain-of-thought). Dane treningowe obejmują próbki w stylu „myślenia” do samokorekty i refleksji, kulminując w opcjonalnym „trybie myślenia” w czasie wnioskowania. Użytkownicy mogą włączyć ten tryb, aby zwiększyć dokładność analizy krok po kroku i zdolność modelu do introspekcji, kosztem wydłużonego czasu odpowiedzi. Jest to szczególnie korzystne w przypadku zadań wymagających głębszej analizy multimodalnej, takich jak odpowiadanie na pytania naukowe lub rozwiązywanie problemów matematycznych.

Wyniki i wydajność

Ovis 2.5-9B osiąga średni wynik 78.3 w rankingu OpenCompass multimodal, wyprzedzając wszystkie modele Open Source MLLM poniżej 40B parametrów. Z kolei Ovis 2.5-2B uzyskuje wynik 73.9, ustanawiając nowy standard dla lekkich modeli idealnych do inference na urządzeniach mobilnych lub w środowiskach o ograniczonych zasobach.

Oba modele osiągają wyjątkowe wyniki w specjalistycznych dziedzinach, wyprzedzając konkurencję w Open Source w zakresie:

rozumowania STEM (MathVista, MMMU, WeMath)
analizy OCR i wykresów (OCRBench v2, ChartQA Pro)
rozumienia wizualnego (RefCOCO, RefCOCOg)
rozumienia wideo i wielu obrazów (BLINK, VideoMME)

Komentarze użytkowników na platformach Reddit i X podkreślają postęp w OCR i przetwarzaniu dokumentów, zwracając uwagę na poprawę ekstrakcji tekstu z zaszumionych obrazów, solidne rozumienie formularzy i elastyczne wsparcie dla złożonych zapytań wizualnych.

Efektywność i dostępność

Ovis 2.5 optymalizuje wydajność uczenia end-to-end, wykorzystując pakowanie danych multimodalnych i zaawansowany hybrydowy paralelizm, zapewniając nawet 3–4-krotne przyspieszenie przepustowości. Lekki wariant 2B kontynuuje filozofię serii „mały model, duża wydajność”, umożliwiając wysokiej jakości multimodalne rozumienie na sprzęcie mobilnym i urządzeniach brzegowych.

Podsumowanie

Modele Ovis 2.5 (9B i 2B) firmy Alibaba stanowią przełom w Open Source multimodal AI. Kluczowe innowacje obejmują natywny transformator wizyjny, który sprawnie przetwarza szczegółowe wizualizacje bez dzielenia na fragmenty, oraz opcjonalny „tryb myślenia”, który umożliwia głębsze, autorefleksyjne rozumowanie w złożonych zadaniach. Ovis 2.5 wyróżnia się w STEM, OCR, analizie wykresów i rozumieniu wideo, przewyższając poprzednie modele Open Source i zmniejszając dystans do zastrzeżonych rozwiązań AI. Dzięki treningowi zorientowanemu na wydajność i lekkim wariantom 2B, zaawansowane możliwości multimodalne stają się dostępne zarówno dla badaczy, jak i aplikacji o ograniczonych zasobach.

Innowacje w percepcji wizualnej

Ulepszone rozumowanie multimodalne

Wyniki i wydajność

Efektywność i dostępność

Podsumowanie

Udostępnij:

Zobacz również

Baidu prezentuje ERNIE-4.5-21B-A3B-Thinking: Kompaktowy model MoE do zaawansowanego wnioskowania

Inteligentne RAG: Systemy generowania odpowiedzi z dynamicznym doborem strategii

Google udostępnia aplikację do lokalnego uruchamiania modeli AI

Dodaj komentarz Anuluj pisanie odpowiedzi