Minimalizm w AI: jak małe modele rewolucjonizują koszty i efektywność w przedsiębiorstwach
Wraz z dynamicznym rozwojem sztucznej inteligencji, duże modele językowe (LLM) zrewolucjonizowały sposób, w jaki przedsiębiorstwa podchodziły do projektów AI. Początkowa fascynacja ich wszechstronnością szybko ustąpiła miejsca pragmatyzmowi, gdy okazało się, że są one nie tylko trudne w zarządzaniu, ale przede wszystkim niezwykle kosztowne w utrzymaniu.
Przedsiębiorstwa zaczęły dostrzegać problem nadmiernych wydatków, szczególnie w kontekście skalowania pilotażowych programów AI. Odpowiedzią na to wyzwanie stała się koncepcja minimalizmu modelowego. Firmy takie jak Google (Gemma), Microsoft (Phi) czy Mistral (Small 3.1) wprowadziły na rynek mniejsze, wyspecjalizowane modele językowe. Ich zaletą jest nie tylko szybkość i precyzja w realizacji konkretnych zadań, ale przede wszystkim znaczące obniżenie kosztów operacyjnych.
Szybkość, wydajność i mniejsze koszty
Karthik Ramgopal, inżynier z LinkedIn, wskazuje na kilka kluczowych korzyści wynikających z zastosowania mniejszych modeli. Przede wszystkim, wymagają one mniej zasobów obliczeniowych, pamięci oraz zapewniają szybsze wnioskowanie. Bezpośrednio przekłada się to na niższe wydatki operacyjne (OPEX) i kapitałowe (CAPEX), zwłaszcza w obliczu rosnących kosztów procesorów graficznych (GPU), ich dostępności i zapotrzebowania na energię. Ponadto, modele wyspecjalizowane w konkretnych zadaniach charakteryzują się węższym zakresem działania, co ułatwia zarządzanie ich zachowaniem bez potrzeby skomplikowanej inżynierii podpowiedzi (prompt engineering).
Różnice w kosztach są znaczące. Przykładowo, OpenAI oferuje swój model o4-mini w cenie 1,1 dolara za milion tokenów wejściowych i 4,4 dolara za milion tokenów wyjściowych. Wersja o3 to koszt rzędu 10 dolarów za wejścia i 40 dolarów za wyjścia. Wybór mniejszych modeli, często dostępnych również w ramach większych rodzin, takich jak Claude od Anthropic (od Opus przez Sonnet po Haiku), pozwala na dopasowanie narzędzia do konkretnego zastosowania, a nawet uruchamianie ich na urządzeniach mobilnych.
Jak mierzyć zwrot z inwestycji?
Kwestia zwrotu z inwestycji (ROI) w AI jest złożona. Czy należy mierzyć ją poprzez obniżenie kosztów, czy raczej przez oszczędność czasu, która w dalszej perspektywie generuje realne zyski? Ravi Naarla, główny technolog z Cognizant, wskazuje, że korzyści z programów AI nie zawsze są od razu widoczne. Sugeruje on realistyczne podejście do oceny kosztów, uwzględniające nie tylko wdrożenie, ale także zatrudnienie specjalistów i bieżącą konserwację. Najważniejsze jest zrozumienie, że inwestycje w AI to przedsięwzięcie długoterminowe.
Eksperci podkreślają, że małe modele znacząco redukują koszty wdrożenia i utrzymania, zwłaszcza gdy mowa o dostrajaniu (fine-tuning) modeli w celu dostarczenia im specyficznego kontekstu biznesowego. Arijit Sengupta, założyciel Aible, zwraca uwagę, że sposób dostarczania kontekstu modelom jest kluczowy dla oszczędności. „Nie ma darmowych obiadów w AI” – twierdzi Sengupta, podkreślając, że kontekst musi być dostarczony, czy to poprzez złożone podpowiedzi, czy właśnie przez dostrajanie.
Przykładowo, Aible odnotowało stukrotne obniżenie kosztów dzięki post-treningowi modeli, co pozwoliło zredukować wydatki z milionów dolarów do około 30 000 dolarów, obejmując również licencje na oprogramowanie i koszty baz wektorowych.
Jednak Sengupta ostrzega także, że utrzymanie małych, dostrojonych modeli może być kosztowne, jeśli wymaga ręcznej interwencji ekspertów. Badania Aible wykazały, że dostrojony model Llama-3.3-70B-Instruct osiągnął zbliżoną dokładność do znacznie mniejszej wersji 8B, co potwierdza zasadność stosowania wielu mniejszych, wyspecjalizowanych modeli zamiast jednego dużego.
Odpowiedni model do zadania
Dopasowanie rozmiaru modelu do wymagań nie musi odbywać się kosztem wydajności. Organizacje coraz częściej rozumieją, że wybór modelu nie sprowadza się jedynie do dylematu: GPT-4o czy Llama-3.1. Chodzi o świadomość, że niektóre zadania, takie jak streszczanie tekstu czy generowanie kodu, lepiej realizują małe modele.
Daniel Hoske, CTO w Cresta, radzi, by rozpoczynać rozwój od dużych modeli w celu weryfikacji samej koncepcji. Jeśli pomysł nie działa z największym modelem, prawdopodobnie nie zadziała też z mniejszym. Ramgopal z LinkedIn potwierdza to podejście: prototypowanie z użyciem ogólnych LLM pozwala szybko weryfikować hipotezy. Dopiero gdy pojawiają się ograniczenia związane z jakością, kosztami czy opóźnieniami, przechodzi się na bardziej spersonalizowane rozwiązania.
W fazie eksperymentów organizacje powinny jasno określić, co jest dla nich najważniejsze w aplikacjach AI. To pozwoli deweloperom zaplanować, na czym chcą oszczędzać i wybrać model najlepiej odpowiadający ich celom i budżetowi. Należy pamiętać, że duże modele, niezależnie od postępów, zawsze będą wymagały znacznej mocy obliczeniowej i będą droższe.
Z drugiej strony, nadużywanie małych modeli również niesie ze sobą ryzyko. Rahul Pathak z AWS zauważa, że optymalizacja kosztów nie polega tylko na wyborze modelu o niskim zapotrzebowaniu na zasoby, ale na efektywnym dopasowaniu modelu do zadania. Mniejsze modele mogą nie mieć wystarczająco dużego okna kontekstowego, by zrozumieć złożone instrukcje, co może prowadzić do zwiększonego obciążenia pracy dla pracowników i wyższych kosztów całkowitych. Sengupta dodaje, że niektóre destylowane modele mogą być „kruche”, co w dłuższej perspektywie niekoniecznie przyniesie oszczędności.
Stała ewaluacja to klucz
Niezależnie od rozmiaru modelu, elastyczność w adaptacji do nowych wyzwań i przypadków użycia jest kluczowa. Tessa Burg, CTO w Mod Op, podkreśla, że każda technologia w końcu zostanie zastąpiona przez lepszą wersję. „Musimy być gotowi na to, że technologia w naszych procesach będzie ewoluować” – mówi Burg. Mniejsze modele pomogły jej firmie zaoszczędzić czas na badaniach i rozwoju, co bezpośrednio przełożyło się na oszczędności finansowe.
Burg radzi, aby identyfikować przypadki użycia o wysokiej częstotliwości i wysokich kosztach, które idealnie nadają się do lżejszych modeli. Sengupta zauważa, że dostawcy coraz częściej ułatwiają automatyczne przełączanie między modelami, ale jednocześnie zaleca, aby użytkownicy szukali platform, które wspierają również dostrajanie, by uniknąć dodatkowych kosztów.
