Świecąca sieć neuronowa symbolizująca optymalizację wnioskowania AI, z wykorzystaniem LMCache firmy Tensormesh.

Tensormesh pozyskuje 4,5 mln dolarów na optymalizację wnioskowania AI

2025-10-24 AI Sight

Wraz z dynamicznym rozwojem infrastruktury sztucznej inteligencji, rośnie presja na maksymalne wykorzystanie mocy obliczeniowej jednostek GPU, szczególnie w kontekście procesów wnioskowania (inference). W tym kontekście firma Tensormesh ogłosiła pozyskanie 4,5 miliona dolarów w ramach finansowania początkowego, prowadzonego przez Laude Ventures, z dodatkowym wsparciem anioła biznesu, pioniera baz danych Michaela Franklina. Środki te zostaną przeznaczone na komercjalizację narzędzia open-source LMCache.

LMCache, opracowane i utrzymywane przez współzałożyciela Tensormesh, Yihuę Chenga, ma potencjał dziesięciokrotnego obniżenia kosztów wnioskowania. Jego skuteczność sprawiła, że stało się ono standardem w projektach open-source, a także przyciągnęło uwagę gigantów branżowych, takich jak Google i Nvidia. Tensormesh dąży teraz do przekształcenia tej akademickiej reputacji w solidny model biznesowy.

Kluczem do rozwiązania oferowanego przez Tensormesh jest innowacyjne podejście do pamięci podręcznej klucz-wartość (KV cache) – systemu pamięci wykorzystywanego do bardziej efektywnego przetwarzania złożonych danych wejściowych poprzez ich kondensację. W tradycyjnych architekturach KV cache jest usuwana po każdym zapytaniu. Prezes Tensormesh, Junchen Jiang, krytykuje to rozwiązanie, nazywając je źródłem znacznej nieefektywności. „To tak, jakby bardzo inteligentny analityk czytał wszystkie dane, ale zapominał, czego się nauczył po każdym pytaniu” – wyjaśnia Jiang.

Systemy Tensormesh, zamiast usuwać tę pamięć podręczną, przechowują ją, umożliwiając jej ponowne wykorzystanie, gdy model wykonuje podobny proces w oddzielnym zapytaniu. Biorąc pod uwagę ograniczoną dostępność pamięci GPU, może to oznaczać rozłożenie danych na kilka warstw pamięci masowej. Nagrodą jest jednak znacznie większa moc wnioskowania przy tym samym obciążeniu serwera.

Ta zmiana jest szczególnie korzystna dla interfejsów czatu, gdzie modele muszą stale odwoływać się do rosnącego logu rozmowy w miarę jej postępów. Systemy agentury napotykają podobny problem, gromadząc rosnący log działań i celów. Teoretycznie firmy AI mogłyby samodzielnie wdrożyć takie zmiany, jednak złożoność techniczna czyni to zadaniem niezwykle trudnym. Zespół Tensormesh, dzięki swoim badaniom i dogłębnemu zrozumieniu procesu, jest przekonany, że popyt na gotowe rozwiązanie będzie wysoki.

„Utrzymywanie pamięci podręcznej KV w pomocniczym systemie pamięci masowej i efektywne ponowne wykorzystywanie jej bez spowalniania całego systemu to bardzo trudne wyzwanie” – zauważa Jiang. „Widzieliśmy, jak ludzie zatrudniali 20 inżynierów i spędzali trzy lub cztery miesiące na budowie takiego systemu. Mogą też użyć naszego produktu i zrobić to bardzo efektywnie.”

Udostępnij:

Zobacz również

Grok od xAI: nowe funkcje usprawnią pracę z AI w tle i personalizację projektów

Indie w obliczu AI: od globalnego biura obsługi do laboratorium przyszłości?

TrainCheck: narzędzie, które wykrywa „ciche błędy” w uczeniu maszynowym

Dodaj komentarz Anuluj pisanie odpowiedzi