NarzędziaTechnologia

Były zespół Google X tworzy „drugi mózg” oparty na AI i pozyskuje 6 milionów dolarów finansowania

Trzej byli naukowcy z Google X postanowili stworzyć wirtualny odpowiednik „drugiego mózgu”. Nie chodzi tu o rozwiązania rodem z science fiction, lecz o aplikację opartą na sztucznej inteligencji, która analizuje otoczenie dźwiękowe użytkownika. Startup TwinMind pozyskał 5,7 miliona dolarów finansowania i udostępnił wersję na Androida oraz nowy model mowy opartej na AI. Dostępna jest również wersja na iPhone’a.

Jak działa „drugi mózg” od TwinMind?

TwinMind, założony w marcu 2024 roku przez Daniela George’a (CEO) oraz jego byłych kolegów z Google X, Sunny’ego Tang i Mahi Karima (obaj pełnią funkcję CTO), działa w tle, przechwytując dźwięki otoczenia (za zgodą użytkownika), aby tworzyć osobisty graf wiedzy. Aplikacja zamienia myśli, spotkania, wykłady i rozmowy w uporządkowaną pamięć, generując notatki, zadania i odpowiedzi wspomagane przez AI. Działa offline, przetwarza dźwięk w czasie rzeczywistym, transkrybuje go na urządzeniu i może przechwytywać dźwięk w sposób ciągły przez 16–17 godzin bez nadmiernego obciążania baterii urządzenia – twierdzą założyciele. Aplikacja wykonuje kopie zapasową danych użytkownika, umożliwiając odzyskanie rozmów w przypadku utraty urządzenia, użytkownicy mogą jednak zrezygnować z tej opcji. Obsługuje również tłumaczenie w czasie rzeczywistym w ponad 100 językach.

Czym TwinMind różni się od konkurencji?

TwinMind odróżnia się od konkurencji, takiej jak Otter, Granola i Fireflies, tym, że pasywnie przechwytuje dźwięk w tle przez cały dzień. Aby to było możliwe, zespół zbudował usługę niskopoziomową w czystym języku Swift, która działa natywnie na iPhonie. Wielu konkurentów korzysta z React Native i polega na przetwarzaniu w chmurze, które Apple ogranicza w zakresie działania w tle przez dłuższy czas – wyjaśnia George.

„Około sześciu, siedmiu miesięcy poświęciliśmy w zeszłym roku na udoskonalenie ciągłego przechwytywania dźwięku i znalezienie obejść dla „zamkniętego ogrodu” Apple’a”, powiedział TechCrunch.

Inspiracja i rozwój projektu

George opuścił Google X w 2020 roku. Pomysł na TwinMind narodził się w 2023 roku, kiedy pracował w JPMorgan jako Vice President i Applied AI Lead, uczestnicząc każdego dnia w wielu spotkaniach. Aby zaoszczędzić czas, stworzył skrypt, który przechwytywał dźwięk, transkrybował go na iPadzie i wprowadzał do ChatGPT. Ten zaczął rozumieć jego projekty, a nawet generować użyteczny kod. Zadowolony z wyników, podzielił się nim ze znajomymi i opublikował na Blind, gdzie inni wyrazili zainteresowanie, ale nie chcieli, aby coś takiego działało na ich laptopach służbowych. To skłoniło go do stworzenia aplikacji, która mogłaby działać na telefonie osobistym, dyskretnie nasłuchując podczas spotkań w celu zebrania przydatnych informacji.

Oprócz aplikacji mobilnej, TwinMind oferuje rozszerzenie do Chrome, które zbiera dodatkowe informacje poprzez aktywność w przeglądarce. Wykorzystując wizyjną sztuczną inteligencję, skanuje otwarte karty i interpretuje treści z różnych platform, w tym e-maili, Slacka i Notion.

Startup wykorzystał to rozszerzenie do wyselekcjonowania stażystów spośród ponad 850 aplikacji otrzymanych tego lata.

„Otworzyliśmy wszystkie profile LinkedIn i CV 854 kandydatów w kartach przeglądarki, a następnie poprosiliśmy rozszerzenie Chrome o uszeregowanie najlepszych kandydatów” – powiedział George. „Spisało się fantastycznie – w ten sposób zatrudniliśmy naszych czterech stażystów.”

Przyszłość sztucznej inteligencji według twórców TwinMind

George zauważył, że obecne chatboty AI – w tym ChatGPT OpenAI i Claude – nie mogą łatwo przetwarzać setek dokumentów ani analizować zapisów z narzędzi takich jak LinkedIn czy Gmail w celu zebrania informacji kontekstowych. Podobnie, przeglądarki oparte na AI, takie jak te z Perplexity i The Browser Company, nie mają możliwości budowania wiedzy z rozmów offline i spotkań osobistych.

Startup ma obecnie ponad 30 000 użytkowników, z czego około 15 000 aktywnych miesięcznie. Około 20–30% użytkowników TwinMind korzysta również z rozszerzenia Chrome, powiedział George.

Chociaż Stany Zjednoczone są największą bazą dla TwinMind, startup odnotowuje również popularność w Indiach, Brazylii, na Filipinach, w Etiopii, Kenii i Europie.

TwinMind jest skierowany do szerokiego grona odbiorców, chociaż 50–60% jego użytkowników to obecnie profesjonaliści, około 25% to studenci, a pozostałe 20–25% to osoby używające go do celów osobistych.

George powiedział TechCrunch, że jego ojciec jest jedną z osób używających TwinMind do pisania swojej autobiografii.

Prywatność przede wszystkim?

Jedną z istotnych wad AI jest potencjalne zagrożenie dla prywatności użytkowników. George zapewnia jednak, że TwinMind nie szkoli swoich modeli na danych użytkowników i został zaprojektowany do działania bez wysyłania nagrań do chmury. W przeciwieństwie do wielu innych aplikacji do robienia notatek AI, TwinMind nie pozwala użytkownikom na późniejszy dostęp do nagrań audio – dźwięk jest usuwany na bieżąco – a jedynie transkrybowany tekst jest przechowywany lokalnie w aplikacji – zauważył.

Doświadczenie z Google X jako trampolina

Współzałożyciele TwinMind spędzili kilka lat pracując nad różnymi projektami w Google X. George powiedział TechCrunch, że pracował nad sześcioma projektami, w tym iyO – zespołem stojącym za słuchawkami dousznymi opartymi na AI, który niedawno trafił na pierwsze strony gazet za pozwanie OpenAI i Jony’ego Ive’a. To doświadczenie pomogło zespołowi TwinMind szybko przejść od koncepcji do produktu.

„Google X było doskonałym miejscem do przygotowania się do założenia własnej firmy”, powiedział George. „W danym momencie realizowanych jest około 30 do 40 projektów przypominających startupy. Nikt inny nie ma okazji pracować w sześciu startupach na wczesnym etapie rozwoju w ciągu dwóch lub trzech lat przed uruchomieniem własnego – przynajmniej nie w tak krótkim czasie.”

Zanim dołączył do Google, George pracował nad zastosowaniem głębokiego uczenia się do astrofizyki fal grawitacyjnych w ramach nagrodzonej Nagrodą Nobla grupy LIGO na Uniwersytecie Illinois’ National Center for Supercomputing Applications. Doktorat z AI dla astrofizyki ukończył w ciągu zaledwie jednego roku – w wieku 24 lat – co doprowadziło go do dołączenia do laboratorium badawczego Stephena Wolrama w 2017 roku jako badacz głębokiego uczenia się i AI.

To wczesne połączenie z Wolframem zatoczyło koło lata później – ostatecznie wystawił pierwszy czek dla TwinMind, co było jego pierwszą w historii inwestycją w startup. Niedawna runda zalążkowa była prowadzona przez Streamlined Ventures, z udziałem Sequoia Capital i innych inwestorów, w tym Wolrama. Runda wycenia TwinMind na 60 milionów dolarów po uwzględnieniu środków.

Nowy model AI i plany na przyszłość

Oprócz aplikacji i rozszerzenia do przeglądarki, TwinMind wprowadził również model TwinMind Ear-3, następcę istniejącego Ear-2, który obsługuje ponad 140 języków na całym świecie i ma współczynnik błędów słownych wynoszący 5,26%, powiedział startup. Nowy model rozpoznaje również różnych mówców w rozmowie i ma współczynnik błędów diaryzacji mówców wynoszący 3,8%.

Nowy model AI jest dopracowaną mieszanką kilku modeli open-source, przeszkoloną na wyselekcjonowanym zbiorze danych internetowych z adnotacjami ludzkimi – w tym podcastów, filmów i klipów wideo.

„Odkryliśmy, że im więcej języków obsługujesz, tym lepiej model radzi sobie ze zrozumieniem akcentów i dialektów regionalnych, ponieważ jest szkolony na szerszym gronie mówców”, powiedział George.

Model kosztuje 0,23 USD/godzinę i będzie dostępny za pośrednictwem API dla programistów i przedsiębiorstw w ciągu najbliższych kilku tygodni.

Ear-3, w przeciwieństwie do Ear-2, nie obsługuje pełnego działania offline, ponieważ jest większy i działa w chmurze. Jednak aplikacja automatycznie przełącza się na Ear-2, jeśli połączenie z Internetem zniknie, a następnie wraca do Ear-3, gdy jest ono ponownie dostępne, powiedział George.

Wraz z wprowadzeniem Ear-3, TwinMind oferuje teraz subskrypcję Pro w cenie 15 USD/miesiąc, z większym oknem kontekstowym do 2 milionów tokenów i wsparciem e-mail w ciągu 24 godzin. Niemniej jednak bezpłatna wersja nadal istnieje ze wszystkimi dotychczasowymi funkcjami, w tym nieograniczoną liczbą godzin transkrypcji i rozpoznawaniem mowy na urządzeniu.

Startup zatrudnia obecnie 11 osób. Planuje zatrudnić kilku projektantów, aby ulepszyć doświadczenie użytkownika i stworzyć zespół ds. rozwoju biznesu, który będzie sprzedawał swój API. Ponadto planowane jest wydanie pewnej kwoty na pozyskiwanie nowych użytkowników.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *