Przełom w rozumieniu emocji przez AI: LAION i Intel przedstawiają Empathic Insight
Współczesne systemy sztucznej inteligencji, pomimo imponujących postępów w wielu dziedzinach, wciąż zmagają się ze złożonością ludzkich emocji. Często sprowadzają je do uproszczonych kategorii, ignorując subtelności i kontekst. W odpowiedzi na to wyzwanie, organizacja LAION we współpracy z Intelem zaprezentowały pakiet innowacyjnych narzędzi pod nazwą Empathic Insight. Ich celem jest znaczne pogłębienie zdolności AI do interpretowania i mierzenia intensywności szerokiego spektrum ludzkich emocji.
Rozszerzona taksonomia emocji
Centralnym elementem Empathic Insight jest model EmoNet, który opiera się na rozszerzonej taksonomii emocji, wywodzącej się z „Handbook of Emotions” – naukowego kompendium psychologicznego. Zamiast ograniczać się do kilku podstawowych emocji, twórcy uwzględnili aż 40 kategorii. Obejmują one nie tylko stany emocjonalne w klasycznym rozumieniu, takie jak radość czy smutek, ale także stany poznawcze, np. koncentracja czy zakłopotanie, fizyczne, jak ból czy zmęczenie, oraz społeczne, w tym wstyd czy duma. To podejście odzwierciedla bardziej złożone rozumienie, że emocje nie są uniwersalnie odczytywalnymi etykietami, lecz konstrukcjami mózgu powstającymi na podstawie różnorodnych sygnałów. Modele generują więc prawdopodobieństwa, a nie sztywne klasyfikacje.
W przypadku analizy obrazów twarzy, intensywność emocji oceniana jest w skali od 0 do 7. Natomiast dla próbek głosowych system klasyfikuje emocje jako nieobecne, słabo lub wyraźnie zaznaczone. Taka gradacja pozwala na bardziej niuansowe przedstawienie stanów emocjonalnych.
Trening na danych syntetycznych: odpowiedź na wyzwania prywatności
Jednym z najbardziej znaczących aspektów projektu Empathic Insight jest innowacyjne podejście do danych treningowych. Zamiast opierać się na rzeczywistych zdjęciach i nagraniach, które potencjalnie niosą ze sobą problemy związane z prywatnością i zgodą, LAION postawiło na dane w całości syntetyczne. Zbiory treningowe obejmują ponad 203 000 obrazów twarzy oraz 4 692 próbki audio. Obrazy syntetyczne generowano przy użyciu modeli text-to-image, takich jak Midjourney i Flux, z programową modyfikacją wieku, płci i pochodzenia etnicznego, co zapewnia zróżnicowanie demograficzne. Syntetyczne nagrania audio pochodzą z zestawu danych Laion’s Got Talent, obejmującego ponad 5 000 godzin mowy w języku angielskim, niemieckim, hiszpańskim i francuskim, wygenerowanych przez model audio GPT-4o OpenAI.
Warto podkreślić rygorystyczny proces weryfikacji danych audio. Każda próbka była oceniana przez ekspertów z dziedziny psychologii, a do finalnego zestawu trafiały tylko te oceny, co do których zgodziło się trzech niezależnych recenzentów. To podkreśla dbałość o jakość i wiarygodność danych, nawet w kontekście ich syntetycznego pochodzenia.
Wydajność przewyższająca istniejące rozwiązania
Według LAION, modele Empathic Insight wykazują znacznie lepsze wyniki w benchmarkach w porównaniu do istniejących technologii rozpoznawania emocji. Na przykład, model Empathic Insight Face osiągnął wyższą korelację z ocenami ekspertów psychologów niż Gemini 2.5 Pro czy komercyjne API, takie jak Hume AI. Kluczowym wskaźnikiem była zbieżność ocen AI z profesjonalnymi interpretacjami ludzkimi.
Podobnie, model Empathic Insight Voice zaprezentował swoją wyższość w rozpoznawaniu emocji z mowy, poprawnie identyfikując wszystkie 40 kategorii emocji w benchmarku EmoNet Voice. Zespół badawczy eksperymentował z różnymi rozmiarami modeli i metodami przetwarzania audio, aby osiągnąć optymalne rezultaty.
BUD-E Whisper: nowy wymiar transkrypcji
Poza samym rozpoznawaniem emocji, LAION opracowało BUD-E Whisper, rozbudowaną wersję popularnego modelu Whisper OpenAI. Podczas gdy standardowy Whisper skupia się na transkrypcji mowy na tekst, BUD-E Whisper wzbogaca ten proces o strukturalne opisy tonalne emocji, detekcję wokalnych wybuchów (jak śmiech czy westchnienia) oraz szacowanie cech mówcy, takich jak wiek czy płeć. To otwiera nowe możliwości w analizie konwersacji i interakcji człowiek-maszyna, dodając warstwę kontekstu emocjonalnego do treści tekstowej.
Wszystkie modele EmoNet są dostępne powszechnie na platformie Hugging Face, na licencjach Creative Commons (modele) i Apache 2.0 (kod). Dostępne są wersje „Small” i „Large”, co umożliwia elastyczne zastosowanie w zależności od wymagań sprzętowych i specyfiki projektu. Wsparcie Intela, trwające od 2021 roku, podkreśla zaangażowanie firmy w strategię otwartego oprogramowania AI i optymalizację modeli pod kątem własnych rozwiązań sprzętowych.
Inicjatywa LAION i Intela stanowi istotny krok w kierunku bardziej empatycznej sztucznej inteligencji, zdolnej do subtelniejszego rozumienia ludzkiego stanu. Wykorzystanie danych syntetycznych to także ważny sygnał w kontekście rozwijającej się debaty o prywatności i etyce w AI.
