Pułapki algorytmów: stronniczość modeli AI w detekcji depresji na mediach społecznościowych
Potencjał sztucznej inteligencji w zakresie identyfikacji problemów zdrowia psychicznego, szczególnie depresji, na podstawie analizy danych z mediów społecznościowych wydaje się obiecujący. Jednak opublikowane w Journal of Behavioral Data Science wyniki systematycznego przeglądu, przeprowadzonego przez naukowców z Northeastern University, rzucają cień na tę perspektywę. Okazuje się, że wiele modeli AI stosowanych w tym obszarze jest obarczonych znacznymi błędami metodologicznymi i stronniczością, co podważa ich skuteczność i możliwość praktycznego zastosowania.
Yuchen Cao i Xiaorui Shen, absolwenci informatyki z Northeastern University, podjęli się analizy sposobu wykorzystania uczenia maszynowego i głębokiego uczenia w badaniach nad zdrowiem psychicznym, zwłaszcza w kontekście pandemii COVID-19. Ich przegląd objął kilkadziesiąt publikacji naukowych, koncentrujących się na wykrywaniu depresji u użytkowników mediów społecznościowych za pomocą AI. Jak podkreślają autorzy, platformy takie jak X (dawniej Twitter), Reddit czy Facebook stanowią bogate źródło treści generowanych przez użytkowników, które potencjalnie mogą odzwierciedlać ich stany emocjonalne i wzorce zdrowia psychicznego. Narzędzia AI są coraz częściej szkolone na tych danych w celu wczesnego wykrywania objawów depresji.
Zaskakujące wnioski płyną z analizy 47 studiów opublikowanych po 2010 roku. Znaczna część tych badań została przeprowadzona przez ekspertów z dziedzin medycyny lub psychologii, a nie informatyki, co budzi poważne wątpliwości dotyczące technicznej poprawności zastosowanych metod AI. „Naszym celem było zbadanie, czy obecne modele uczenia maszynowego są wiarygodne” – komentuje Shen, obecnie inżynier oprogramowania w Meta. „Odkryliśmy, że niektóre z używanych modeli nie były odpowiednio dostrojone”.
Badanie ujawniło szereg krytycznych niedociągnięć. Zaledwie 28% analizowanych studiów odpowiednio dostosowało hiperparametry, czyli ustawienia, które kierują procesem uczenia się modeli. Około 17% nieprawidłowo podzieliło dane na zbiory treningowe, walidacyjne i testowe, co znacznie zwiększa ryzyko przeuczenia modelu (overfitting). Dodatkowo, wiele badań opierało się wyłącznie na metryce dokładności (accuracy) jako jedynym wskaźniku wydajności. Jest to szczególnie problematyczne w przypadku niezrównoważonych zbiorów danych, gdzie klasa mniejszościowa – w tym kontekście użytkownicy z objawami depresji – może zostać pominięta lub niedoszacowana. Cao zauważa, że podstawowe standardy, powszechnie znane informatykom, często są abstraktem dla badaczy spoza tej dziedziny, co prowadzi do błędnych wyników.
Zidentyfikowano również istotne błędy w zakresie stronniczości danych. Dominującą platformą była X (32 badania), następnie Reddit (8) i Facebook (7). Tylko osiem studiów łączyło dane z wielu platform, a około 90% opierało się na postach w języku angielskim, pochodzących głównie od użytkowników z USA i Europy. Takie ograniczenia drastycznie zmniejszają możliwość uogólnienia wyników i nie odzwierciedlają globalnej różnorodności użytkowników mediów społecznościowych.
Kolejnym poważnym wyzwaniem jest niuans językowy. Zaledwie 23% badań jasno wyjaśniało, w jaki sposób radzono sobie z negacjami i sarkazmem – elementami kluczowymi dla analizy sentymentu i wykrywania depresji.
Transparentność raportowania również pozostawia wiele do życzenia. Wykorzystując narzędzie PROBAST do oceny modeli predykcyjnych, zespół stwierdził, że wielu studiom brakowało kluczowych szczegółów dotyczących podziału zbiorów danych i ustawień hiperparametrów, co uniemożliwia replikację lub walidację wyników.
Autorzy badania planują kontynuować prace, testując modele na rzeczywistych danych i proponując ulepszenia. Cao podkreśla, że często problemem jest brak zasobów lub wiedzy w zakresie AI, co utrudnia prawidłowe dostrajanie modeli typu open-source. Stąd też, jak sugeruje, stworzenie swego rodzaju wiki lub szczegółowych tutoriali może znacząco wesprzeć współpracę międzybranżową. „Uważam, że nauczanie ludzi, jak to robić, jest ważniejsze niż tylko pomaganie im w tym, ponieważ zasoby są zawsze ograniczone” – podsumowuje.
Wnioski z przeglądu zostaną zaprezentowane na dorocznym spotkaniu International Society for Data Science and Analytics w Waszyngtonie. Studia te stanowią istotne ostrzeżenie przed niekrytycznym zaufaniem do systemów AI w tak wrażliwej dziedzinie, jaką jest zdrowie psychiczne, podkreślając konieczność rygorystycznych metodologicznie podejść i interdyscyplinarnej współpracy.
