Sztuczna inteligencja chroni prywatność dzieci. Nowa metoda rozpoznawania mowy
Rozpoznawanie mowy przez sztuczną inteligencję (AI) staje się coraz powszechniejsze, ale rodzi pytania o prywatność, szczególnie w przypadku dzieci. Naukowcy z University of Texas w Dallas (UT Dallas) opracowali nowatorskie rozwiązanie, które ma na celu adresowanie tych obaw.
Kluczem do sukcesu jest wykorzystanie tzw. dyskretnych jednostek mowy (ang. discrete speech units), które stanowią abstrakcyjną, matematyczną reprezentację dźwięku. W przeciwieństwie do tradycyjnych systemów rozpoznawania mowy, które przetwarzają surowe dane audio, nowe rozwiązanie koduje mowę w sposób anonimowy, uniemożliwiając odtworzenie oryginalnej wypowiedzi. Dzięki temu wrażliwe dane są chronione, a prywatność dzieci – zabezpieczona.
„Celem jest zrozumienie, w jaki sposób mówią dzieci” – wyjaśnia Satwik Dutta, doktorant z Erik Jonsson School of Engineering and Computer Science na UT Dallas, współautor badania. Jak dodaje, stworzenie systemu rozpoznawania mowy dla dzieci jest wyzwaniem. Zastosowanie dyskretnych jednostek mowy pozwala na redukcję redundancji danych i obniża wymagania obliczeniowe modelu ASR (ang. Automatic Speech Recognition).
Oprócz ochrony prywatności, nowe podejście ma również inne zalety. Przetwarzanie dyskretnych jednostek mowy jest mniej wymagające obliczeniowo niż analiza surowego dźwięku. To oznacza, że system może być uruchamiany na urządzeniach o mniejszej mocy, takich jak Raspberry Pi 5. Jest to istotne w kontekście zastosowań edukacyjnych i klinicznych, gdzie dostęp do zaawansowanego sprzętu komputerowego może być ograniczony.
Do wytrenowania i oceny modelu wykorzystano superkomputer Lonestar6 z Texas Advanced Computing Center (TACC). Dutta podkreśla, że dostęp do zasobów obliczeniowych TACC był niezbędny do porównania wyników z najnowocześniejszymi systemami. Docenił również bezpieczne przechowywanie danych na platformie Corral i chronione węzły Lonestar6.
Naukowcy z UT Dallas widzą szerokie możliwości zastosowania swojego rozwiązania. Może ono pomóc w identyfikacji problemów z mową i językiem u dzieci, umożliwiając szybszą interwencję i wsparcie. System może być również wykorzystywany w edukacji, kryminalistyce i wielu innych dziedzinach, gdzie analiza mowy jest użyteczna.
„Uważam, że jako naukowiec, jeśli pracujesz nad aplikacjami dla dzieci, pierwszą rzeczą, o której powinieneś pomyśleć, jest to, jak chroni ona prywatność dzieci. Cokolwiek robimy, powinno być godne zaufania i etyczne. Wyobrażam sobie bezpieczną cyfrową przyszłość dla wszystkich dzieci” – podsumowuje Dutta.
Ostatnie prace badaczy koncentrują się na wykorzystaniu modelu ASR o nazwie Whisper (stworzonego pierwotnie przez OpenAI) i uruchomieniu go bezpośrednio na urządzeniu Raspberry Pi 5. Dzięki wykorzystaniu Lonestar6 do oceny, dostrajania i porównywania modeli, badania te przyczyniają się do rozwoju systemów rozpoznawania mowy ukierunkowanych na dzieci, z wbudowaną ochroną prywatności.
