AlphaGenome od Google DeepMind: Przełom w rozumieniu wpływu mutacji genów
Google DeepMind zaprezentowało AlphaGenome – nowatorską architekturę głębokiego uczenia, zaprojektowaną do kompleksowego prognozowania konsekwencji regulacyjnych wariacji sekwencji DNA. To narzędzie, zdolne do analizy długich odcinków DNA liczących nawet do 1 megabazy, wnosi nową jakość w dziedzinie genomiki, dostarczając precyzyjnych przewidywań na poziomie pojedynczych zasad, dotyczących między innymi zdarzeń splicingowych, dostępności chromatyny, ekspresji genów czy wiązania czynników transkrypcyjnych.
Zunifikowane podejście do interpretacji genomu
AlphaGenome powstało w odpowiedzi na ograniczenia wczesnych modeli, które nie radziły sobie z jednoczesnym przetwarzaniem długich sekwencji wejściowych i osiąganiem precyzji na poziomie nukleotydów. Model ten unifikuje zadania predykcyjne w 11 modalnościach wyjściowych, obsługując ponad 5000 ludzkich ścieżek genomowych i przeszło 1000 mysich. Ta zdolność multimodalna czyni AlphaGenome jednym z najbardziej wszechstronnych modeli „sekwencja-funkcja” w genomice.
Architektura i metodologia treningu
Technicznie, AlphaGenome bazuje na architekturze typu U-Net, wzbogaconej o rdzeń transformatorowy. Przetwarzanie sekwencji DNA odbywa się w paralelnych, 131-kilobazowych fragmentach, wykorzystując jednostki TPUv3. Pozwala to na kontekstowo świadome przewidywania z dokładnością do pary zasad. Architektura wykorzystuje dwuwymiarowe osadzenia danych dla modelowania interakcji przestrzennych, takich jak mapy kontaktowe, oraz jednowymiarowe osadzenia dla zadań związanych z genomiką liniową.
Proces treningowy obejmował dwa etapy. Pierwszym było wstępne trenowanie modeli – zarówno dla konkretnych fałd, jak i dla wszystkich fałd jednocześnie – w celu przewidywania na podstawie obserwowanych ścieżek eksperymentalnych. Drugi etap, destylacja, polegał na tym, że model „uczeń” przyswajał wiedzę od modeli „nauczycieli”, co umożliwiło uzyskanie spójnych i efektywnych przewidywań, zapewniając szybką inferencję, szacowaną na około jedną sekundę na wariant, na procesorach graficznych takich jak NVIDIA H100.
Wydajność na miarę oczekiwań
AlphaGenome przeszło rygorystyczne testy porównawcze, mierząc się ze specjalistycznymi i multimodalnymi modelami w 24 zadaniach ścieżek genomowych i 26 zadaniach przewidywania efektów wariantów. Model ten przewyższył lub dorównał najnowocześniejszym rozwiązaniom odpowiednio w 22 z 24 testów oraz w 24 z 26 ocen. W zadaniach związanych ze splicingiem, ekspresją genów i chromatyną AlphaGenome konsekwentnie przewyższało specjalistyczne modele, takie jak SpliceAI, Borzoi i ChromBPNet.
Na przykład, w dziedzinie splicingu, AlphaGenome jako pierwsze umożliwia jednoczesne modelowanie miejsc splajsowania, wykorzystania miejsc splajsowania i złącz splajsowania z rozdzielczością 1 bp, przewyższając Pangolin i SpliceAI w sześciu z siedmiu testów. W przewidywaniu eQTL model osiągnął 25,5% względnej poprawy w przewidywaniu kierunku efektu w porównaniu do Borzoi. Z kolei w dostępie do chromatyny AlphaGenome wykazało silną korelację z danymi eksperymentalnymi DNase-seq i ATAC-seq, przewyższając ChromBPNet o 8-19%.
Przewidywanie efektu wariantów jedynie na podstawie sekwencji
Jedną z kluczowych zalet AlphaGenome jest zdolność do przewidywania efektów wariantów (VEP). Model radzi sobie z zadaniami VEP typu zero-shot i nadzorowanymi, nie opierając się na danych z genetyki populacyjnej, co czyni go niezawodnym w przypadku rzadkich wariantów i odległych regionów regulacyjnych. Z pojedynczym wnioskowaniem AlphaGenome ocenia, jak mutacja może wpłynąć na wzorce splicingu, poziomy ekspresji i stan chromatyny, w sposób multimodalny.
Zdolność modelu do odtwarzania klinicznie obserwowanych zaburzeń splicingu, takich jak pomijanie eksonów czy tworzenie nowych połączeń, wskazuje na jego przydatność w diagnozowaniu rzadkich chorób genetycznych. Model z powodzeniem odwzorował efekty 4-parowej delecji w genie DLG1, obserwowane w próbkach GTEx.
Zastosowanie w interpretacji GWAS i analizie wariantów chorobowych
AlphaGenome pomaga w interpretacji sygnałów GWAS, przypisując kierunek efektów wariantów na ekspresję genów. W porównaniu z metodami kolokalizacji, takimi jak COLOC, AlphaGenome zapewniło komplementarne i szersze pokrycie, rozwiązując czterokrotnie więcej locus w najniższej kwintylu częstości alleli (MAF).
Model wykazał również przydatność w genomice nowotworowej. Podczas analizy niekodujących mutacji powyżej onkogenu TAL1 (związanego z T-ALL), przewidywania AlphaGenome odpowiadały znanym zmianom epigenomicznym i mechanizmom regulacji ekspresji, potwierdzając jego zdolność do oceny mutacji zwiększających funkcję w elementach regulacyjnych.
AlphaGenome, udostępnione w wersji podglądowej (preview), stanowi istotny krok naprzód w badaniach genomowych na całym świecie, znacząco poprawiając interpretację niekodujących wariantów genetycznych. To narzędzie to kolejny dowód na to, jak zaawansowane modele sztucznej inteligencji rewolucjonizują rozumienie biologii na poziomie molekularnym.
