Bioluminescencyjna nić DNA spleciona z siecią neuronową symbolizuje głębokie uczenie w rozszyfrowywaniu genów.

AlphaGenome od Google DeepMind: Przełom w rozumieniu wpływu mutacji genów

2025-06-28 AI Sight

Google DeepMind zaprezentowało AlphaGenome – nowatorską architekturę głębokiego uczenia, zaprojektowaną do kompleksowego prognozowania konsekwencji regulacyjnych wariacji sekwencji DNA. To narzędzie, zdolne do analizy długich odcinków DNA liczących nawet do 1 megabazy, wnosi nową jakość w dziedzinie genomiki, dostarczając precyzyjnych przewidywań na poziomie pojedynczych zasad, dotyczących między innymi zdarzeń splicingowych, dostępności chromatyny, ekspresji genów czy wiązania czynników transkrypcyjnych.

Zunifikowane podejście do interpretacji genomu

AlphaGenome powstało w odpowiedzi na ograniczenia wczesnych modeli, które nie radziły sobie z jednoczesnym przetwarzaniem długich sekwencji wejściowych i osiąganiem precyzji na poziomie nukleotydów. Model ten unifikuje zadania predykcyjne w 11 modalnościach wyjściowych, obsługując ponad 5000 ludzkich ścieżek genomowych i przeszło 1000 mysich. Ta zdolność multimodalna czyni AlphaGenome jednym z najbardziej wszechstronnych modeli „sekwencja-funkcja” w genomice.

Architektura i metodologia treningu

Technicznie, AlphaGenome bazuje na architekturze typu U-Net, wzbogaconej o rdzeń transformatorowy. Przetwarzanie sekwencji DNA odbywa się w paralelnych, 131-kilobazowych fragmentach, wykorzystując jednostki TPUv3. Pozwala to na kontekstowo świadome przewidywania z dokładnością do pary zasad. Architektura wykorzystuje dwuwymiarowe osadzenia danych dla modelowania interakcji przestrzennych, takich jak mapy kontaktowe, oraz jednowymiarowe osadzenia dla zadań związanych z genomiką liniową.

Proces treningowy obejmował dwa etapy. Pierwszym było wstępne trenowanie modeli – zarówno dla konkretnych fałd, jak i dla wszystkich fałd jednocześnie – w celu przewidywania na podstawie obserwowanych ścieżek eksperymentalnych. Drugi etap, destylacja, polegał na tym, że model „uczeń” przyswajał wiedzę od modeli „nauczycieli”, co umożliwiło uzyskanie spójnych i efektywnych przewidywań, zapewniając szybką inferencję, szacowaną na około jedną sekundę na wariant, na procesorach graficznych takich jak NVIDIA H100.

Wydajność na miarę oczekiwań

AlphaGenome przeszło rygorystyczne testy porównawcze, mierząc się ze specjalistycznymi i multimodalnymi modelami w 24 zadaniach ścieżek genomowych i 26 zadaniach przewidywania efektów wariantów. Model ten przewyższył lub dorównał najnowocześniejszym rozwiązaniom odpowiednio w 22 z 24 testów oraz w 24 z 26 ocen. W zadaniach związanych ze splicingiem, ekspresją genów i chromatyną AlphaGenome konsekwentnie przewyższało specjalistyczne modele, takie jak SpliceAI, Borzoi i ChromBPNet.

Na przykład, w dziedzinie splicingu, AlphaGenome jako pierwsze umożliwia jednoczesne modelowanie miejsc splajsowania, wykorzystania miejsc splajsowania i złącz splajsowania z rozdzielczością 1 bp, przewyższając Pangolin i SpliceAI w sześciu z siedmiu testów. W przewidywaniu eQTL model osiągnął 25,5% względnej poprawy w przewidywaniu kierunku efektu w porównaniu do Borzoi. Z kolei w dostępie do chromatyny AlphaGenome wykazało silną korelację z danymi eksperymentalnymi DNase-seq i ATAC-seq, przewyższając ChromBPNet o 8-19%.

Przewidywanie efektu wariantów jedynie na podstawie sekwencji

Jedną z kluczowych zalet AlphaGenome jest zdolność do przewidywania efektów wariantów (VEP). Model radzi sobie z zadaniami VEP typu zero-shot i nadzorowanymi, nie opierając się na danych z genetyki populacyjnej, co czyni go niezawodnym w przypadku rzadkich wariantów i odległych regionów regulacyjnych. Z pojedynczym wnioskowaniem AlphaGenome ocenia, jak mutacja może wpłynąć na wzorce splicingu, poziomy ekspresji i stan chromatyny, w sposób multimodalny.

Zdolność modelu do odtwarzania klinicznie obserwowanych zaburzeń splicingu, takich jak pomijanie eksonów czy tworzenie nowych połączeń, wskazuje na jego przydatność w diagnozowaniu rzadkich chorób genetycznych. Model z powodzeniem odwzorował efekty 4-parowej delecji w genie DLG1, obserwowane w próbkach GTEx.

Zastosowanie w interpretacji GWAS i analizie wariantów chorobowych

AlphaGenome pomaga w interpretacji sygnałów GWAS, przypisując kierunek efektów wariantów na ekspresję genów. W porównaniu z metodami kolokalizacji, takimi jak COLOC, AlphaGenome zapewniło komplementarne i szersze pokrycie, rozwiązując czterokrotnie więcej locus w najniższej kwintylu częstości alleli (MAF).

Model wykazał również przydatność w genomice nowotworowej. Podczas analizy niekodujących mutacji powyżej onkogenu TAL1 (związanego z T-ALL), przewidywania AlphaGenome odpowiadały znanym zmianom epigenomicznym i mechanizmom regulacji ekspresji, potwierdzając jego zdolność do oceny mutacji zwiększających funkcję w elementach regulacyjnych.

AlphaGenome, udostępnione w wersji podglądowej (preview), stanowi istotny krok naprzód w badaniach genomowych na całym świecie, znacząco poprawiając interpretację niekodujących wariantów genetycznych. To narzędzie to kolejny dowód na to, jak zaawansowane modele sztucznej inteligencji rewolucjonizują rozumienie biologii na poziomie molekularnym.

Zunifikowane podejście do interpretacji genomu

Architektura i metodologia treningu

Wydajność na miarę oczekiwań

Przewidywanie efektu wariantów jedynie na podstawie sekwencji

Zastosowanie w interpretacji GWAS i analizie wariantów chorobowych

Udostępnij:

Zobacz również

MIT opracowuje narzędzie do testowania i ulepszania systemów klasyfikacji tekstu opartych na AI

ZAYA1: przełom w trenowaniu modeli AI na GPU AMD

Valthos: AI w służbie obrony biologicznej z 30 milionami dolarów wsparcia i OpenAI na pokładzie

Dodaj komentarz Anuluj pisanie odpowiedzi