Medycyna i zdrowieNauka

DeepPolisher Google AI zmienia oblicze genomiki: precyzyjna korekta błędów w sekwencjonowaniu DNA

Zrozumienie ludzkiego genomu stanowi fundament dla postępów w medycynie i biologii – od identyfikacji chorób dziedzicznych po projektowanie spersonalizowanych terapii. Mimo znaczących osiągnięć w technologiach sekwencjonowania DNA, takich jak te opracowane przez Illumina czy Pacific Biosciences, stworzenie absolutnie wolnego od błędów referencyjnego genomu pozostaje wyzwaniem. Genom ludzki, składający się z ponad trzech miliardów nukleotydów, nawet przy minimalnym wskaźniku błędów, może zawierać tysiące niedokładności. Te, choć pozornie drobne, mogą zaciemniać kluczowe warianty genetyczne i prowadzić do błędnych wniosków w analizach.

Precyzja ma znaczenie

W odpowiedzi na te wyzwania, Google AI, we współpracy z UC Santa Cruz Genomics Institute, opracowało DeepPolisher. To otwarte źródłowo narzędzie wykorzystujące architekturę transformerów – technologię znaną z sukcesów w przetwarzaniu języka naturalnego – do korygowania błędów w sekwencjach DNA. DeepPolisher, bazując na doświadczeniach DeepConsensus, koncentruje się na redukcji błędów insercji i delecji (indel), które są szczególnie problematyczne. Przesunięcia ramki odczytu spowodowane przez indels mogą skutkować pominięciem istotnych genów lub elementów regulacyjnych podczas adnotacji genomu, wpływając na interpretację danych genetycznych.

Technologia DeepPolisher opiera się na enkoderach-transformatorach, adaptując sprawdzone metody z NLP do analizy genomiki. Narzędzie zostało wytrenowane na danych pochodzących z linii komórkowej człowieka, która została szczegółowo scharakteryzowana przez NIST i NHGRI, a następnie sekwencjonowana przy użyciu różnych platform. Dzięki temu osiągnięto niemal perfekcyjną dokładność danych treningowych, z zaledwie 300-1000 błędami na 6 miliardów zasad, co przekłada się na skuteczność rzędu 99.99999%.

Jak działa DeepPolisher?

DeepPolisher działa w kilku etapach. Najpierw pobiera wyrównane odczyty PacBio HiFi względem zrekonstruowanego haplotypowo genomu. Następnie skanuje zgromadzone dane w oknach 25 kilobazowych, identyfikując potencjalne miejsca błędów, gdzie dowody odczytów odbiegają od składu. Dla każdego okna zawierającego przypuszczalne błędy (o długości mniejszej niż 100 par zasad) tworzy wielokanałową reprezentację tensorową cech wyrównania odczytów, takich jak baza, jakość bazy, jakość mapowania czy status dopasowania/niedopasowania. Te tensory są następnie wprowadzane do transformera, który przewiduje skorygowane sekwencje dla tych regionów. Ostatecznie, DeepPolisher generuje różnice w formacie VCF, które są następnie stosowane do struktury genomu za pomocą narzędzi takich jak bcftools, aby wytworzyć dopracowaną, wysoce precyzyjną sekwencję.

Zauważalna poprawa dokładności

Wprowadzenie DeepPolisher przynosi wymierne korzyści. Narzędzie pozwala na redukcję całkowitej liczby błędów o około 50%, a błędów insercji i delecji (indel) o ponad 70%. Co istotne, osiąga wskaźnik błędu poniżej jednej bazy na 500 000 par zasad w rzeczywistych zastosowaniach, co zostało potwierdzone w ramach konsorcjum Human Pangenome Reference Consortium (HPRC). Średnia poprawa wyniku Q-score z 66.7 do 70.1 – wskaźnika logarytmicznego precyzji na poziomie baz (gdzie wyższa wartość oznacza lepszą jakość) – ilustruje znaczący wzrost niezawodności. Wynik Q70.1 oznacza mniej niż jeden błąd na 12 milionów nukleotydów. Każda próbka testowana przez HPRC wykazała poprawę, co podkreśla uniwersalność i skuteczność DeepPolisher.

Te postępy mają bezpośredni wpływ na wiarygodność i dokładność referencyjnych genomów, czego przykładem jest Human Pangenome Reference, gdzie dzięki DeepPolisher osiągnięto pięciokrotne rozszerzenie danych i znaczącą redukcję błędów.

Dostępność i elastyczność w zastosowaniach

DeepPolisher został zintegrowany z kluczowymi projektami, takimi jak druga wersja danych HPRC, oferując wysoko dokładne referencyjne zestawy genomów dla 232 osób, co zapewnia szeroką różnorodność przodków w referencjach genomowych. Narzędzie jest dostępne jako otwarte źródło na GitHubie, wraz z przykładami użycia i gotowymi do użycia, skonteneryzowanymi przepływami pracy (Dockerized workflows). Pozwala to na zastosowanie DeepPolisher w analizach genomów stworzonych za pomocą narzędzi takich jak HiFiasm i sekwencjonowanych przy użyciu odczytów PacBio HiFi. Chociaż początkowo DeepPolisher skupiał się na ludzkich genomach, jego struktura i podejście są adaptowalne do innych organizmów i platform sekwencjonowania, co otwiera drogę do zwiększenia dokładności danych genomowych w całej społeczności badawczej.

DeepPolisher stanowi znaczący krok naprzód w technologii korygowania błędów w sekwencjonowaniu genomów. Zmniejszając błędy i zwiększając rozdzielczość, otwiera nowe możliwości w funkcjonalnej genomice, odkrywaniu rzadkich wariantów genetycznych oraz w zastosowaniach klinicznych. Eliminacja tych barier w składaniu genomów umożliwia dokładniejszą diagnostykę, pogłębia badania genetyczne populacji i toruje drogę dla projektów referencyjnych nowej generacji, przynosząc korzyści zarówno badaniom biomedycznym, jak i medycynie spersonalizowanej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *