Medycyna i zdrowie

Bioinformatyka na sterydach: Sequence Display generuje 10 milionów danych w trzy dni

Inżynieria białek to dla biologa wyzwanie matematyczne. Krótki łańcuch 50 aminokwasów generuje 1.13×10^65 potencjalnych kombinacji — to liczba pięciokrotnie przewyższająca skalę biliona podniesionego do potęgi piątej. W laboratorium nikt nie ma czasu na takie zgadywanki.

Wąskie gardło cyfrowej biologii

Problem ze sztuczną inteligencją w biologii nigdy nie polegał na braku mocy obliczeniowej czy sprytnych algorytmów. Chodziło o dane. Sztuczna inteligencja karmiona niskiej jakości danymi lub ich skrajnym niedoborem staje się bezużyteczna. Han Xiao, dyrektor SynthX Center, stawia sprawę jasno: dotychczas po prostu nie istniały zbiory danych wystarczająco gęste, by nauczyć modele, jak realnie optymalizować aktywność białek.

Sequence Display zmienia reguły gry, działając jak ultraszybki skaner ewolucyjny.

Jak działa cyfrowy kod kreskowy?

Zespół z Rice University, przy wsparciu Microsoftu i Johns Hopkins University, stworzył system kodowania oparty na aktywności. Każdy wariant białka otrzymuje unikalny „kod kreskowy” DNA, który reaguje na poziom jego wydajności.

  • Im bardziej aktywne białko, tym mocniej modyfikowany jest jego kod.
  • Sekwencjonowanie nowej generacji odczytuje te zmiany niemal natychmiast.
  • W jednym cyklu badacze pozyskują ponad 10 milionów punktów danych.

To nie jest kolejna symulacja. To fizyczny eksperyment, który dostarcza sztucznej inteligencji konkretnych dowodów z rzeczywistości.

Krytyczne uderzenie w CRISPR

Jako dowód słuszności koncepcji (proof of concept) naukowcy wzięli na warsztat małe białko CRISPR-Cas. Choć cenione za kompaktowe rozmiary, ma ono irytującą wadę: wybredność w wyborze celów DNA. Dzięki nowej metodzie model sztucznej inteligencji w zaledwie trzy dni wytypował mutacje, które drastycznie rozszerzyły zakres cięcia tego molekularnego skalpela.

Algorytmy nie zastąpiły tu biologów — stały się ich najbardziej precyzyjnym kompasem w nieskończonej przestrzeni sekwencji.

Poza laboratorium: Co to oznacza dla pacjenta?

Sukces z CRISPR-Cas to tylko wierzchołek góry lodowej. Metoda zadziałała równie skutecznie przy syntetazach tRNA i inhibitorach glikozylazy uracylu. W praktyce oznacza to, że projektowanie leków nowej generacji i enzymów przemysłowych przestaje być kwestią szczęścia czy wieloletnich prób i błędów.

To brutalna optymalizacja biologii przy użyciu statystyki. Jeśli jesteśmy w stanie w 72 godziny wygenerować dane, które wcześniej wymagały miesięcy pracy, wchodzimy w erę, w której kodowanie białek zaczyna przypominać pisanie oprogramowania. Z tą różnicą, że błąd w kompilacji nie kończy się awarią systemu, a odkryciem nowego leku na raka lub rzadką chorobę genetyczną.