Rozwój głębokiego uczenia i sieci neuronowych doprowadził do rewolucji w analizie danych biologicznych, w szczególności w modelowaniu i przewidywaniu struktur białek. Artykuł ten przedstawia przegląd współczesnych metod opartych na architekturze deep learning, takich jak konwolucyjne i transformatorowe sieci neuronowe, stosowanych do przewidywania struktur trzeciorzędowych białek. Omówione zostały również wyzwania związane z reprezentacją danych strukturalnych, jakością danych treningowych or...
Słowa kluczowe: głębokie uczenie, białka, AlphaFold2, sieci neuronowe, bioinformatyka
Analiza struktury białek to jedno z najważniejszych wyzwań w biologii strukturalnej. Tradycyjne metody, takie jak krystalografia rentgenowska czy NMR, są precyzyjne, lecz kosztowne. Głębokie sieci neuronowe, takie jak AlphaFold2, umożliwiają szybsze i tańsze przewidywanie struktur białkowych (Jumper et al., 2021). Obecnie coraz częściej integruje się predykcje komputerowe z danymi eksperymentalnymi, co pozwala zwiększyć...
Dane do analizy pochodziły z bazy PDB, obejmując zestaw reprezentatywnych struktur białek, w tym transbłonowych i cytoplazmatycznych. Modele oceniono przy użyciu wskaźników GDT-TS i RMSD, które pozwalają na ocenę zbieżności strukturalnej pomiędzy przewidywaną a referencyjną strukturą.
W celu zapewnienia spójności danych, wszystkie sekwencje zostały najpierw przefiltrowane w oparciu o długość i kompletność struktur. Następnie modele trenowano i testowano w odseparowanych zbiorach, z zastosowaniem krzyżowej walidacji w celu oceny generalizacji.
Wyniki pokazały wyraźną przewagę modelu AlphaFold2 pod względem dokładności strukturalnej. Model ten osiągnął najwyższe wartości GDT-TS i najniższe wartości RMSD, co świadczy o wysokim stopniu zbieżności z referencyjnymi strukturami.
RoseTTAFold również wykazał dobre rezultaty, szczególnie w przypadku struktur beta-kartek, natomiast model Transformer, choć najprostszy architektonicznie, wykazał stabilne wyniki dla krótkich i średnich łańcuchów aminokwasowych.
Model | GDT-TS (%) | RMSD (Å) |
---|---|---|
AlphaFold2 | 92.3 | 1.5 |
RoseTTAFold | 82.1 | 2.3 |
Transformer | 78.4 | 2.8 |
Największym wyzwaniem pozostaje przewidywanie struktur białek bez znanych homologów i adaptacja modeli do rzadkich struktur. Modele muszą lepiej radzić sobie z niepełnymi danymi oraz integrować wyniki z eksperymentów krystalograficznych i spektroskopii. W najbliższych latach spodziewany jest rozwój hybrydowych podejść łączących sztuczną inteligencję z metodami obliczeń kwantowych (Senior et al., 2020); https://doi.org/10.1038/s41586-021-03819-2
Senior, A. W., et al. (2020). Improved protein structure prediction using potentials from deep learning. Nature, 577(7792), 706–710. https://doi.org/10.1038/s41586-019-1923-7
Baek, M., et al. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science, 373(6557), 871–876. https://doi.org/10.1126/science.abj8754
Tunyasuvunakool, K., et al. (2021). Highly accurate protein structure prediction for the human proteome. Nature, 596(7873), 590–596. https://doi.org/10.1038/s41586-021-03828-1
Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589. https://doi.org/10.1038/s41586-021-03819-2
Senior, A. W., et al. (2020). Improved protein structure prediction using potentials from deep learning. Nature, 577(7792), 706–710. https://doi.org/10.1038/s41586-019-1923-7
Baek, M., et al. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science, 373(6557), 871–876. https://doi.org/10.1126/science.abj8754