Protein molekülleri canlı varlıkların oldukça önemli bir parçasıdır. Neredeyse tüm yaşamsal faaliyetlerde bir şekilde etkili ve bunların sürdürülmesinde önemli bir yere sahip moleküllerdir. Dolayısıyla bu moleküller bir çalışma alanı olarak biyolojiden matematiğe kadar birçok bilim dalında karşımıza çıkabiliyor. Yazımda sizlere protein moleküllerinin sahip olduğu fonksiyonların önemli bir parçası olan 3D şekillerini yüksek doğrulukla tahmin edilmesini sağlayan, yakın zamanda Google tarafından geliştirilmiş bir yapay zekâ olan Alphafold’dan bahsedeceğim. Ama öncelikle bu sistemin ne işe yaradığını, nasıl bir probleme çözüm getirdiğini ve önemini tam olarak anlayabilmek için proteinler ile onların 3D şekillerinin ne anlama geldiğine değinmemiz gerekiyor.
Proteinlerin 3D yapısını anlayabilmek için öncelikle proteinleri oluşturan yapı taşlarından bahsetmemiz gerekiyor. Bu moleküller, amino asit denilen daha küçük moleküllerden oluşuyor ve bir proteinde bu moleküller DNA tarafından belirlenen özgün bir dizide, zincir şeklinde birbirine bağlı şekilde bulunuyor. Bu sıralamanın değişmesi proteinin fonksiyonunu ve aynı zamanda sıralama tarafından belirlenen şeklini de genelde doğrudan etkiliyor. Bir protein üretilirken ilk olarak bu zincir oluşturuluyor. Fakat bir proteinin tam olarak işler hale gelebilmesi için bu amino asit zincirinin oluşması yeterli değil. Zincirimizin çeşitli aşamalardan geçip asıl 3D şekline getirilmesi, diğer bir deyişle “katlanması” gerekiyor. Süreç çeşitli bağlar kurulmasını içeriyor ve bu bağlar proteinin şeklini koruyabilmesi, gerektiğinde şekil değiştirebilmesi için büyük bir önem taşıyor. Bu işlem şaperon adı verilen bir takım protein sayesinde büyük proteinler için bile kısa sürede gerçekleşiyor. Aynı zamanda şaperon proteinleri, herhangi bir sebeple olması gereken şekle sahip olmayan proteinleri de düzeltme görevine sahip.
Sizleri salt bilgi içeren cümlelerle boğmamak adına şimdilik bu kadar temel bilgi yeterli. Artık ortadaki problemin ne olduğunu tartışmaya başlayabiliriz. Daha önce bahsedildiği üzere, bir protein amino asit zincirinin kendisiyle üzerinde kurduğu bağlarla 3D şekil kazanıyor. Aynı zamanda bu şeklin de amino asit dizilimiyle bağlantılı olduğunu da biliyoruz. O halde bu şeklin ne olduğunu tahmin etmemiz çok da zor olmamalı. Fakat bu göründüğü kadar kolay bir problem değil. Hatta bu durum “Levinthal Paradoksu” olarak da biliniyor.
Levinthal paradoksunun ne anlama geldiğini idrak edebilmek için basitçe bir amino asit zincirinde iki amino asit arası bağın uzayda üç farklı stabil olduğu durum olduğunu düşünelim. Eğer bu amino asit zinciri 101 tane amino asit içeriyorsa, 100 tane bağ var demektir. Bu durumda her bağ için 3 farklı mümkün durum olduğunu düşünürsek, bu amino asit zinciri için toplamda 3100 adet oluşturabilecek farklı kombinasyon çeşidi var demektir. Peki bu ne anlama geliyor? Eğer bu bağları kuran protein bu işlemi rastgele yapsaydı doğru sonuca ulaşması saniyede 1013 deneme yapsa bile tüm olasılıkları denemesi yaklaşık 1027 yılını alacaktı. Buna rağmen bir proteinin katlanması saniyeler, bazen de daha kısa sürede gerçekleşiyor [1]. Gerçekten inanılmaz, değil mi?
Verdiğimiz bilgilerden de anlaşılacağı üzere mümkün olasılıkların fazlalığı sebebiyle bir proteinin 3D yapısını açıklamak göründüğü kadar kolay değil. Şimdilik bulunmuş protein yapılarının çoğunluğu X-Işını Kristografisi gibi gözlenen proteinin karmaşıklığına bağlı olarak, yalnızca gözlem yapmak için gerekli kristalin oluşumu için kimi zaman haftaları geçen süreler [2] alan ve bu kristaldeki protein yapılarının gözlenmesi için yüksek maliyetli araçlar kullanılan deneylerle [3] ortaya çıkarılmış. Kısacası daha önce bahsedilen şaperonlarda bir proteinin kısa bir sürede gerçekleşen katlanmasını ortaya çıkarmak, fazlasıyla uzun zaman alan ve bununla beraber maliyetli bir iş.
Bu maliyetli işten kurtulmak için alternatifler aranmıyor da değil. Amino asit dizilişinden protein yapısının tahmin edilmesi 1980’lerden beri bilgisayar destekli çalışmalar sürdürülmesine rağmen çok fazla başarı elde edilememişti. Bununla beraber 1994 yılından beri her iki yılda bir CASP (Critical Assessment of protein Structure Prediction) isimli dünya çapında bir yarışma gerçekleştiriliyor [4]. Yarışmada gruplara daha önceden yapısı açıklanmamış belirli sayıda amino asit dizilişi veriliyor ve gruplardan verilen zincirin protein yapısının tahmin edilebilmesi isteniyor. 20 seneden fazladır bu yarışma devam ediyor olsa da ortadaki problemin karmaşıklığı sebebiyle yeterince ilerleme kaydedilememişti, ta ki Google tarafından geliştirilen DeepMind ve bunun üzerinde kullanılan AlphaFold 2018 yılında yarışmaya dahil olana kadar. Her ne kadar 2018 yılında kullanılan algoritma laboratuvar ortamında yapılan gözlemler kadar başarılı olamamış olsa da diğer katılımcıları geride bırakmayı başarmıştır. Bu sene yapılan CASP14’te kullanılan algoritma AlphaFold 2, öncekine göre çok daha büyük bir başarı göstermiş ve neredeyse deneysel verilerle tamamen örtüşen tahminlerde bulunmuştur [5].
Peki AlphaFold bu başarıya nasıl ulaştı? Her ne kadar yazımın yayın tarihi ile henüz algoritmanın ve sonuçlarının detaylı şekilde açıklanmasını içeren bir makale yayınlanmamış olsa da DeepMind ekibinin açıklamasına göre algoritmanın eğitimi için halka açık olarak sunulan toplamda 128 TPUv2 çekirdek içeren 16 TPUv2, yapay zeka eğitimlerinde yaygın şekilde kullanılan ve sıradan bilgisayarlardaki ana işlem birimi olan CPU’ya kıyasla daha fazla paralel işlem yapabilen bir çeşit hesaplama birimi kullanılmış ve bu yaklaşık olarak 100 ve 200 GPU gücüne denk bir hesaplama gücü sunuyor (Kafanızın karıştığının farkındayım. AlphaFold’un büyük bir gelişim gösterdiğini ifade etmekteyim sadece.)
Bununla beraber algoritma, halka açık şekilde sunulan protein veri tabanlarından alınan 170,000 civarı protein yapısı örneği üzerinde eğitilmiş ve sunulan çözüm çoklu dizi hizalaması (MBA, multiple sequence alignment) sayesinde farklı dizilerdeki ortak şekillerin belirlenip buradan protein şeklinin tahmin edilmesini baz alıyor [5].
Peki bu yeni gelişmenin pratik anlamda nasıl bir uygulama alanı bulacak? Yine DeepMind ekibinin açıkladığı üzere, bu sistem şu anda da tüm dünyanın mücadele ettiği pandeminin sebebi olan SARS-CoV-2 virüsündeki çeşitli proteinlerinin yapısının açıklanmasında ve keşfinde kullanılmış [5]. Bununla birlikte henüz sistemin kodlarının araştırmacıların kullanması için yayınlanmamış olması sebebiyle kullanılabilirliğinin ne derecede olacağı bilinmiyor.
Acaba bu gerçekten de sorunun çözümü mü? Her ne kadar AlphaFold, benzeri çalışmaları doğrulukta geride bırakmış ve şimdiden araştırmacılar için fazlasıyla kolaylık sağlayacak olsa da yine de tam olarak “çözüm” olduğunu söylemek hala algoritmanın çeşitli uç durumlarda çıkabilecek sonuçlarının ne kadar doğru olacağını bilmediğimizden dolayı şimdilik çok da doğru olmayabilir [6]. Yine de bu, AlphaFold’un yaptığı işin gerçekten büyük bir adım olduğunu ve bunun üzerine yapılacak geliştirmelerle birlikte protein yapısı ve beraberinde proteinler üzerine yapılacak çalışmaların eskisine kıyasla çok daha hızlı ilerleyeceği kesin. Bununla birlikte AlphaFold gibi uygulamaların örneklerinin artması gibi son zamanlarda yapay zekâ alanındaki hızlı gelişmeler, bu alanın insanlığın geleceğinde çok daha fazla etkili olacağını gösteriyor. Acaba bizleri gelecekte neler bekliyor? Hep beraber göreceğiz..
Dergimizin bu yıl yayınladığı son yazıyı okumuş bulunmaktasınız dostlar. Bu sebeple yazımı hepinize iyi ve sağlıklı yıllar dileyerek bitirmek istiyorum. Yapay zekâ teknolojisinin bizlere bir daha böyle pandemileri yaşatmayacak kadar fazla gelişmesi dileğiyle, sağlıkla kalın!
Kaynakça:
[1] R. Zwanzig, A. Szabo and B. Bagchi, ”Levinthal’s paradox.”, Proceedings of the National Academy of Sciences, vol. 89, no. 1, pp. 20-22, 1992. Erişilebilir: 10.1073/pnas.89.1.20
[2] Elspeth Garman. Understanding Crystallography – Part 1: From Proteins to Crystals. (Apr 2, 2014). [Online Video]. Erişilebilir: https://www.youtube. com/watch?v=gLsC4wlrR2A
[3] Stephen Curry. Understanding Crystallography – Part 2: From Crystals to Diamond. (Apr 10, 2014). [Online Video]. Erişilebilir: https://www. youtube.com/watch?v=WJKvDUo3KRk
[4] W. D. Heaven. ”DeepMind’s protein-folding AI has solved a 50- year-old grand challenge of biology”. MIT Technology Review. https://www.technologyreview.com/2020/11/30/1012712/deepmindprotein-folding-ai-solved-biology-science-drugs-disease/
[5] AlphaFold Team. ”AlphaFold: a solution to a 50-year-old grand challenge in biology”. DeepMind. https://deepmind.com/blog/article/alphafolda-solution-to-a-50-year-old-grand-challenge-in-biology
[6] M. AlQuraishi. ”AlphaFold2 @ CASP14: ’It feels like one’s child has left home.’” Some Thoughts on a Mysterious Universe. https://moalquraishi.wordpress.com/2020/12/08/alphafold2-casp14-itfeels-like-ones-child-has-left-home
Kapak Görseli: R. F. Service.” ‘The game has changed.’ AI triumphs at solving protein structures” Science Magazine. https://www.sciencemag.org/news/2020/ 11/game-has-changed-ai-triumphs-solving-protein-structures
-Burak KÖROĞLU.