Zenginleştirilmiş Öznitelikler ve Makine Öğrenmesi Yöntemleriyle Protein Yerel Yapı Tahmini
Abstract
Projenin amacı proteinlerde bulunan ikincil yapı, dihedral açı ve çözücü erişilirlik gibi bir boyutlu yapısal özelliklerin başarılı olarak tahmin edilmesi ve bu tahminleri kullanarak parçacık seçimi yapan yeni bir yöntem geliştirilmesidir. Geliştirilen yöntemler sayesinde proteinlerin üç boyutlu yapısının daha doğru tahmin edilmesi, proteinlerin fonksiyonlarının daha iyi anlaşılması ve daha etkili ilaç tasarımı yapılması mümkün olacaktır. Bir boyutlu yapısal özelliklerin tahmini için yürütücünün daha önce geliştirdiği iki aşamalı hibrit sınıflandırma yöntemi kullanılmıştır. Bu yöntemde bulunan sınıflandırıcılar için dizi tabanlı profiller, yapısal profil matrisleri gibi çeşitli öznitelik vektörleri kullanılmıştır. İkinci aşamadaki sınıflandırıcı için destek vektör makinası, derin KSA, rastgele orman ve topluluk gibi çeşitli öğrenme yöntemleri eğitilmiş ve geliştirilen yöntemlerin tahmin başarı oranları standart veri kümelerinde incelenmiştir. Ayrıca bu aşamada derin otokodlayıcılar ve öznitelik seçme yaklaşımları ile boyut düşürme gerçekleştirilmiştir. Protein parçacık seçimi için verilen iki amino asit dizisi parçacığının yapısal olarak benzer olup olmadığının tahmin eden yöntemler geliştirilmiştir. Bunun için Rosetta programının parçacık veritabanında bulunan proteinlerden parçacık ikilileri örneklenmiş, bu ikililer BCScore yöntemi ile etiketlenmiş, eğitim ve test kümeleri oluşturulmuştur. Ayrıca farklı öznitelik kümeleri konsept hiyerarşi yaklaşımı ile kapsamlı olarak incelenmiş ve en başarılı sonucu veren öznitelik kombinasyonları tespit edilmiştir. Parçacık seçimi probleminde 3 ve 9 amino asitlik parçacıklar üzerinde çalışılmıştır ancak yöntemler diğer uzunluktaki parçacıklar için de kolaylıkla uygulanabilecektir. Projede geliştirilen yöntemler sayesinde ikincil yapı tahmin başarısı en zor tahmin kategorisinde %2.6 iyileşmiş, dihedral açı tahmin başarısı önemli oranda iyileşmiş, çözücü erişilirlik probleminde literatürdeki en başarılı yöntemler ile benzer bir seviye yakalanmıştır. Parçacık seçiminde ise verilen iki parçacığın yapılarının benzer olup olmadıkları 3-mer parçacıklar için %94 ve 9merler içinse %97 oranı ile tahmin edilmiştir. Yapılan çalışmaların neticesinde öznitelik vektörlerinin daha iyi tasarlanmasının ve farklı sınıflandırma yöntemlerinin birleştirilip optimize edilmesinin yapısal özellik tahmin başarısını önemli oranda iyileştirdiği sonucuna varılmıştır. The current project concentrated on predicting one dimensional structural properties of
proteins such as secondary structure, dihedral angle and solvent accessibility successfully
and developing a novel method that uses these predictions for fragment selection. Upon
reaching these objectives it is anticipated that the accuracy and quality of protein 3D
structure prediction will improve, which will provide a better understanding of the functional
roles of proteins and advance drug screening, drug design, and enzyme design processes.To predict one dimensional structural properties a two-stage hybrid method is used, which
employs sequence based profiles and structural profiles as input features. For the classifier
at the second stage support vector machine, deep CNF, random forest and an ensemble
classifier have been trained and tested on established benchmarks. Additionally,
dimensionality reduction techniques are developed and analyzed at this stage including deep
autoencoders and feature selection methods. For fragment selection, classifiers have been
developed that decide whether two amino acid fragments are structurally similar or not. To
build the train and test sets, fragment pairs are sampled from the fragment database of the
Rosetta program and labeled using BCScore method. A concept hierarchy approach has
been implemented to find the best feature set combination. Though the present study
concentrated on 3-mers and 9-mers the methods developed can also be applied easily to
other fragment sizes. According to evaluations, a 2.6% improvement has been obtained for
protein secondary structure prediciton in the most difficult setting, a significant improvement
in dihedral angle class prediction, and an accuracy comparable to state-of-the-art methods in
solvent accessilibity. In fragment selection fragment pairs can be classified as similar or not
with 94% accuracy for 3-mers and 97% for 9-mers. As a result, designing better features,
combining and optimizing classifiers improve the success rates of methods that predict
structural properties of proteins.
Source
TubitakCollections
Related items
Showing items related by title, author, creator and subject.
-
Comparison of NR and UniClust Databases for Protein Secondary Structure Prediction
Aydin, Zafer; Kaynar, Oguz; Gormez, Yasin (IEEE, 2018)Proteinlerin üç boyutlu yapılarının tahmin edilmesi teorik kimya ve biyoenformatik için önemli problemlerden biridir. Üç boyutlu yapı tahminin en önemli aşamalarından biri ise ikincil yapı tahminidir. İkincil yapı ... -
Developing deep learning models for protein structure prediction
Görmez, Yasin (Abdullah Gül Üniversitesi, Fen Bilimleri Enstitüsü, 2022)The three-dimensional structure of a protein provides important clues about the function of that protein. Although there have been many studies on protein structure prediction, the problem has still not been solved completely. ... -
Identification of single domain antibodies against SARS-CoV-2 omicron variant via protein-protein docking approaches
İlmek, Özkan (Abdullah Gül Üniversitesi, Fen Bilimleri Enstitüsü, 2022)Omicron, became the dominant variant in 2022 in terms of spreading rate, has managed to evade from an immune system of patients due to its unique mutations. Single domain antibodies (sdAb) which are functionally important ...