Comparison of NR and UniClust Databases for Protein Secondary Structure Prediction
Özet
Proteinlerin üç boyutlu yapılarının tahmin edilmesi
teorik kimya ve biyoenformatik için önemli problemlerden
biridir. Üç boyutlu yapı tahminin en önemli aşamalarından biri
ise ikincil yapı tahminidir. İkincil yapı tahmininde başarı
oranının artırılması kullanılan sınıflama algoritması kadar,
hesaplanan özniteliklere de bağlı olmaktadır. Öznitelik çıkarmak
için sıkça kullanılan çoklu hizalama yöntemlerinde ise
hesaplanan değerler, hizalama için kullanılan veri tabanına göre
farklılık göstermektedir. Bu nedenle öznitelik matrisleri
oluşturulurken uygun veri tabanın seçilmesi önem
kazanmaktadır. Bu çalışmada CB513 veri seti kullanılarak iki
farklı hizalama yöntemi ve üç farklı veri tabanı yardımı ile 5
farklı veri seti oluşturulmuş ve bu veri setleri iki aşamalı hibrit
bir sınıflandırıcı kullanılarak karşılaştırılmıştır. Elde edilen
sonuçlar doğrultusunda en iyi başarı oranı HHBlits hizalama
yönteminin ilk aşamasında hesaplanacak PSSM değerleri için
UniClust ve yapısal profil matrisleri için yine HHBlits’in ilk
aşamasında NR veri tabanı kullanıldığında elde edilmiştir. Three-dimensional structure prediction is one of
the important problems in bioinformatics and theoretical
chemistry. One of the most important steps in the threedimensional structure prediction is the estimation of secondary
structure. Improving the accuracy rate in protein secondary
structure prediction depends on computed attributes as well as
the classification algorithms. In multiple alignment methods,
which are often used to extract an attribute, the calculated values
differ according to the database used for the alignment. For this
reason, it is important to use a suitable database against which
the target proteins are aligned to compute profile feature vectors.
In this study, 5 different datasets are generated for the CB513
benchmark with the aid of two different alignment methods and
three different databases. The profile features are fed as input to
a two-stage hybrid classifier. According to the experimental
results, the highest accuracy rate is obtained when UniClust
database is used at the first stage of HHBlits alignment to
calculate PSSM values and NR database is used at the first stage
of HHBlits alignment to calculate structural profile matrices.
Kaynak
2018 26TH SIGNAL PROCESSING AND COMMUNICATIONS APPLICATIONS CONFERENCE (SIU)Koleksiyonlar
İlgili Öğeler
Başlık, yazar, küratör ve konuya göre gösterilen ilgili öğeler.
-
Developing deep learning models for protein structure prediction
Görmez, Yasin (Abdullah Gül Üniversitesi, Fen Bilimleri Enstitüsü, 2022)The three-dimensional structure of a protein provides important clues about the function of that protein. Although there have been many studies on protein structure prediction, the problem has still not been solved completely. ... -
Zenginleştirilmiş Öznitelikler ve Makine Öğrenmesi Yöntemleriyle Protein Yerel Yapı Tahmini
Aydın, Zafer (TUBİTAK, 2017)Projenin amacı proteinlerde bulunan ikincil yapı, dihedral açı ve çözücü erişilirlik gibi bir boyutlu yapısal özelliklerin başarılı olarak tahmin edilmesi ve bu tahminleri kullanarak parçacık seçimi yapan yeni bir yöntem ... -
Identification of single domain antibodies against SARS-CoV-2 omicron variant via protein-protein docking approaches
İlmek, Özkan (Abdullah Gül Üniversitesi, Fen Bilimleri Enstitüsü, 2022)Omicron, became the dominant variant in 2022 in terms of spreading rate, has managed to evade from an immune system of patients due to its unique mutations. Single domain antibodies (sdAb) which are functionally important ...