RNA İkincil Yapılarının Çok Boyutlu Gösterimi ve Pre-Mirna Tespiti Için Uygulamaları
Abstract
MikroRNA'lar (miRNA'lar), transkripsiyon sonrası gen ekspresyonu düzenleyicileridir. Bir
miRNA yüzlerce haberci RNA'yı (mRNA'lar) hedefleyebildiği gibi, bir mRNA farklı miRNA'lar
tarafından hedeflenebilir, üstelik tek bir miRNA bir mRNA sekansında çeşitli bağlanma
bölgelerine sahip olabilir. Bu nedenle miRNA'ları deneysel olarak araştırmak oldukça
karmaşıktır. Bu tür zorlukları aşabilmek için makine öğrenimi (ML) sıklıkla kullanılmaktadır.
ML analizinin temel kısımları büyük ölçüde giriş verilerinin kalitesine ve verileri tanımlayan
özelliklerin kapasitesine bağlıdır. Daha önce miRNA'lar için 1000'den fazla özellik önerilmişti.
Bu projede, RNA ikincil yapısını temsil eden yeni özellikler ve yüksek doğruluk değerleri
sağlayan, dinamik, çok boyutlu grafik gösterimini tanımlamayı hedeflemiştik. Bu çalışmada,
ML tabanlı miRNA tahmini için yeni ve kolayca güncellenebilir bir yaklaşım geliştirilmiştir.
Bilinen insan miRNA'larının ve sözde saç tokalarının random forest (RF), support vector
machine (SVM) ve multilayer perceptron (MLP) gibi çeşitli sınıflandırıcılarla
sınıflandırılmasıyla binlerce model oluşturulmuştur. Yöntem insan verilerine dayanarak
oluşturulmuş olsa da en iyi model miRBase ve MirGeneDB gibi kamu veri tabanlarından
insan olmayan saç tokaları üzerinde test edilmiş ve yüksek skorlar üretilmiştir. Ayrıca,
yöntemin farklı veriler üzerindeki etkinliğini göstermek için ekspresyon farkları tahmini
(differential expression prediction) analizinde de kullanılmıştır. Bu aşamada SARS-CoV-2
enfeksiyonunun etkisini ölçen bir veri setinin analizinden elde edilen sonuçlar yayınlanmıştır. MicroRNAs (miRNAs) are posttranscriptional regulators of gene expression. While a miRNA
can target hundreds of messenger RNA (mRNAs), an mRNA can be targeted by different
miRNAs, not to mention that a single miRNA might have various binding sites in an mRNA
sequence. Therefore, it is quite complicated to investigate miRNAs experimentally. Thus,
machine learning (ML) is frequently used to overcome such challenges. The key parts of a
ML analysis largely depend on the quality of input data and the capacity of the features
describing the data. Previously, more than 1000 features were suggested for miRNAs. In this
project, we aim to define new features representing the RNA secondary structure and its
dynamic multidimensional graphical representation providing high accuracy values. In this
study, a new and easily updateable approach for ML-based miRNA prediction has been
developed. Thousands of models have been created by classifying known human miRNAs
and pseudo hairpins with various classifiers such as random forest (RF), support vector
machine (SVM), and multilayer perceptron (MLP). Although the method was created based
on human data, the best model was tested on non-human hairpins from public databases
such as miRBase and MirGeneDB and high scores were produced. It has also been used in
differential expression prediction analysis to show the effectiveness of the method on
different data sets. At this stage, the results obtained from the analysis of a data set
measuring the impact of SARS-CoV-2 infection have been published.
URI
https://search.trdizin.gov.tr/tr/yayin/detay/621862/rna-ikincil-yapilarinin-cok-boyutlu-gosterimi-ve-pre-mirna-tespiti-icin-uygulamalarihttps://hdl.handle.net/20.500.12573/1797