An Ensemble Feature Selection Methodology That Incorporates Domain Knowledge for Cardiovascular Disease Diagnosis
Abstract
Koroner Arter Hastalığı (KAH), arterlerin
duvarlarında aterom denilen yağlı madde birikiminin bir
sonucu olarak kalbin yeterince beslenememesi durumudur.
KAH, 2016 yılında dünyadaki toplam ölümlerin %31'ine (17,9
milyon) neden olmuştur ve teşhis edilmesi zordur. 2030 yılında,
yaklaşık olarak 23,6 milyon insanın bu hastalıktan öleceği
tahmin edilmektedir. Makine öğrenmesi ve veri madenciliği
yöntemlerinin gelişmesiyle birlikte, bazı fiziksel ve
biyokimyasal değerleri inceleyerek, KAH’nı ucuz ve zahmetsiz
bir şekilde teşhis etmek mümkün olabilir. Bu çalışmada, KAH
sınıflandırma problemi için, uzman bilgisini içine alan yeni bir
topluluk öznitelik seçim yöntemi önerilmiştir. Önerilen çözüm,
UCI Cleveland KAH veri kümesi üzerinde uygulanmış, farklı
sınıflandırma algoritmaları kullanılarak, farklı performans
ölçütleri karşılaştırılmıştır. Gerçekleştirdiğimiz deneylerde,
önerdiğimiz çözümün, MLP sınıflandırıcısı ve seçilen 9
öznitelik kullanıldığında, %85.47 doğruluk, %82.96 hassasiyet
ve 0.839 F-ölçüsüne ulaştığı gösterilmiştir. Bu çalışmanın
devamında, hastanelerde gerçek zamanlı veriler üzerinde, hızlı
bir şekilde KAH tahminlemesi yapabilecek bir makine
öğrenmesi modeli oluşturabilmeyi amaçlıyoruz. Coronary Artery Disease (CAD) is the condition
where, the heart is not fed enough as a result of the
accumulation of fatty matter called atheroma in the walls of
the arteries. In 2016, CAD accounts for 31% (17.9 million) of
the world's total deaths and its diagnosis is difficult. It is
estimated that approximately 23.6 million people will die from
this disease in 2030. With the development of machine learning
and data mining techniques, it might be possible to diagnose
CAD inexpensively and easily via examining some physical and
biochemical values. In this study, for the CAD classification
problem, a novel ensemble feature selection methodology that
incorporates domain knowledge is proposed. Via applying the
proposed methodology on the UCI Cleveland CAD dataset and
using different classification algorithms, performance metrics
are compared. It is shown that in our experiments, when
Multilayer Perceptron classifier is used with 9 selected
features, our proposed solution reached 85.47% accuracy,
82.96% accuracy and 0.839 F-Measure. As a future work, we
aim to generate a machine learning model that can quickly
diagnose CAD on real-time data in hospitals.