Machine Learning based Network Intrusion Detection with Hybrid Frequent Item Set Mining
Özet
With the development and expansion of computer networks day by day and the diversity of software developed, the damage that
possible attacks can cause is increasing beyond the predictions. Intrusion Detection Systems (STS/IDS) are one of the practical
defense tools against these potential attacks that are constantly growing and diversifying. Thus, one of the emerging methods among
researchers is to train these systems with various artificial intelligence methods to detect subsequent attacks in real time and take
the necessary precautions. However, the ultimate goal is to propose a hybrid feature selection approach to improve the classification
performance. The raw dataset originally enclosed 85 descriptor features (attributes) for classification. These attributes are extracted
using CICFlowMeter from a PCAP file where network traffic is recorded for data curation. In this study, classical feature selection
methods and frequent item set mining approaches were employed in feature selection for constructing a hybrid model. We aimed
to examine the effect of the proposed hybrid feature selection approach on the classification task for the network traffic data
containing ordinary and attack records. The outcomes demonstrate that the proposed method gained nearly 3% improvement when
applied with the Logistic Regression algorithm on classifying more than 225,000 records. Bilgisayar ağlarının gün geçtikçe gelişmesi ve genişlemesi ve geliştirilen yazılımların çeşitliliği ile olası saldırıların neden
olabileceği zararlar tahminlerin de ötesine geçmektedir. Sızma Tespit Sistemleri (STS/IDS), sürekli büyüyen ve çeşitlenen bu
potansiyel saldırılara karşı pratik savunma araçlarından biridir. Bu nedenle, araştırmacılar arasında ortaya çıkan metotlardan biri,
bu sistemleri çeşitli yapay zeka yöntemleri ile eğiterek gerçek zamanlı olarak sonraki saldırıları tespit etmelerini ve gerekli
önlemleri almalarını sağlamaktır. Ancak, asıl hedef, sınıflandırma performansını iyileştirmek için hibrit bir özellik seçimi yaklaşımı
önermektir. Ham veri seti başlangıçta sınıflandırma için 85 tanımlayıcı özellik içermekteydi. Bu nitelikler, veri kürasyonu için ağ
trafiğinin kaydedildiği bir PCAP dosyasından CICFlowMeter kullanılarak çıkarılmıştır. Bu çalışmada, hibrit bir model oluşturmak
için klasik özellik seçimi yöntemleri ve sık öğe kümesi madenciliği yaklaşımları özellik seçiminde kullanılmıştır. Önerilen hibrit
özellik seçimi yaklaşımının, sıradan ve saldırı kayıtlarını içeren ağ trafiği verileri için sınıflandırma görevine etkisini incelemeyi
amaçladık. Sonuçlar, önerilen yöntemin, 225.000'den fazla kaydı sınıflandırmada Lojistik Regresyon algoritması ile
uygulandığında yaklaşık %3'lük bir iyileşme sağladığını göstermektedir.