A NEW RATIONAL CLASSIFICATION APPROACH BY THE NEW MIXED DATA BINARIZATION METHOD
Özet
Classification algorithm is a supervised learning technique that is used to identify
the category of new observations. However, in some cases, quantitative and
qualitative data must be used together. With this approach, we tried to overcome
the problems encountered in using quantitative and qualitative data together. In this
paper, we model a new classification technique by converting all types of data to
binary data because in the real world, data are classified in different types such as
binary, numeric, or categorical. By this way, we develop a more accurate and
efficient mixed data binarization approach for multi-attribute data classification
problems. First, we determine the classes from available dataset and then we
classify the new instances into these predetermined classes by using the new
proposed data binarization approach. We show how each step of this algorithm
could be performed efficiently with a numeric example. Then, we apply the
proposed approach on a well-known iris dataset and our model show promising
results and improvements over previous approaches. Sınıflandırma algoritması, yeni gözlemlerin kategorisini belirlemek için kullanılan
denetimli bir öğrenme tekniğidir. Ancak bazı durumlarda nicel ve nitel verilerin
birlikte kullanılması gerekir. Bu yaklaşımla nicel ve nitel verilerin birlikte
kullanılmasında karşılaşılan sorunlar aşılmaya çalışılmıştır. Bu çalışmada, gerçek
dünyada veriler ikili, sayısal veya kategorik gibi farklı türlerde sınıflandırıldığından,
tüm veri türlerini ikili verilere dönüştürerek yeni bir sınıflandırma tekniği
modellenmektedir. Bu sayede çok özellikli veri sınıflandırma problemleri için daha
doğru ve verimli bir karma veri ikilileştirme yaklaşımı geliştirilmiştir. Öncelikle
mevcut veri setinden sınıfları belirlenmektedir ve ardından yeni önerilen veri
ikilileştirme yaklaşımını kullanarak yeni örnekleri bu önceden belirlenmiş sınıflara
sınıflandırılmaktadır. Bu algoritmanın her adımının nasıl verimli bir şekilde
gerçekleştirilebileceğini sayısal bir örnekle gösterilmiştir. Ardından, önerilen
yaklaşımı iyi bilinen bir iris veri kümesine uygulamış ve modelimiz önceki
yaklaşımlara göre umut verici sonuçlar ve iyileştirmeler verdiği gösterilmiştir.