Sentiment Analizinde Öznitelik Düşürme Yöntemlerinin Oto Kodlayıcılı Derin Öğrenme Makinaları ile Karşılaştırılması
Özet
-- Günümüz teknolojisinde internetin her kesim tarafından çok yoğun olarak kullanılmasından dolayı insanlar artık görüş, fikir ve hislerini sosyal paylaşım siteleri, forum, blog benzeri birçok ortam aracılığı ile paylaşmaya başlamıştır. Ancak her geçen gün artan veri sayısı ve boyutu, bu verilerden manuel olarak anlamlı bilgiler çıkartılmasını çok zahmetli ve pahalı bir iş haline getirmektedir. Otomatik olarak verinin duygu içerip içermediğinin saptanması ve bu duygunun olumlu, olumsuz veya tarafsız olma durumunun belirlenmesi duygu analizi yardımıyla gerçekleştirilmektedir. Duygu düşünce analizinde, konuşma dilinin karmaşıklığı, değerlendirilen metin sayısının fazlalığı ve uzunluğu, çok sayıda gereksiz ve gürültü içeren öznitelik vektörüne neden olmaktadır. Boyut problemi olarak adlandırılan bu durum hesaplama zamanın artmasına ve sınıflama hatalarına yol açmaktadır. Bu çalışmada ise bahsedilen problemlere çözüm olarak önerilen derin öğrenme tabanlı oto kodlayıcı (Autoencoder) modeli ile gürültü giderici oto kodlayıcı (Denoising Autoencoder) modeli boyut düşürme tekniği olarak kullanılmış ve literatürde yaygın olarak kullanılan diğer boyut düşürme teknikleri ile kıyaslanmıştır. Elde edilen tüm veri setleri için sınıflama algoritması olarak Destek Vektör Makinaları ve Yapay Sinir Ağları kullanan farklı modeller geliştirilmiştir. Yapılan analizlerin sonucunda, boyut düşürme tekniklerinin duygu analizi için elde edilen sonuçları iyileştirdiği, önerilen oto kodlayıcı modellerinin ise var olan tekniklere benzer ya da onlardan daha iyi sonuçlar aldığı gözlemlenmiştir — Because the internet is extensively used by people from all strata with today's technology, people now share their opinions, ideas and feelings through a variety of media such as social networking sites, forums and blogs. However, the number and size of data that is increasing day by day makes it very laborious and expensive to extract meaningful information manually from these data. Determination of whether data includes emotions or not automatically and determination of these feelings being positive, negative and neutral are performed by sentiment analysis. In sentiment analysis, the complexity of the speech language, the excessive number and length of texts being evaluated causes a large number of unnecessary and noise-containing feature vectors. This situation, which is called dimensionality problem, leads to increase of computation time and classification errors. In this study, a deep autoencoder model and a denoising autoencoder model are proposed and used as dimension reduction methods to overcome mentioned problems and compared with other feature reduction methods commonly used in literature. For all data sets obtained, different models have been developed using Support Vector Machines and Artificial Neural Networks as the classification algorithm. According to the analyses made, it has been observed that the feature reduction methods improve the results obtained of sentiment analysis, and the proposed autoencoder models have similar or better results than the existing methods