Global Studies on Management Information Systems
An Investigation of Anomaly Detection Methods in Machine Learning for High Dimensional Datasets
Şenol EmirAnomaly detection is defined as the detection of observations that differ significantly from others. These are observations that are incompatible with the rest of the dataset in a way that it is suspected another mechanism has generated them. Anomalies are very rare observations by nature. Generally, they are sensor or human-caused, such as measurement or recording errors, but sometimes, they may show a significant underlying problem or an unexpected condition. Studies on this subject are examined under different names, such as novelty detection, outlier detection, noise detection, deviation detection, exception mining, or outlier mining. In practice, anomaly detection is used for different purposes, such as fault diagnosis, healthcare informatics/medical diagnostics, fraud detection, intrusion detection, activity monitoring, and novel topic detection in text mining. While visualization and classical statistical methods are sufficient for low-dimensional datasets, for high-dimensional datasets numerous machine learning-based methods have been developed. In this study, three different anomaly detection methods are presented in detail to show the differences in their approach to the problem. For that purpose, theoretical aspects of the Local Outlier Factor which is a density-based method, Isolation Forests which is an ensemble method based on Random Forests, and One-Class Support Vector Machines methods are examined. Implementation details of these methods in the scikit-learn (a popular Python-based machine learning library) are given.
Yüksek Boyutlu Veri Kümeleri İçin Makine Öğreniminde Anomali Saptama Yöntemlerinin İncelenmesi
Şenol EmirAnomali tespiti, diğerlerinden belirgin biçimde farklı olan gözlemlerin tespiti olarak tanımlanabilir. Bu gözlemler, başka bir mekanizmanın bunları oluşturduğundan şüphelenilecek derecede veri kümesinin geri kalanıyla uyumsuzdurlar. Anomaliler doğası gereği çok nadir görülen gözlemlerdir. Genellikle, ölçüm, kayıt hataları gibi sensör veya insan kaynaklıdırlar, ancak bazen altta yatan önemli bir sorunu veya beklenmeyen bir durumu gösterebilirler. Bu konudaki çalışmalar yenilik tespiti, aykırı değer tespiti, gürültü tespiti, sapma tespiti, istisna madenciliği veya aykırı değer madenciliği gibi farklı isimler altında incelenmektedir. Uygulamada anomali tespiti, arıza teşhisi, sağlık bilişimi / tıbbi teşhis, dolandırıcılık tespiti, izinsiz giriş tespiti, etkinlik izleme ve metin madenciliğinde yeni konu tespiti gibi farklı amaçlar için kullanılmaktadır. Düşük boyutlu veri kümeleri için görselleştirme ve klasik istatistiksel yöntemler yeterli olsa da yüksek boyutlu veri kümeleri için makine öğrenimine dayalı yöntemler geliştirilmiştir. Bu çalışmada, soruna yaklaşımlarındaki farklılıkları göstermek için üç farklı anomali tespit yöntemi ayrıntılı olarak sunulmuştur. Bu amaçla, yoğunluğa dayalı bir yöntem olan Local Outlier Factor, Random Forest yöntemine dayalı bir topluluk yöntemi olan Isolation Forest ve One-Class Support Vector Machines yöntemlerinin teorik yönleri incelenmiştir. Ayrıca bu yöntemlerin uygulama detayları popüler bir Python tabanlı makine öğrenme kütüphanesi olan scikit-learn üzerinde gösterilmiştir.