Wykrywanie anomalii w danych – co, dlaczego i jak?
Autor: Idego Group

Wykrywanie anomalii w danych identyfikuje nietypowe wzorce odbiegające od oczekiwanego zachowania, znane jako wartości odstające. Zastosowania obejmują wykrywanie intruzji, monitorowanie stanu systemu, wykrywanie oszustw i identyfikację usterek.
Anomalie dzielą się na trzy typy: anomalie punktowe występują, gdy pojedyncze instancje znacznie odbiegają od pozostałych. Anomalie kontekstowe to odchylenia charakterystyczne dla określonych warunków, powszechne w danych szeregów czasowych. Anomalie zbiorcze dotyczą grup instancji, które razem wskazują na nieprawidłowe zachowanie.
Wykrywanie anomalii różni się od powiązanych pojęć. Wykrywanie nowości identyfikuje konkretnie niezaobserwowane wzorce w nowych danych niewidocznych podczas trenowania. Usuwanie szumu eliminuje niechciane sygnały z istotnych danych.
Podejścia uczenia maszynowego do wykrywania anomalii dzielą się na trzy kategorie w zależności od dostępności etykiet. Metody nadzorowane wymagają dokładnie oznakowanych danych treningowych dla instancji normalnych i anomalnych, ale napotykają trudności w uzyskaniu reprezentatywnych przykładów anomalii. Techniki półnadzorowane zakładają obecność tylko etykiet klasy normalnej w danych treningowych, co czyni je szeroko stosowalnymi. Metody nienadzorowane, niewymagające etykiet treningowych, są najczęściej stosowane i zakładają, że całe zestawy danych zawierają głównie normalne zachowania.
Algorytmy klastrowania nadają się do wykrywania anomalii. DBSCAN, podejście oparte na gęstości, identyfikuje regiony o wysokiej gęstości jako klastry, oznaczając rzadkie punkty jako anomalie. Modele mieszanki Gaussa wykorzystują podejście probabilistyczne z algorytmami oczekiwanie-maksymalizacja do odtwarzania leżących u podstaw rozkładów.
Klastrowanie K-Means okazuje się nieodpowiednie do wykrywania anomalii, ponieważ przypisuje wszystkie punkty do klastrów, potencjalnie włączając anomalie, które zniekształcają parametry klastrów. Może to uniemożliwić wykrycie prawdziwych anomalii w danych testowych.