Datenanomalie-Erkennung – Was, warum und wie?
Von Idego Group

Datenanomalie-Erkennung identifiziert ungewöhnliche Muster, die vom erwarteten Verhalten abweichen, bekannt als Ausreißer. Anwendungen umfassen Einbruchserkennung, Systemgesundheitsüberwachung, Betrugserkennung und Fehleridentifikation.
Anomalien lassen sich in drei Typen einteilen: Punktanomalien treten auf, wenn einzelne Instanzen erheblich vom Rest abweichen. Kontextuelle Anomalien sind Auffälligkeiten, die spezifisch für bestimmte Bedingungen sind, häufig in Zeitreihendaten. Kollektive Anomalien umfassen Gruppen von Instanzen, die zusammen auf anormales Verhalten hinweisen.
Anomalieerkennung unterscheidet sich von verwandten Konzepten. Neuheitserkennung identifiziert speziell unbeobachtete Muster in neuen Daten, die beim Training nicht gesehen wurden. Rauschentfernung eliminiert unerwünschte Signale aus bedeutungsvollen Daten.
Machine-Learning-Ansätze zur Anomalieerkennung fallen je nach Labelingverfügbarkeit in drei Kategorien. Überwachte Methoden erfordern genau gelabelte Trainingsdaten für normale und anomale Instanzen, stehen aber vor Herausforderungen beim Erhalt repräsentativer Anomaliebeispiele. Halbüberwachte Techniken nehmen an, dass die Trainingsdaten nur normale Klassenlabels enthalten, was sie weit anwendbar macht. Unüberwachte Methoden, die keine Trainingslabels benötigen, werden am häufigsten verwendet und nehmen an, dass gesamte Datensätze hauptsächlich normales Verhalten enthalten.
Clustering-Algorithmen eignen sich zur Anomalieerkennung. DBSCAN, ein dichtebasierter Ansatz, identifiziert Regionen hoher Dichte als Cluster, während spärliche Punkte als Anomalien markiert werden. Gausssche Mischungsmodelle verwenden probabilistische Ansätze mit Erwartungs-Maximierungs-Algorithmen zur Rekonstruktion zugrundeliegender Verteilungen.
K-Means-Clustering erweist sich als ungeeignet für die Anomalieerkennung, da es alle Punkte in Cluster zwingt und dabei möglicherweise Anomalien einbezieht, die Clusterparameter verzerren. Dies kann die Erkennung echter Anomalien in Testdaten verhindern.