Detektering av dataanomalier – vad, varför och hur?

Detektering av dataanomalier identifierar ovanliga mönster som avviker från förväntat beteende, kända som outliers. Tillämpningar spänner över intrångsdetektering, systemhälsoövervakning, bedrägeridetektering och felidentifiering.

Anomalier faller i tre typer: punktanomalier uppstår när enskilda instanser avviker avsevärt från resten. Kontextuella anomalier är avvikelser specifika för särskilda förhållanden, vanliga i tidsseriedata. Kollektiva anomalier involverar grupper av instanser som tillsammans indikerar onormalt beteende.

Anomalidetektering skiljer sig från relaterade begrepp. Nyhetsdetektering identifierar specifikt oobserverade mönster i ny data som inte setts under träning. Brusreducering eliminerar oönskade signaler från meningsfull data.

Maskininlärningsmetoder för anomalidetektering faller i tre kategorier baserat på tillgänglighet av etiketter. Övervakade metoder kräver exakt märkt träningsdata för både normala och anomala instanser men möter utmaningar att erhålla representativa anomaliexempel. Halvövervakade tekniker antar att träningsdata bara innehåller normala klassetiketter, vilket gör dem brett tillämpbara. Oövervakade metoder, som inte kräver träningsetiketter, är vanligast använda och antar att hela datamängder till största delen innehåller normalt beteende.

Klusteralgoritmer lämpar sig för anomalidetektering. DBSCAN, ett täthetsbaserat tillvägagångssätt, identifierar täta regioner som kluster medan glesa punkter markeras som anomalier. Gaussiska blandningsmodeller använder probabilistiska metoder med EM-algoritmer för att återskapa underliggande fördelningar.

K-Means-klustring visar sig olämplig för anomalidetektering eftersom den tvingar alla punkter till kluster och potentiellt inkorporerar anomalier som förvränger klusterparametrar. Detta kan förhindra detektering av äkta anomalier i testdata.

Detektering av dataanomalier – vad, varför och hur?

Relaterade artiklar

Datamodellering: Varför är det viktigt?

Hur man bygger ett helt nytt data science-team och undviker misslyckanden

Översikt av de kraftfullaste anpassade visualiseringarna i Power BI