Datu atipikoak

Estatistikan, datu atipikoak (ingelesez, outlier) datu gehienen balioetatik aldentzen diren datuak dira, datuak sortu dituen eredu estatistikoaren ohiko aldakortasunagatik (adibidez, gerta liteke pertsona heldu baten altuera 214 cm izatea, eta gertatzen denean harrigarria bada ere, altuera normalen artean neurri horretako altuerak suertatzen diranoizean behin), beste populazio bateko datuak jasotzeagatik (adibidez, altuera bat 110 cm izatea ezin dugu normaltzat jo, eta pertsona hori nanoen taldera bildu behar dugu) edo datu-bilketan eta prozesatzean erroreak izateagatik (datuak jasotzeko esperimentua gaizki burutu izana, adibidez).

Datu atipikoak arazoak sor ditzakete teknika estatistikoen aplikazioan, emaitzak distortsionatu egiten dituztelako maiz. Horregatik, garrantzitsua da datu atipikoak hautemateko teknikak garatu eta datu horiekin nola jokatu kontuz erabakitzea. Datu atipikoak hautemateko tekniken artean beste datuetatiko distantzian oinarritzen direnak (distantzia batetik urrunago dauden datuak hartzen dira atipikotzat, irizpide objektiboei jarraiki) eta datu-multzokatzean oinarritzen direnak (datuak bi kluster edo multzotan bereiziz, eta datu-multzo txikiena atipikotzat hartuz). Datu atipikoak zein diren erabakita, irtenbide zenbait daude aurrera egin eta teknika estatistikoak aplikatu ahal izateko; alde batetik, datuak ezabatu egin daitezke datu-multzotik, eta bestetik metodo estatistiko sendoak erabil daitezke, datu atipikoak barneratuz, datu horien eragina mugatzeko.