Erregresioa (estatistika)

Estatistikan, erregresioa edo erregresio-analisia aldagai dependente batek aldagai independente batekin edo batzuekin duen erlazioaren parametroak zehaztu eta erlazio estatistiko horren ezaugarriak aztertzen dituzten teknika estatistikoen multzoa da, aldagai dependente eta independenteei buruz jaso diren datuetatik abiatuta. Adibidez, eguneko tenperatura maximoari eta denda bateko izozki-salmentei buruzko datuak jasota, tenperatura eta salmentak lotzen dituen erlazio estatistikoa zehazteko erabiltzen da erregresioa.

Erregresoreak

Erregresoreak erregresioan independentetzat hartzen diren aldagaiak dira. Erregresore kopuruaren arabera, erregresio mota hauek bereizten dira:

  • ¬†erregresio bakuna edo sinplea, (ingelesez, simple regression) aldagai independente bakarra barnehartzen duena (Y=a+bX, esaterako);
  • erregresio anizkoitza (ingelesez, multiple regression) aldagai independente anitz hartzen dituena (Y=a+b_1X_1+b_2X_2+\ldots+b_nX_n, esaterako);
  • erregresio orokorra edo aldagai anitzekoa (ingelesez, general regression, multivariate regression), aldagai dependente anitz daudenean, erregresore berdinekin lotzen direnak.

Erregresioa erlazio-motaren arabera

Aldagai dependentearen eta erregresoreen artean aurrez ezartzen den eredu edo erlazioaren arabera, honako erregresio hauek bereizten dira:

  • erregresio lineala, aldagai dependentearen eta erregresoeen artean ezartzen den erlazioa lineala denean, Y=a+b_1X_1+b_2X_2+\ldots+b_nX_n erakoa alegia;
  • erregresio ez lineala, aldagai dependentearen eta erregresorren arteko erlazioa linealtzat hartzen ez denean;
  • ohartu behar da erlazio ez lineal batzuk lineal bihurtu daitezkeela, aldakuntza egokien bitartez; adibidez, honako erlazio hau linealtzat hartzen da, matematikoki polinomioa den arren, erregresoretzat aldagai indepedente bakarraren¬†X, X^2, \ldots, X_n berreketak hartuz: Y=a+b_1X+b_2X^2+\ldots+b_nX^n
  • jasotako datuak esploratuta erlazio ez lineala egokiagoa dirudien arren, askotan eredu linealak hobesten dira sinpleagoak direlako; beste alde batetik, eredu ez linealetan ere, parametro gutxiago barnehartzen dituzten ereduak hobesten dira, parsimonia printzipioari jarraiki, hau da, sinpletasun hutsagatik (estatistikan, parametro gutxiko eredu batean askatasun-maila kopurua handiagoa dela esaten da).

Erregresio-eredua: zorizkotasunaren tratamendua

Erregresioan aztertzen diren erlazioak ez dira matematikoak, estatistikoak baizik; hau da, zorizkotasuna, eta ondorioz errorea, onartu egiten dira. Orokorrean, baina ez beti, erregresio-ereduetan erregresoreak finkoak eta ezagunak direla suposatzen da, ez zorizkoak; eta zorizkotzat hartzen dena aldagai dependentea da, haren aldakortasuna aztergai dugun aldagaia hain zuzen. Adibidez, har ditzagun publizitate-gastua enpresa batean eta salmentak: publizitate-gastua ez da zorizkoa, enpresak erabaki eta guztiz kontrolatu egiten duelako; salmentak dira zorizkoak edo aldakorrak, publizitate-gastu ezberdinetarako, kontuan hartu ez diren beste faktoreengatik edo zorizkotasun garbi batengatik; beste egoera batzuetan, ordea, erregresoaren zorizkotasuna aldagai dependentera eramaten da, hori baita aztertu nahi den aldagaia; adibidez, har dezagun tenperatura maximoa egun batean eta izozki-salmentak denda batean: tenperatura zorizkoa da, baina finko edo konstantetzat hartzen da, eta salmentekin loturik dagoenez, azkenean salmentak dira zorizkoak baina berez zorizkoak diren tenperaturen kausaz.