Bariantza

Bariantza aldagai estatistiko bakun baten sakabanatzea, datuen arteko gorabehera alegia, adierazten duen neurri bat da.  Probabilitate-banakuntzetan ere, sakabanatzea neurtzeko erabiltzen da, beste era batera kalkulatuta. Horretaz gainera, ohiko parametroa da eredu estatistikoetan, beste parametro batzuekin batera eredua erabat zehazteko. Gainera, estatistika-teknika askotan bariantzan oinarritzen dira, bariantza-analisian esaterako, non aztertutako faktoreek aldagai batean duten eraginaren ebaluazioa bariantzetan oinarritzen den.

Kalkulua datuetarako: populazio-bariantza

Adibidez, x_1,\ x_2,\ldots,x_n datuetarako honela kalkulatzen da:

    \[s_x^2=\frac{\sum_i(x_i-\overline{x})^2}{n}\]

Honela garatzen da kalkulua formula horrekin:

  1. Batezbesteko aritmetiko sinplea kalkulatu.
  2. Datu bakoitzetik \overline{x} batezbesteko aritmetiko sinplera dagoen (x_i-\overline{x})^2 distantzia karratua kalkulatu
  3. Distantzia karratu horien batezbestekoa kalkulatu.

Horren arabera, bariantza zenbat eta handiagoa izan, datuak batezbestekotik desbideratzen diren magnitudea orduan eta handiagoa da, eta sakabanatzea ere bai. Dena den, sakabanatze-neurri gisa bariantzaren erro karratua ere erabiltzen da, s_x adierazi eta desbideratze estandarra deitzen dena, eta datu bakoitza batezbestekotik batezbestez zenbat desbideratzen den adierazten duena.

Kalkuluak eskuz egiterakoan, ohikoa da bariantzarako beste formula hau erabiltzea, jatorriko formulatik eratortzen dena:

    \[s_x^2=\frac{\sum_ix_i^2}{n}-\overline{x}^2\]

Populazio-bariantza eta lagin-bariantza

Lagin-datuetatik kalkulaturiko estatistikoak populazioaren parametroak estimatzeko erabiltzen direnean, estatistiko horiek errore txikia izan eta parametroen egiazko baina ezezaguna den baliora ahalik eta gehien hurbiltzea bilatzen da. Aurreko ataleko bariantzaren formulak populazioaren bariantza estimatzean errore sistematiko bat dakarrela froga daiteke. Errore sistematiko hori zuzentzeko, bariantzaren honako formula erabiltzen da:

    \[\hat{s}_x^2=\frac{\sum_i(x_i-\overline{x})^2}{n-1}\]

Bariantza zuzendu honi lagin-bariantza deitzen zaio, lagin bateko datuetatik populazioaren bariantza estimatzeko formula egokiena delako. Zuzendu gabeko s_x^2 formulari, berriz, populazio-bariantza deitzen zaio, datuak populaziotzat hartu eta, beraz, bariantzaren kalkuluan estimazio-errorerik ez dagoenean erabiltzen baita.

Aise igarotzen da populazio-bariantzatik lagin-bariantzara, eta alderantziz, erlazio honen bitartez:

    \[\hat{s}_x^2=\frac{n}{n-1}s_x^2\]

Ikusten denez, lagin-tamaina handia zenbat eta handiagoa izan, orduan eta alde txikiagoa dago lagin-bariantzaren eta populazio-bariantzaren artean.

Populazio-bariantzarako s_{n}^2 eta lagin-bariantzarako s_{n-1}^2 adierazpenak ere erabiltzen dira.

Adibide bat

Lantegi batean, langileen lagin bat aukeratu eta horien adinak jaso dira: 22, 25, 28, 26, 24. Populazio-bariantza eta lagin-bariantza kalkulatu behar dira. Horretarako, kalkulurako taula hau eratzen da:

Azken errenkadako baturak harturik, kalkula dezagun lehenbizi populazio-bariantza (langile horien bariantza, besterik gabe, lantegi osoko langileei - populazio osoari - erreferentzia egin gabe):

    \[\overline{x}=\frac{125}{5}=25\ urte\]

    \[s_x^2=\frac{20}{5}=4\ urte^2\]

Edota formula eratorriarekin kalkulaturik: s_x^2=\frac{3145}{5}-25^2=4\ urte^2

Lagin-bariantza, berriz, hau izango da: \hat{s}_x^2=\frac{20}{5-1}=5\ urte^2

Edota populazio-bariantzatik eratorrita: \hat{s}_x^2=\frac54 \times 4=5\ urte^2