Desbideratze estandarra

Desbideratze estandarra datu-multzo batean datuak batezbestekotik orokorrean zenbat desbideratzen diren adierazten duen neurri estatistiko bat da; beraz, datuen sakabanatzea neurtzen du. Adibidez, datuak 2 eta 4 izanik, batezbesteko aritmetikoa 3 da, eta desbideratze estandarra 1, datuak batezbesteko horretatik 1eko distantziara daudelako. Bariantzaren, maiz erabiltzen den beste sakabanatze-neurri baten, erro karratua ere bada.

Sakabanatzea neurtzeaz gainera, banakako datuak lagin osoaren adierazgarri zenbaterain diren neurtzen du desbideratze estandarrak (desbideratzea zenbat eta handiagoa, banakako datuek orduan eta adierazgarritasun txikiagoa dute laginean). Inferentzia estatistikoan konfiantza-tarteak eratu eta hipotesi-froga estatistikoak ebazteko ere erabiltzen da. Adibidez, zenbatesle baten desbideratze estandarra lagin-tamainarekin loturik dago orokorrean: zenbat eta lagin-tamaina handiagoa izan, zenbateslearen desbideratze estandarra orduan eta txikiagoa da, eta beraz egindako zenbatespen edo estimazioa, konfiantza-tartearen bitartez, txikiagoa izango da.

Kalkulua

Bi desbideratze estandar bereizten dira estatistikan: populazio-desbideratze estandarra eta lagin-desbideratze estandarra edo desbideratze zuzendua. Populazio-desbideratze estandarrak datuen desbideratze kalkulatzen du, datu horiek populazioa osatzen dutelakoan eta ez lagin bat, eta beraz ez du kontuan hartzen lagin-errorea; honela kalkulatzen da x_1,x_2,\ldots,x_n datuetarako:

    \[s_x=\sqrt{\frac{\sum_i(x_i-\overline{x})^2}{n}}=\sqrt{\frac{\sum_i(x_i^2}{n}-\overline{x}^2}\]

Lagin-desbideratze estandarrak, berriz, datuek lagin bat osatu eta beraz populazio zabalago baten desbideratze-estandarra zenbatetsi edo estimatzeko erabiltzen da; beraz, lagin-errorea izango du. Froga daitekeenez, populazio-desbideratze estandarra estimatzeko orokorrean errore txikiena ematen duen formula hau da, n lagin-tamaina izanik:

    \[\hat{s}_x=\sqrt{\frac{\sum_i(x_i-\overline{x})^2}{n-1}}\]

Ikusten denez, n lagin-tamaina handietarako ez dago alde handirik bi formulen artean, baina lagin-tamaina txikietan aldea nabarmena da. Desbideratze zuzendua beti handiagoa da populazio-desbideratzea baino.

Adibidez, 4-4-6-8-3 datuetarako, honela kalkulatuko genuke:

    \[ \begin{center} \begin{tabular}{|c|c|} \hline $x_i$ & $(x_i-\overline{x})^2$ \\ \hline 7 & 9 \\ 9 & 1 \\ 9 & 1 \\ 10 & 0 \\ 15 & 25 \\ \hline 50 &  36\\ \hline \end{tabular} \end{center} \]

    \[n=5\]

    \[\overline{x}=\frac{50}{5}=10\]

    \[s_x=\sqrt{36}{5}=2.68\]

    \[s_x=\sqrt{36}{4}=3\]

Ikus, gainera