Dispersión: Suma de cuadrados, Desviación estándar y varianza
En esta entrada se ofrece una explicación básica de tres conceptos relacionados, la suma de cuadrados, la desviación estándar, y la varianza, medidas de dispersión comúnmente reportadas en investigación.
Mientras que los términos de varianza y desviación estándar son más conocidos incluso entre aquellos que se están iniciando en el mundo de la estadística aplicada, el concepto de suma de cuadrados (SS, del inglés «sum of squares») y el de cuadrado medio (MS, del inglés «mean square»), no lo son tanto y es por ello que comenzaré explicando estos dos conceptos y su relación con los otros dos primeros. Es importante conocer el significado de estos últimos ya que en múltiples análisis dentro del campo de los mínimos cuadrados ordinarios se hará referencia a ellos.
Vamos a partir de la siguiente muestra simulada de 10 sujetos, a los cuales se les ha medido el peso en kg:
$$Muestra = \{70, 72, 65, 60, 81, 77, 66, 63, 78, 58\}$$
$$\bar x = 69 kg$$
Si queremos saber como de dispersos están nuestros datos, cual es su «variabilidad», una opción es, a cada valor, restarle la media del conjunto. Sin embargo, si queremos obtener un estimador de la dispersión de nuestra muestra usando esas diferencias con respecto a la media y sumamos todos los valores, el valor resultante es cero:
$$Diferencias = \{1, 3, -4, -9, 12, 8, -3, -6, 9, -11\}$$
$$\sum_{i = 1}^{n} (x_i – \bar x) = 0$$
Para solventar este problema, lo que suele hacerse es elevar al cuadrado cada diferencia antes de proceder a su suma, como puede intuirse, este valor obtenido es al que denominados suma de cuadrados, ya que se están sumando los cuadrados de las diferencias:
$$SS = \sum_{i = 1}^{n} (x_i – \bar x)^2$$
$$SS = 1 + 9 + 16 + 81 + 144 + 64 + 9 + 36 + 81 + 121 = 562$$
No obstante, la suma de cuadrados también presenta un problema, es dependiente del número de valores del que disponemos, es decir, a mayor muestra mayor SS. Esto dificulta la utilización de la SS como un estimador de la dispersión de los datos a la hora de comparar distintas muestras. Es por ello que este valor se divide entre el número total de sujetos de la muestra, dando lugar a lo que se conoce como cuadrado medio:
$$MS = \frac{SS}{n} = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$
$$MS = \frac{562}{10} = 56.2$$
Esta fórmula puede que resulte familiar ya que, en efecto, es la misma fórmula que la de la varianza muestral (σ²), es decir, la varianza muestral y el cuadrado medio son lo mismo, pero con distinto nombre:
$$MS = \sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$
Finalmente, existe otra cuestión que debemos tener en cuenta y es que la varianza no se encuentra en las mismas unidades que los valores originales, pues se ha obtenido sumando los cuadrados. Para solventar este problema disponemos de otro estadístico, la desviación estándar muestral (σ), que se calcula como la raíz cuadrada de la varianza:
$$\sigma = \sqrt{\sigma^2} = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}} = \sqrt{56.2} = 7.50 kg$$
Las dos fórmulas descritas anteriormente para la varianza y desviación estándar, son para su cálculo para la muestra bajo análisis. Si lo que queremos es estimar los valores poblacionales a partir de una muestra, la fórmula varía ligeramente debido a que cambian los grados de libertad:
$$\sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}$$
$$\sigma = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}}$$
Estos estadísticos se suelen emplear como descriptores de dispersión en el caso de variables cuantitativas que presenten una distribución aproximadamente normal, así como para distintos cálculos bajo el modelo de mínimos cuadrados ordinarios.
Propiedades de la varianza
La varianza presenta algunas propiedades que es necesario conocer, para facilitar la comprensión posterior de algunos conceptos:
- El valor de la varianza es siempre igual o superior a cero.
$$\sigma^2 \geq 0$$
- La varianza de una constante es cero. Como su propio nombre indica, una constante no varía, no tiene variabilidad, «sus datos no varían». Como curiosidad, existe un error de denominación de las «constantes vitales», que no son realmente constantes.
$$\sigma^2(c) = 0$$
- Si multiplicamos todos los valores de una variable X por una constante entonces:
$$\sigma^2(X*c) = c^2*\sigma^2(X)$$
- La varianza de la suma o resta de dos variables (X e Y), con covarianza (Cov(X,Y)), es igual a:
$$\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y) + 2Cov(X,Y)$$
$$\sigma^2(X-Y) = \sigma^2(X) + \sigma^2(Y) – 2Cov(X,Y)$$
Esta última propiedad tiene especial importancia con respecto a la fiabilidad de las diferencias entre dos mediciones consecutivas en el tiempo, como son por ejemplo las diferencias post-tratamiento menos la medición basal, habitualmente utilizadas en los análisis de los ensayos clínicos aleatorizados del campo de la Fisioterapia.
Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …
Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …
Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …
Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …