Categorías
Descriptivos Temas Básicos

Suma Cuadrados Desviación Estándar y Varianza

Dispersión: Suma de cuadrados, Desviación estándar y varianza

En esta entrada se ofrece una explicación básica de tres conceptos relacionados, la suma de cuadrados, la desviación estándar, y la varianza, medidas de dispersión comúnmente reportadas en investigación.

Mientras que los términos de varianza y desviación estándar son más conocidos incluso entre aquellos que se están iniciando en el mundo de la estadística aplicada, el concepto de suma de cuadrados (SS, del inglés «sum of squares») y el de cuadrado medio (MS, del inglés «mean square»), no lo son tanto y es por ello que comenzaré explicando estos dos conceptos y su relación con los otros dos primeros. Es importante conocer el significado de estos últimos ya que en múltiples análisis dentro del campo de los mínimos cuadrados ordinarios se hará referencia a ellos.

Vamos a partir de la siguiente muestra simulada de 10 sujetos, a los cuales se les ha medido el peso en kg:

$$Muestra = \{70, 72, 65, 60, 81, 77, 66, 63, 78, 58\}$$

$$\bar x = 69 kg$$

Si queremos saber como de dispersos están nuestros datos, cual es su «variabilidad», una opción es, a cada valor, restarle la media del conjunto. Sin embargo, si queremos obtener un estimador de la dispersión de nuestra muestra usando esas diferencias con respecto a la media y sumamos todos los valores, el valor resultante es cero:

$$Diferencias = \{1, 3, -4, -9, 12, 8, -3, -6, 9, -11\}$$

$$\sum_{i = 1}^{n} (x_i – \bar x) = 0$$

Para solventar este problema, lo que suele hacerse es elevar al cuadrado cada diferencia antes de proceder a su suma, como puede intuirse, este valor obtenido es al que denominados suma de cuadrados, ya que se están sumando los cuadrados de las diferencias:

$$SS = \sum_{i = 1}^{n} (x_i – \bar x)^2$$

$$SS = 1 + 9 + 16 + 81 + 144 + 64 + 9 + 36 + 81 + 121 = 562$$

No obstante, la suma de cuadrados también presenta un problema, es dependiente del número de valores del que disponemos, es decir, a mayor muestra mayor SS. Esto dificulta la utilización de la SS como un estimador de la dispersión de los datos a la hora de comparar distintas muestras. Es por ello que este valor se divide entre el número total de sujetos de la muestra, dando lugar a lo que se conoce como cuadrado medio:

$$MS = \frac{SS}{n} = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

$$MS = \frac{562}{10} = 56.2$$

Esta fórmula puede que resulte familiar ya que, en efecto, es la misma fórmula que la de la varianza muestral (σ²), es decir, la varianza muestral y el cuadrado medio son lo mismo, pero con distinto nombre:

$$MS = \sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

Finalmente, existe otra cuestión que debemos tener en cuenta y es que la varianza no se encuentra en las mismas unidades que los valores originales, pues se ha obtenido sumando los cuadrados. Para solventar este problema disponemos de otro estadístico, la desviación estándar muestral (σ), que se calcula como la raíz cuadrada de la varianza:

$$\sigma = \sqrt{\sigma^2} = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}} = \sqrt{56.2} = 7.50 kg$$

Las dos fórmulas descritas anteriormente para la varianza y desviación estándar, son para su cálculo para la muestra bajo análisis. Si lo que queremos es estimar los valores poblacionales a partir de una muestra, la fórmula varía ligeramente debido a que cambian los grados de libertad:

$$\sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}$$

$$\sigma = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}}$$

Estos estadísticos se suelen emplear como descriptores de dispersión en el caso de variables cuantitativas que presenten una distribución aproximadamente normal, así como para distintos cálculos bajo el modelo de mínimos cuadrados ordinarios.

Propiedades de la varianza

La varianza presenta algunas propiedades que es necesario conocer, para facilitar la comprensión posterior de algunos conceptos:

  • El valor de la varianza es siempre igual o superior a cero.

$$\sigma^2 \geq 0$$

  • La varianza de una constante es cero. Como su propio nombre indica, una constante no varía, no tiene variabilidad, «sus datos no varían». Como curiosidad, existe un error de denominación de las «constantes vitales», que no son realmente constantes.

$$\sigma^2(c) = 0$$

  • Si multiplicamos todos los valores de una variable X por una constante entonces:

$$\sigma^2(X*c) = c^2*\sigma^2(X)$$

  • La varianza de la suma o resta de dos variables (X e Y), con covarianza (Cov(X,Y)), es igual a:

$$\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y) + 2Cov(X,Y)$$

$$\sigma^2(X-Y) = \sigma^2(X) + \sigma^2(Y) – 2Cov(X,Y)$$

Esta última propiedad tiene especial importancia con respecto a la fiabilidad de las diferencias entre dos mediciones consecutivas en el tiempo, como son por ejemplo las diferencias post-tratamiento menos la medición basal, habitualmente utilizadas en los análisis de los ensayos clínicos aleatorizados del campo de la Fisioterapia.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Descriptivos Temas Básicos

Tendencia Central: Media

Tendencia central: la media

La media es uno de los estadísticos descriptivos de tendencia central más utilizados y cuyo entendimiento es crucial para la interpretación de una gran cantidad de análisis estadísticos.

En lenguaje común, cuando hablamos de «la media» estamos haciendo normalmente referencia a la medía aritmética. Sin embargo, existen otros tipos de medias, como la geométrica o la armónica, que no se verán en esta entrada. De ahora en adelante, en el resto de entradas, se asumirá que cuando se haga referencia a «la media» se está hablando siempre de la media aritmética.

Dentro del abanico de medidas de tendencia central, la media aritmética es una de las más utilizadas. Múltiples análisis estadísticos como la prueba t-Student, una regresión lineal o los Análisis de la Varianza (ANOVA), se basan en el uso de la media como estimador de tendencia central. Es por ello que es necesaria una buena comprensión de este concepto para poder interpretar adecuadamente dichos análisis. La fórmula de la media aritmética de una muestra sería la siguiente:

$$\bar x = \frac{\sum_{i=1}^{n} x_i}{n}$$

Sería por tanto, el sumatorio de todos los valores de una muestra entre el número total de valores presentes en la misma. Por su parte, la fórmula de la media aritmética de una población, estimada a partir de una muestra, se expresaría como:

$$\mu = \frac{\sum_{i=1}^{n} x_i}{n}$$

Es decir, la media aritmética muestral es un estimador directo de la media aritmética poblacional, a diferencia de la desviación estándar, donde la fórmula difiere ligeramente en el caso de la muestra y el de la estimación poblacional.

Asunciones para el uso de la media

La media aritmética se basa en el método de mínimos cuadrados ordinarioses decir, el uso de la media como estimador del valor de cualquier sujeto de la muestra, disminuye al mínimo la suma de cuadrados. Estas condiciones serían las siguientes:

  • La distribución de los datos es continua.
  • La distribución de los datos es simétrica.

La media es especialmente sensible a la presencia de valores atípicos, Por ejemplo, si tenemos una muestra A, simétrica y sin valores atípicos, la presencia de 1 solo valor atípico que produzca una asimetría (muestra B), induce cambios considerables en el valor de la media aritmética:

$$A = \{2,2,3,4,5,6,7,8,8\}$$

$$\bar x_A = 5$$

$$B = \{2,2,3,4,5,6,7,8,31\}$$

$$\bar x_B = 7.56$$

Es por ello que debemos evaluar cuidadosamente si la media es una buena medida de tendencia central para nuestros datos, pues la utilización de la misma en casos en que no esté indicado, puede llevar a errores notorios de interpretación. En una investigación, esta presencia de valores atípicos suele evaluarse previa realización de los análisis estadísticos, para tomar las decisiones más acertadas con respecto a como tratar los mismos para evitar tales malinterpretaciones.

Propiedades de la media

Algunas propiedades básicas de la media son:

  • No tiene porqué corresponderse con ningún valor de la muestra.

Este es un punto muy relevante, pues es un error frecuente atribuir el resultado de una diferencia de medias entre dos intervenciones en un ensayo clínico, a los sujetos individuales vistos en la práctica clínica. Las medias sirven para reflejar la tendencia central de una muestra, pero no deben ser utilizadas para interpretar valores individuales, es decir, no podemos extrapolar una diferencia media a un paciente que vemos el lunes en la consulta. Lo sencillo es «predecir» comportamientos muestrales o poblacionales, pero realizar predicciones (por ejemplo de mejoría con una intervención) a sujetos individuales, es una tarea ardua. 

  • No tiene porqué ser un número entero, aunque todos los valores de la muestra si lo sean.
  • No tiene porqué dividir la muestra en dos mitades iguales, es decir, en la mayoría de casos, es falso afirmar que por encima de la media se encuentran la mitad de los valores.
  • La media presenta las mismas unidades que los valores utilizados para su cálculo. Es decir, si usamos valores de peso (kg) para calcular la media, la media estará en kilogramos también.

Otras dos propiedades útiles a conocer serían:

  • Si sumamos una constante a todos los valores de una muestra, la media resultante es igual a la media original más dicha constante:

$$\bar x_{i+k} = \frac{\sum_{i=1}^{n} (x_i + k)}{n} = \frac{\sum_{i=1}^{n} x_i }{n} + k$$

  • La media de la suma o resta de dos muestras con las mismas unidades, es igual a la suma o resta de sus respectivas medias:

$$\bar x_{a \pm b} = \bar x_a \pm \bar x_b$$

Finalmente, también debemos tener en cuenta que las proporciones son medias. Imaginemos que tenemos una muestra de 10 sujetos, que pueden o no presentar dolor de hombro. En este caso, 5 sujetos presentan dolor de hombro, de modo que la frecuencia (prevalencia) es de 0.50. Si adjudicamos el valor 1 a los sujetos con dolor de hombro y el valor 0 a los que no tienen dolor, tendríamos la siguiente representación de dicha muestra:

$$ Muestra = \{1,0,1,1,0,1,0,0,0,1\}$$

Si aplicamos la fórmula de la media mencionada al inicio, entonces tenemos que la media de dicha muestra sería:

$$\bar x = \frac{1+0+1+1+0+1+0+0+0+1}{10}= \frac{5}{10}= 0.50$$

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …