Categorías
Inferencias Temas Básicos

Grados de Libertad

Grados de libertad: Definición simple

En los distintos análisis estadísticos que se nombran en la presente página y los estudios de investigación, aparece un concepto asociado a los mismos, el de los grados de libertad. En esta entrada se ofrece una explicación sencilla de dicho concepto para facilitar la comprensión del mismo en análisis más complejos.

La manera más sencilla de comprender el concepto de grados de libertad es utilizando como ejemplo la estimación de la desviación estándar poblacional a partir de una muestra. Como su propio nombre indica, los grados de libertad de un determinado estadístico son el número de valores utilizados para su cálculo que pueden variar libremente, antes de que el resto de valores se vean forzados a unos concretos sin disponer de dicha libertad de variación. Estos grados de libertad se utilizan, entre otras cosas, en los cálculos de los famosos valores-p y por ello se reportan en los resultados de múltiples análisis estadísticos en investigación, para facilitar la reproducibilidad de los mismos y con una finalidad de transparencia, para que el lector pueda corroborar que efectivamente, el valor-p asociado a ese determinado valor del estadístico en ese estudio, con ese tamaño muestral y esas características del análisis, ese el reportado por sus autores.

La fórmula de la desviación estándar de una muestra es la siguiente:

$$s = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n}}$$

Sin embargo, cuando lo que queremos es estimar la desviación estándar poblacional a partir de una muestra, la fórmula a utilizar es la siguiente:

$$\sigma = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n-1}}$$

En ambos casos, el denominador serían los grados de libertad, aunque donde tiene más sentido utilizar este término es en la segunda fórmula de estimación del valor poblacional a partir de una muestra. En el primer caso, como estamos calculando simplemente el valor de la muestra, los grados de libertad son iguales al número de sujetos, ya que cada sujeto puede tomar un valor libremente de la variable bajo estudio. Sin embargo, en el segundo caso, donde estamos estimando el valor poblacional, esto ya no se cumple.

Para entender el motivo de ese n-1 de la segunda formula, debemos primero conocer que, la media muestral, es un estimador directo de la media poblacional, es decir, asumimos que:

$$\bar x = \mu$$

Imaginemos que tenemos una población con una estatura media de 170cm. Ahora, seleccionamos una muestra de 10 sujetos mediante la que vamos a estimar la desviación estándar poblacional. Medimos a los primeros 9 sujetos, que pueden tomar valores que varían libremente, pudiendo ser:

$$Muestra = \{171, 174, 166, 178, 169, 158, 165, 164, 181, X_{10}\}$$

Para el cálculo de la desviación estándar poblacional se utiliza la media, tal y como se muestra en la fórmula anteriormente mencionada. Como hemos asumido que la media muestral es un estimador directo de la media poblacional, entonces la media muestral debería tener un valor de 170. De esta asunción se llega a la conclusión de que, como la media ya la hemos fijado antes del cálculo de la estimación de la desviación estándar, el valor de estatura del sujeto número 10 no puede variar libremente, ya que como la media ha de ser 170, el valor de este sujeto esta condicionado por los valores de los otros 9 sujetos que si varían libremente, es decir, adjudicados nueve valores libremente y queriendo obtener una media de 170, el último sujeto solo puede tener un valor:

$$X_{10} = n*\bar x – X_1 – X_2 – … – X_9$$

$$X_{10} = 10*170 – 171 – 174 – 166 – 178 – 169 – 158 – 165 – 164 – 181 = 174$$

Por tanto, la estimación de la desviación estándar poblacional a partir de esta muestra de 10 sujetos tendría 9 grados de libertad, que es igual al número total de sujetos de la muestra (n) menos el número de estadísticos que están restringidos (1, la media) y se usan para el cálculo de la desviación estándar. Aunque el cálculo de los grados de libertad para otros estadísticos es algo más complejo y difícil de comprender, el concepto subyacente es el mismo al reflejado en esta entrada.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Avanzado Inferencias Repositorio

Otros Métodos de Inferencia

Repositorio: Otros métodos de inferencia

Bootstrap resampling methods (Statistics Notes) | BMJ (Acceso libre)

  • En este artículo se ofrece una breve introducción al concepto de «bootstrapping«, otra forma de realizar inferencias estadísticas.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Avanzado Inferencias Repositorio

Significación Estadística

Repositorio: Significación Estadística

Before p < 0.05 to Beyond p < 0.05: Using History to Contextualize p-Values and Significance Testing | Am Stat (Acceso libre)

  • En este artículo se explica la historia subyacente al actual modelo de contraste de hipótesis y como se llegó al establecimiento del umbral crítico de significación de .05. Es un artículo que facilita una mejor comprensión del concepto de significación estadística, umbral crítico de significación y puede ayudar a evitar múltiples malinterpretaciones con respecto al contraste de hipótesis.

The ASA Statement on p-Values: Context, Process, and Purpose | Am Stat (Acceso libre)

  • En este artículo se recoge al declaración de 2016 de la Asociación Americana de Estadística con respecto a la significación estadística. En ella, se profundiza en errores comunes de interpretación de lo que son los valores-p. Es un artículo de obligada lectura para comprender bien este concepto y no malinterpretar el mismo.

The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant | Am Stat (Acceso libre)

  • En este artículo se profundiza en un error común de interpretación de la significación estadística, explicándose porqué aunque en un grupo haya resultados significativos y en otro grupo no, eso no implica que haya diferencias significativas entre ambos grupos.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Inferencias Temas Básicos

Mínimos Cuadrados Ordinarios

mínimos cuadrados ordinarios: definición simple

Los mínimos cuadrados ordinarios es un método de estimación de parámetros poblacionales mediante el modelo lineal, que se basa en minimizar el error cuadrático medio.

El método de mínimos cuadrados ordinarios es en el que se basan todos los análisis englobados dentro del modelo lineal general (t-Student, regresión lineal simple y múltiple, Análisis de la Varianza…). Este método consiste en minimizar la suma de cuadrados del error de predicción del modelo, que tiene sentido cuando se cumplen una serie de asunciones, que son las necesarias para poder realizar ese tipo de análisis. Dado que el concepto de media como estimador se basa también en este método, lo explicaré con ella, pues facilita la comprensión del mismo.

Imaginemos que tenemos la siguiente muestra de 9 sujetos, a los cuales medimos el peso:

$$ x = \{64, 65, 66, 67, 68, 69, 70, 71, 72\}$$

Ahora, queremos usar algún valor comprendido entre 64 y 72 como predictor de todos los sujetos. Al hacerlo, cometeremos errores, ya que habrá una diferencia entre el valor real de cada sujeto y el valor que hemos utilizado como predictor, de modo que podemos calcular la suma de cuadrados (SS) como estimador del error de predicción para distintos valores, que vamos a suponer como si fuesen «medias», cuyo valor seleccionamos nosotros a nuestro antojo y no con la fórmula descrita para la media, por ejemplo:

$$\bar x = 64 \rightarrow SS = 204$$

$$\bar x = 71 \rightarrow SS = 141$$

$$\bar x = 62 \rightarrow SS = 384$$

$$\bar x = 70 \rightarrow SS = 96$$

Podemos hacer esto para el conjunto de valores entre el mínimo (64) y el máximo (72) de la muestra, obteniendo el siguiente gráfico:

Como se puede apreciar, la representación gráfica de la suma de cuadrados (eje y) y el valor usado de la media (eje x) para calcular dicha suma de cuadrados, da lugar a una parábola. El vértice de la misma es el punto donde la suma de cuadrados es mínima y coincide con el valor de la media calculada con la fórmula mostrada en su respectiva entrada (marcada en el gráfico con una línea roja discontinua vertical). Queda por tanto demostrado que el uso de la media calculada con la fórmula descrita, para predecir los valores de una muestra, disminuye la suma de cuadrados de error, que es en lo que se basa el método de mínimos cuadrados ordinarios. En el resto de análisis, aunque de una manera quizás algo menos visual y más complicada de entender, se lleva a cabo el mismo procedimiento, por ejemplo, en una regresión lineal, se estiman los coeficientes de regresión para que dicha suma de cuadrados sea mínima.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …