Categorías
Modelo Lineal General Temas Básicos

Asunción de normalidad

Asunciones: Normalidad

En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que se refiere realmente dicha asunción, si es o no relevante, que implicaciones tiene su incumplimiento y como "evaluarla" y tomar decisiones en investigación para el análisis de datos.

Dentro de los análisis clásicos paramétricos para variables cuantitativas que asumiremos continuas, tales como una t-Student, un Análisis de la Varianza (ANOVA) o covarianza (ANCOVA), o lo que es lo mismo, el modelo de mínimos cuadrados ordinarios o el modelo generalizado de mínimos cuadrados ordinarios, asumimos una serie de consideraciones. Una de estas asunciones es la tan conocida «asunción de normalidad».

A pesar de que la gran mayoría de personas relacionadas con el ámbito de la investigación conocen ese término, actualmente existe mucho mal entendimiento acerca de a que se refiere dicha asunción, como evaluarla y que implicaciones puede tener o no su cumplimiento/incumplimiento.

Entendiendo la asunción de normalidad

La asunción de normalidad implica asumir una distribución normal de los residuos del modelo estadístico que se está implementando, o del estadístico del análisis (ej. distribución de la media muestral). Sin embargo, y esto es algo muy importante, no hace referencia a la distribución de los datos de la muestra, ni tampoco a la distribución poblacional de la variable en cuestión.

Vamos a empezar con el caso de un solo grupo con una sola variable, donde queremos estimar el intervalo de confianza de la media muestral. En esta situación, una práctica habitual es analizar si la distribución de dichos datos se aproxima a la normalidad. El razonamiento que se sigue es que, si los datos se aproximan a la normalidad, entonces es plausible asumir que la distribución muestral de la media también. Aunque este razonamiento tiene cierto sentido, no se cumple a la perfección. Es decir, puede ser que la distribución de los datos de nuestra muestra se aproxime a la normalidad y la de la media muestral no o viceversa. Por ejemplo, puede darse la situación de que tengamos una distribución poblacional ligeramente sesgada a la derecha, que derive en una distribución muestral (n = 200) igual de sesgada. A veces en esta situación, la distribución de la media muestral (con n = 200) se aproxima a la distribución normal, indicando el «cumplimiento» de dicha asunción. Aún así, como comentaré más adelante, que dicha asunción pueda ser plausible tampoco es indicativo de que usar tests paramétricos, o basarnos en la media, sea la mejor opción. En este caso concreto, si la muestra esta sesgada, la media no sería el estimador más apropiado de tendencia central, a expensas de la asunción de normalidad.

Con respecto a los residuos, un ejemplo erróneo del análisis de la asunción de normalidad para un ensayo aleatorizado, sería evaluar la distribución de los datos de la muestra para cada grupo de tratamiento y cada momento de medición por separado. Mientras que, el procedimiento adecuado, sería evaluar la normalidad de los residuos del modelo generalizado de mínimos cuadrados ordinarios implementado para analizar esos datos. Basarse en las distribuciones iniciales de los datos podría llevar al investigador a creer que ese modelo generalizado de mínimos cuadrados ordinarios no es apropiado, usando otros análisis que a lo mejor no son más apropiados y pueden tener otros problemas asociados. El motivo por el que se debe analizar esa distribución de los residuos, es porque los errores estándar calculados para, por ejemplo, una diferencia media ajustada entre dos tratamientos, se calculan con dichos residuos, asumiéndose que siguen una distribución normal en algunos análisis.

Analizando la distribución de los datos

La asunción de normalidad se evaluará siempre de los residuos del modelo estadístico a implementar, ya que no podemos evaluar la distribución del estadístico muestral bajo análisis. Existen distintas maneras de evaluar dicha asunción, que ordenadas de mayor utilidad/adecuación a menor serían:

  • Conocer la «naturaleza» de la variable en cuestión.
  • Histogramas y gráficos de densidad con outliers.
  • Gráficos QQ y PP.
  • Medidas de curtosis y asimetría.
  • Shapiro-Wilk y Kolmogorov-Smirnov con la corrección de Lilliefors (NO RECOMENDADOS).

En general, solamente con los puntos segundo y tercero, que consisten en la observación visual de cuatro gráficos, se obtiene la información necesaria y de mayor utilidad para discernir si parece cumplirse o no la asunción de normalidad y en que sentido es distinta la distribución de los residuos (si es más plana, si es asimétrica a la derecha, etc). En otra entrada previa recojo una explicación detallada de los gráficos QQ y PP, que podéis leer haciendo click en el enlace de más arriba, donde también explico brevemente porque los tests de contraste no están recomendados para evaluar la asunción de normalidad.

Las medidas de curtosis y asimetría pueden ser de utilidad, siempre que no se utilicen con una interpretación dicotómica con puntos de corte, ya que ello podría llevar a una malinterpretación y toma de decisiones errónea en la práctica de investigación. No es el objetivo de esta entrada explicar la matemática de los mismos, que me guardo para otra ocasión, de modo que simplemente daré una explicación sencilla de su interpretación.

El coeficiente de curtosis de Fisher nos indicaría como de «achatada» está la distribución de los residuos. El valor de curtosis de la distribución normal es de 3, por ello, normalmente al valor del coeficiente se le resta 3 para centrarlo al cero de cara a su interpretación (*Nota: algunas funciones de R y otros paquetes estadísticos te devuelven el valor original del coeficiente de curtosis, sin restarle 3, esto debe tenerse en cuenta a la hora de interpretar el mismo). Este coeficiente puede tomar los siguientes valores:

  • Curtosis < 0: Distribución más «plana» que la normal, también llamada platicúrtica.
  • Curtosis = 0: Curtosis de la distribución normal, también llamada mesocúrtica.
  • Curtosis > 0: Distribución más «puntiaguda» que la normal, también llamada leptocúrtica.

Por su parte, el coeficiente de asimetría de Fisher-Pearson nos informa del grado de asimetría y la dirección de la misma en la distribución de los residuos. Algunos paquetes estadísticos utilizan una formula que aplica una corrección en función del tamaño muestral. Los valores que puede tomar el estadístico son:

  • Asimetría < 0: Distribución asimétrica hacia la izquierda.
  • Asimetría = 0: Distribución simétrica, como la distribución normal.
  • Asimetría > 0: Distribución asimétrica hacia la derecha.

De cara a su interpretación, no daré ningún punto de corte ya que como he comentado, traen más problemas que soluciones. Cuanto más se alejen los valores de los de la distribución normal, peor. Sin embargo, no hay una regla definida de «cuanto» han de alejarse uno u otro para decidir usar métodos estadísticos que no asuman una distribución normal de los residuos.

Por último y quizás el punto más importante, es el conocimiento técnico de la variable resultado en cuestión. A expensas de los análisis de normalidad, hay variables con ciertas características que deben tenerse en cuenta, ya que implican que las mismas no deban analizarse con métodos que asumen una distribución normal de los residuos (o del estadístico muestral).

Un ejemplo son los cuestionarios auto-reportados por el paciente, tales como el SPADI, el TSK-11, el PCS, etc. Todas estas variables están acotadas tanto superior (máximo valor 100%), como inferiormente (mínimo valor 0%). Este acotamiento implica directamente que la asunción de normalidad no se cumple, aparte de traer consigo el incumplimiento de otras asunciones de los modelos de mínimos cuadrados ordinarios, como son directamente que la variable resultado no esté acotada, el incumplimiento de la asunción de homocedasticidad, y el incumplimiento de la asunción de linealidad (en el caso de varios modelos lineales). Por tanto, toda variable resultado que sea un cuestionario auto-reportado, sería erróneo analizarlo con una regresión lineal múltiple, siendo adecuada la opción de una regresión beta. Además, tampoco sería del todo apropiado en un ensayo clínico aleatorizado analizar las diferencias en dichas variables con un ANOVA, ANCOVA u otros modelos basados en mínimos cuadrados ordinarios. Sin embargo, estos análisis erróneos son los que se ven en casi todas las investigaciones realizadas con estas variables resultado. A día de hoy, desconocemos las implicaciones que puede estar teniendo analizar mal los datos en casi todas las investigaciones de este campo, pudiendo ser que muchas relaciones encontradas no sean tales, y que otras no encontradas si que existan.

Otro ejemplo serían las variables ordinales. Los métodos de análisis estadístico para variables ordinales suelen ser más «complejos» o mejor dicho, no dan la falsa sensación de ser «fácilmente interpretables». Esto hace que muchos investigadores tiendan a utilizar métodos que asumen que la variable en cuestión es una cuantitativa continua, como un ANOVA, ANCOVA o una regresión lineal múltiple, para analizar una variable resultado ordinal, bajo la premisa de que si presenta muchas categorías puede aproximarse a la distribución normal, o bajo ninguna premisa, simplemente porque sí. Aquí quiero hacer un apunte importante, en mayúsculas y directo: ESTO ES MENTIRA. Toda variable ordinal ha de ser tratada como ordinal siempre, con los métodos de análisis estadístico apropiados, tanto en ensayos clínicos como en estudios observacionales. Utilizar métodos de mínimos cuadrados ordinarios en estos casos puede llevar a grandes errores en la obtención de los resultados y las conclusiones extraídas de una investigación. Mi recomendación es que, cualquier análisis realizado de esta manera errónea, no sea en absoluto tenido en consideración. Algunos ejemplos de análisis adecuados para variables ordinales son el «proportional odds model» o el «continuation ratio model».

Aprendiendo con ejemplos de investigación reales

Para ejemplificar estas diferencias entre las distribuciones de los datos muestrales y las de los residuos de los modelos implementados, voy a utilizar tres ejemplos simulados: uno de un análisis pre-post para un solo grupo,  otro de un análisis estilo ANCOVA, con una medición basal y una post-tratamiento con dos grupos a comparar, y un tercero de una regresión lineal múltiple.

Ejemplo 1: Diferencia intra-grupo

Para este ejemplo he simulado una situación en la que tenemos una distribución poblacional de la medición basal y la post-tratamiento que no es normal, con una asimetría izquierda notoria. El objetivo de este estudio es analizar el cambio de la situación basal a la post-tratamiento para un solo grupo. Los análisis de la normalidad de los datos muestrales serían los siguientes:

  • Medición basal:
    • Shapiro-Wilk: p = 0.00143
    • Asimetría: -1.10
    • Curtosis: 0.35
  • Medición post-tratamiento:
    • Shapiro-Wilk: p = 0.01347
    • Asimetría: -0.84
    • Curtosis: -0.19

Los gráficos Q-Q para la medición basal y la post-tratamiento serían los siguientes:

Basándonos en dichos análisis de la distribución de los datos, un investigador podría decidir que no parece ser plausible la asunción de normalidad y decantarse por usar tests no paramétricos (no recomendados) u otras opciones de análisis robustos (recomendadas) sin necesidad.

Veamos ahora que pasa si nos centramos en los residuos del modelo estadístico a implementar, que es en los que se aplicaría en mayor medida la asunción de normalidad. En el caso de un solo grupo y dos mediciones, dichos residuos son la dispersión de la variable diferencia (post – basal). Para evaluar su distribución podemos calcular dicha diferencia para cada individuo y en esa nueva variable aplicar los distintos métodos de análisis de la asunción de normalidad. En este caso tendríamos los siguientes datos:

  • Variable diferencia:
    • Shapiro-Wilk: p = 0.9527
    • Asimetría: -0.08
    • Curtosis: 0.0006

El gráfico QQ para dicha variable diferencia sería el siguiente:

En este caso, las conclusiones que podríamos sacar son muy distintas a las de los análisis iniciales, pareciendo bastante plausible el cumplimiento de la asunción de la normalidad y pudiendo analizarse los datos con una prueba basada en mínimos cuadrados ordinarios.

Ejemplo 2: Modelo estilo ANCOVA

El segundo ejemplo es algo más aproximado a lo que puede ser la situación de un ensayo clínico aleatorizado real. En este ejemplo he simulado datos, también con una distribución poblacional sesgada a la izquierda, para dos grupos en dos momentos, uno antes del tratamiento (medición basal) y otro tras el tratamiento (medición post-tratamiento). Por tanto, tenemos un total de cuatro mediciones. Siguiendo el procedimiento erróneo de evaluar la normalidad de los datos muestrales, se obtienen los siguientes estadísticos:

  • Medición basal grupo 1:
    • Shapiro-Wilk: p = 0.00143
    • Asimetría: -1.10
    • Curtosis: 0.35
  • Medición basal grupo 2:
    • Shapiro-Wilk: p < 0.001
    • Asimetría: -2.07
    • Curtosis: 5.14
  • Medición post-tratamiento grupo 1:
    • Shapiro-Wilk: p = 0.00724
    • Asimetría: -0.86
    • Curtosis: -0.18
  • Medición post-tratamiento grupo 2:
    • Shapiro-Wilk: p < 0.001
    • Asimetría: -2.01
    • Curtosis: 4.97

El modelo de mínimos cuadrados ordinarios que se utilizaría para analizar este estudio sería una regresión lineal de la siguiente manera:

Post-tratamiento = Constante + b1*Basal + b2*Grupo + e

Donde «e» son los residuos del modelo. Implementando dicho análisis de regresión, para obtener diferencias entre-grupos «ajustadas» para la medición basal, podemos extraer los residuos del mismo y llevar a cabo los análisis de la asunción de normalidad en estos. Los resultados serían:

  • Residuos del modelo de mínimos cuadrados ordinarios:
    • Shapiro-Wilk: p = 0.4745
    • Asimetría: 0.25
    • Curtosis: -0.23

Nuevamente, el análisis de los residuos nos orienta a tomar una decisión muy diferente a los análisis de normalidad realizados de la manera equivocada sobre la distribución de los datos muestrales.

Ejemplo 3: Regresión lineal múltiple

Otra práctica habitual en investigación es analizar la distribución de todas las variables cuantitativas que se han medido, a la hora de realizar un análisis de regresión lineal múltiple. Este procedimiento también sería erróneo. La asunción de normalidad, como se ha comentado, hace referencia a los residuos de dicho modelo de regresión. Estos residuos serían la «parte» que no podemos predecir de cada individuo de la muestra en la variable resultado de interés (ej. fuerza) en función de los predictores incluidos en el modelo (ej. edad, estatura, peso y sexo). Por tanto, todo lo que tiene que ver con la asunción de normalidad en estos modelos, se relaciona únicamente con la variable resultado (fuerza), pero no es necesario para realizar un modelo de mínimos cuadrados ordinarios que las variables predictoras tengan una distribución normal. De ser así, no sería posible incluir ningún predictor categórico, pues estos nunca van a seguir una distribución normal.

La importancia (o no) de la normalidad y la toma de decisiones

Aunque la asunción de la normalidad es una de de las más conocidas por investigadores, no es la «más importante». Muchos métodos basados en mínimos cuadrados ordinarios «funcionan» más o menos bien ante pequeñas desviaciones de dicha asunción, siempre que se cumplan otras asunciones más importantes como la de homocedasticidad. Curiosamente, el resto de asunciones de los modelos de mínimos cuadrados ordinarios no suelen ser tan conocidas, habiendo pocos estudios que analicen adecuadamente la homocedasticidad de los residuos con sus adecuadas estratificaciones pertinentes, o evalúen si quiera otras asunciones como la de linealidad o aditividad (según el modelo implementado). Por eso, aunque a veces existan pequeñas desviaciones, en función de como sean estas y otros aspectos, podemos seguir implementando esos modelos.

Por otro lado, aunque los «análisis de normalidad» salgan favorables para dicha asunción, es erróneo también tomar decisiones solo basándonos en ello. Podemos tener una situación en la que la distribución de los datos (SI, habéis leído bien, LOS DATOS) esté sesgada a la derecha. En este caso, aunque se parezca cumplir la asunción de normalidad de los residuos, puede que debamos considerar que predecir la media (que es lo que predecimos con un modelo de mínimos cuadrados ordinarios) no sea lo más apropiado, ya que no sería un buen estimador de tendencia central, pudiendo ser más oportuno, por ejemplo, utilizar otros modelos de regresión que se basan en la predicción de la mediana.

Dicho de otra manera, la toma de decisiones en investigación de cara a la realización de análisis estadísticos es compleja y no podemos simplificarla, ni a puntos de corte arbitrarios ni a una interpretación aislada de uno, dos o varios análisis. Hay que tener en cuenta el conjunto de información disponible, tanto técnica como a nivel estadístico, para decidir cual es la mejor opción para una situación concreta de investigación.

Conclusión

La asunción de normalidad no hace referencia a la distribución de los datos de la muestra, se refiere a la distribución de lo residuos del modelo estadístico implementado o de la distribución muestral del estadístico bajo análisis. Existen diversas formas de evaluar dicha asunción, siendo algunas más apropiadas que otras. No obstante, debemos siempre tener en cuenta que hay que tener en cuenta otros aspectos para decidir como analizar los datos, ya que la asunción de normalidad no es lo más relevante en esa toma de decisiones en investigación.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Temas Básicos

Gráficos QQ y PP

Análisis de la "normalidad": Gráficos QQ y PP

En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles para le evaluación de la distribución de los datos y su aparente aproximación a una distribución normal teórica. El análisis de estos gráficos es más adecuado que los tests de contraste de hipótesis de Shapiro-Wilk y Kolmogorov-Smirnov.

Antes de llevar a cabo los análisis estadísticos de una investigación, es necesario evaluar algunos aspectos de los datos, para discernir cual es la mejor manera de analizar los mismos sin inducir sesgos en los parámetros a estimar (ej. medida de tendencia central), y «asegurar en mayor medida» que los errores estándar, intervalos de confianza y valores-p calculados pueden ser adecuados.

Una de estas asunciones, aunque no es la de mayor importancia, es la asunción de la distribución normal de los residuos o de los parámetros a estimar (ej. distribución de la media muestral). Lo más habitual es ver como esta asunción se evalúa con tests de contraste de hipótesis (Shapiro-Wilk o Kolmogorov-Smirnov), aunque este procedimiento no es correcto. Estos tests presentan los siguientes problemas:

  1. Plantean una toma de decisiones dicotómica, sin permitir evaluar el continuo de «cuanto nos alejamos o no del supuesto cumplimiento de la asunción de normalidad».
  2. Se basan en valores-p, cuya mal-interpretación puede llevar a errores en la toma de decisiones con respecto al cumplimiento o no de esta asunción.
  3. No cuantifican la magnitud de la desviación de la asunción de normalidad. Por ejemplo, si tenemos mucha muestra, una pequeña desviación de la asunción de normalidad puede resultar estadísticamente significativa (p < .05), sin que esta tenga que ser relevante, pudiendo ser ignorada por completo tal pequeña desviación. Del mismo modo, una desviación más notoria en una muestra pequeña puede resultar no significativa, pero si tener implicaciones importante de cara a como analizar los datos de esa muestra en concreto.
  4. No informan directamente del incumplimiento de la asunción. Los tests de contraste de hipótesis por si solos no nos dicen nada sobre la verdad/falsedad de las hipótesis en si mismas.

Otra actuación incorrecta pasa por establecer que, si la muestra supera n > 30 sujetos, entonces por el «Teorema Central Límite», podemos asumir que se cumple el supuesto de normalidad. Esta es una afirmación engañosa ya que:

  1. El «Teorema Central Límite» no hace referencia a tal afirmación.
  2. Muestras incluso superiores a 30 sujetos (ej. 50 o incluso 100 sujetos) pueden no derivar en el cumplimiento de dicha asunción si, por ejemplo, la distribución poblacional está muy sesgada a la derecha o la izquierda.
  3. Asumir este punto de corte arbitrario puede llevar a no valuar la distribución de los datos de la muestra, ignorándose incluso otras asunciones más importantes (como la homocedasticidad), que pueden derivar en una estimación sesgada de los parámetros bajo estudio (ej. tendencia central) e inutilidad de los intervalos de confianza calculados.
Gráficos QQ y PP: Definiciones

Una manera más adecuada de analizar la distribución de los residuos de un modelo, para evaluar si parece cumplirse o no el supuesto de distribución normal de los mismos, son los gráficos QQ y PP. Antes de proseguir, cabe destacar que estos gráficos no son lo único que deberíamos evaluar (los histogramas y gráficos de dispersión aportan información muy útil también), y que hay otros aspectos a tener en cuenta como la homocedasticidad, linealidad, aditividad, y presencia de valores atípicos o influyentes, que deberían ser tenidos en cuenta en los modelos que asumen distribución normal de los residuos. Ambos gráficos se basan en comparar unos valores observados, con sus respectivos teóricos bajo una distribución normal.

Los gráficos QQ se construyen enfrentando los cuantiles observados en nuestra muestra, con los cuantiles teóricos esperados bajo una distribución normal. Por otro lado, los gráficos PP se construyen enfrentando las probabilidades acumuladas observadas, con las esperadas bajo una distribución normal. A continuación se muestran dos gráficos, uno que es el gráfico de densidad de la distribución normal (izquierda) y otro a la derecha que es el gráfico de la distribución de la probabilidad acumulada normal. La probabilidad acumulada reflejada a la derecha es el área bajo la curva que queda a la izquierda de cada valor Z de la distribución normal de la gráfica de la izquierda.

Ahora imaginemos que hemos realizado una investigación con unos datos observados (n = 1000), para los cuales calcularemos los mismos gráficos de densidad y probabilidad acumulada. En la siguiente imagen se muestran ambas distribuciones, la normal teórica (rojo) y la observada en la muestra (azul).

Como se puede apreciar, las gráficas no son idénticas (el estudio simulado provenía de una distribución poblacional sesgada hacia la derecha). Centrándonos en la gráfica de la derecha, lo que se muestra en un gráfico PP serían esas diferencias entre ambas gráficas (emparejadas según el valor Z), de forma que si la muestra se aproxima de manera perfecta a una distribución normal, obtendríamos una correlación perfecta entre las probabilidades acumuladas, con todos los puntos del gráfico PP coincidiendo con una línea oblicua que pasa por el punto (0,0) y tiene una pendiente de 1. En la siguiente figura se muestra el gráfico PP para este estudio simulado.

Como se aprecia en este gráfico PP, al inicio la probabilidad acumulada observada es menor que la esperada bajo una distribución normal (puntos por encima de la linea oblicua de relación perfecta), que es lo mismo que podemos observar en las gráficas superpuestas con colores de más arriba.

Ambos gráficos informan sobre lo mismo, las desviaciones de la distribución de los datos con respecto a una distribución normal teórica. El motivo de que haya dos gráficos, es que cada uno pone el foco en una región distinta de la distribución. Los gráficos QQ son más sensibles (permiten visualizar mejor) desviaciones de la normalidad en los extremos de la distribución, mientras que los gráficos PP permiten visualizar mejor desviaciones en el centro de la distribución. En otras palabras, es como si el gráfico QQ hiciera «zoom» en los extremos, y el gráfico PP hiciera «zoom» en el centro.

Esta diferencia se entiende mejor si nos centramos en los gráficos PP. Como se ha comentado, estos enfrentan la probabilidad acumulada. Si asumimos que hay una desviación de la normal, puede haber una diferencia entre la probabilidad acumulada del primer dato ordenado observado (el más pequeño de todos) y la probabilidad esperada bajo la distribución normal. Para el segundo dato, tenemos dos errores, el cometido para el primero y el cometido para la diferencia del primero al segundo (ya que es una probabilidad acumulada y por tanto se van sumando). Resulta por tanto obvio que, si tenemos una desviación de la distribución normal, en el extremo inferior no se apreciarán muchas diferencias en el gráfico PP, porque los errores cometidos son menores que según vamos avanzando hacia el centro de la distribución, donde se van acumulando más posibles errores de desviación de la normal. Siguiendo el mismo razonamiento, como la probabilidad máxima es de 1, según nos acercamos a los valores superiores los errores también serán más pequeños, ya que ambas gráficas tenderán a aproximarse a la probabilidad de 1. Por tanto, donde más apreciaremos diferencias en un gráfico PP es en la zona central de los datos. A continuación se muestran los gráficos QQ y PP para el estudio simulado anteriormente, con una población sesgada hacia la derecha.

Como puede apreciarse, en el gráfico QQ (izquierda) las diferencias entre las distribuciones son más notorias en los extremos, mientras que en el gráfico PP (derecha) la diferencias son más notorias en la región central, tal y como se ha comentado, como si hiciéramos «zoom» en la gráfica en secciones distintas.

En el gráfico QQ la pendiente de la recta es igual a la desviación estándar de la muestra y la ordenada en el origen es igual a la media. Esto es así porque, en lugar de enfrentar directamente los cuantiles, se suele mantener las unidades originales en los datos observados en el eje Y.

El tamaño muestral y la variabilidad de los gráficos QQ y PP normales

Incluso cuando se cumple el supuesto de normalidad, la distribución de los datos puede alejarse de la supuesta distribución normal, por errores debidos al muestreo aleatorio. Según se vaya incrementando el tamaño muestral, si la asunción de normalidad se cumple, los gráficos QQ y PP deberían aproximarse más a la línea oblicua de concordancia perfecta entre las distribuciones.

A continuación se muestran los gráficos QQ y PP para 100 estudios simulados (bajo el cumplimiento de la asunción de normalidad) con tamaños muestrales de 10, 30 y 100 sujetos.

Como se puede apreciar, a mayor tamaño muestral mas aproximación hay entre las distribuciones observadas en la muestra y la teórica normal. Un punto a destacar es los extremos de los gráficos QQ, que somo se observa, incluso para un tamaño muestral de n = 100, se aprecian desviaciones de la línea recta de concordancia perfecta entre las distribuciones. Esto se debe a que por lo general, debido al muestreo, se tienden a obtener valores más extremos en las colas que los esperados bajo una distribución normal teórica, es decir, que los cuantiles observados son más grandes (positivo o negativo) que los teóricos, en los extremos de la distribución. Por ello, debemos tener en cuenta que un patrón como el mostrado en estas figuras en los gráficos QQ, con algunos puntos por debajo de la recta en el extremo inferior y por encima de la misma en el extremo superior de la distribución, es algo «normal».

Gráficos QQ y PP para algunos tipos de distribuciones

A modo de facilitar la comprensión de como pueden influir algunas desviaciones de la distribución normal en los gráficos QQ y PP, se muestran a continuación ambos gráficos para simulaciones de n = 1000 de: muestra sesgada a la derecha, muestra sesgada a la izquierda, muestra platicúrtica y muestra leptocúrtica. Cabe destacar que estas gráficas son con un tamaño muestral elevado, si se llevasen a cabo muestreos aleatorios con un tamaño menor (ej. n = 10 o n = 30) de poblaciones con estas distribuciones, lo que podríamos observar en los gráficos QQ y PP podría variar notoriamente. 

Recomendaciones de buenas prácticas

A continuación nombraré algunas recomendaciones de buenas prácticas de cara a investigadores en relación a la temática de la entrada.

  1. Análisis descriptivo detallado de todas las variables de estudio. En cualquier investigación es totalmente indispensable realizar y tener en cuenta un análisis descriptivo exhaustivo de todas las variables medidas. Este análisis debe incluir como mínimo (por separado para cada grupo, y también para los residuos de los modelos multivariables implementados):
    1. Media, mediana, desviación estándar, primer y tercer cuartiles, rango, y medidas de curtosis y asimetría.
    2. Gráficos QQ (obligatorio) y PP (opcional).
    3. Histogramas y/o gráficos de dispersión.
    4. Análisis de valores atípico
  2. No usar Shapiro-Wilk ni Kolmogorov-Smirnov para evaluar la asunción de normalidad.
  3. No basarnos en el «Teorema Central Límite» para asumir el cumplimiento de la asunción de normalidad.
  4. No usar de manera aislada los gráficos QQ y PP. Estos gráficos aportan una información, pero no toda. Para decidir si asumimos el cumplimiento o no de la asunción de normalidad hay que evaluar el conjunto de características de la distribución de la muestra.
  5. Primar siempre el conocimiento técnico para decidir sobre la distribución teórica asumida. A expensas de los análisis de la distribución de los datos, debe primar siempre nuestro conocimiento técnico sobre la variable resultado de interés. Por ejemplo, los cuestionarios auto-reportados por el paciente son variables acotadas superior e inferiormente, algo que induce heterocedasticidad y una distribución no normal (es más plausible una distribución beta), de modo que analizarlas como dependientes con modelos de regresión de mínimos cuadrados ordinarios es inapropiado, a expensas de los análisis descriptivos de los residuos.
  6. Son preferibles los gráficos QQ a los PP. Por lo general, lo que más «problemas» puede dar y que más interesa mirar son los extremos de la distribución. Por ello, suele ser preferible reportar y analizar los gráficos QQ a los PP. Lo adecuado sería analizar ambos, y lo inadecuado analizar y reportar solo los PP, ya que pueden sesgar al investigador y al lector.
  7. Evaluar el resto de asunciones del modelo implementado. Como se ha comentado, la asunción de la distribución normal de los residuos es solo una de las múltiples que se hacen al implementar algunos modelos de análisis estadístico. El resto de asunciones deben ser evaluadas adecuadamente, ya que por lo general esas otras asunciones (como la homocedasticidad, linealidad o aditividad) suelen ser más importantes que la de la distribución normal.
Conclusiones

La evaluación de la asunción de la distribución normal de los residuos no debe realizarse con test de contraste de hipótesis como Shapiro-Wilk o Kolmogorov-Smirnov, ni basarse en puntos de corte arbitrarios como el supuesto «Teorema Central Límite». Es importante conocer y analizar los gráficos QQ y PP para poder discernir si parecen haber desviaciones de la asunción de normalidad que merezcan ser tenidas en consideración de cara a la realización de los análisis estadísticos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Temas Básicos

Minima Diferencia Clinicamente Relevante

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I)

En esta entrada se proporciona una breve explicación de la limitada, incluso ausencia, de utilidad de los valores conocidos como Mínima Diferencia Clínicamente Relevante (o Importante) para discernir si un paciente mejora en la práctica clínica o interpretar los resultados de una investigación.

Uno de los retos a los que se enfrentan tanto clínicos como investigadores es dar respuesta a siguiente pregunta: ¿Son mis hallazgos relevantes? Tanto si se está tratando a un paciente y se observa una mejoría en una variable (ej. intensidad del dolor, grado de discapacidad…), como si se está realizando un ensayo clínico aleatorizado y se encuentra una mejoría estadísticamente significativa de un tratamiento con respecto a otro, debemos decidir si esas diferencias son o no relevantes y merecen ser tenidas en consideración. Por ejemplo, puede ser que existan diferencias medias entre dos tratamientos para un problema musculoesquelético concreto, pero que sean tan pequeñas (ej., 0.3 cm en una EVA), que no sirvan para guiarnos en la práctica clínica con respecto a que intervención es mejor aplicar, y por tanto no podamos concluir que una intervención parece ser mejor que la otra.

Una de las propuestas que se han hecho desde hace décadas para dar respuesta a esta pregunta es la Mínima Diferencia Clínicamente Relevante (MDCR). De manera simplificada, este concepto viene a definir un punto de corte en una variable concreta, por encima del cual se considera que la mejoría de un paciente o diferencia de medias entre dos tratamientos es relevante y debe ser tenida en consideración en nuestra práctica clínica. Existen varias propuestas estadísticas para realizar su cálculo, que no son el objetivo de esta entrada, motivo por el cual no serán abordadas.

De estos métodos propuestos, el más utilizado dentro del campo de ciencias de la salud es el denominado método de anclaje (anchor-based). Este método, de manera simplificada, consiste en relacionar la mejoría observada de cada sujeto de un estudio de investigación, con otra variable que se considera «gold standard», el cual asumimos que nos informa de manera más directa de la relevancia clínica del hallazgo en cuestión en dicha variable resultado. Dentro de estos «gold standard», el más utilizado en ciencias de la salud es la Percepción de Mejoría del Paciente, que puede medirse con distintas herramientas basadas en preguntar al paciente cuanto percibe que ha mejorado/empeorado y que, finalmente, acaban dividiendo a los sujetos en dos grupos: aquellos que refieren una percepción de mejoría y aquellos que no. En función de esta clasificación en dos grupos, se calcula un punto de corte que «optimiza» la predicción de la mejoría por parte del paciente en función de la variable resultado que nos interesa (ej. EVA para intensidad del dolor). Ese punto de corte es lo que se conoce como MDCR.

Sin embargo, existe un problema, ya que nunca se consigue una predicción perfecta de esa percepción de mejoría por parte del paciente. Es decir, habrá personas que tengan una mejoría por debajo de dicho punto de corte y, sin embargo, refieran encontrarse mucho mejor y al revés, personas que reporten una mejoría por encima de dicho punto de corte pero que no perciban encontrarse mejor. Esta ausencia de relación perfecta entre ambas variables, de capacidad de discriminación perfecta de los sujetos que perciben encontrarse mejor y aquellos que no, es lo que hace que la MDCR calculada según los pasos mencionados carezca de utilidad alguna, tanto en la práctica clínica como en investigación.

Sin embargo, no debemos preocuparnos porque dicho valor, la MDCR, sea totalmente inútil para su propósito, ya que disponemos de una solución más adecuada, sencilla y rápida, que hemos tenido siempre al alcance de nuestra mano. La pregunta que queríamos responder sería, ¿mis pacientes perciben esta mejoría como relevante? y las opciones de dar respuesta para los clínicos y los investigadores serían:

  • Clínicos: Si queréis conocer la percepción de mejoría del paciente que estáis tratando, solo tenéis que preguntarle.
  • Investigadores: Si queréis evaluar si la mejoría con un tratamiento se percibe como mejor por parte de los pacientes en comparación a la mejoría obtenida con otro tratamiento, podéis medir directamente en vuestras investigaciones la Percepción de Mejoría del Paciente con cualquiera de las escalas ordinales disponibles.

Conclusiones

El concepto de MDCR utilizando métodos de anclaje con un «gold standard« de percepción de mejoría del paciente carece de utilidad, tanto en la práctica clínica como en investigación. No existe necesidad de «predecir» algo que podemos medir de manera directa siempre.

 

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Modelo Lineal General Temas Básicos

Transitividad de Correlaciones

Correlación: Transitividad

En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele hacerse sobre dicha propiedad, pudiendo llevar a conclusiones erróneas.

Antes de comenzar la lectura de esta entrada, me gustaría pedirte que realizases el siguiente test, que se repetirá de manera similar al final de la entrada, con el objetivo de que puedas darte cuenta las creencias erróneas que tienes actualmente y de si has adquirido conocimientos nuevos tras la lectura de la entrada.

43
Creado en Por Admin

Transitividad Correlaciones (Test Inicial)

1 / 9

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

2 / 9

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

3 / 9

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

4 / 9

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

5 / 9

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

6 / 9

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

7 / 9

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

8 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

9 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

Tu puntación es

The average score is 69%

0%

Imaginemos que sabemos que existe una relación entre la fuerza de prensión manual máxima (X) y la fuerza en rotación externa isométrica máxima de hombro (Y), y que existe una relación entre dicha rotación externa isométrica máxima (Y) y la discapacidad del hombro (Z). En base a ello, decidimos empezar a usar la fuerza de prensión manual como estimador de la discapacidad del hombro. En este razonamiento estaríamos haciendo uso de la transitividad, como X se relaciona con Y, y Y se relaciona con Z, entonces X se relaciona con Z, es decir, hay una «transmisión de la correlación».

Para poder entender la transitividad aplicada a las correlaciones, debemos conocer antes el concepto del coeficiente de determinación (R2) y el porcentaje de variabilidad explicada. A modo resumen simple, en función del valor del coeficiente de correlación de Pearson (r):

  • r = 0, no hay correlación.
  • r = 1, correlación perfecta positiva.
  • r = -1, correlación perfecta negativa.

Si elevamos dicho coeficiente de correlación al cuadrado, obtenemos el coeficiente de determinación (R2), que indica el porcentaje de variabilidad que podemos explicar de una variable a través de otra, por ejemplo si tenemos un coeficiente de Pearson de 0.50, el coeficiente de determinación sería R2 = 0.25, es decir, un 25% de variabilidad explicada. Este concepto puede representarse gráficamente con diagramas de Venn, que facilitarán entender el concepto de transitividad de las correlaciones. Si el área de ambos rectángulos es de 1, un R2 de 0.25 implica que hay un solapamiento del 25% del área los rectángulos.

Imaginemos ahora que tenemos tres variables en lugar de dos, con los siguientes valores de R2 entre ellas:

  • X-Y: 0.25
  • Y-Z: 0.25

Una posible representación mediante diagramas de Venn de estos valores de R2 sería la siguiente:

Cómo se puede apreciar en dicho diagrama, a pesar de que hay una correlación (r = 0.50) entre X e Y y Z e Y, los rectángulos de X y Z no se solapan, indicando una ausencia de correlación entre ellas. En otras palabras, que dos variables (X y Z) se relacionen con una misma variable (Y), no implica que esas dos tengan que presentar una correlación. Este es el principal error de interpretación que se comete con respecto a la transitividad de las correlaciones. Volviendo al ejemplo inicial sobre la prensión manual, la información facilitada en dicho enunciado impide saber si realmente la prensión manual se relaciona con la discapacidad del hombro, se requieren más datos. Pero… ¿Qué datos?

Tenemos dos opciones, una buena y adecuada y otra mala que solo utilizaré para ejemplificar la propiedad de transitividad aplicada a las correlaciones. La opción buena es la obvia, si se quiere estimar la correlación entre dos variables, lo adecuado es medir ambas y analizar directamente dicha correlación, no hacer estimaciones indirectas basadas en la transitividad.

Como ya he comentado, no tiene porque haber transitividad de una correlación de Pearson. Sabemos que la correlación entre X y Z se encuentra dentro del siguiente intervalo basado en las correlaciones entre X e Y y Z e Y:

$$r_{xy}r_{yz} – \sqrt{(1- R^2_{xy})(1-R^2_{yz})} \leq r_{xz} \leq r_{xy}r_{yz} + \sqrt{(1- R^2_{xy})(1-R^2_{yz})}$$

De esta fórmula podemos extraer varias conclusiones. Una primera es que, si y solo si rxy = ryz = 0, entonces rxz puede tomar todo el rango de valores posibles, es decir, de -1 a +1.

Otra conclusión sería que, si y solo si rxy = ryz (sin tener en cuenta el signo de la correlación, es decir, su valor absoluto), entonces puede existir una correlación perfecta entre X y Z, es decir rxz = 1 o rxz = -1, cuyo signo dependerá de los de las otras dos relaciones. Si nos imaginamos esta situación con los diagramas de Venn, tiene más sentido, pues que haya una relación perfecta (positiva o negativa) entre X y Z, implica que ambos rectángulos estarían superpuestos de manera perfecta y por tanto, el solapamiento de ambos con la variable Y sería el mismo, es decir, R2xy = R2yz.

Por otro lado y aunque no tan fácilmente reconocible como esa primera conclusión, de dicha fórmula también podemos concluir que, si rxy > 0, y ryz > 0, entonces rxz > 0 si y solo si:

$$R^2{xy} + R^2{yz} > 1$$

Es decir, habría transitividad de la correlación positiva solo cuando se cumpla esa situación. De forma más generalista, solo cuando la anterior situación se cumpla, la correlación entre X y Z no podrá ser igual a cero, en el resto de casos, puede existir una correlación igual a cero entre ambas variables. Nuevamente, si pensamos en los diagramas de Venn, podemos apreciar esa condición más fácilmente. El área del rectángulo de Y es igual a 1, de manera que si la suma de las áreas solapadas de X y Z con Y son superiores a 1, eso implica que los rectángulos de X y Z han de estar solapados también. A continuación muestro un ejemplo de diagrama de Venn donde casi hay solapamiento entre X y Z, con solo un 5% de la variabilidad de Y sin explicar. Si X y Z explicasen más porcentaje de la variabilidad de Y, es decir, si juntásemos más dichos rectángulos, acabarían por solaparse.

Este punto es importante, pues incluso con correlaciones altas  entre X e Y y Z e Y, puede darse una correlación de cero entre X y Z. Por ejemplo, asumiendo que rxy = ryz, entonces la correlación máxima que permitiría la posibilidad de que existiera una correlación de cero entre X y Z sería:

$$r_{xy} = r_{yz} = \sqrt 50 = 0. 7071$$

Es decir, podemos tener hasta una correlación entre X e Y y entre Z e Y de 0.7071 y ello no tendría que implicar que hubiera una correlación entre X y Z. Con la fórmula inicial de los intervalos del coeficiente de correlación entre X y Z en función de rxy y ryz, podemos calcular la correlación mínima que podríamos esperar entre X y Z, así como también evaluar en que situaciones es plausible una ausencia de correlación entre ambas variables.

Implicaciones de la malinterpretación de la transitividad de las correlaciones

¿Por qué es importante conocer como se comportan las correlaciones con respecto a la transitividad? Para no cometer errores grandes y, en mi experiencia por lo que he podido apreciar, encadenados, de interpretaciones y asunciones. Un ejemplo de malinterpretación común sería el siguiente:

«Estamos buscando artículos y nos encontramos con uno que ha visto que hay una correlación de 0.7 entre la fuerza máxima prensil y la fuerza isométrica máxima de rotación externa de hombro, nos acordamos que hace unos meses leímos otro estudio que había encontrado una correlación de 0.67 entre la fuerza isométrica máxima de rotación externa y la discapacidad del hombro, y en base a ambos estudios, decidimos empezar a evaluar y tratar la fuerza prensil en clínica en sujetos con patología dolorosa del hombro.»

Otra opción sería que, en función de esos dos estudios, decidiéramos hacer un ensayo clínico orientado a trabajar la fuerza prensil para mejorar la discapacidad en sujetos con dolor relacionado con el manguito rotador, o que decidiéramos no evaluar en un transversal la fuerza de rotación externa porque requiere de un dinamómetro que es más caro y midiéramos en su lugar la fuerza prensil, asumiendo que también se relaciona con la discapacidad. Todas estas decisiones son erróneas y pueden llevar a errores muy grandes, tanto en la práctica clínica como en investigación. Cuando he comentado que en mi experiencia, son errores encadenados, es porque muchas veces he observado que, en lugar de molestarnos en evaluar directamente las correlaciones, las asumimos presentes por transitividad, una tras otra, aceptando algunas como verdades ya comprobadas, y guiando líneas de investigación durante años y años, en base a un error conceptual de estadística.

Por último, otro ejemplo donde también aprecio se malinterpreta notoriamente la transitividad es en las pruebas de valoración. Tendemos a buscar métodos más baratos para evaluar determinados parámetros en nuestros sujetos en investigación, porque se supone tendrán mayor aplicabilidad clínica. Si bien esto es lo deseable, no siempre es posible. En esta búsqueda de métodos más baratos, pecamos de la falacia de la transitividad. Cuando se realiza un estudio de estas características, se suele comparar el nuevo método con uno considerado «gold standard» para evaluar su validez, calculándose la correlación entre las mediciones tomadas con ambos métodos. Mucha gente asume que por ejemplo, un valor de correlación de Pearson de 0.70, sería indicativo de buena validez, y concluyen que por tanto, el nuevo método podría implementarse en la práctica clínica e investigación, ahorrando costes. El motivo subyacente en la gran mayoría de casos, sea consciente o no quien realiza el mismo, es la aceptación de la transitividad, mejor dicho, la malinterpretación de la misma.

Si aceptamos una correlación de 0.70 entre ambos métodos de medición, necesitaríamos que se diera una correlación de 0.72 entre el gold standard y otra variable de interés, para que empezase a haber transitividad de dicha correlación hacia el nuevo método de medición. Por ejemplo, si asumimos que el gold standard presenta una correlación de 0.85 con otra variable, la correlación estimada del nuevo método de medición con dicha variable, por transitividad, sería de 0.219. ¿Podemos por tanto usar indistintamente el nuevo método de medición? La respuesta es, en función de solo esta información, no. Pues ya hemos visto que la transitividad no justificaría dejar de usar el gold standard, pues perderíamos casi toda la correlación con la otra variable de interés. Esto no implica que no pudiera darse una relación más alta entre el nuevo método y dicha variable, simplemente que, por transitividad, no pasaría y por tanto un razonamiento basado en la misma, no se sostiene.

A continuación te dejo un segundo test, con el fin de que puedas evaluar el conocimiento que has adquirido con la presente entrada y si ha mejorado tu capacidad de interpretación de literatura científica:

8
Creado en Por Admin

Transitividad Correlación (Test Final)

1 / 15

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

2 / 15

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

3 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.50 y la correlación entre Z e Y es de 0.49, ¿Puede la correlación entre X y Z llegar a ser perfecta (sin importar el signo)?

4 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

5 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.80, ¿Cuál es la correlación mínima que tendría que haber entre Z e Y para que hubiera transitividad hacia la correlación entre X y Z?

6 / 15

Si la correlación entre la fuerza prensil y la fuerza en rotación externa de hombro es de 0.60, y la correlación entre la fuerza en rotación externa y la discapacidad es de 0.50, ¿Cuáles serían los límites de posibles valores de la correlación entre la prensión manual y la discapacidad?

7 / 15

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

8 / 15

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

9 / 15

Dadas tres variables (X, Y, Z), sabiendo que la correlación entre X e Y es de 0.60 y la correlación entre Z e Y es de 0.70. ¿Podría haber una correlación entre X y Z igual a cero?

10 / 15

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

11 / 15

Si la correlación entre la fuerza en rotación externa máxima de hombro y el grado de discapacidad es de 0.60, y la correlación entre dicha fuerza en rotación externa y la fuerza prensil es de 0.90, ¿Cuál es la correlación estimada por transitividad entre la fuerza prensil y la discapacidad de hombro?

12 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.40 y la correlación entre Z e Y es de 0.80, ¿Puede ser negativa la correlación entre X y Z?

13 / 15

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

14 / 15

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

15 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

Tu puntación es

The average score is 69%

0%

Conclusiones

Las correlaciones no son transitivas, la posibilidad de presencia o no de transitividad depende de la magnitud y dirección de las correlaciones. No debemos caer en el error de inferir asociaciones por transitividad, sin haberlas evaluado de manera directa, pues puede llevarnos a cometer errores cruciales tanto en investigación, como en la práctica clínica.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Modelo Lineal General Temas Básicos

Covarianza

Asociación: Covarianza

En esta entrada se ofrece una breve explicación del concepto de covarianza, que tiene especial relevancia dentro del modelo lineal general. El entendimiento de la covarianza supone el primer paso a la comprensión del concepto de asociación estadística entre dos variables cuantitativas.

La covarianza (Cov) es el primer concepto a entender para poder adentrarse en el mundo de las asociaciones entre variables cuantitativas. Hay dos preguntas que toda persona que quiera comprender este concepto de asociación tiene que hacerse, ¿Qué implica decir que dos variables presentan asociación? ¿Cómo podemos medir dicha asociación? En esta entrada, mediante el entendimiento de la covarianza y algún otro concepto, podrás entender mejor la primera pregunta y dar una respuesta parcial a la segunda.

Cuando decimos que dos variables presentan una asociación, que están correlacionadas, estamos diciendo que, en cierto grado, varían conjuntamente. Es decir, que cuando el valor de una incrementa o disminuye, el de la otra tiende también a incrementar o disminuir en un sujeto dado. Ahora veamos como se puede reflejar en números esa variación conjunta.

Vamos a partir de un escenario simulado, en el que hemos medido a 10 sujetos la intensidad del dolor de hombro (cm) y la fuerza en rotación externa (N):

$$\begin{array} {| ccc |} \hline Sujeto & Dolor & Fuerza \\ \hline 1 & 1 & 180 \\ \hline 2 & 2 & 160 \\ \hline 3 & 3 & 190 \\ \hline 4 & 4 & 120 \\ \hline 5 & 5 & 150 \\ \hline 6 & 6 & 140 \\ \hline 7 & 7 & 130 \\ \hline 8 & 8 & 170 \\ \hline 9 & 9 & 100 \\ \hline 10 & 10 & 110 \\ \hline \end{array}$$

Como hemos comentado, queremos obtener un estadístico que nos sirva para medir el grado en que dos variables varían de manera conjunta, de modo que resulta obvio, que dicho estadístico se tendrá que calcular utilizando los valores de ambas variables. Podríamos calcular el producto de los valores de cada una de las variables, es decir:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 180 & 180 \\ \hline 2 & 2 & 160 & 320 \\ \hline 3 & 3 & 190 & 570 \\ \hline 4 & 4 & 120 & 480 \\ \hline 5 & 5 & 150 & 750 \\ \hline 6 & 6 & 140 & 840 \\ \hline 7 & 7 & 130 & 910 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 100 & 900 \\ \hline 10 & 10 & 110 & 1100 \\ \hline \end{array}$$

Si sumamos dichos productos de la última columna, obtenemos un valor que en nuestro caso simulado es igual a 7410.  Pero, ¿Por qué nos interesa ese valor? Si multiplicamos dos valores grandes, se obtiene como resultado un valor «grande», si multiplicamos dos pequeños, se obtiene como resultado un valor «pequeño» y si multiplicamos uno grande por uno pequeño, obtenemos un valor «medio». Si imaginamos que queremos maximizar la relación entre estas dos variables, existiendo una correlación positiva perfecta, es decir, que a mayor valor de una, mayor valor de la otra, entonces ocurriría que el sujeto con el mayor valor de dolor (10 cm), tendría el mayor valor de fuerza (190 N). Podemos simular ese supuesto caso, obteniéndose la siguiente tabla:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 100 & 100 \\ \hline 2 & 2 & 110 & 120 \\ \hline 3 & 3 & 120 & 360 \\ \hline 4 & 4 & 130 & 520 \\ \hline 5 & 5 & 140 & 700 \\ \hline 6 & 6 & 150 & 900 \\ \hline 7 & 7 & 160 & 1120 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 180 & 1620 \\ \hline 10 & 10 & 190 & 1900 \\ \hline \end{array}$$

En este nuevo caso simulado, la suma de productos es de 8800. Como puede apreciarse, es un valor superior al anterior, el orden de los valores (mayor a menor) coincide en ambas variables, a cada valor máximo le corresponde el máximo que podría del conjunto, esto hace que se maximice la suma de productos, es decir, que obtenga su máximo valor posible con estos datos. Podríamos hacer lo mismo pero a la inversa, es decir, al valor máximo de dolor asociarle el valor mínimo de fuerza, es decir, estando en el caso simulado con una relación negativa perfecta entre las dos variables, en cuyo caso obtendríamos el mínimo valor posible de la suma de productos, siendo de 7150. Por tanto, tenemos dos extremos, el de la máxima correlación positiva posible (8800) y el de la máxima correlación negativa posible (7150). Si realizásemos el proceso anterior de asignación de los valores de fuerza y dolor de forma aleatoria, habrá algún valor que obtengamos de suma de productos que reflejará la mínima correlación posible, que se encontrará entre 7150 y 8800. Como podemos observar, el valor de suma de productos inicial (7410) está próximo al valor de la correlación perfecta negativa (7150), esto nos indicaría a priori que parece haber una correlación negativa en nuestra muestra original (primera tabla) entre ambas variables.

No obstante, esta suma de productos no es lo que se suele utilizar como posible estimador de la correlación entre dos variables. Es aquí donde entra en juego el concepto de covarianza. En lugar de multiplicar directamente los valores como hemos hecho en el caso anterior, lo que se hace es multiplicar la diferencia de dichos valores con respecto a la media muestral, de forma que con los datos iniciales, tendríamos la siguiente tabla:

$$\begin{array} {| ccccccc | } \hline Sujeto & Dolor & Fuerza & D*F & d_i – \bar d & f_i – \bar f & (d_i – \bar d) * (f_i – \bar f) \\ \hline 1 & 1 & 180 & 180 & -4.5 & 35 & -157.5 \\ \hline 2 & 2 & 160 & 320 & -3.5 & 15 & -52.5 \\ \hline 3 & 3 & 190 & 570 & -2.5 & 45 & -112.5 \\ \hline 4 & 4 & 120 & 480 & -1.5 & -25 & 37.5 \\ \hline 5 & 5 & 150 & 750 & -0.5 & 5 & -2.5 \\ \hline 6 & 6 & 140 & 840 & 0.5 & -5 & -2.5 \\ \hline 7 & 7 & 130 & 910 & 1.5 & -15 & -22.5 \\ \hline 8 & 8 & 170 & 1360 & 2.5 & 25 & 62.5 \\ \hline 9 & 9 & 100 & 900 & 3.5 & -45 & 157.5 \\ \hline 10 & 10 & 110 & 1100 & 4.5 & -35 & -157.5 \\ \hline \end{array}$$

En este caso las tres últimas columnas son las importantes, la primera refleja las diferencias del valor de dolor de cada sujeto con respecto a la media del grupo, la segunda lo mismo pero para la fuerza y la tercera es el producto de estas dos columnas anteriores. Si sumamos los valores de la última columna, obtenemos lo que se conoce como producto cruzado, que en este caso tiene un valor de -565. La diferencia de este valor, con respecto a la primera multiplicación que hacíamos con los datos originales, es que está centrado en el cero, es decir, mientras que en el anterior caso si las variables tenían cero correlación, obteníamos un valor de productos distinto de cero, en este caso cuando hay cero correlación el valor del producto cruzado es de cero. ¿Y qué es entonces la covarianza? Dado que el valor del producto cruzado depende del número de sujetos de la muestra, lo que se hace es dividir entre dicho valor (o entre los grados de libertad si es una estimación poblacional a partir de una muestra), para controlar este factor, de manera que puedan compararse distintas muestras. Este valor es la covarianza, cuya fórmula sería:

$$ Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(y_i – \bar y)}{n-1}$$

En nuestro caso, el valor de la covarianza entre el dolor y la fuerza es de -62.78 (el signo negativo indica que la correlación es negativa, a menos dolor más fuerza). Si la correlación entre dos variables es de cero, entonces su covarianza también. La fórmula anterior puede resultar familiar, eso es por su similitud con la fórmula de la varianza de una variable:

$$\sigma^2_x = \frac{\sum_{i=1}^{n}(x_i – \bar x)^2}{n-1} = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(x_i – \bar x)}{n-1}$$

Es importante darse cuenta de esta similitud, ya que sirve pare entender el concepto de «variabilidad conjunta». Mientras que para una sola variable, al estimar su variabilidad, multiplicábamos el mismo término por si mismo (elevábamos al cuadrado), ahora lo que se hace es, como tenemos dos variables, multiplicamos un término por el otro, para obtener un estimador de esa variabilidad conjunta de ambas variables, la covarianza. Entender esta similitud servirá posteriormente para comprender otro concepto, el coeficiente de correlación de Pearson. Este coeficiente es el que se utiliza en última instancia para evaluar la correlación entre dos variables cuantitativas que cumplan una serie de asunciones. No obstante, ya se ha podido conocer en esta entrada un estadístico que permite evaluar la relación entre dos variables, la covarianza, que es de suma importancia para múltiples análisis estadísticos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Descriptivos Temas Básicos

Suma Cuadrados Desviación Estándar y Varianza

Dispersión: Suma de cuadrados, Desviación estándar y varianza

En esta entrada se ofrece una explicación básica de tres conceptos relacionados, la suma de cuadrados, la desviación estándar, y la varianza, medidas de dispersión comúnmente reportadas en investigación.

Mientras que los términos de varianza y desviación estándar son más conocidos incluso entre aquellos que se están iniciando en el mundo de la estadística aplicada, el concepto de suma de cuadrados (SS, del inglés «sum of squares») y el de cuadrado medio (MS, del inglés «mean square»), no lo son tanto y es por ello que comenzaré explicando estos dos conceptos y su relación con los otros dos primeros. Es importante conocer el significado de estos últimos ya que en múltiples análisis dentro del campo de los mínimos cuadrados ordinarios se hará referencia a ellos.

Vamos a partir de la siguiente muestra simulada de 10 sujetos, a los cuales se les ha medido el peso en kg:

$$Muestra = \{70, 72, 65, 60, 81, 77, 66, 63, 78, 58\}$$

$$\bar x = 69 kg$$

Si queremos saber como de dispersos están nuestros datos, cual es su «variabilidad», una opción es, a cada valor, restarle la media del conjunto. Sin embargo, si queremos obtener un estimador de la dispersión de nuestra muestra usando esas diferencias con respecto a la media y sumamos todos los valores, el valor resultante es cero:

$$Diferencias = \{1, 3, -4, -9, 12, 8, -3, -6, 9, -11\}$$

$$\sum_{i = 1}^{n} (x_i – \bar x) = 0$$

Para solventar este problema, lo que suele hacerse es elevar al cuadrado cada diferencia antes de proceder a su suma, como puede intuirse, este valor obtenido es al que denominados suma de cuadrados, ya que se están sumando los cuadrados de las diferencias:

$$SS = \sum_{i = 1}^{n} (x_i – \bar x)^2$$

$$SS = 1 + 9 + 16 + 81 + 144 + 64 + 9 + 36 + 81 + 121 = 562$$

No obstante, la suma de cuadrados también presenta un problema, es dependiente del número de valores del que disponemos, es decir, a mayor muestra mayor SS. Esto dificulta la utilización de la SS como un estimador de la dispersión de los datos a la hora de comparar distintas muestras. Es por ello que este valor se divide entre el número total de sujetos de la muestra, dando lugar a lo que se conoce como cuadrado medio:

$$MS = \frac{SS}{n} = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

$$MS = \frac{562}{10} = 56.2$$

Esta fórmula puede que resulte familiar ya que, en efecto, es la misma fórmula que la de la varianza muestral (σ²), es decir, la varianza muestral y el cuadrado medio son lo mismo, pero con distinto nombre:

$$MS = \sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

Finalmente, existe otra cuestión que debemos tener en cuenta y es que la varianza no se encuentra en las mismas unidades que los valores originales, pues se ha obtenido sumando los cuadrados. Para solventar este problema disponemos de otro estadístico, la desviación estándar muestral (σ), que se calcula como la raíz cuadrada de la varianza:

$$\sigma = \sqrt{\sigma^2} = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}} = \sqrt{56.2} = 7.50 kg$$

Las dos fórmulas descritas anteriormente para la varianza y desviación estándar, son para su cálculo para la muestra bajo análisis. Si lo que queremos es estimar los valores poblacionales a partir de una muestra, la fórmula varía ligeramente debido a que cambian los grados de libertad:

$$\sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}$$

$$\sigma = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}}$$

Estos estadísticos se suelen emplear como descriptores de dispersión en el caso de variables cuantitativas que presenten una distribución aproximadamente normal, así como para distintos cálculos bajo el modelo de mínimos cuadrados ordinarios.

Propiedades de la varianza

La varianza presenta algunas propiedades que es necesario conocer, para facilitar la comprensión posterior de algunos conceptos:

  • El valor de la varianza es siempre igual o superior a cero.

$$\sigma^2 \geq 0$$

  • La varianza de una constante es cero. Como su propio nombre indica, una constante no varía, no tiene variabilidad, «sus datos no varían». Como curiosidad, existe un error de denominación de las «constantes vitales», que no son realmente constantes.

$$\sigma^2(c) = 0$$

  • Si multiplicamos todos los valores de una variable X por una constante entonces:

$$\sigma^2(X*c) = c^2*\sigma^2(X)$$

  • La varianza de la suma o resta de dos variables (X e Y), con covarianza (Cov(X,Y)), es igual a:

$$\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y) + 2Cov(X,Y)$$

$$\sigma^2(X-Y) = \sigma^2(X) + \sigma^2(Y) – 2Cov(X,Y)$$

Esta última propiedad tiene especial importancia con respecto a la fiabilidad de las diferencias entre dos mediciones consecutivas en el tiempo, como son por ejemplo las diferencias post-tratamiento menos la medición basal, habitualmente utilizadas en los análisis de los ensayos clínicos aleatorizados del campo de la Fisioterapia.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Modelo Lineal General Temas Básicos

Modelo Lineal General Explicación

Modelo Lineal General: Explicación básica

En esta entrada se ofrece una explicación del concepto de Modelo Lineal General, ejemplificándose como una regresión lineal simple y una prueba t-Student son el mismo análisis con distinto nombre.

El Modelo Lineal General engloba un conjunto de análisis paramétricos que se basan en intentar predecir una variable continua en función de una o más variables, asumiendo que la relación entre ellas es de tipo lineal, usando el método de mínimos cuadrados ordinarios. Bajo este modelo se incluyen análisis como la prueba t-Student, la regresión lineal simple y múltiple, el Análisis de la Varianza y el Análisis de la Covarianza. A pesar de existir tantos nombres distintos, todos ellos son en realidad el mismo tipo de análisis, una regresión lineal con una o más variables predictoras. En esta entrada voy a ejemplificar esta afirmación equiparando la prueba t-Student a una regresión lineal simple.

Vamos a partir de un estudio transversal en el que queremos evaluar si existen diferencias en la fuerza de rotación externa entre personas con y sin tendinopatía del manguito rotador. Para ello, asumiremos los siguientes valores poblacionales de fuerza de rotación externa:

$$Sanos \rightarrow \mu_{sanos} = 150N \ y \ \sigma_{sanos} = 40N$$

$$Dolor \rightarrow \mu_{dolor} = 140N \ y \ \sigma_{dolor} = 40N$$

Partiendo de estos datos poblacionales, simulamos un estudio en el que seleccionamos mediante un muestreo probabilístico 320 sujetos sanos y 320 con tendinopatía del manguito, obteniendo los siguientes datos muestrales:

$$Sanos \rightarrow \bar x_{sanos} = 152.07N \ y \ s_{sanos} = 41.32N$$

$$Dolor \rightarrow \bar x_{dolor} = 140.75N \ y \ s_{dolor} = 39.35N$$

En este estudio tenemos por tanto dos variables, la variable Dolor (0 = no, 1 = si), que sería la variable independiente (categórica binomial) y la variable fuerza (medida en Newtons), que sería la variable dependiente (cuantitativa continua). Con ellas, podemos crear el siguiente modelo de regresión lineal simple, donde queremos predecir la fuerza en función de la presencia de dolor:

$$Fuerza_i = C + b*Dolor_i$$

En esta fórmula, C es la constante y b es el coeficiente de regresión sin estandarizar. Imaginemos ahora que queremos predecir el valor fuerza de un sujeto i perteneciente al grupo de los participantes sanos. En este caso, el valor de dicho sujeto en la variable Dolor es cero, de modo que la anterior fórmula quedaría como:

$$Fuerza_i = C + b*0$$

$$Fuerza_i = C$$

Es decir, el valor predicho para dicho sujeto es igual a la constante de la fórmula de regresión lineal. Pero, ¿Qué valor tiene dicha constante? Recordando la entrada de mínimos cuadrados ordinarios, el mejor valor que podemos utilizar para predecir la puntuación de un sujeto de una muestra, es la media de dicha muestra, por tanto:

$$Fuerza_i = C = \bar x_{sanos} = 152.07$$

Es decir, la constante de la fórmula de regresión es la media del grupo de los participantes sanos. Ahora solo nos quedaría por conocer cual es el valor del coeficiente de regresión sin estandarizar (b) para poder completar la fórmula. Imaginemos que queremos predecir el valor de un sujeto i perteneciente al grupo de participantes con tendinopatía del manguito rotador. En este caso, el valor de la variable Dolor para dicho sujeto es de uno, de manera que:

$$Fuerza_i = 152.07 + b*1$$

$$Fuerza_i = 152.07 + b$$

Si partimos de la misma asunción realizada anteriormente basándonos en el método de mínimos cuadrados ordinarios, que es en el que se basa el modelo lineal general, el mejor valor que podemos utilizar para predecir la fuerza de un sujeto del grupo de participantes con tendinopatía del manguito rotador es la media de dicho grupo, de manera que la fórmula quedaría como:

$$140.75 = 152.07 + b$$

Si despejamos b de dicha fórmula, obtenemos que:

$$b = 140.74 – 152.07 = -11.32$$

Es decir, el coeficiente de regresión sin estandarizar (b) es igual a la diferencia media entre el grupo de participantes sanos y el grupo de sujetos con tendinopatía del manguito rotador. Por tanto, lo que estamos evaluando con este modelo de regresión lineal es si la diferencia media entre los grupos es estadísticamente significativa, que es lo mismo que evaluamos cuando utilizamos la prueba t-Student. A continuación muestro los resultados utilizando ambos análisis, de forma que se pueda observar que se obtiene el mismo resultado con ambos análisis, ya que son matemáticamente equivalentes, aunque les pongamos distinto nombre:

Prueba t-Student:

$$t = 3.55, gl = 636.49, p = .000416$$

$$ \bar x_{dolor – sano} = -11.32, Intervalo \ de \ Confianza \ 95\% = 5.06 \ a \ 17.58$$

Regresión lineal simple:

$$Constante = 152.07, error \ estandar = 2.26, t = 67.246 p < .0001$$

$$b = -11.32, error \ estandar = 3.19, t = 3.55, p = .000416, Intervalo \ de \ Confianza \ 95 \% = 5.06 \ a \ 17.58$$

Por tanto, queda demostrado que la prueba t-Student y una regresión lineal simple son el mismo análisis estadístico. Esta misma demostración puede realizarse con otros análisis como un Análisis de la Varianza, aunque de una manera no tan visual como en el presente caso, pero con la misma conclusión, el Análisis de la Varianza no es más que un análisis de regresión lineal, bajo el modelo lineal general, todo son regresiones lineales.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Inferencias Temas Básicos

Grados de Libertad

Grados de libertad: Definición simple

En los distintos análisis estadísticos que se nombran en la presente página y los estudios de investigación, aparece un concepto asociado a los mismos, el de los grados de libertad. En esta entrada se ofrece una explicación sencilla de dicho concepto para facilitar la comprensión del mismo en análisis más complejos.

La manera más sencilla de comprender el concepto de grados de libertad es utilizando como ejemplo la estimación de la desviación estándar poblacional a partir de una muestra. Como su propio nombre indica, los grados de libertad de un determinado estadístico son el número de valores utilizados para su cálculo que pueden variar libremente, antes de que el resto de valores se vean forzados a unos concretos sin disponer de dicha libertad de variación. Estos grados de libertad se utilizan, entre otras cosas, en los cálculos de los famosos valores-p y por ello se reportan en los resultados de múltiples análisis estadísticos en investigación, para facilitar la reproducibilidad de los mismos y con una finalidad de transparencia, para que el lector pueda corroborar que efectivamente, el valor-p asociado a ese determinado valor del estadístico en ese estudio, con ese tamaño muestral y esas características del análisis, ese el reportado por sus autores.

La fórmula de la desviación estándar de una muestra es la siguiente:

$$s = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n}}$$

Sin embargo, cuando lo que queremos es estimar la desviación estándar poblacional a partir de una muestra, la fórmula a utilizar es la siguiente:

$$\sigma = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n-1}}$$

En ambos casos, el denominador serían los grados de libertad, aunque donde tiene más sentido utilizar este término es en la segunda fórmula de estimación del valor poblacional a partir de una muestra. En el primer caso, como estamos calculando simplemente el valor de la muestra, los grados de libertad son iguales al número de sujetos, ya que cada sujeto puede tomar un valor libremente de la variable bajo estudio. Sin embargo, en el segundo caso, donde estamos estimando el valor poblacional, esto ya no se cumple.

Para entender el motivo de ese n-1 de la segunda formula, debemos primero conocer que, la media muestral, es un estimador directo de la media poblacional, es decir, asumimos que:

$$\bar x = \mu$$

Imaginemos que tenemos una población con una estatura media de 170cm. Ahora, seleccionamos una muestra de 10 sujetos mediante la que vamos a estimar la desviación estándar poblacional. Medimos a los primeros 9 sujetos, que pueden tomar valores que varían libremente, pudiendo ser:

$$Muestra = \{171, 174, 166, 178, 169, 158, 165, 164, 181, X_{10}\}$$

Para el cálculo de la desviación estándar poblacional se utiliza la media, tal y como se muestra en la fórmula anteriormente mencionada. Como hemos asumido que la media muestral es un estimador directo de la media poblacional, entonces la media muestral debería tener un valor de 170. De esta asunción se llega a la conclusión de que, como la media ya la hemos fijado antes del cálculo de la estimación de la desviación estándar, el valor de estatura del sujeto número 10 no puede variar libremente, ya que como la media ha de ser 170, el valor de este sujeto esta condicionado por los valores de los otros 9 sujetos que si varían libremente, es decir, adjudicados nueve valores libremente y queriendo obtener una media de 170, el último sujeto solo puede tener un valor:

$$X_{10} = n*\bar x – X_1 – X_2 – … – X_9$$

$$X_{10} = 10*170 – 171 – 174 – 166 – 178 – 169 – 158 – 165 – 164 – 181 = 174$$

Por tanto, la estimación de la desviación estándar poblacional a partir de esta muestra de 10 sujetos tendría 9 grados de libertad, que es igual al número total de sujetos de la muestra (n) menos el número de estadísticos que están restringidos (1, la media) y se usan para el cálculo de la desviación estándar. Aunque el cálculo de los grados de libertad para otros estadísticos es algo más complejo y difícil de comprender, el concepto subyacente es el mismo al reflejado en esta entrada.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Inferencias Temas Básicos

Mínimos Cuadrados Ordinarios

mínimos cuadrados ordinarios: definición simple

Los mínimos cuadrados ordinarios es un método de estimación de parámetros poblacionales mediante el modelo lineal, que se basa en minimizar el error cuadrático medio.

El método de mínimos cuadrados ordinarios es en el que se basan todos los análisis englobados dentro del modelo lineal general (t-Student, regresión lineal simple y múltiple, Análisis de la Varianza…). Este método consiste en minimizar la suma de cuadrados del error de predicción del modelo, que tiene sentido cuando se cumplen una serie de asunciones, que son las necesarias para poder realizar ese tipo de análisis. Dado que el concepto de media como estimador se basa también en este método, lo explicaré con ella, pues facilita la comprensión del mismo.

Imaginemos que tenemos la siguiente muestra de 9 sujetos, a los cuales medimos el peso:

$$ x = \{64, 65, 66, 67, 68, 69, 70, 71, 72\}$$

Ahora, queremos usar algún valor comprendido entre 64 y 72 como predictor de todos los sujetos. Al hacerlo, cometeremos errores, ya que habrá una diferencia entre el valor real de cada sujeto y el valor que hemos utilizado como predictor, de modo que podemos calcular la suma de cuadrados (SS) como estimador del error de predicción para distintos valores, que vamos a suponer como si fuesen «medias», cuyo valor seleccionamos nosotros a nuestro antojo y no con la fórmula descrita para la media, por ejemplo:

$$\bar x = 64 \rightarrow SS = 204$$

$$\bar x = 71 \rightarrow SS = 141$$

$$\bar x = 62 \rightarrow SS = 384$$

$$\bar x = 70 \rightarrow SS = 96$$

Podemos hacer esto para el conjunto de valores entre el mínimo (64) y el máximo (72) de la muestra, obteniendo el siguiente gráfico:

Como se puede apreciar, la representación gráfica de la suma de cuadrados (eje y) y el valor usado de la media (eje x) para calcular dicha suma de cuadrados, da lugar a una parábola. El vértice de la misma es el punto donde la suma de cuadrados es mínima y coincide con el valor de la media calculada con la fórmula mostrada en su respectiva entrada (marcada en el gráfico con una línea roja discontinua vertical). Queda por tanto demostrado que el uso de la media calculada con la fórmula descrita, para predecir los valores de una muestra, disminuye la suma de cuadrados de error, que es en lo que se basa el método de mínimos cuadrados ordinarios. En el resto de análisis, aunque de una manera quizás algo menos visual y más complicada de entender, se lleva a cabo el mismo procedimiento, por ejemplo, en una regresión lineal, se estiman los coeficientes de regresión para que dicha suma de cuadrados sea mínima.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Descriptivos Temas Básicos

Tendencia Central: Media

Tendencia central: la media

La media es uno de los estadísticos descriptivos de tendencia central más utilizados y cuyo entendimiento es crucial para la interpretación de una gran cantidad de análisis estadísticos.

En lenguaje común, cuando hablamos de «la media» estamos haciendo normalmente referencia a la medía aritmética. Sin embargo, existen otros tipos de medias, como la geométrica o la armónica, que no se verán en esta entrada. De ahora en adelante, en el resto de entradas, se asumirá que cuando se haga referencia a «la media» se está hablando siempre de la media aritmética.

Dentro del abanico de medidas de tendencia central, la media aritmética es una de las más utilizadas. Múltiples análisis estadísticos como la prueba t-Student, una regresión lineal o los Análisis de la Varianza (ANOVA), se basan en el uso de la media como estimador de tendencia central. Es por ello que es necesaria una buena comprensión de este concepto para poder interpretar adecuadamente dichos análisis. La fórmula de la media aritmética de una muestra sería la siguiente:

$$\bar x = \frac{\sum_{i=1}^{n} x_i}{n}$$

Sería por tanto, el sumatorio de todos los valores de una muestra entre el número total de valores presentes en la misma. Por su parte, la fórmula de la media aritmética de una población, estimada a partir de una muestra, se expresaría como:

$$\mu = \frac{\sum_{i=1}^{n} x_i}{n}$$

Es decir, la media aritmética muestral es un estimador directo de la media aritmética poblacional, a diferencia de la desviación estándar, donde la fórmula difiere ligeramente en el caso de la muestra y el de la estimación poblacional.

Asunciones para el uso de la media

La media aritmética se basa en el método de mínimos cuadrados ordinarioses decir, el uso de la media como estimador del valor de cualquier sujeto de la muestra, disminuye al mínimo la suma de cuadrados. Estas condiciones serían las siguientes:

  • La distribución de los datos es continua.
  • La distribución de los datos es simétrica.

La media es especialmente sensible a la presencia de valores atípicos, Por ejemplo, si tenemos una muestra A, simétrica y sin valores atípicos, la presencia de 1 solo valor atípico que produzca una asimetría (muestra B), induce cambios considerables en el valor de la media aritmética:

$$A = \{2,2,3,4,5,6,7,8,8\}$$

$$\bar x_A = 5$$

$$B = \{2,2,3,4,5,6,7,8,31\}$$

$$\bar x_B = 7.56$$

Es por ello que debemos evaluar cuidadosamente si la media es una buena medida de tendencia central para nuestros datos, pues la utilización de la misma en casos en que no esté indicado, puede llevar a errores notorios de interpretación. En una investigación, esta presencia de valores atípicos suele evaluarse previa realización de los análisis estadísticos, para tomar las decisiones más acertadas con respecto a como tratar los mismos para evitar tales malinterpretaciones.

Propiedades de la media

Algunas propiedades básicas de la media son:

  • No tiene porqué corresponderse con ningún valor de la muestra.

Este es un punto muy relevante, pues es un error frecuente atribuir el resultado de una diferencia de medias entre dos intervenciones en un ensayo clínico, a los sujetos individuales vistos en la práctica clínica. Las medias sirven para reflejar la tendencia central de una muestra, pero no deben ser utilizadas para interpretar valores individuales, es decir, no podemos extrapolar una diferencia media a un paciente que vemos el lunes en la consulta. Lo sencillo es «predecir» comportamientos muestrales o poblacionales, pero realizar predicciones (por ejemplo de mejoría con una intervención) a sujetos individuales, es una tarea ardua. 

  • No tiene porqué ser un número entero, aunque todos los valores de la muestra si lo sean.
  • No tiene porqué dividir la muestra en dos mitades iguales, es decir, en la mayoría de casos, es falso afirmar que por encima de la media se encuentran la mitad de los valores.
  • La media presenta las mismas unidades que los valores utilizados para su cálculo. Es decir, si usamos valores de peso (kg) para calcular la media, la media estará en kilogramos también.

Otras dos propiedades útiles a conocer serían:

  • Si sumamos una constante a todos los valores de una muestra, la media resultante es igual a la media original más dicha constante:

$$\bar x_{i+k} = \frac{\sum_{i=1}^{n} (x_i + k)}{n} = \frac{\sum_{i=1}^{n} x_i }{n} + k$$

  • La media de la suma o resta de dos muestras con las mismas unidades, es igual a la suma o resta de sus respectivas medias:

$$\bar x_{a \pm b} = \bar x_a \pm \bar x_b$$

Finalmente, también debemos tener en cuenta que las proporciones son medias. Imaginemos que tenemos una muestra de 10 sujetos, que pueden o no presentar dolor de hombro. En este caso, 5 sujetos presentan dolor de hombro, de modo que la frecuencia (prevalencia) es de 0.50. Si adjudicamos el valor 1 a los sujetos con dolor de hombro y el valor 0 a los que no tienen dolor, tendríamos la siguiente representación de dicha muestra:

$$ Muestra = \{1,0,1,1,0,1,0,0,0,1\}$$

Si aplicamos la fórmula de la media mencionada al inicio, entonces tenemos que la media de dicha muestra sería:

$$\bar x = \frac{1+0+1+1+0+1+0+0+0+1}{10}= \frac{5}{10}= 0.50$$

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …