Análisis de la "normalidad": Gráficos QQ y PP
En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles para le evaluación de la distribución de los datos y su aparente aproximación a una distribución normal teórica. El análisis de estos gráficos es más adecuado que los tests de contraste de hipótesis de Shapiro-Wilk y Kolmogorov-Smirnov.
Antes de llevar a cabo los análisis estadísticos de una investigación, es necesario evaluar algunos aspectos de los datos, para discernir cual es la mejor manera de analizar los mismos sin inducir sesgos en los parámetros a estimar (ej. medida de tendencia central), y «asegurar en mayor medida» que los errores estándar, intervalos de confianza y valores-p calculados pueden ser adecuados.
Una de estas asunciones, aunque no es la de mayor importancia, es la asunción de la distribución normal de los residuos o de los parámetros a estimar (ej. distribución de la media muestral). Lo más habitual es ver como esta asunción se evalúa con tests de contraste de hipótesis (Shapiro-Wilk o Kolmogorov-Smirnov), aunque este procedimiento no es correcto. Estos tests presentan los siguientes problemas:
- Plantean una toma de decisiones dicotómica, sin permitir evaluar el continuo de «cuanto nos alejamos o no del supuesto cumplimiento de la asunción de normalidad».
- Se basan en valores-p, cuya mal-interpretación puede llevar a errores en la toma de decisiones con respecto al cumplimiento o no de esta asunción.
- No cuantifican la magnitud de la desviación de la asunción de normalidad. Por ejemplo, si tenemos mucha muestra, una pequeña desviación de la asunción de normalidad puede resultar estadísticamente significativa (p < .05), sin que esta tenga que ser relevante, pudiendo ser ignorada por completo tal pequeña desviación. Del mismo modo, una desviación más notoria en una muestra pequeña puede resultar no significativa, pero si tener implicaciones importante de cara a como analizar los datos de esa muestra en concreto.
- No informan directamente del incumplimiento de la asunción. Los tests de contraste de hipótesis por si solos no nos dicen nada sobre la verdad/falsedad de las hipótesis en si mismas.
Otra actuación incorrecta pasa por establecer que, si la muestra supera n > 30 sujetos, entonces por el «Teorema Central Límite», podemos asumir que se cumple el supuesto de normalidad. Esta es una afirmación engañosa ya que:
- El «Teorema Central Límite» no hace referencia a tal afirmación.
- Muestras incluso superiores a 30 sujetos (ej. 50 o incluso 100 sujetos) pueden no derivar en el cumplimiento de dicha asunción si, por ejemplo, la distribución poblacional está muy sesgada a la derecha o la izquierda.
- Asumir este punto de corte arbitrario puede llevar a no valuar la distribución de los datos de la muestra, ignorándose incluso otras asunciones más importantes (como la homocedasticidad), que pueden derivar en una estimación sesgada de los parámetros bajo estudio (ej. tendencia central) e inutilidad de los intervalos de confianza calculados.
Gráficos QQ y PP: Definiciones
Una manera más adecuada de analizar la distribución de los residuos de un modelo, para evaluar si parece cumplirse o no el supuesto de distribución normal de los mismos, son los gráficos QQ y PP. Antes de proseguir, cabe destacar que estos gráficos no son lo único que deberíamos evaluar (los histogramas y gráficos de dispersión aportan información muy útil también), y que hay otros aspectos a tener en cuenta como la homocedasticidad, linealidad, aditividad, y presencia de valores atípicos o influyentes, que deberían ser tenidos en cuenta en los modelos que asumen distribución normal de los residuos. Ambos gráficos se basan en comparar unos valores observados, con sus respectivos teóricos bajo una distribución normal.
Los gráficos QQ se construyen enfrentando los cuantiles observados en nuestra muestra, con los cuantiles teóricos esperados bajo una distribución normal. Por otro lado, los gráficos PP se construyen enfrentando las probabilidades acumuladas observadas, con las esperadas bajo una distribución normal. A continuación se muestran dos gráficos, uno que es el gráfico de densidad de la distribución normal (izquierda) y otro a la derecha que es el gráfico de la distribución de la probabilidad acumulada normal. La probabilidad acumulada reflejada a la derecha es el área bajo la curva que queda a la izquierda de cada valor Z de la distribución normal de la gráfica de la izquierda.
Ahora imaginemos que hemos realizado una investigación con unos datos observados (n = 1000), para los cuales calcularemos los mismos gráficos de densidad y probabilidad acumulada. En la siguiente imagen se muestran ambas distribuciones, la normal teórica (rojo) y la observada en la muestra (azul).
Como se puede apreciar, las gráficas no son idénticas (el estudio simulado provenía de una distribución poblacional sesgada hacia la derecha). Centrándonos en la gráfica de la derecha, lo que se muestra en un gráfico PP serían esas diferencias entre ambas gráficas (emparejadas según el valor Z), de forma que si la muestra se aproxima de manera perfecta a una distribución normal, obtendríamos una correlación perfecta entre las probabilidades acumuladas, con todos los puntos del gráfico PP coincidiendo con una línea oblicua que pasa por el punto (0,0) y tiene una pendiente de 1. En la siguiente figura se muestra el gráfico PP para este estudio simulado.
Como se aprecia en este gráfico PP, al inicio la probabilidad acumulada observada es menor que la esperada bajo una distribución normal (puntos por encima de la linea oblicua de relación perfecta), que es lo mismo que podemos observar en las gráficas superpuestas con colores de más arriba.
Ambos gráficos informan sobre lo mismo, las desviaciones de la distribución de los datos con respecto a una distribución normal teórica. El motivo de que haya dos gráficos, es que cada uno pone el foco en una región distinta de la distribución. Los gráficos QQ son más sensibles (permiten visualizar mejor) desviaciones de la normalidad en los extremos de la distribución, mientras que los gráficos PP permiten visualizar mejor desviaciones en el centro de la distribución. En otras palabras, es como si el gráfico QQ hiciera «zoom» en los extremos, y el gráfico PP hiciera «zoom» en el centro.
Esta diferencia se entiende mejor si nos centramos en los gráficos PP. Como se ha comentado, estos enfrentan la probabilidad acumulada. Si asumimos que hay una desviación de la normal, puede haber una diferencia entre la probabilidad acumulada del primer dato ordenado observado (el más pequeño de todos) y la probabilidad esperada bajo la distribución normal. Para el segundo dato, tenemos dos errores, el cometido para el primero y el cometido para la diferencia del primero al segundo (ya que es una probabilidad acumulada y por tanto se van sumando). Resulta por tanto obvio que, si tenemos una desviación de la distribución normal, en el extremo inferior no se apreciarán muchas diferencias en el gráfico PP, porque los errores cometidos son menores que según vamos avanzando hacia el centro de la distribución, donde se van acumulando más posibles errores de desviación de la normal. Siguiendo el mismo razonamiento, como la probabilidad máxima es de 1, según nos acercamos a los valores superiores los errores también serán más pequeños, ya que ambas gráficas tenderán a aproximarse a la probabilidad de 1. Por tanto, donde más apreciaremos diferencias en un gráfico PP es en la zona central de los datos. A continuación se muestran los gráficos QQ y PP para el estudio simulado anteriormente, con una población sesgada hacia la derecha.
Como puede apreciarse, en el gráfico QQ (izquierda) las diferencias entre las distribuciones son más notorias en los extremos, mientras que en el gráfico PP (derecha) la diferencias son más notorias en la región central, tal y como se ha comentado, como si hiciéramos «zoom» en la gráfica en secciones distintas.
En el gráfico QQ la pendiente de la recta es igual a la desviación estándar de la muestra y la ordenada en el origen es igual a la media. Esto es así porque, en lugar de enfrentar directamente los cuantiles, se suele mantener las unidades originales en los datos observados en el eje Y.
El tamaño muestral y la variabilidad de los gráficos QQ y PP normales
Incluso cuando se cumple el supuesto de normalidad, la distribución de los datos puede alejarse de la supuesta distribución normal, por errores debidos al muestreo aleatorio. Según se vaya incrementando el tamaño muestral, si la asunción de normalidad se cumple, los gráficos QQ y PP deberían aproximarse más a la línea oblicua de concordancia perfecta entre las distribuciones.
A continuación se muestran los gráficos QQ y PP para 100 estudios simulados (bajo el cumplimiento de la asunción de normalidad) con tamaños muestrales de 10, 30 y 100 sujetos.
Como se puede apreciar, a mayor tamaño muestral mas aproximación hay entre las distribuciones observadas en la muestra y la teórica normal. Un punto a destacar es los extremos de los gráficos QQ, que somo se observa, incluso para un tamaño muestral de n = 100, se aprecian desviaciones de la línea recta de concordancia perfecta entre las distribuciones. Esto se debe a que por lo general, debido al muestreo, se tienden a obtener valores más extremos en las colas que los esperados bajo una distribución normal teórica, es decir, que los cuantiles observados son más grandes (positivo o negativo) que los teóricos, en los extremos de la distribución. Por ello, debemos tener en cuenta que un patrón como el mostrado en estas figuras en los gráficos QQ, con algunos puntos por debajo de la recta en el extremo inferior y por encima de la misma en el extremo superior de la distribución, es algo «normal».
Gráficos QQ y PP para algunos tipos de distribuciones
A modo de facilitar la comprensión de como pueden influir algunas desviaciones de la distribución normal en los gráficos QQ y PP, se muestran a continuación ambos gráficos para simulaciones de n = 1000 de: muestra sesgada a la derecha, muestra sesgada a la izquierda, muestra platicúrtica y muestra leptocúrtica. Cabe destacar que estas gráficas son con un tamaño muestral elevado, si se llevasen a cabo muestreos aleatorios con un tamaño menor (ej. n = 10 o n = 30) de poblaciones con estas distribuciones, lo que podríamos observar en los gráficos QQ y PP podría variar notoriamente.
Recomendaciones de buenas prácticas
A continuación nombraré algunas recomendaciones de buenas prácticas de cara a investigadores en relación a la temática de la entrada.
- Análisis descriptivo detallado de todas las variables de estudio. En cualquier investigación es totalmente indispensable realizar y tener en cuenta un análisis descriptivo exhaustivo de todas las variables medidas. Este análisis debe incluir como mínimo (por separado para cada grupo, y también para los residuos de los modelos multivariables implementados):
- Media, mediana, desviación estándar, primer y tercer cuartiles, rango, y medidas de curtosis y asimetría.
- Gráficos QQ (obligatorio) y PP (opcional).
- Histogramas y/o gráficos de dispersión.
- Análisis de valores atípico
- No usar Shapiro-Wilk ni Kolmogorov-Smirnov para evaluar la asunción de normalidad.
- No basarnos en el «Teorema Central Límite» para asumir el cumplimiento de la asunción de normalidad.
- No usar de manera aislada los gráficos QQ y PP. Estos gráficos aportan una información, pero no toda. Para decidir si asumimos el cumplimiento o no de la asunción de normalidad hay que evaluar el conjunto de características de la distribución de la muestra.
- Primar siempre el conocimiento técnico para decidir sobre la distribución teórica asumida. A expensas de los análisis de la distribución de los datos, debe primar siempre nuestro conocimiento técnico sobre la variable resultado de interés. Por ejemplo, los cuestionarios auto-reportados por el paciente son variables acotadas superior e inferiormente, algo que induce heterocedasticidad y una distribución no normal (es más plausible una distribución beta), de modo que analizarlas como dependientes con modelos de regresión de mínimos cuadrados ordinarios es inapropiado, a expensas de los análisis descriptivos de los residuos.
- Son preferibles los gráficos QQ a los PP. Por lo general, lo que más «problemas» puede dar y que más interesa mirar son los extremos de la distribución. Por ello, suele ser preferible reportar y analizar los gráficos QQ a los PP. Lo adecuado sería analizar ambos, y lo inadecuado analizar y reportar solo los PP, ya que pueden sesgar al investigador y al lector.
- Evaluar el resto de asunciones del modelo implementado. Como se ha comentado, la asunción de la distribución normal de los residuos es solo una de las múltiples que se hacen al implementar algunos modelos de análisis estadístico. El resto de asunciones deben ser evaluadas adecuadamente, ya que por lo general esas otras asunciones (como la homocedasticidad, linealidad o aditividad) suelen ser más importantes que la de la distribución normal.
Conclusiones
La evaluación de la asunción de la distribución normal de los residuos no debe realizarse con test de contraste de hipótesis como Shapiro-Wilk o Kolmogorov-Smirnov, ni basarse en puntos de corte arbitrarios como el supuesto «Teorema Central Límite». Es importante conocer y analizar los gráficos QQ y PP para poder discernir si parecen haber desviaciones de la asunción de normalidad que merezcan ser tenidas en consideración de cara a la realización de los análisis estadísticos.
Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …
Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …
Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …
Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …