Categorías
Modelo Lineal General Temas Básicos

Asunción de normalidad

Asunciones: Normalidad

En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que se refiere realmente dicha asunción, si es o no relevante, que implicaciones tiene su incumplimiento y como "evaluarla" y tomar decisiones en investigación para el análisis de datos.

Dentro de los análisis clásicos paramétricos para variables cuantitativas que asumiremos continuas, tales como una t-Student, un Análisis de la Varianza (ANOVA) o covarianza (ANCOVA), o lo que es lo mismo, el modelo de mínimos cuadrados ordinarios o el modelo generalizado de mínimos cuadrados ordinarios, asumimos una serie de consideraciones. Una de estas asunciones es la tan conocida «asunción de normalidad».

A pesar de que la gran mayoría de personas relacionadas con el ámbito de la investigación conocen ese término, actualmente existe mucho mal entendimiento acerca de a que se refiere dicha asunción, como evaluarla y que implicaciones puede tener o no su cumplimiento/incumplimiento.

Entendiendo la asunción de normalidad

La asunción de normalidad implica asumir una distribución normal de los residuos del modelo estadístico que se está implementando, o del estadístico del análisis (ej. distribución de la media muestral). Sin embargo, y esto es algo muy importante, no hace referencia a la distribución de los datos de la muestra, ni tampoco a la distribución poblacional de la variable en cuestión.

Vamos a empezar con el caso de un solo grupo con una sola variable, donde queremos estimar el intervalo de confianza de la media muestral. En esta situación, una práctica habitual es analizar si la distribución de dichos datos se aproxima a la normalidad. El razonamiento que se sigue es que, si los datos se aproximan a la normalidad, entonces es plausible asumir que la distribución muestral de la media también. Aunque este razonamiento tiene cierto sentido, no se cumple a la perfección. Es decir, puede ser que la distribución de los datos de nuestra muestra se aproxime a la normalidad y la de la media muestral no o viceversa. Por ejemplo, puede darse la situación de que tengamos una distribución poblacional ligeramente sesgada a la derecha, que derive en una distribución muestral (n = 200) igual de sesgada. A veces en esta situación, la distribución de la media muestral (con n = 200) se aproxima a la distribución normal, indicando el «cumplimiento» de dicha asunción. Aún así, como comentaré más adelante, que dicha asunción pueda ser plausible tampoco es indicativo de que usar tests paramétricos, o basarnos en la media, sea la mejor opción. En este caso concreto, si la muestra esta sesgada, la media no sería el estimador más apropiado de tendencia central, a expensas de la asunción de normalidad.

Con respecto a los residuos, un ejemplo erróneo del análisis de la asunción de normalidad para un ensayo aleatorizado, sería evaluar la distribución de los datos de la muestra para cada grupo de tratamiento y cada momento de medición por separado. Mientras que, el procedimiento adecuado, sería evaluar la normalidad de los residuos del modelo generalizado de mínimos cuadrados ordinarios implementado para analizar esos datos. Basarse en las distribuciones iniciales de los datos podría llevar al investigador a creer que ese modelo generalizado de mínimos cuadrados ordinarios no es apropiado, usando otros análisis que a lo mejor no son más apropiados y pueden tener otros problemas asociados. El motivo por el que se debe analizar esa distribución de los residuos, es porque los errores estándar calculados para, por ejemplo, una diferencia media ajustada entre dos tratamientos, se calculan con dichos residuos, asumiéndose que siguen una distribución normal en algunos análisis.

Analizando la distribución de los datos

La asunción de normalidad se evaluará siempre de los residuos del modelo estadístico a implementar, ya que no podemos evaluar la distribución del estadístico muestral bajo análisis. Existen distintas maneras de evaluar dicha asunción, que ordenadas de mayor utilidad/adecuación a menor serían:

  • Conocer la «naturaleza» de la variable en cuestión.
  • Histogramas y gráficos de densidad con outliers.
  • Gráficos QQ y PP.
  • Medidas de curtosis y asimetría.
  • Shapiro-Wilk y Kolmogorov-Smirnov con la corrección de Lilliefors (NO RECOMENDADOS).

En general, solamente con los puntos segundo y tercero, que consisten en la observación visual de cuatro gráficos, se obtiene la información necesaria y de mayor utilidad para discernir si parece cumplirse o no la asunción de normalidad y en que sentido es distinta la distribución de los residuos (si es más plana, si es asimétrica a la derecha, etc). En otra entrada previa recojo una explicación detallada de los gráficos QQ y PP, que podéis leer haciendo click en el enlace de más arriba, donde también explico brevemente porque los tests de contraste no están recomendados para evaluar la asunción de normalidad.

Las medidas de curtosis y asimetría pueden ser de utilidad, siempre que no se utilicen con una interpretación dicotómica con puntos de corte, ya que ello podría llevar a una malinterpretación y toma de decisiones errónea en la práctica de investigación. No es el objetivo de esta entrada explicar la matemática de los mismos, que me guardo para otra ocasión, de modo que simplemente daré una explicación sencilla de su interpretación.

El coeficiente de curtosis de Fisher nos indicaría como de «achatada» está la distribución de los residuos. El valor de curtosis de la distribución normal es de 3, por ello, normalmente al valor del coeficiente se le resta 3 para centrarlo al cero de cara a su interpretación (*Nota: algunas funciones de R y otros paquetes estadísticos te devuelven el valor original del coeficiente de curtosis, sin restarle 3, esto debe tenerse en cuenta a la hora de interpretar el mismo). Este coeficiente puede tomar los siguientes valores:

  • Curtosis < 0: Distribución más «plana» que la normal, también llamada platicúrtica.
  • Curtosis = 0: Curtosis de la distribución normal, también llamada mesocúrtica.
  • Curtosis > 0: Distribución más «puntiaguda» que la normal, también llamada leptocúrtica.

Por su parte, el coeficiente de asimetría de Fisher-Pearson nos informa del grado de asimetría y la dirección de la misma en la distribución de los residuos. Algunos paquetes estadísticos utilizan una formula que aplica una corrección en función del tamaño muestral. Los valores que puede tomar el estadístico son:

  • Asimetría < 0: Distribución asimétrica hacia la izquierda.
  • Asimetría = 0: Distribución simétrica, como la distribución normal.
  • Asimetría > 0: Distribución asimétrica hacia la derecha.

De cara a su interpretación, no daré ningún punto de corte ya que como he comentado, traen más problemas que soluciones. Cuanto más se alejen los valores de los de la distribución normal, peor. Sin embargo, no hay una regla definida de «cuanto» han de alejarse uno u otro para decidir usar métodos estadísticos que no asuman una distribución normal de los residuos.

Por último y quizás el punto más importante, es el conocimiento técnico de la variable resultado en cuestión. A expensas de los análisis de normalidad, hay variables con ciertas características que deben tenerse en cuenta, ya que implican que las mismas no deban analizarse con métodos que asumen una distribución normal de los residuos (o del estadístico muestral).

Un ejemplo son los cuestionarios auto-reportados por el paciente, tales como el SPADI, el TSK-11, el PCS, etc. Todas estas variables están acotadas tanto superior (máximo valor 100%), como inferiormente (mínimo valor 0%). Este acotamiento implica directamente que la asunción de normalidad no se cumple, aparte de traer consigo el incumplimiento de otras asunciones de los modelos de mínimos cuadrados ordinarios, como son directamente que la variable resultado no esté acotada, el incumplimiento de la asunción de homocedasticidad, y el incumplimiento de la asunción de linealidad (en el caso de varios modelos lineales). Por tanto, toda variable resultado que sea un cuestionario auto-reportado, sería erróneo analizarlo con una regresión lineal múltiple, siendo adecuada la opción de una regresión beta. Además, tampoco sería del todo apropiado en un ensayo clínico aleatorizado analizar las diferencias en dichas variables con un ANOVA, ANCOVA u otros modelos basados en mínimos cuadrados ordinarios. Sin embargo, estos análisis erróneos son los que se ven en casi todas las investigaciones realizadas con estas variables resultado. A día de hoy, desconocemos las implicaciones que puede estar teniendo analizar mal los datos en casi todas las investigaciones de este campo, pudiendo ser que muchas relaciones encontradas no sean tales, y que otras no encontradas si que existan.

Otro ejemplo serían las variables ordinales. Los métodos de análisis estadístico para variables ordinales suelen ser más «complejos» o mejor dicho, no dan la falsa sensación de ser «fácilmente interpretables». Esto hace que muchos investigadores tiendan a utilizar métodos que asumen que la variable en cuestión es una cuantitativa continua, como un ANOVA, ANCOVA o una regresión lineal múltiple, para analizar una variable resultado ordinal, bajo la premisa de que si presenta muchas categorías puede aproximarse a la distribución normal, o bajo ninguna premisa, simplemente porque sí. Aquí quiero hacer un apunte importante, en mayúsculas y directo: ESTO ES MENTIRA. Toda variable ordinal ha de ser tratada como ordinal siempre, con los métodos de análisis estadístico apropiados, tanto en ensayos clínicos como en estudios observacionales. Utilizar métodos de mínimos cuadrados ordinarios en estos casos puede llevar a grandes errores en la obtención de los resultados y las conclusiones extraídas de una investigación. Mi recomendación es que, cualquier análisis realizado de esta manera errónea, no sea en absoluto tenido en consideración. Algunos ejemplos de análisis adecuados para variables ordinales son el «proportional odds model» o el «continuation ratio model».

Aprendiendo con ejemplos de investigación reales

Para ejemplificar estas diferencias entre las distribuciones de los datos muestrales y las de los residuos de los modelos implementados, voy a utilizar tres ejemplos simulados: uno de un análisis pre-post para un solo grupo,  otro de un análisis estilo ANCOVA, con una medición basal y una post-tratamiento con dos grupos a comparar, y un tercero de una regresión lineal múltiple.

Ejemplo 1: Diferencia intra-grupo

Para este ejemplo he simulado una situación en la que tenemos una distribución poblacional de la medición basal y la post-tratamiento que no es normal, con una asimetría izquierda notoria. El objetivo de este estudio es analizar el cambio de la situación basal a la post-tratamiento para un solo grupo. Los análisis de la normalidad de los datos muestrales serían los siguientes:

  • Medición basal:
    • Shapiro-Wilk: p = 0.00143
    • Asimetría: -1.10
    • Curtosis: 0.35
  • Medición post-tratamiento:
    • Shapiro-Wilk: p = 0.01347
    • Asimetría: -0.84
    • Curtosis: -0.19

Los gráficos Q-Q para la medición basal y la post-tratamiento serían los siguientes:

Basándonos en dichos análisis de la distribución de los datos, un investigador podría decidir que no parece ser plausible la asunción de normalidad y decantarse por usar tests no paramétricos (no recomendados) u otras opciones de análisis robustos (recomendadas) sin necesidad.

Veamos ahora que pasa si nos centramos en los residuos del modelo estadístico a implementar, que es en los que se aplicaría en mayor medida la asunción de normalidad. En el caso de un solo grupo y dos mediciones, dichos residuos son la dispersión de la variable diferencia (post – basal). Para evaluar su distribución podemos calcular dicha diferencia para cada individuo y en esa nueva variable aplicar los distintos métodos de análisis de la asunción de normalidad. En este caso tendríamos los siguientes datos:

  • Variable diferencia:
    • Shapiro-Wilk: p = 0.9527
    • Asimetría: -0.08
    • Curtosis: 0.0006

El gráfico QQ para dicha variable diferencia sería el siguiente:

En este caso, las conclusiones que podríamos sacar son muy distintas a las de los análisis iniciales, pareciendo bastante plausible el cumplimiento de la asunción de la normalidad y pudiendo analizarse los datos con una prueba basada en mínimos cuadrados ordinarios.

Ejemplo 2: Modelo estilo ANCOVA

El segundo ejemplo es algo más aproximado a lo que puede ser la situación de un ensayo clínico aleatorizado real. En este ejemplo he simulado datos, también con una distribución poblacional sesgada a la izquierda, para dos grupos en dos momentos, uno antes del tratamiento (medición basal) y otro tras el tratamiento (medición post-tratamiento). Por tanto, tenemos un total de cuatro mediciones. Siguiendo el procedimiento erróneo de evaluar la normalidad de los datos muestrales, se obtienen los siguientes estadísticos:

  • Medición basal grupo 1:
    • Shapiro-Wilk: p = 0.00143
    • Asimetría: -1.10
    • Curtosis: 0.35
  • Medición basal grupo 2:
    • Shapiro-Wilk: p < 0.001
    • Asimetría: -2.07
    • Curtosis: 5.14
  • Medición post-tratamiento grupo 1:
    • Shapiro-Wilk: p = 0.00724
    • Asimetría: -0.86
    • Curtosis: -0.18
  • Medición post-tratamiento grupo 2:
    • Shapiro-Wilk: p < 0.001
    • Asimetría: -2.01
    • Curtosis: 4.97

El modelo de mínimos cuadrados ordinarios que se utilizaría para analizar este estudio sería una regresión lineal de la siguiente manera:

Post-tratamiento = Constante + b1*Basal + b2*Grupo + e

Donde «e» son los residuos del modelo. Implementando dicho análisis de regresión, para obtener diferencias entre-grupos «ajustadas» para la medición basal, podemos extraer los residuos del mismo y llevar a cabo los análisis de la asunción de normalidad en estos. Los resultados serían:

  • Residuos del modelo de mínimos cuadrados ordinarios:
    • Shapiro-Wilk: p = 0.4745
    • Asimetría: 0.25
    • Curtosis: -0.23

Nuevamente, el análisis de los residuos nos orienta a tomar una decisión muy diferente a los análisis de normalidad realizados de la manera equivocada sobre la distribución de los datos muestrales.

Ejemplo 3: Regresión lineal múltiple

Otra práctica habitual en investigación es analizar la distribución de todas las variables cuantitativas que se han medido, a la hora de realizar un análisis de regresión lineal múltiple. Este procedimiento también sería erróneo. La asunción de normalidad, como se ha comentado, hace referencia a los residuos de dicho modelo de regresión. Estos residuos serían la «parte» que no podemos predecir de cada individuo de la muestra en la variable resultado de interés (ej. fuerza) en función de los predictores incluidos en el modelo (ej. edad, estatura, peso y sexo). Por tanto, todo lo que tiene que ver con la asunción de normalidad en estos modelos, se relaciona únicamente con la variable resultado (fuerza), pero no es necesario para realizar un modelo de mínimos cuadrados ordinarios que las variables predictoras tengan una distribución normal. De ser así, no sería posible incluir ningún predictor categórico, pues estos nunca van a seguir una distribución normal.

La importancia (o no) de la normalidad y la toma de decisiones

Aunque la asunción de la normalidad es una de de las más conocidas por investigadores, no es la «más importante». Muchos métodos basados en mínimos cuadrados ordinarios «funcionan» más o menos bien ante pequeñas desviaciones de dicha asunción, siempre que se cumplan otras asunciones más importantes como la de homocedasticidad. Curiosamente, el resto de asunciones de los modelos de mínimos cuadrados ordinarios no suelen ser tan conocidas, habiendo pocos estudios que analicen adecuadamente la homocedasticidad de los residuos con sus adecuadas estratificaciones pertinentes, o evalúen si quiera otras asunciones como la de linealidad o aditividad (según el modelo implementado). Por eso, aunque a veces existan pequeñas desviaciones, en función de como sean estas y otros aspectos, podemos seguir implementando esos modelos.

Por otro lado, aunque los «análisis de normalidad» salgan favorables para dicha asunción, es erróneo también tomar decisiones solo basándonos en ello. Podemos tener una situación en la que la distribución de los datos (SI, habéis leído bien, LOS DATOS) esté sesgada a la derecha. En este caso, aunque se parezca cumplir la asunción de normalidad de los residuos, puede que debamos considerar que predecir la media (que es lo que predecimos con un modelo de mínimos cuadrados ordinarios) no sea lo más apropiado, ya que no sería un buen estimador de tendencia central, pudiendo ser más oportuno, por ejemplo, utilizar otros modelos de regresión que se basan en la predicción de la mediana.

Dicho de otra manera, la toma de decisiones en investigación de cara a la realización de análisis estadísticos es compleja y no podemos simplificarla, ni a puntos de corte arbitrarios ni a una interpretación aislada de uno, dos o varios análisis. Hay que tener en cuenta el conjunto de información disponible, tanto técnica como a nivel estadístico, para decidir cual es la mejor opción para una situación concreta de investigación.

Conclusión

La asunción de normalidad no hace referencia a la distribución de los datos de la muestra, se refiere a la distribución de lo residuos del modelo estadístico implementado o de la distribución muestral del estadístico bajo análisis. Existen diversas formas de evaluar dicha asunción, siendo algunas más apropiadas que otras. No obstante, debemos siempre tener en cuenta que hay que tener en cuenta otros aspectos para decidir como analizar los datos, ya que la asunción de normalidad no es lo más relevante en esa toma de decisiones en investigación.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Temas Básicos

Gráficos QQ y PP

Análisis de la "normalidad": Gráficos QQ y PP

En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles para le evaluación de la distribución de los datos y su aparente aproximación a una distribución normal teórica. El análisis de estos gráficos es más adecuado que los tests de contraste de hipótesis de Shapiro-Wilk y Kolmogorov-Smirnov.

Antes de llevar a cabo los análisis estadísticos de una investigación, es necesario evaluar algunos aspectos de los datos, para discernir cual es la mejor manera de analizar los mismos sin inducir sesgos en los parámetros a estimar (ej. medida de tendencia central), y «asegurar en mayor medida» que los errores estándar, intervalos de confianza y valores-p calculados pueden ser adecuados.

Una de estas asunciones, aunque no es la de mayor importancia, es la asunción de la distribución normal de los residuos o de los parámetros a estimar (ej. distribución de la media muestral). Lo más habitual es ver como esta asunción se evalúa con tests de contraste de hipótesis (Shapiro-Wilk o Kolmogorov-Smirnov), aunque este procedimiento no es correcto. Estos tests presentan los siguientes problemas:

  1. Plantean una toma de decisiones dicotómica, sin permitir evaluar el continuo de «cuanto nos alejamos o no del supuesto cumplimiento de la asunción de normalidad».
  2. Se basan en valores-p, cuya mal-interpretación puede llevar a errores en la toma de decisiones con respecto al cumplimiento o no de esta asunción.
  3. No cuantifican la magnitud de la desviación de la asunción de normalidad. Por ejemplo, si tenemos mucha muestra, una pequeña desviación de la asunción de normalidad puede resultar estadísticamente significativa (p < .05), sin que esta tenga que ser relevante, pudiendo ser ignorada por completo tal pequeña desviación. Del mismo modo, una desviación más notoria en una muestra pequeña puede resultar no significativa, pero si tener implicaciones importante de cara a como analizar los datos de esa muestra en concreto.
  4. No informan directamente del incumplimiento de la asunción. Los tests de contraste de hipótesis por si solos no nos dicen nada sobre la verdad/falsedad de las hipótesis en si mismas.

Otra actuación incorrecta pasa por establecer que, si la muestra supera n > 30 sujetos, entonces por el «Teorema Central Límite», podemos asumir que se cumple el supuesto de normalidad. Esta es una afirmación engañosa ya que:

  1. El «Teorema Central Límite» no hace referencia a tal afirmación.
  2. Muestras incluso superiores a 30 sujetos (ej. 50 o incluso 100 sujetos) pueden no derivar en el cumplimiento de dicha asunción si, por ejemplo, la distribución poblacional está muy sesgada a la derecha o la izquierda.
  3. Asumir este punto de corte arbitrario puede llevar a no valuar la distribución de los datos de la muestra, ignorándose incluso otras asunciones más importantes (como la homocedasticidad), que pueden derivar en una estimación sesgada de los parámetros bajo estudio (ej. tendencia central) e inutilidad de los intervalos de confianza calculados.
Gráficos QQ y PP: Definiciones

Una manera más adecuada de analizar la distribución de los residuos de un modelo, para evaluar si parece cumplirse o no el supuesto de distribución normal de los mismos, son los gráficos QQ y PP. Antes de proseguir, cabe destacar que estos gráficos no son lo único que deberíamos evaluar (los histogramas y gráficos de dispersión aportan información muy útil también), y que hay otros aspectos a tener en cuenta como la homocedasticidad, linealidad, aditividad, y presencia de valores atípicos o influyentes, que deberían ser tenidos en cuenta en los modelos que asumen distribución normal de los residuos. Ambos gráficos se basan en comparar unos valores observados, con sus respectivos teóricos bajo una distribución normal.

Los gráficos QQ se construyen enfrentando los cuantiles observados en nuestra muestra, con los cuantiles teóricos esperados bajo una distribución normal. Por otro lado, los gráficos PP se construyen enfrentando las probabilidades acumuladas observadas, con las esperadas bajo una distribución normal. A continuación se muestran dos gráficos, uno que es el gráfico de densidad de la distribución normal (izquierda) y otro a la derecha que es el gráfico de la distribución de la probabilidad acumulada normal. La probabilidad acumulada reflejada a la derecha es el área bajo la curva que queda a la izquierda de cada valor Z de la distribución normal de la gráfica de la izquierda.

Ahora imaginemos que hemos realizado una investigación con unos datos observados (n = 1000), para los cuales calcularemos los mismos gráficos de densidad y probabilidad acumulada. En la siguiente imagen se muestran ambas distribuciones, la normal teórica (rojo) y la observada en la muestra (azul).

Como se puede apreciar, las gráficas no son idénticas (el estudio simulado provenía de una distribución poblacional sesgada hacia la derecha). Centrándonos en la gráfica de la derecha, lo que se muestra en un gráfico PP serían esas diferencias entre ambas gráficas (emparejadas según el valor Z), de forma que si la muestra se aproxima de manera perfecta a una distribución normal, obtendríamos una correlación perfecta entre las probabilidades acumuladas, con todos los puntos del gráfico PP coincidiendo con una línea oblicua que pasa por el punto (0,0) y tiene una pendiente de 1. En la siguiente figura se muestra el gráfico PP para este estudio simulado.

Como se aprecia en este gráfico PP, al inicio la probabilidad acumulada observada es menor que la esperada bajo una distribución normal (puntos por encima de la linea oblicua de relación perfecta), que es lo mismo que podemos observar en las gráficas superpuestas con colores de más arriba.

Ambos gráficos informan sobre lo mismo, las desviaciones de la distribución de los datos con respecto a una distribución normal teórica. El motivo de que haya dos gráficos, es que cada uno pone el foco en una región distinta de la distribución. Los gráficos QQ son más sensibles (permiten visualizar mejor) desviaciones de la normalidad en los extremos de la distribución, mientras que los gráficos PP permiten visualizar mejor desviaciones en el centro de la distribución. En otras palabras, es como si el gráfico QQ hiciera «zoom» en los extremos, y el gráfico PP hiciera «zoom» en el centro.

Esta diferencia se entiende mejor si nos centramos en los gráficos PP. Como se ha comentado, estos enfrentan la probabilidad acumulada. Si asumimos que hay una desviación de la normal, puede haber una diferencia entre la probabilidad acumulada del primer dato ordenado observado (el más pequeño de todos) y la probabilidad esperada bajo la distribución normal. Para el segundo dato, tenemos dos errores, el cometido para el primero y el cometido para la diferencia del primero al segundo (ya que es una probabilidad acumulada y por tanto se van sumando). Resulta por tanto obvio que, si tenemos una desviación de la distribución normal, en el extremo inferior no se apreciarán muchas diferencias en el gráfico PP, porque los errores cometidos son menores que según vamos avanzando hacia el centro de la distribución, donde se van acumulando más posibles errores de desviación de la normal. Siguiendo el mismo razonamiento, como la probabilidad máxima es de 1, según nos acercamos a los valores superiores los errores también serán más pequeños, ya que ambas gráficas tenderán a aproximarse a la probabilidad de 1. Por tanto, donde más apreciaremos diferencias en un gráfico PP es en la zona central de los datos. A continuación se muestran los gráficos QQ y PP para el estudio simulado anteriormente, con una población sesgada hacia la derecha.

Como puede apreciarse, en el gráfico QQ (izquierda) las diferencias entre las distribuciones son más notorias en los extremos, mientras que en el gráfico PP (derecha) la diferencias son más notorias en la región central, tal y como se ha comentado, como si hiciéramos «zoom» en la gráfica en secciones distintas.

En el gráfico QQ la pendiente de la recta es igual a la desviación estándar de la muestra y la ordenada en el origen es igual a la media. Esto es así porque, en lugar de enfrentar directamente los cuantiles, se suele mantener las unidades originales en los datos observados en el eje Y.

El tamaño muestral y la variabilidad de los gráficos QQ y PP normales

Incluso cuando se cumple el supuesto de normalidad, la distribución de los datos puede alejarse de la supuesta distribución normal, por errores debidos al muestreo aleatorio. Según se vaya incrementando el tamaño muestral, si la asunción de normalidad se cumple, los gráficos QQ y PP deberían aproximarse más a la línea oblicua de concordancia perfecta entre las distribuciones.

A continuación se muestran los gráficos QQ y PP para 100 estudios simulados (bajo el cumplimiento de la asunción de normalidad) con tamaños muestrales de 10, 30 y 100 sujetos.

Como se puede apreciar, a mayor tamaño muestral mas aproximación hay entre las distribuciones observadas en la muestra y la teórica normal. Un punto a destacar es los extremos de los gráficos QQ, que somo se observa, incluso para un tamaño muestral de n = 100, se aprecian desviaciones de la línea recta de concordancia perfecta entre las distribuciones. Esto se debe a que por lo general, debido al muestreo, se tienden a obtener valores más extremos en las colas que los esperados bajo una distribución normal teórica, es decir, que los cuantiles observados son más grandes (positivo o negativo) que los teóricos, en los extremos de la distribución. Por ello, debemos tener en cuenta que un patrón como el mostrado en estas figuras en los gráficos QQ, con algunos puntos por debajo de la recta en el extremo inferior y por encima de la misma en el extremo superior de la distribución, es algo «normal».

Gráficos QQ y PP para algunos tipos de distribuciones

A modo de facilitar la comprensión de como pueden influir algunas desviaciones de la distribución normal en los gráficos QQ y PP, se muestran a continuación ambos gráficos para simulaciones de n = 1000 de: muestra sesgada a la derecha, muestra sesgada a la izquierda, muestra platicúrtica y muestra leptocúrtica. Cabe destacar que estas gráficas son con un tamaño muestral elevado, si se llevasen a cabo muestreos aleatorios con un tamaño menor (ej. n = 10 o n = 30) de poblaciones con estas distribuciones, lo que podríamos observar en los gráficos QQ y PP podría variar notoriamente. 

Recomendaciones de buenas prácticas

A continuación nombraré algunas recomendaciones de buenas prácticas de cara a investigadores en relación a la temática de la entrada.

  1. Análisis descriptivo detallado de todas las variables de estudio. En cualquier investigación es totalmente indispensable realizar y tener en cuenta un análisis descriptivo exhaustivo de todas las variables medidas. Este análisis debe incluir como mínimo (por separado para cada grupo, y también para los residuos de los modelos multivariables implementados):
    1. Media, mediana, desviación estándar, primer y tercer cuartiles, rango, y medidas de curtosis y asimetría.
    2. Gráficos QQ (obligatorio) y PP (opcional).
    3. Histogramas y/o gráficos de dispersión.
    4. Análisis de valores atípico
  2. No usar Shapiro-Wilk ni Kolmogorov-Smirnov para evaluar la asunción de normalidad.
  3. No basarnos en el «Teorema Central Límite» para asumir el cumplimiento de la asunción de normalidad.
  4. No usar de manera aislada los gráficos QQ y PP. Estos gráficos aportan una información, pero no toda. Para decidir si asumimos el cumplimiento o no de la asunción de normalidad hay que evaluar el conjunto de características de la distribución de la muestra.
  5. Primar siempre el conocimiento técnico para decidir sobre la distribución teórica asumida. A expensas de los análisis de la distribución de los datos, debe primar siempre nuestro conocimiento técnico sobre la variable resultado de interés. Por ejemplo, los cuestionarios auto-reportados por el paciente son variables acotadas superior e inferiormente, algo que induce heterocedasticidad y una distribución no normal (es más plausible una distribución beta), de modo que analizarlas como dependientes con modelos de regresión de mínimos cuadrados ordinarios es inapropiado, a expensas de los análisis descriptivos de los residuos.
  6. Son preferibles los gráficos QQ a los PP. Por lo general, lo que más «problemas» puede dar y que más interesa mirar son los extremos de la distribución. Por ello, suele ser preferible reportar y analizar los gráficos QQ a los PP. Lo adecuado sería analizar ambos, y lo inadecuado analizar y reportar solo los PP, ya que pueden sesgar al investigador y al lector.
  7. Evaluar el resto de asunciones del modelo implementado. Como se ha comentado, la asunción de la distribución normal de los residuos es solo una de las múltiples que se hacen al implementar algunos modelos de análisis estadístico. El resto de asunciones deben ser evaluadas adecuadamente, ya que por lo general esas otras asunciones (como la homocedasticidad, linealidad o aditividad) suelen ser más importantes que la de la distribución normal.
Conclusiones

La evaluación de la asunción de la distribución normal de los residuos no debe realizarse con test de contraste de hipótesis como Shapiro-Wilk o Kolmogorov-Smirnov, ni basarse en puntos de corte arbitrarios como el supuesto «Teorema Central Límite». Es importante conocer y analizar los gráficos QQ y PP para poder discernir si parecen haber desviaciones de la asunción de normalidad que merezcan ser tenidas en consideración de cara a la realización de los análisis estadísticos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …