Categorías
Modelo Lineal General Temas Básicos

Asunción de normalidad

Asunciones: Normalidad

En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que se refiere realmente dicha asunción, si es o no relevante, que implicaciones tiene su incumplimiento y como "evaluarla" y tomar decisiones en investigación para el análisis de datos.

Dentro de los análisis clásicos paramétricos para variables cuantitativas que asumiremos continuas, tales como una t-Student, un Análisis de la Varianza (ANOVA) o covarianza (ANCOVA), o lo que es lo mismo, el modelo de mínimos cuadrados ordinarios o el modelo generalizado de mínimos cuadrados ordinarios, asumimos una serie de consideraciones. Una de estas asunciones es la tan conocida «asunción de normalidad».

A pesar de que la gran mayoría de personas relacionadas con el ámbito de la investigación conocen ese término, actualmente existe mucho mal entendimiento acerca de a que se refiere dicha asunción, como evaluarla y que implicaciones puede tener o no su cumplimiento/incumplimiento.

Entendiendo la asunción de normalidad

La asunción de normalidad implica asumir una distribución normal de los residuos del modelo estadístico que se está implementando, o del estadístico del análisis (ej. distribución de la media muestral). Sin embargo, y esto es algo muy importante, no hace referencia a la distribución de los datos de la muestra, ni tampoco a la distribución poblacional de la variable en cuestión.

Vamos a empezar con el caso de un solo grupo con una sola variable, donde queremos estimar el intervalo de confianza de la media muestral. En esta situación, una práctica habitual es analizar si la distribución de dichos datos se aproxima a la normalidad. El razonamiento que se sigue es que, si los datos se aproximan a la normalidad, entonces es plausible asumir que la distribución muestral de la media también. Aunque este razonamiento tiene cierto sentido, no se cumple a la perfección. Es decir, puede ser que la distribución de los datos de nuestra muestra se aproxime a la normalidad y la de la media muestral no o viceversa. Por ejemplo, puede darse la situación de que tengamos una distribución poblacional ligeramente sesgada a la derecha, que derive en una distribución muestral (n = 200) igual de sesgada. A veces en esta situación, la distribución de la media muestral (con n = 200) se aproxima a la distribución normal, indicando el «cumplimiento» de dicha asunción. Aún así, como comentaré más adelante, que dicha asunción pueda ser plausible tampoco es indicativo de que usar tests paramétricos, o basarnos en la media, sea la mejor opción. En este caso concreto, si la muestra esta sesgada, la media no sería el estimador más apropiado de tendencia central, a expensas de la asunción de normalidad.

Con respecto a los residuos, un ejemplo erróneo del análisis de la asunción de normalidad para un ensayo aleatorizado, sería evaluar la distribución de los datos de la muestra para cada grupo de tratamiento y cada momento de medición por separado. Mientras que, el procedimiento adecuado, sería evaluar la normalidad de los residuos del modelo generalizado de mínimos cuadrados ordinarios implementado para analizar esos datos. Basarse en las distribuciones iniciales de los datos podría llevar al investigador a creer que ese modelo generalizado de mínimos cuadrados ordinarios no es apropiado, usando otros análisis que a lo mejor no son más apropiados y pueden tener otros problemas asociados. El motivo por el que se debe analizar esa distribución de los residuos, es porque los errores estándar calculados para, por ejemplo, una diferencia media ajustada entre dos tratamientos, se calculan con dichos residuos, asumiéndose que siguen una distribución normal en algunos análisis.

Analizando la distribución de los datos

La asunción de normalidad se evaluará siempre de los residuos del modelo estadístico a implementar, ya que no podemos evaluar la distribución del estadístico muestral bajo análisis. Existen distintas maneras de evaluar dicha asunción, que ordenadas de mayor utilidad/adecuación a menor serían:

  • Conocer la «naturaleza» de la variable en cuestión.
  • Histogramas y gráficos de densidad con outliers.
  • Gráficos QQ y PP.
  • Medidas de curtosis y asimetría.
  • Shapiro-Wilk y Kolmogorov-Smirnov con la corrección de Lilliefors (NO RECOMENDADOS).

En general, solamente con los puntos segundo y tercero, que consisten en la observación visual de cuatro gráficos, se obtiene la información necesaria y de mayor utilidad para discernir si parece cumplirse o no la asunción de normalidad y en que sentido es distinta la distribución de los residuos (si es más plana, si es asimétrica a la derecha, etc). En otra entrada previa recojo una explicación detallada de los gráficos QQ y PP, que podéis leer haciendo click en el enlace de más arriba, donde también explico brevemente porque los tests de contraste no están recomendados para evaluar la asunción de normalidad.

Las medidas de curtosis y asimetría pueden ser de utilidad, siempre que no se utilicen con una interpretación dicotómica con puntos de corte, ya que ello podría llevar a una malinterpretación y toma de decisiones errónea en la práctica de investigación. No es el objetivo de esta entrada explicar la matemática de los mismos, que me guardo para otra ocasión, de modo que simplemente daré una explicación sencilla de su interpretación.

El coeficiente de curtosis de Fisher nos indicaría como de «achatada» está la distribución de los residuos. El valor de curtosis de la distribución normal es de 3, por ello, normalmente al valor del coeficiente se le resta 3 para centrarlo al cero de cara a su interpretación (*Nota: algunas funciones de R y otros paquetes estadísticos te devuelven el valor original del coeficiente de curtosis, sin restarle 3, esto debe tenerse en cuenta a la hora de interpretar el mismo). Este coeficiente puede tomar los siguientes valores:

  • Curtosis < 0: Distribución más «plana» que la normal, también llamada platicúrtica.
  • Curtosis = 0: Curtosis de la distribución normal, también llamada mesocúrtica.
  • Curtosis > 0: Distribución más «puntiaguda» que la normal, también llamada leptocúrtica.

Por su parte, el coeficiente de asimetría de Fisher-Pearson nos informa del grado de asimetría y la dirección de la misma en la distribución de los residuos. Algunos paquetes estadísticos utilizan una formula que aplica una corrección en función del tamaño muestral. Los valores que puede tomar el estadístico son:

  • Asimetría < 0: Distribución asimétrica hacia la izquierda.
  • Asimetría = 0: Distribución simétrica, como la distribución normal.
  • Asimetría > 0: Distribución asimétrica hacia la derecha.

De cara a su interpretación, no daré ningún punto de corte ya que como he comentado, traen más problemas que soluciones. Cuanto más se alejen los valores de los de la distribución normal, peor. Sin embargo, no hay una regla definida de «cuanto» han de alejarse uno u otro para decidir usar métodos estadísticos que no asuman una distribución normal de los residuos.

Por último y quizás el punto más importante, es el conocimiento técnico de la variable resultado en cuestión. A expensas de los análisis de normalidad, hay variables con ciertas características que deben tenerse en cuenta, ya que implican que las mismas no deban analizarse con métodos que asumen una distribución normal de los residuos (o del estadístico muestral).

Un ejemplo son los cuestionarios auto-reportados por el paciente, tales como el SPADI, el TSK-11, el PCS, etc. Todas estas variables están acotadas tanto superior (máximo valor 100%), como inferiormente (mínimo valor 0%). Este acotamiento implica directamente que la asunción de normalidad no se cumple, aparte de traer consigo el incumplimiento de otras asunciones de los modelos de mínimos cuadrados ordinarios, como son directamente que la variable resultado no esté acotada, el incumplimiento de la asunción de homocedasticidad, y el incumplimiento de la asunción de linealidad (en el caso de varios modelos lineales). Por tanto, toda variable resultado que sea un cuestionario auto-reportado, sería erróneo analizarlo con una regresión lineal múltiple, siendo adecuada la opción de una regresión beta. Además, tampoco sería del todo apropiado en un ensayo clínico aleatorizado analizar las diferencias en dichas variables con un ANOVA, ANCOVA u otros modelos basados en mínimos cuadrados ordinarios. Sin embargo, estos análisis erróneos son los que se ven en casi todas las investigaciones realizadas con estas variables resultado. A día de hoy, desconocemos las implicaciones que puede estar teniendo analizar mal los datos en casi todas las investigaciones de este campo, pudiendo ser que muchas relaciones encontradas no sean tales, y que otras no encontradas si que existan.

Otro ejemplo serían las variables ordinales. Los métodos de análisis estadístico para variables ordinales suelen ser más «complejos» o mejor dicho, no dan la falsa sensación de ser «fácilmente interpretables». Esto hace que muchos investigadores tiendan a utilizar métodos que asumen que la variable en cuestión es una cuantitativa continua, como un ANOVA, ANCOVA o una regresión lineal múltiple, para analizar una variable resultado ordinal, bajo la premisa de que si presenta muchas categorías puede aproximarse a la distribución normal, o bajo ninguna premisa, simplemente porque sí. Aquí quiero hacer un apunte importante, en mayúsculas y directo: ESTO ES MENTIRA. Toda variable ordinal ha de ser tratada como ordinal siempre, con los métodos de análisis estadístico apropiados, tanto en ensayos clínicos como en estudios observacionales. Utilizar métodos de mínimos cuadrados ordinarios en estos casos puede llevar a grandes errores en la obtención de los resultados y las conclusiones extraídas de una investigación. Mi recomendación es que, cualquier análisis realizado de esta manera errónea, no sea en absoluto tenido en consideración. Algunos ejemplos de análisis adecuados para variables ordinales son el «proportional odds model» o el «continuation ratio model».

Aprendiendo con ejemplos de investigación reales

Para ejemplificar estas diferencias entre las distribuciones de los datos muestrales y las de los residuos de los modelos implementados, voy a utilizar tres ejemplos simulados: uno de un análisis pre-post para un solo grupo,  otro de un análisis estilo ANCOVA, con una medición basal y una post-tratamiento con dos grupos a comparar, y un tercero de una regresión lineal múltiple.

Ejemplo 1: Diferencia intra-grupo

Para este ejemplo he simulado una situación en la que tenemos una distribución poblacional de la medición basal y la post-tratamiento que no es normal, con una asimetría izquierda notoria. El objetivo de este estudio es analizar el cambio de la situación basal a la post-tratamiento para un solo grupo. Los análisis de la normalidad de los datos muestrales serían los siguientes:

  • Medición basal:
    • Shapiro-Wilk: p = 0.00143
    • Asimetría: -1.10
    • Curtosis: 0.35
  • Medición post-tratamiento:
    • Shapiro-Wilk: p = 0.01347
    • Asimetría: -0.84
    • Curtosis: -0.19

Los gráficos Q-Q para la medición basal y la post-tratamiento serían los siguientes:

Basándonos en dichos análisis de la distribución de los datos, un investigador podría decidir que no parece ser plausible la asunción de normalidad y decantarse por usar tests no paramétricos (no recomendados) u otras opciones de análisis robustos (recomendadas) sin necesidad.

Veamos ahora que pasa si nos centramos en los residuos del modelo estadístico a implementar, que es en los que se aplicaría en mayor medida la asunción de normalidad. En el caso de un solo grupo y dos mediciones, dichos residuos son la dispersión de la variable diferencia (post – basal). Para evaluar su distribución podemos calcular dicha diferencia para cada individuo y en esa nueva variable aplicar los distintos métodos de análisis de la asunción de normalidad. En este caso tendríamos los siguientes datos:

  • Variable diferencia:
    • Shapiro-Wilk: p = 0.9527
    • Asimetría: -0.08
    • Curtosis: 0.0006

El gráfico QQ para dicha variable diferencia sería el siguiente:

En este caso, las conclusiones que podríamos sacar son muy distintas a las de los análisis iniciales, pareciendo bastante plausible el cumplimiento de la asunción de la normalidad y pudiendo analizarse los datos con una prueba basada en mínimos cuadrados ordinarios.

Ejemplo 2: Modelo estilo ANCOVA

El segundo ejemplo es algo más aproximado a lo que puede ser la situación de un ensayo clínico aleatorizado real. En este ejemplo he simulado datos, también con una distribución poblacional sesgada a la izquierda, para dos grupos en dos momentos, uno antes del tratamiento (medición basal) y otro tras el tratamiento (medición post-tratamiento). Por tanto, tenemos un total de cuatro mediciones. Siguiendo el procedimiento erróneo de evaluar la normalidad de los datos muestrales, se obtienen los siguientes estadísticos:

  • Medición basal grupo 1:
    • Shapiro-Wilk: p = 0.00143
    • Asimetría: -1.10
    • Curtosis: 0.35
  • Medición basal grupo 2:
    • Shapiro-Wilk: p < 0.001
    • Asimetría: -2.07
    • Curtosis: 5.14
  • Medición post-tratamiento grupo 1:
    • Shapiro-Wilk: p = 0.00724
    • Asimetría: -0.86
    • Curtosis: -0.18
  • Medición post-tratamiento grupo 2:
    • Shapiro-Wilk: p < 0.001
    • Asimetría: -2.01
    • Curtosis: 4.97

El modelo de mínimos cuadrados ordinarios que se utilizaría para analizar este estudio sería una regresión lineal de la siguiente manera:

Post-tratamiento = Constante + b1*Basal + b2*Grupo + e

Donde «e» son los residuos del modelo. Implementando dicho análisis de regresión, para obtener diferencias entre-grupos «ajustadas» para la medición basal, podemos extraer los residuos del mismo y llevar a cabo los análisis de la asunción de normalidad en estos. Los resultados serían:

  • Residuos del modelo de mínimos cuadrados ordinarios:
    • Shapiro-Wilk: p = 0.4745
    • Asimetría: 0.25
    • Curtosis: -0.23

Nuevamente, el análisis de los residuos nos orienta a tomar una decisión muy diferente a los análisis de normalidad realizados de la manera equivocada sobre la distribución de los datos muestrales.

Ejemplo 3: Regresión lineal múltiple

Otra práctica habitual en investigación es analizar la distribución de todas las variables cuantitativas que se han medido, a la hora de realizar un análisis de regresión lineal múltiple. Este procedimiento también sería erróneo. La asunción de normalidad, como se ha comentado, hace referencia a los residuos de dicho modelo de regresión. Estos residuos serían la «parte» que no podemos predecir de cada individuo de la muestra en la variable resultado de interés (ej. fuerza) en función de los predictores incluidos en el modelo (ej. edad, estatura, peso y sexo). Por tanto, todo lo que tiene que ver con la asunción de normalidad en estos modelos, se relaciona únicamente con la variable resultado (fuerza), pero no es necesario para realizar un modelo de mínimos cuadrados ordinarios que las variables predictoras tengan una distribución normal. De ser así, no sería posible incluir ningún predictor categórico, pues estos nunca van a seguir una distribución normal.

La importancia (o no) de la normalidad y la toma de decisiones

Aunque la asunción de la normalidad es una de de las más conocidas por investigadores, no es la «más importante». Muchos métodos basados en mínimos cuadrados ordinarios «funcionan» más o menos bien ante pequeñas desviaciones de dicha asunción, siempre que se cumplan otras asunciones más importantes como la de homocedasticidad. Curiosamente, el resto de asunciones de los modelos de mínimos cuadrados ordinarios no suelen ser tan conocidas, habiendo pocos estudios que analicen adecuadamente la homocedasticidad de los residuos con sus adecuadas estratificaciones pertinentes, o evalúen si quiera otras asunciones como la de linealidad o aditividad (según el modelo implementado). Por eso, aunque a veces existan pequeñas desviaciones, en función de como sean estas y otros aspectos, podemos seguir implementando esos modelos.

Por otro lado, aunque los «análisis de normalidad» salgan favorables para dicha asunción, es erróneo también tomar decisiones solo basándonos en ello. Podemos tener una situación en la que la distribución de los datos (SI, habéis leído bien, LOS DATOS) esté sesgada a la derecha. En este caso, aunque se parezca cumplir la asunción de normalidad de los residuos, puede que debamos considerar que predecir la media (que es lo que predecimos con un modelo de mínimos cuadrados ordinarios) no sea lo más apropiado, ya que no sería un buen estimador de tendencia central, pudiendo ser más oportuno, por ejemplo, utilizar otros modelos de regresión que se basan en la predicción de la mediana.

Dicho de otra manera, la toma de decisiones en investigación de cara a la realización de análisis estadísticos es compleja y no podemos simplificarla, ni a puntos de corte arbitrarios ni a una interpretación aislada de uno, dos o varios análisis. Hay que tener en cuenta el conjunto de información disponible, tanto técnica como a nivel estadístico, para decidir cual es la mejor opción para una situación concreta de investigación.

Conclusión

La asunción de normalidad no hace referencia a la distribución de los datos de la muestra, se refiere a la distribución de lo residuos del modelo estadístico implementado o de la distribución muestral del estadístico bajo análisis. Existen diversas formas de evaluar dicha asunción, siendo algunas más apropiadas que otras. No obstante, debemos siempre tener en cuenta que hay que tener en cuenta otros aspectos para decidir como analizar los datos, ya que la asunción de normalidad no es lo más relevante en esa toma de decisiones en investigación.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Ensayos Clínicos Inferencias Modelo Lineal General Temas Avanzados Uncategorized

Cambio Intra- & Entre-Grupos en Ensayos Aleatorizados

Ensayos aleatorizados: Cambio intra- & entre-grupos

En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del contexto de un ensayo aleatorizado, haciendo hincapié en su finalidad, limitaciones y adecuada interpretación.

De la práctica clínica a los ensayos aleatorizados

En la práctica clínica, la forma que disponemos de saber si un paciente mejora, es tomar una medición basal de referencia y una o varias mediciones en distintos momentos posteriores de seguimiento. Después, podemos observar la diferencia de dichas mediciones posteriores con la situación basal, para ver si ha habido un cambio en dicha variable. Sin embargo, a que se debe dicho cambio, pudiendo ser a un efecto de la intervención aplicada, historia natural, errores en el procedimiento de medición, etc. También puede deberse a una combinación de estos, influyendo algunos más y otros menos, por ejemplo:

Para poder saber cuál es la efectividad de la intervención, si es que hay alguna, debemos poder restar a dicha mejoría observada el efecto atribuible a otros factores, como los errores de medición o la historia natural. Sin embargo, esto no puede realizarse con un solo grupo de sujetos, ya que no tenemos forma de saber cuánto ha influido cada factor, por ello es necesario contar con un grupo no expuesto a la intervención, pero si a los otros factores que pueden influir en que los pacientes cambien a lo largo del tiempo. Esto es lo que se realiza en un ensayo clínico aleatorizado. Por ejemplo, podemos comparar un programa de ejercicio (grupo experimental) con un grupo que no reciba tratamiento (grupo control). La mejoría del grupo de ejercicio podría ser la siguiente:

Como se ha comentado, no sabemos cuándo ha contribuido cada factor a dicha mejoría y si hay o no algún efecto del tratamiento. La mejoría del grupo control podría ser esta: 

Dado que lo único que diferencia (si se ha realizado bien el estudio) al grupo experimental del control, es la aplicación de ejercicio terapéutico, si calculamos la diferencia entre ambos podremos obtener una estimación del efecto de la intervención:

Diferencias intra-grupo dentro del contexto de un ensayo clínico aleatorizado

Como se ha comentado, las diferencias intra-grupo no nos aportan información sobre la efectividad de una intervención, siendo esta información aportada por las diferencias entre-grupos. Entonces, ¿Qué utilidad tienen las diferencias intra-grupo en un ensayo aleatorizado?

Utilidad de la medición basal (antes de la intervención)

En contra de la intuición, las mediciones basales, antes de aplicar el tratamiento, no son en absoluto necesarias para poder evaluar la efectividad de una intervención en un ensayo aleatorizado. Se puede realizar un estudio aleatorizado midiendo solo a los 3 meses de haber aplicado la intervención, y poder obtener estimaciones precisas de la efectividad de esta.

Volviendo a la práctica clínica, si tenemos dos sujetos, uno que con una intensidad de dolor post-tratamiento de 3 y otro de 2.9 podríamos pensar que ambos han mejorado por igual, sin embargo, nos faltaría un dato, la situación de dolor basal de la que partían. Si uno de los sujetos partía de una intensidad de 8 y el otro de 4, las mejorías de uno y otro serían 5 y 2.1, habiendo claras diferencias (aunque no sabríamos si la mejoría sería por el tratamiento). Es decir, el calcular el cambio intra-grupo, con respecto a la medición basal, es una forma de “ajustar” o “controlar” para posibles diferencias en la situación basal, ya que la diferencia de los sujetos en el post-tratamiento depende de sus diferencias en la situación basal, y sin tener en cuenta la misma entonces podríamos malinterpretar quien ha mejorado más o menos.

En un ensayo aleatorizado, ese control de la situación basal se realiza mediante el proceso de asignación aleatoria a los grupos de tratamiento, que hace que la asignación al tratamiento sea independiente de la situación basal de los sujetos en la variable de interés y en todas las variables confusoras (medidas o sin medir en el estudio). Por ello, en este tipo de diseños no sería necesario como se ha comentado una medición basal para poder analizar la efectividad de un determinado tratamiento, pudiéndose analizar simplemente las diferencias post-tratamiento entre los grupos.

El motivo por el cual se realiza una medición basal, antes de aplicar la intervención, es porque de esta forma podemos mejorar la potencia estadística, siendo más fácil encontrar un efecto de la intervención bajo estudio, si es que existe alguno. Es decir, se realiza para disminuir el número de sujetos necesarios para llevar a cabo la investigación.

Cuando se dice que la aleatorización hace que la asignación al tratamiento sea independiente de la situación basal, implica decir que la diferencia media esperada (“real”) entre los grupos en la situación basal es de cero. Se habla de diferencia media esperada porque es el valor al que tiende dicho estadístico cuando el tamaño muestral tiende a infinito, sin embargo, en investigación las muestras nunca suelen ser tan grandes y, por tanto, siempre se observan pequeñas diferencias en la situación basal entre los grupos, originadas por la asignación aleatoria. Como sabemos que la diferencia real es de cero, si medimos la situación basal (previa al tratamiento), podemos incluir esa variable en un tipo de análisis conocido como Análisis de la Covarianza, para forzar a que dicha diferencia será cero en la situación basal en nuestro estudio, ajustándose las diferencias post-tratamiento y la precisión en la estimación de estas, mejorando la potencia estadística de los ensayos clínicos y, por tanto, necesitándose menos muestra. 

Los cambios como un modelo de regresión

Cuando calculamos la diferencia en dos momentos de tiempo de una variable, el objetivo es “ajustar” o “controlar” para la situación basal. En la práctica clínica normalmente medimos a un paciente varias veces, de modo que solo podemos realizar esta resta. Sin embargo, en una investigación se suele medir a un conjunto de pacientes (una muestra), siendo este procedimiento de resta simple inadecuado.

Desde un punto de vista de un modelo de regresión lineal, la medición post-tratamiento (Ypost) puede definirse como:

$$Y_{post} = C + b_1*Y_{basal} + error$$

Cuando calculamos manualmente la diferencia (post- menos basal) de cada sujeto, estamos asumiendo el siguiente modelo:

$$Y_{post} – Y_{basal} = C + error$$

La única forma de que las dos ecuaciones se igualen, es que b1 (el coeficiente de regresión sin estandarizar) sea igual a 1, algo que rara vez sucede en la práctica. Dado que el objetivo de calcular el cambio post- menos basal es “controlar” para discrepancias en la situación basal, eso implica que la variable “Diferencia” obtenida, debe ser independiente de la situación basal (correlación = 0), algo que solo sucederá si b1 = 1. De no ser así, habrá una relación entre la diferencia y la situación basal, como se muestra a continuación con datos simulados:

Esto tiene dos implicaciones. Por un lado, sigue habiendo dependencia con la situación basal, pudiéndose sobreestimar o infraestimar el posible efecto de la intervención, y por otro, no se minimizarían los errores del modelo de regresión, disminuyendo por tanto la precisión y potencia estadística del estudio.

Los ensayos aleatorizados como un modelo de regresión

Partamos ahora del contexto de un ensayo aleatorizado, donde se van a comparar dos grupos,  uno que recibe un tratamiento experimental y un grupo control sin tratamiento, tomándose mediciones en la situación basal y a los 6 meses de seguimiento. En este caso tenemos tres posibilidades para comparar ambos grupos: ver las diferencias en el post-tratamiento, calcular el cambio del post- con respecto a la medición basal y ver las diferencias entre los grupos en esta nueva variable, o utilizar un análisis de la covarianza. El modelo de regresión de cada una de estas opciones sería:

Comparar POST-

$$Y_{post} = C + b_1*Tratamiento$$

Comparar CAMBIO

$$Y_{post} – Y_{basal} = C + b_1*Tratamiento$$

Modelo ANCOVA

$$Y_{post} = C + b_1*Tratamiento + b_2*Y_{basal}$$

En el primer caso (POST-), se asume que la relación entre la medición post-tratamiento y la medición basal es de cero (b2 = 0); en el segundo caso, como se comentaba en el apartado anterior, se asume que b2 es igual a 1; y finalmente en el tercer caso, se deja al modelo de regresión calcular la mejor estimación posible de b2, en lugar de asumir un valor concreto, para minimizar los errores del modelo. En los tres casos, el coeficiente b1 sería la diferencia media entre ambos grupos.

Como se comentaba al inicio de la entrada,  no es necesario tomar mediciones basales para poder evaluar la efectividad de una intervención en un ensayo aleatorizado, siendo también innecesario el cálculo de la diferencia con respecto a la medición basal, teniendo estos procedimientos simplemente la utilidad de mejorar la potencia estadística y precisión (cuando la correlación entre la medición post- y la basal no es igual a cero). En otras palabras,  si la muestra es lo suficientemente grande, dará igual que evaluemos solo las diferencias post-tratamiento, ya que la asignación aleatoria asegura una diferencia basal nula cuando la muestra tiende a infinito. Por ejemplo, asumiendo una diferencia media de 0.5 y una desviación estándar de 1, la muestra necesaria para una potencia deseada del 90%, en función de la correlación entre la medición basal y la post-tratamiento, para cada uno de los tres modelos sería:

Como se puede apreciar en el gráfico, el modelo de ANCOVA optimiza la disminución de los errores del modelo, requiriéndose siempre menos muestra salvo que la correlación sea de 0 o de 1, donde tendría la misma utilidad que el modelo POST-tratamiento o el modelo CAMBIO, pero no menos utilidad. Dado que la potencia estadística solo puede ir de 0 a 100, si incrementásemos mucho el tamaño muestral (ej. 10,000 sujetos por grupo) daría igual que modelo utilizásemos en un ECA, ya que la potencia tendería a su limite superior de 100, siendo las diferencias entre los 3 métodos irrelevantes. Sin embargo, esta no suele ser la situación habitual en la práctica, donde al haber menos muestra, se pueden observar pequeñas diferencias a nivel basal entre los grupos, siendo recomendable por tanto el uso del ANCOVA que minimizaría los errores del modelo con respecto a los otros dos.

Centrándonos ahora en los coeficientes b1 de los tres modelos, es decir, en las diferencias medias entre los grupos, también se observa algo contraintuitivo. Tendemos a pensar que es algo distinto calcular las diferencias entre grupos del cambio con respecto a la medición basal, a calcular las diferencias solo en el post-tratamiento, o mediante el uso del ANCOVA, sin embargo, todos esos procedimientos están estimando lo mismo, el efecto de la intervención, es decir, si incrementamos la muestra lo suficiente, los coeficientes b1 de cada uno de los 3 modelos tenderán todos hacia un mismo valor, estiman lo mismo. Lo único distinto es que cambia la precisión de la estimación y por eso se obtienen pequeñas diferencias de dichos coeficientes en un ensayo clínico realizado, pero a nivel conceptual son lo mismo. Por tanto, la creencia popular de que calcular el cambio con respecto a la situación basal para comparar dicha variable entre dos tratamientos, ofrece una visión más “real” de la efectividad de una intervención, porque estamos comparando mejorías en el tiempo, no se sostiene.

Los engaños de las diferencias intra-grupo en los ensayos aleatorizados

Como se explicaba al inicio del texto, la asignación aleatoria a los grupos de tratamiento es lo que garantiza la independencia con respecto a variables confusoras, de forma que la inferencia causal solo es aplicable en un ensayo aleatorizado a las diferencias entre-grupos, pero no a las intra-grupo. A pesar de ello, actualmente la mayoría de las revistas científicas de nuestro campo solicitan reportar las diferencias intra-grupo dentro del contexto de un ensayo clínico, un procedimiento que más que ayudar a interpretar mejor los resultados, solo puede confundir y sesgar más al lector, induciendo a malinterpretaciones del ensayo clínico. Por ejemplo, dado que la asignación aleatoria no elimina factores de confusión de las diferencias intra-grupo, donde también influyen aspectos como la historia natural, esto hace que dicha diferencia dentro del grupo experimental tienda a sobreestimar la efectividad de la intervención, ya que en ella también se sumaria el efecto de la historia natural del proceso en cuestión.

A continuación, muestro algunas preguntas frecuentes con sus respectivas respuestas, a fin de prevenir al lector tales malinterpretaciones (algunos aspectos ya se han comentado previamente):

Preguntas y respuestas

Si un grupo experimental mejora de manera significativa y el control no, ¿implica que la intervención es efectiva?

No

Si dos grupos experimentales mejoran igual a lo largo del tiempo, ¿significa que ambas intervenciones son igual de efectivas, o que son efectivas?

No

¿Es necesario tomar una medición basal (antes de aplicar el tratamiento) en un ensayo aleatorizado para evaluar la efectividad de este?

No

Si las diferencias entre grupos no son significativas ni relevantes, pero solo el grupo experimental ha mostrado diferencias significativas intra-grupo, ¿significa que puede que la intervención sea efectiva?

No

¿Calcular la diferencia post- menos basal en un ensayo aleatorizado es un procedimiento estadístico adecuado?

No

¿Las diferencias intra-grupo sobreestiman el efecto de la intervención?

Si

¿Son distintas a nivel conceptual las diferencias entre-grupos ajustadas de un ANCOVA y las calculadas mediante la variable diferencia post- menos basal?

No

¿Es necesario observar las diferencias intra-grupo para interpretar adecuadamente los resultados de un ensayo aleatorizado?

No

 

Literatura de interés
Conclusiones

Las diferencias intra-grupo no son necesarias dentro del contexto de un ensayo aleatorizado, pudiendo derivar solo en malinterpretaciones de los resultados del mismo. Por ello, es recomendable no tener en cuenta tales diferencias, incluso no reportarlas, cuando se lea o se realice un estudio con este tipo de diseño. Todo ensayo aleatorizado debería analizarse y reportarse con un modelo ANCOVA (u otra variante de modelo de regresión multivariable, incluyendo la medición basal como covariable).

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Análisis Crítico Modelo Lineal General Observacional

Análisis Crítico #1

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: Análisis Crítico

Abstract

  • Background

    The use of predictive equation of muscular torque can reduce physical effort and time spent during evaluation. The aim of this study is to establish, validate, and test the accuracy of a prediction equation to estimate the hip external rotators (HER) torque in adults and older adults by means of hip extensors (HEX) torque measurement.

  • Design

    Cross-sectional.

  • Methods

    Eighty-three healthy adults (development set) were assessed to test the association of HEX and HER torques and to establish the prediction equation. A separate 36 adults and 15 older adults (validation sets) were assessed to test the ability of the equation to estimate HER torque. Hip isometric strength was assessed by a handheld dynamometer.

  • Results

    Simple linear regression analysis revealed that HEX torque was associated with HER torque (r = 0.80; p < 0.0001), resulting in the following prediction equation: HERtorque= −0.02 + (0.58 * HEXtorque). Paired t-test revealed no difference between directly measured and predicted values of HER torque in adults (mean difference = 0.02; 95% CI = −0.115, 0.072) and older adults (mean difference = 0.05; 95% CI = −0.02, 0.12).

  • Conclusion

    Simple linear regression analysis revealed that HEX torque was associated with HER torque (r = 0.80; p < 0.0001), resulting in the following prediction equation: HERtorque= −0.02 + (0.58 * HEXtorque). Paired t-test revealed no difference between directly measured and predicted values of HER torque in adults (mean difference = 0.02; 95% CI = −0.115, 0.072) and older adults (mean difference = 0.05; 95% CI = −0.02, 0.12).

Carta de respuesta al editor

Carta de respuesta de los autores

Categorías
Modelo Lineal General Temas Básicos

Transitividad de Correlaciones

Correlación: Transitividad

En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele hacerse sobre dicha propiedad, pudiendo llevar a conclusiones erróneas.

Antes de comenzar la lectura de esta entrada, me gustaría pedirte que realizases el siguiente test, que se repetirá de manera similar al final de la entrada, con el objetivo de que puedas darte cuenta las creencias erróneas que tienes actualmente y de si has adquirido conocimientos nuevos tras la lectura de la entrada.

41
Creado en Por Admin

Transitividad Correlaciones (Test Inicial)

1 / 9

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

2 / 9

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

3 / 9

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

4 / 9

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

5 / 9

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

6 / 9

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

7 / 9

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

8 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

9 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

Tu puntación es

The average score is 68%

0%

Imaginemos que sabemos que existe una relación entre la fuerza de prensión manual máxima (X) y la fuerza en rotación externa isométrica máxima de hombro (Y), y que existe una relación entre dicha rotación externa isométrica máxima (Y) y la discapacidad del hombro (Z). En base a ello, decidimos empezar a usar la fuerza de prensión manual como estimador de la discapacidad del hombro. En este razonamiento estaríamos haciendo uso de la transitividad, como X se relaciona con Y, y Y se relaciona con Z, entonces X se relaciona con Z, es decir, hay una «transmisión de la correlación».

Para poder entender la transitividad aplicada a las correlaciones, debemos conocer antes el concepto del coeficiente de determinación (R2) y el porcentaje de variabilidad explicada. A modo resumen simple, en función del valor del coeficiente de correlación de Pearson (r):

  • r = 0, no hay correlación.
  • r = 1, correlación perfecta positiva.
  • r = -1, correlación perfecta negativa.

Si elevamos dicho coeficiente de correlación al cuadrado, obtenemos el coeficiente de determinación (R2), que indica el porcentaje de variabilidad que podemos explicar de una variable a través de otra, por ejemplo si tenemos un coeficiente de Pearson de 0.50, el coeficiente de determinación sería R2 = 0.25, es decir, un 25% de variabilidad explicada. Este concepto puede representarse gráficamente con diagramas de Venn, que facilitarán entender el concepto de transitividad de las correlaciones. Si el área de ambos rectángulos es de 1, un R2 de 0.25 implica que hay un solapamiento del 25% del área los rectángulos.

Imaginemos ahora que tenemos tres variables en lugar de dos, con los siguientes valores de R2 entre ellas:

  • X-Y: 0.25
  • Y-Z: 0.25

Una posible representación mediante diagramas de Venn de estos valores de R2 sería la siguiente:

Cómo se puede apreciar en dicho diagrama, a pesar de que hay una correlación (r = 0.50) entre X e Y y Z e Y, los rectángulos de X y Z no se solapan, indicando una ausencia de correlación entre ellas. En otras palabras, que dos variables (X y Z) se relacionen con una misma variable (Y), no implica que esas dos tengan que presentar una correlación. Este es el principal error de interpretación que se comete con respecto a la transitividad de las correlaciones. Volviendo al ejemplo inicial sobre la prensión manual, la información facilitada en dicho enunciado impide saber si realmente la prensión manual se relaciona con la discapacidad del hombro, se requieren más datos. Pero… ¿Qué datos?

Tenemos dos opciones, una buena y adecuada y otra mala que solo utilizaré para ejemplificar la propiedad de transitividad aplicada a las correlaciones. La opción buena es la obvia, si se quiere estimar la correlación entre dos variables, lo adecuado es medir ambas y analizar directamente dicha correlación, no hacer estimaciones indirectas basadas en la transitividad.

Como ya he comentado, no tiene porque haber transitividad de una correlación de Pearson. Sabemos que la correlación entre X y Z se encuentra dentro del siguiente intervalo basado en las correlaciones entre X e Y y Z e Y:

$$r_{xy}r_{yz} – \sqrt{(1- R^2_{xy})(1-R^2_{yz})} \leq r_{xz} \leq r_{xy}r_{yz} + \sqrt{(1- R^2_{xy})(1-R^2_{yz})}$$

De esta fórmula podemos extraer varias conclusiones. Una primera es que, si y solo si rxy = ryz = 0, entonces rxz puede tomar todo el rango de valores posibles, es decir, de -1 a +1.

Otra conclusión sería que, si y solo si rxy = ryz (sin tener en cuenta el signo de la correlación, es decir, su valor absoluto), entonces puede existir una correlación perfecta entre X y Z, es decir rxz = 1 o rxz = -1, cuyo signo dependerá de los de las otras dos relaciones. Si nos imaginamos esta situación con los diagramas de Venn, tiene más sentido, pues que haya una relación perfecta (positiva o negativa) entre X y Z, implica que ambos rectángulos estarían superpuestos de manera perfecta y por tanto, el solapamiento de ambos con la variable Y sería el mismo, es decir, R2xy = R2yz.

Por otro lado y aunque no tan fácilmente reconocible como esa primera conclusión, de dicha fórmula también podemos concluir que, si rxy > 0, y ryz > 0, entonces rxz > 0 si y solo si:

$$R^2{xy} + R^2{yz} > 1$$

Es decir, habría transitividad de la correlación positiva solo cuando se cumpla esa situación. De forma más generalista, solo cuando la anterior situación se cumpla, la correlación entre X y Z no podrá ser igual a cero, en el resto de casos, puede existir una correlación igual a cero entre ambas variables. Nuevamente, si pensamos en los diagramas de Venn, podemos apreciar esa condición más fácilmente. El área del rectángulo de Y es igual a 1, de manera que si la suma de las áreas solapadas de X y Z con Y son superiores a 1, eso implica que los rectángulos de X y Z han de estar solapados también. A continuación muestro un ejemplo de diagrama de Venn donde casi hay solapamiento entre X y Z, con solo un 5% de la variabilidad de Y sin explicar. Si X y Z explicasen más porcentaje de la variabilidad de Y, es decir, si juntásemos más dichos rectángulos, acabarían por solaparse.

Este punto es importante, pues incluso con correlaciones altas  entre X e Y y Z e Y, puede darse una correlación de cero entre X y Z. Por ejemplo, asumiendo que rxy = ryz, entonces la correlación máxima que permitiría la posibilidad de que existiera una correlación de cero entre X y Z sería:

$$r_{xy} = r_{yz} = \sqrt 50 = 0. 7071$$

Es decir, podemos tener hasta una correlación entre X e Y y entre Z e Y de 0.7071 y ello no tendría que implicar que hubiera una correlación entre X y Z. Con la fórmula inicial de los intervalos del coeficiente de correlación entre X y Z en función de rxy y ryz, podemos calcular la correlación mínima que podríamos esperar entre X y Z, así como también evaluar en que situaciones es plausible una ausencia de correlación entre ambas variables.

Implicaciones de la malinterpretación de la transitividad de las correlaciones

¿Por qué es importante conocer como se comportan las correlaciones con respecto a la transitividad? Para no cometer errores grandes y, en mi experiencia por lo que he podido apreciar, encadenados, de interpretaciones y asunciones. Un ejemplo de malinterpretación común sería el siguiente:

«Estamos buscando artículos y nos encontramos con uno que ha visto que hay una correlación de 0.7 entre la fuerza máxima prensil y la fuerza isométrica máxima de rotación externa de hombro, nos acordamos que hace unos meses leímos otro estudio que había encontrado una correlación de 0.67 entre la fuerza isométrica máxima de rotación externa y la discapacidad del hombro, y en base a ambos estudios, decidimos empezar a evaluar y tratar la fuerza prensil en clínica en sujetos con patología dolorosa del hombro.»

Otra opción sería que, en función de esos dos estudios, decidiéramos hacer un ensayo clínico orientado a trabajar la fuerza prensil para mejorar la discapacidad en sujetos con dolor relacionado con el manguito rotador, o que decidiéramos no evaluar en un transversal la fuerza de rotación externa porque requiere de un dinamómetro que es más caro y midiéramos en su lugar la fuerza prensil, asumiendo que también se relaciona con la discapacidad. Todas estas decisiones son erróneas y pueden llevar a errores muy grandes, tanto en la práctica clínica como en investigación. Cuando he comentado que en mi experiencia, son errores encadenados, es porque muchas veces he observado que, en lugar de molestarnos en evaluar directamente las correlaciones, las asumimos presentes por transitividad, una tras otra, aceptando algunas como verdades ya comprobadas, y guiando líneas de investigación durante años y años, en base a un error conceptual de estadística.

Por último, otro ejemplo donde también aprecio se malinterpreta notoriamente la transitividad es en las pruebas de valoración. Tendemos a buscar métodos más baratos para evaluar determinados parámetros en nuestros sujetos en investigación, porque se supone tendrán mayor aplicabilidad clínica. Si bien esto es lo deseable, no siempre es posible. En esta búsqueda de métodos más baratos, pecamos de la falacia de la transitividad. Cuando se realiza un estudio de estas características, se suele comparar el nuevo método con uno considerado «gold standard» para evaluar su validez, calculándose la correlación entre las mediciones tomadas con ambos métodos. Mucha gente asume que por ejemplo, un valor de correlación de Pearson de 0.70, sería indicativo de buena validez, y concluyen que por tanto, el nuevo método podría implementarse en la práctica clínica e investigación, ahorrando costes. El motivo subyacente en la gran mayoría de casos, sea consciente o no quien realiza el mismo, es la aceptación de la transitividad, mejor dicho, la malinterpretación de la misma.

Si aceptamos una correlación de 0.70 entre ambos métodos de medición, necesitaríamos que se diera una correlación de 0.72 entre el gold standard y otra variable de interés, para que empezase a haber transitividad de dicha correlación hacia el nuevo método de medición. Por ejemplo, si asumimos que el gold standard presenta una correlación de 0.85 con otra variable, la correlación estimada del nuevo método de medición con dicha variable, por transitividad, sería de 0.219. ¿Podemos por tanto usar indistintamente el nuevo método de medición? La respuesta es, en función de solo esta información, no. Pues ya hemos visto que la transitividad no justificaría dejar de usar el gold standard, pues perderíamos casi toda la correlación con la otra variable de interés. Esto no implica que no pudiera darse una relación más alta entre el nuevo método y dicha variable, simplemente que, por transitividad, no pasaría y por tanto un razonamiento basado en la misma, no se sostiene.

A continuación te dejo un segundo test, con el fin de que puedas evaluar el conocimiento que has adquirido con la presente entrada y si ha mejorado tu capacidad de interpretación de literatura científica:

8
Creado en Por Admin

Transitividad Correlación (Test Final)

1 / 15

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

2 / 15

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

3 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.50 y la correlación entre Z e Y es de 0.49, ¿Puede la correlación entre X y Z llegar a ser perfecta (sin importar el signo)?

4 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

5 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.80, ¿Cuál es la correlación mínima que tendría que haber entre Z e Y para que hubiera transitividad hacia la correlación entre X y Z?

6 / 15

Si la correlación entre la fuerza prensil y la fuerza en rotación externa de hombro es de 0.60, y la correlación entre la fuerza en rotación externa y la discapacidad es de 0.50, ¿Cuáles serían los límites de posibles valores de la correlación entre la prensión manual y la discapacidad?

7 / 15

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

8 / 15

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

9 / 15

Dadas tres variables (X, Y, Z), sabiendo que la correlación entre X e Y es de 0.60 y la correlación entre Z e Y es de 0.70. ¿Podría haber una correlación entre X y Z igual a cero?

10 / 15

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

11 / 15

Si la correlación entre la fuerza en rotación externa máxima de hombro y el grado de discapacidad es de 0.60, y la correlación entre dicha fuerza en rotación externa y la fuerza prensil es de 0.90, ¿Cuál es la correlación estimada por transitividad entre la fuerza prensil y la discapacidad de hombro?

12 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.40 y la correlación entre Z e Y es de 0.80, ¿Puede ser negativa la correlación entre X y Z?

13 / 15

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

14 / 15

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

15 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

Tu puntación es

The average score is 69%

0%

Conclusiones

Las correlaciones no son transitivas, la posibilidad de presencia o no de transitividad depende de la magnitud y dirección de las correlaciones. No debemos caer en el error de inferir asociaciones por transitividad, sin haberlas evaluado de manera directa, pues puede llevarnos a cometer errores cruciales tanto en investigación, como en la práctica clínica.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Básico Modelo Lineal General

Regresion Lineal – Interpretacion Coeficientes

Regresión lineal: Interpretación de Coeficientes

En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal simple y múltiple cuando todas las variables independientes son cuantitativas continuas, sin entrar en detalle de supuestos matemáticos subyacentes a dichos análisis.

Los análisis de regresión lineal son de los más utilizados en nuestro campo y se encuentran dentro del modelo lineal general. Este tipo de análisis ofrecen una gran versatilidad para el estudio de múltiples hipótesis de investigación, pudiendo aportar información muy útil. En esta entrada nos centraremos en al interpretación de la regresión lineal cuando todas las variables del modelo son cuantitativas continuas. Vamos a distinguir tres formas de regresión lineal:

  • Regresión lineal simple.
  • Regresión lineal múltiple sin interacción.
  • Regresión lineal múltiple con interacción.

Notación matemática

Este sería el modelo más sencillo de regresión lineal, donde se dispone de una variable dependiente (y) y una sola variable independiente (x), que quedaría definido matemáticamente como:

$$y_i = c + b_1x_i + \epsilon_i$$

Por otro lado, visualmente un modelo de regresión lineal quedaría definido en un gráfico de dispersión como:

Para poder comprender los modelos de regresión lineal múltiples más avanzados, es necesario empezar a entender la notación matemática utilizada en la regresión lineal. A continuación se muestra a que hace referencia cada letra de la anterior fórmula:

  • yi = Esta es la variable dependiente, la que se intenta «predecir» en función de los valores de las variables independientes. El subíndice i hace referencia al sujeto i del que se está intentando predecir el valor de y. 
  • c = Esta es la constante del modelo, el valor en el que la recta de regresión corta el eje de las ordenadas, es decir, el valor de y cuando x = 0.
  • xi = Esta es la variable independiente, la que se utiliza para «predecir» los valores de y. Puede haber más de una, que pueden nombrarse con cualquier otra letra, aunque es habitual usar posteriormente wz. Estas serán las letras a utilizar en los ejemplos de esta entrada.
  • b1 = Este es el coeficiente de regresión sin estandarizar, estos coeficientes se calculan siguiendo el método de los mínimos cuadrados ordinarios. Hay un coeficiente de regresión sin estandarizar por cada variable independiente incluida en el modelo.
  • ϵiEste es el error asociado al sujeto i. Normalmente, este término no se incluye en la notación de la fórmula del modelo de regresión lineal, aunque se tiene en cuenta para los análisis estadísticos. En la gráfica se refleja el error asociado a cada sujeto con una línea vertical anaranjada, que es la distancia del valor observado en el sujeto hasta la recta de regresión, que es el valor que predecimos en función de nuestra variable/s independiente/s.

Una vez conocidos los términos, podemos pasar a comprender como interpretar un análisis de regresión lineal simple y posteriormente múltiple.

Regresión lineal simple

En la fórmula mostrada anteriormente, yi hacía referencia al valor observado para el sujeto i en la variable dependiente, dado que se incluyó el término del error (ϵi) en la fórmula. Cuando dejamos fuera este término, yi hace referencia al valor predicho de la variable dependiente y para el sujeto i (el valor de la recta de regresión). De ahora en adelante, hablaremos siempre del valor predicho, que es lo que realmente se estima con los modelos de regresión lineal. Pero… ¿Qué es el valor predicho?

A lo largo de toda la página web me veréis insistir mucho en entender conceptos básicos como diferenciar estimadores muestrales de estimadores individuales, así como la importancia de comprender adecuadamente el concepto de tendencia central y más en concreto, el de la media. El valor predicho con un modelo de regresión lineal es una media. Si partimos de un valor cualquiera de la variable independiente (x), por ejemplo x = 68kg, el valor predicho de la variable dependiente (y = Fuerza) sería la fuerza media estimada de todos los sujetos que presentan un peso de 68kg. *Nota: Debemos tener en cuenta que puede haber muchas mal-especificaciones en el modelo de regresión, por ejemplo porque no haya una relación lineal y sea de otro tipo, que no hayamos tenido en cuenta todas las variables posibles a incluir en el modelo o que nuestra muestra no sirva para generalizar el modelo a otras (ej. sujetos jóvenes sin generalizar a la tercera edad), pero no entraremos en detalle en estos puntos en esta entrada.

Se ha comentado que b1 es el coeficiente de regresión sin estandarizar. Se le denomina sin estandarizar porque no se han manipulado las unidades de medida a la hora de su cálculo, presenta las mismas unidades que la variable dependiente, en el caso de una regresión lineal simple el coeficiente de regresión estandarizado sería igual al coeficiente de correlación de Pearson. Este coeficiente es el que nos indica la posible presencia o no de una relación lineal entre la variable independiente y la dependiente, su interpretación sería la siguiente:

  • b1 < 0. Relación negativa entre las dos variables.
  • b1 = 0. Ausencia de relación entre las dos variables.
  • b1 > 0. Relación positiva entre las dos variables.

La ausencia de estandarización conlleva un problema, no podemos saber como de grande es o no es la relación lineal con respecto a otros coeficientes de otros modelos de regresión lineal (a diferencia de con el coeficiente de correlación de Pearson, que si podemos), debido a que su valor depende de las unidades de medida de y. Es decir, imaginemos que queremos predecir la fuerza isométrica máxima de rotación externa de hombro en función del índice de masa corporal y por otro lado, en función de la estatura, quedando dos modelos de regresión lineal simple como los siguientes:

$$Fuerza_i = 32.54 + 5.10*IMC_i$$

$$Fuerza_i = -65.93 + 1.27*Estatura_i$$

Como puede apreciarse, en ambos casos existe una relación positiva, ya que el coeficiente de regresión sin estandarizar es mayor que cero (5.10 para la fuerza y 1.27 para la estatura). Sin embargo, aunque el valor del coeficiente de la estatura sea menor que el del IMC, ambas variables presentan la misma relación con la fuerza, un coeficiente de correlación de Pearson de 0.50 en ambos casos. La discrepancia observada en los coeficientes sin estandarizar es debida a que las unidades de medida del IMC y la estatura difieren, siento en este caso simulado:

$$IMC = \{\bar x = 23kg/m^2, \sigma = 3kg/m^2\}$$

$$Estatura = \{\bar x = 170cm, \sigma = 12cm\}$$

Esto mismo sucedería si cambiásemos de variable dependiente, ya que sus unidades también influyen en el valor del coeficiente de regresión sin estandarizar. De aquí en adelante, nos olvidaremos de medir lo «grande» o «pequeña» que es la relación lineal y nos centraremos simplemente en interpretar los modelos de regresión lineal con coeficientes sin estandarizar.

En una regresión lineal simple, el coeficiente b1 hace referencia al cambio estimado en unidades de que se deriva de incrementar una unidad en x. Por ejemplo, en el caso anterior de la estatura, por cada incremento en 1cm de estatura se estima un incremento de 1.27N de fuerza de rotación externa. Retomando la representación gráfica de la regresión lineal simple, el coeficiente b1 haría referencia a la pendiente de la recta de regresión.

Regresión lineal múltiple sin interacción

Ya sabemos a que hace referencia el coeficiente b1 cuando solo hay una variable independiente en el modelo, pero ¿Qué interpretación tienen estos coeficientes cuando tenemos más de una variable independiente? Establezcamos un nuevo modelo, donde se pretenda predecir la fuerza en rotación externa incluyendo la estatura y el peso como variables independientes:

$$y_i = c + b_1 x_i + b_2 w_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i$$

$$Fuerza_i = -251.14 + 3.98*Peso_i + 0.96*Estatura_i$$

Cuando en un modelo de regresión lineal se incluyen dos o más variables dependientes por separado, estamos forzando al modelo a un supuesto, que no existe interacción entre el peso y la estatura a la hora de predecir la fuerza, es decir, que la relación estimada del peso con la fuerza es independiente de la estatura y la relación estimada de la estatura con la fuerza es independiente del peso. La definición por tanto de los coeficientes sin estandarizar sería:

  • b1 = Cambio estimado en unidades de y que se deriva de incrementar 1kg el peso, manteniendo la estatura constante.
  • b2 = Cambio estimado en unidades de y que se deriva de incrementar 1cm la estatura, manteniendo la peso constante.

Es decir, si tenemos dos personas con la misma estatura, por ejemplo 170cm, una que pesa 68kg y otra que pesa 69kg, la diferencia de fuerza que estimamos entre ellas es de 3.98N (b1). Esto se cumpliría para cualquier valor de estatura, siempre que ambos sujetos tengan la misma. Del mismo modo, si tenemos dos personas que pesan lo mismo, una que mide 170cm y otra que mide 171cm, la diferencia de fuerza que estimamos entre ellas es de 0.96N (b2), a expensas del peso que presenten, siempre que sea el mismo.

Expresado desde un punto de vista gráfico (por ejemplo para el peso), la pendiente (b1) de la recta de regresión obtenida de predecir la fuerza en función del peso no varía en función de la estatura:

En esta imagen se reflejan las recta de regresión entre el peso y la fuerza, para cinco valores de estatura (de 162cm a 178cm), calculadas a partir de las fórmulas mostradas anteriormente. Como puede apreciarse, la pendiente de las rectas es idéntica, son rectas paralelas donde lo único que cambia es la constante, ejemplificando visualmente la definición aportada anteriormente.

Hay dos conceptos que suelen nombrarse mucho en relación a los análisis de regresión lineal múltiple, el de factor de confusión y/o covariable. Hay situaciones en las que queremos estimar la relación que tiene una variable con otra, «controlando» para otros posibles factores de confusión, denominados covariables del modelo. Por ejemplo, podríamos querer estimar la relación lineal que hay entre la intensidad del dolor de hombro y la fuerza isométrica en rotación externa, controlando para las covariables edad, estatura y peso.

Regresión lineal múltiple con interacción

Como se ha comentado anteriormente, al incluir solo por separado las dos variables independientes, se fuerza el modelo a asumir que la relación estimada por ejemplo del peso con la fuerza, es independiente del valor de estatura de los sujetos y viceversa, que esto se traducía en que el valor del coeficiente de regresión del peso (b1) no varía en función de la estatura, que la pendiente de dicha recta de regresión es la misma, como se podía apreciar en la última figura. Antes de pasar a explicar que es la interacción, creo que es mejor observar una representación gráfica de la misma con el mismo modelo anterior:

Como se puede apreciar, en este caso, la pendiente de la recta de regresión para el peso si varia en función de la estatura de los sujetos, es decir, el coeficiente de regresión del peso (b1) varía en función de la estatura. Para entender esto, primero debemos conocer como se expresa un modelo de regresión lineal múltiple con interacción y a que hace referencia dicha interacción:

$$y_i = c + b_1 x_i + b_2 w_i + b_3 z_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Interaccion$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

Tal y como se refleja en estas fórmulas, un modelo de regresión lineal con interacción es aquel en el que se incluye un tercer término en el modelo (la interacción), con su respectivo coeficiente de regresión (b3). Ese tercer término no es más que una variable que se crea multiplicando los valores de las otras dos incluidas en el modelo, es decir, si un sujeto tiene una estatura de 170cm y un peso de 72kg, su valor en la variable interacción sería de 12240. ¿A qué hace referencia aquí entonces el coeficiente de regresión de la interacción (b3)?

Podemos definir b3 como el cambio estimado del coeficiente de regresión del peso (b1) que se deriva del incremento de una unidad en la estatura (+ 1cm), o viceversa, el cambio estimado del coeficiente de regresión de la estatura (b2) que se deriva del incremento de una unidad en el peso (+ 1kg). Voy a centrarme en el coeficiente de regresión del peso para explicar mejor esta definición, reestructurando un poco la fórmula mostrada anteriormente. Imaginemos que es viable tener una estatura de 0cm e incrementamos en una unidad la estatura, teniendo por tanto un valor de estatura para un sujeto dado de 1cm, entonces sustituyendo en la anterior fórmula tendríamos que:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*1 + b_3*Peso_i*1$$

$$Fuerza_i = (c + b_2) + Peso_i*(b_1 + b_3)$$

He puesto dentro de un mismo paréntesis la constante y el coeficiente b2 puesto que al multiplicarlo por 1 quedaría un valor numérico, que se sumaría a la constante. Por otro lado, al adjudicar el valor 1 a la estatura en el término de la interacción, lo que queda es un coeficiente de regresión multiplicado solo por la variable peso, de modo que se puede unificar dicho coeficiente (b3) con el coeficiente b1 en un mismo paréntesis, quedando ambos multiplicados por el peso. Es aquí donde queda ejemplificada la definición mostrada anteriormente, de que el coeficiente de regresión del peso ha incrementado b3 unidades debido al incremento de una unidad en la estatura, ya que si la estatura tuviera un valor hipotético de cero, entones:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*0 + b_3*Peso_i*0$$

$$Fuerza_i = c + Peso_i*b_1$$

Quedando ejemplificado que el incremento de una unidad de la estatura es lo comentado anteriormente. En términos de visualización gráfica, la pendiente de la recta de regresión entre el peso y la fuerza se incrementaría b3 unidades con el incremento de una unidad en la estatura.

De esta última fórmula se extrae además otra definición nueva. Mientras que en la regresión lineal múltiple sin interacción el coeficiente de regresión del peso (b1) hacia referencia a la relación entre el peso y la fuerza, independiente de la estatura (manteniendo la estatura constante), ahora el coeficiente de regresión del peso (b1) refleja la relación entre el peso y la fuerza cuando la estatura es igual a cero, sucediendo lo mismo pero a la inversa para el coeficiente de la estatura. Es decir, la inclusión del término de interacción cambia el significado de los coeficientes de regresión del peso (b1) y la estatura (b2), esto es importante ya que, si no se conoce este hecho, se pueden malinterpretar gravemente dichos coeficientes al leer un artículo de investigación. Normalmente, cuando se incluye un término de interacción, lo que interesa es el coeficiente de regresión de la interacción, que es lo que se suele estar testando, no esos otros coeficientes.

Puede que te hayas dado cuenta ya de un factor importante sobre la interpretación de dichos coeficientes de regresión al incluir la interacción, ¿Cómo que b1 es la relación entre el peso y la fuerza cuando la estatura es igual a cero? ¿Quién puede medir cero centímetros? No tiene sentido. Es por ello que para mejorar la interpretación de dichos coeficientes, suele realizarse un procedimiento que se denomina «centrar en la media». *Nota: Aunque no es el objetivo de esta entrada y no profundizaré en ello, si quería remarcar que el objetivo de centrar en la media es puramente para hacer que esos coeficientes tengan un sentido de interpretación, nada que ver la «eliminación» de la colinealidad entre variables independientes con el objetivo de mejorar el modelo de regresión, ya que no sirve para tal propósito.

Este procedimiento consiste en restar a cada valor el de la media de la muestra para dicha variable, es decir, si un sujeto tiene un peso de 55kg pero la media muestral es de 60kg, entonces su valor quedaría como -5. Esta actuación no alterará el coeficiente de regresión de la interacción ni la significación estadística del mismo, solo alterará los otros dos coeficientes de las variables implicadas en la interacción, en nuestro caso b1 y b2. En este caso, por ejemplo para el peso, b1 ya no sería la relación entre el peso y la fuerza cuando la estatura es igual a cero, sería la relación entre el peso y la fuerza cuando la estatura es igual a la media de la muestra, y lo mismo sucedería con b2. Por tanto, ahora si tienen un sentido interpretable ambos coeficientes.

En esta entrada no profundizaré más en la interpretación de una interacción, ni en que pasos habría que seguir después de haber evaluado si hay o no una interacción estadísticamente significativa. No obstante, pondré un ejemplo más con 3 variables independientes. Imaginemos ahora el siguiente modelo de regresión lineal múltiple con interacción:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i$$

En este caso tenemos 3 variables independientes incluidas en el modelo, así como un término de interacción, la interacción entre la estatura y el peso. Por ejemplo para el peso, su coeficiente de regresión (asumiendo que hemos centrado en la media), sería la relación entre el peso y la fuerza cuando la estatura tiene el valor de la media de la muestra y se mantiene la edad constante, es decir, si la estatura media de la muestra fuese de 170cm, b1 sería la diferencia de fuerza estimada entre dos sujetos que miden 170cm y tienen la misma edad, se cual sea esta, pero que presentan una diferencia entre ellos de 1kg de peso. Por otro lado, el coeficiente de regresión de la edad (b3) sería la relación entre la edad y la fuerza, manteniendo constantes la estatura y el peso, es decir, la diferencia de fuerza estimada entre dos sujetos que tienen la misma estatura y peso, sean cuales sean estos, pero que difieren en 1 año de edad. En otras palabras, la inclusión de una interacción solo cambia la interpretación de los coeficientes de regresión de las variables involucradas en la misma, no las del resto de variables incluidas en el modelo. Este principio de razonamiento de interpretación se aplicaría en modelos más complejos, con varias interacciones y más variables independientes incluidas. Pondré un último ejemplo:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i*Edad_i*$$

En este caso se ha incluido una interacción entre las 3 variables (edad, estatura y peso), de forma que el coeficiente de regresión de la edad (b3) pasaría a ser, asumiendo que hemos centrado en la media, la relación entre la edad y la fuerza cuando la estatura y el peso tienen los valores de la media de la muestra.

Según se van incluyendo más variables e interacciones en el modelo, su interpretación puede volverse algo más tediosa y es por eso que no profundizaré en modelos más avanzados en esta entrada, pues pienso requerirían de demasiado tiempo y una base previa profunda de conocimiento de estadística para no errar en la interpretación de los mismos.

Conclusiones

A pesar de ser métodos de análisis ampliamente extendidos dentro del campo de la Fisioterapia, mi sensación subjetiva es que existe mucho desconocimiento sobre como interpretar los mismos. En esta entrada he querido profundizar solo en la parte de interpretación del sentido de los coeficientes de regresión, algo que a priori podría parecer complejo pero en verdad no lo es tanto. Finalmente, quiero remarcar que la interpretación crítica adecuada de un modelo de regresión lineal múltiple, requiere de tener en cuenta más aspectos que los mencionados en esta entrada, la cual constituye simplemente una base para comenzar a comprender mejor este tipo de análisis estadísticos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Fiabilidad Modelo Lineal General Temas Avanzados

El mal uso de la MDD en la interpretación de diferencias medias

Interpretación de medias: El mal uso de la Mínima Diferencia Detectable

En esta entrada profundizo en la estadística subyacente a la utilización de la mínima diferencia detectable (MDD) en la interpretación de diferencias medias, que actualmente se sigue haciendo en diversas publicaciones del campo de la Fisioterapia. A lo largo de la entrada, explicaré los motivos por los cuales pienso esta práctica está equivocada y puede llevarnos a fallos cruciales de interpretación de los resultados de una investigación. 

Nota: En esta entrada se utilizan conceptos avanzados de estadística aplicada y puede que, sin una base previa, resulte más complicada su comprensión. No se abordarán múltiples aspectos básicos para no extender demasiado el contenido de la misma, dándose por hecho que el lector presenta esa base de conocimiento.

La mínima diferencia detectable (MDD) es un estadístico comúnmente reportado en los análisis de fiabilidad con variables continuas. Este estadístico constituye un limite de un intervalo de confianza (IC), normalmente del intervalo al 90% o 95% de confianza (utilizaré este último para todas las explicaciones y simulaciones a lo largo de la entrada). Su interpretación simplista sería la siguiente.

Imaginemos que tenemos un sujeto al que hemos medido la fuerza isométrica máxima de rotación externa de hombro, con un dinamómetro manual. En la primera medición antes de comenzar el tratamiento, el sujeto muestra una fuerza de 130N, mientras que en la segunda medición tras la aplicación del tratamiento, el sujeto muestra un valor de fuerza de 135N. Sabemos que la fiabilidad del dinamómetro no es perfecta, es decir, que al utilizar este instrumento dentro del procedimiento empleado, cometemos errores en la medición. Entonces, ¿Cómo podríamos saber si la diferencia observada en el post-tratamiento no se ha debido a un error de medición? Aquí es donde entra en juego el concepto de MDD.

La mínima diferencia detectable al 95% de confianza (MDD95%), es un valor que, partiendo de que se cumplen distintas asunciones y que lo único que ha influido en la diferencia observada es el error de medición (es decir, que no hay ningún otro factor, ni la intervención, que hayan influido), por encima del mismo solo se encontrarían un 5% de las posibles diferencias absolutas obtenibles debidas al error de medición. De forma que se asume que, si obtenemos una diferencia superior a dicho valor, como es «poco plausible» obtener esa diferencia bajo la hipótesis de que dicha diferencia se haya obtenido solo por un error de medición, entonces rechazamos dicha hipótesis.*

*Nota: Debemos tomar está definición como muy simplista y «con pinzas», ya que realmente no es tan sencilla su interpretación en términos de probabilidad, pero no entraré en ese detalle en esta entrada, pues no es su propósito.

En términos más formales, si medimos a un sujeto infinitas veces y asumimos que lo único que influye en las diferencias observadas entre las distintas mediciones es el error proveniente del procedimiento de medición empleado y calculamos diferencias de parejas de mediciones de manera aleatoria, el intervalo de confianza al 95% de esa distribución de datos (de esas diferencias entre dos mediciones seleccionadas de manera aleatoria), es decir, más o menos los valores que se alejan 1.96 desviaciones estándar (DEd) asumiendo algunas cosas, eso sería el valor de la MDD95%. La fórmula que suele utilizarse para el cálculo de la MDD95% es la siguiente:

$$MDD95\% = 1.96*DE_d = 1.96*EEM*\sqrt 2$$

En esta fórmula el EEM es el error estándar de la media, que es una estimación de la desviación estándar resultante de medir a un sujeto infinitas veces influyendo solo el error de medición. Como en la MDD95% tenemos dos mediciones y no solo una, se multiplica el EEM por la raíz cuadrada de dos, debido a que:

$$EEM = \frac{DE_d}{\sqrt 2}$$

$$DE_d = EEM*\sqrt 2$$

Después de esta introducción, vamos a focalizarnos en el tema concreto de esta entrada. Como he comentado, la MDD95%es un estadístico orientado a interpretar la diferencia entre dos mediciones realizadas a un mismo sujeto. Sin embargo, la MDD95% se utiliza a veces también para interpretar diferencias de medias muestrales y para cálculos de tamaño muestral, dos procedimientos a mi parecer erróneos por los motivos que expondré a continuación.

Mínima diferencia detectable en la interpretación de diferencias medias

Mostraré primero las consecuencias de utilizar la MDD95% en la interpretación de la diferencia media entre dos grupos. Voy a simular un estudio en el que queremos comparar la fuerza isométrica máxima de rotación externa de hombro, medida con dinamometría, entre sujetos con y sin tendinopatía del manguito rotador. Asumiremos los siguientes valores poblacionales reales y los siguientes valores de error de medición (mismo error de medición en ambas poblaciones):

$$Tendinopatía = \{\mu_t = 140, \sigma_t = 10\}$$

$$Sanos = \{\mu_s = 145, \sigma_s = 10\}$$

$$Error \ de \ medicion = \{EEM = 3.61, MDC95\% = 10\}$$

Partiendo de estos datos, si asumimos un umbral crítico de significación de p < .05, necesitaríamos 64 sujetos de cada grupo para conseguir una potencia estadística del 80%, asumiendo que no se cometen errores en el proceso de medición. Si asumimos el error de medición mencionado anteriormente la potencia disminuye y si, además de eso, utilizamos el punto de corte de la MDD95% para decidir cuando hay diferencias entre los grupos y cuando no, la potencia disminuye aun más, quedando las tres definidas para esa misma muestra como:

  • Sin error de medición: 80%.
  • Con error de medición: 75%.
  • Con error de medición + MDC95%: 0.40% (aproximada). *Esta potencia se ha calculado asumiendo que hay diferencias reales si y solo si el resultado obtenido es estadísticamente significativo y además, superior a 10N, el valor de la MDC95%.

Como puede apreciarse, al utilizar la MDD95% como punto de corte para decidir si «hay diferencias reales o no» entre estas dos poblaciones, la potencia estadística disminuye notoriamente. Además, debemos tener en cuenta otro factor, una paradoja que se da debido a la relación entre el tamaño muestral y la distribución de las diferencias medias.

Según incrementamos el tamaño muestral, la estimación de la diferencia media es más precisa, es decir, los valores de diferencias medias observados se aproximarán cada vez más al valor real, en este caso de 5N. No obstante, aunque se incremente el tamaño muestral, el valor de la MDD95% no varía, es fijo. Por tanto, aunque de manera habitual incrementar el tamaño muestral incrementa la potencia, en este caso sucede lo contrario. Al aproximarse cada vez más los valores a 5N, habrá menos cantidad de muestras en las que la diferencia observada sea superior a 10, de manera que la potencia disminuye. Por ejemplo, para los siguientes tamaños muestrales, la potencia aproximada sería:

  • 75 sujetos por grupo = 0.25%
  • 80 sujetos por grupo = 0.18%
  • 90 sujetos por grupo = 0.07%
  • 100 sujetos por grupo = 0.04%

Es decir, no podríamos mejorar la potencia estadística incrementando el tamaño muestral, si no que tendríamos que disminuirlo, algo que carece de sentido. Este efecto dependerá del efecto real bajo estudio (la diferencia de medias real) y la fiabilidad del procedimiento de medición. A medida que la fiabilidad se aproxime a una fiabilidad perfecta (es decir, la MDD95% tienda a cero), el efecto negativo de usar la MDD95% será menor. Sin embargo, puede observarse como en casos como el presente, con una fiabilidad muy buena con un EEM de tan solo 3.61, el efecto del uso de la MDD95% es devastador.

Mínima diferencia detectable en el cálculo del tamaño muestral

Otra práctica que he podido observar algunas veces en la investigación en Fisioterapia, es la utilización de la MDD95% para los cálculos de tamaño muestral, donde se produce también otra situación paradójica similar a la descrita anteriormente.

Como ya he comentado, según incrementa el error de medición disminuye la potencia estadística, por ejemplo para el caso anterior con 64 sujetos por grupo, la potencia estimada para los siguientes errores estándar de la media sería:

  • EEM de 5 = 71%.
  • EEM de 7 = 63%.
  • EEM de 10 = 51%.
  • EEM de 15 = 34%.

Esto hace que, según aumente el error de medición, debamos incrementar el tamaño muestral si queremos mantener una potencia estadística deseada (por ejemplo, del 80%). Asumiendo los valores anteriores de EEM, la muestra necesaria para alcanzar un 80% de potencia sería:

  • EEM de 0 = 64 sujetos por grupo.
  • EEM de 5 = 80 sujetos por grupo.
  • EEM de 7 = 95 sujetos por grupo.
  • EEM de 10 = 127 sujetos por grupo.
  • EEM de 15 = 205 sujetos por grupo.

Ahora procedamos como he visto hacer a algún/a investigador/a de nuestro campo, utilizando el valor de la MDD95% como la diferencia de medias real estimada a detectar en nuestro estudio. Vamos a asumir que la dispersión de la diferencia está fija en 10 (aunque luego explicaré que esto no es así), de manera que para distintos valores de MDD95% usados como estimadores de la «diferencia de medias real», el tamaño muestral para un 80% de potencia sería:

  • MDD95% de 3 = 176 sujetos por grupo.
  • MDD95% de 5 = 64 sujetos por grupo.
  • MDD95% de 7 = 33 sujetos por grupo.
  • MDD 95% de 10 = 17 sujetos por grupo.

Es decir, según incrementamos la diferencia de medias real estimada, el número de sujetos necesario para alcanzar un 80% de potencia (manteniendo el resto constante) disminuye. Es aquí donde se da la paradoja. Al inicio he comentado que, a menor fiabilidad hay más variabilidad de error y por tanto, la potencia estadística disminuye y necesitamos más muestra para alcanzar la potencia deseada. A menor fiabilidad, mayor es el valor de la MDD95%. Por tanto, ¿Cómo vamos a usar la MDD95% para calcular el tamaño muestral si su utilización disminuye aún más la muestra necesaria calculada? En efecto, carece de sentido. En los últimos cálculos asumí que la dispersión de las diferencias estaba fijada en 10, sin embargo, esto no es realista, ya que según disminuye la fiabilidad dicha dispersión aumenta.

Asumiendo una dispersión real (sin errores de medición) de 10 en cada muestra, con una diferencia de medias real de 5N y un tamaño muestral de 64 sujetos por grupo, teníamos un 80% de potencia. Ahora mostraré que sucede en la potencia real estimada de un estudio, cuando se incrementa el error de medición (EEM) y se utiliza además para el cálculo del tamaño muestral la MDD95% asociada a ese error de medición:

$$\begin{array} {| ccc |} \hline EEM & Potencia \ real & Muestra \ 80\% & MDD95\% & Muestra \ MDD95\% & Potencia \ real \ MDD95\% \\ \hline 2.53 & 78\% & 68 & 7 & 33 & 49\% \\ \hline 3.61 & 75\% & 72 & 10 & 17 & 26\% \\ \hline 4.33 & 73\% & 76 & 12 & 12 & 19\% \\ \hline \end{array}$$

Como puede apreciarse, el uso de la MDD95% para estimar el tamaño muestral se traduce en una mayor y considerable pérdida de potencia estadística real de nuestro estudio, al disminuir el tamaño muestral cuando en realidad, al haber menos fiabilidad, deberíamos incrementarlo tal y como se muestra en la tercera columna. 

Mínima diferencia media detectable

Como he comentado anteriormente, el uso de la MDD95% está orientado a diferencias entre dos mediciones realizadas a un mismo individuo, es decir, es un estadístico orientado a individuos y no a muestras.

Una pregunta que podríamos hacernos es, si podemos calcular la MDD95% para diferencias individuales, ¿podemos también calcularla para diferencias medias? La respuesta es sí, a este valor le llamaré mínima diferencia media detectable al 95% de confianza (MDMD95%). Ahora supongo que, a lo mejor, te estas planeando la siguiente pregunta obvia, ¿podemos usar la MDMD95% para interpretar diferencias medias? Y la respuesta quizás no te resulte tan obvia y no te guste tanto: no.

Si retomamos las fórmulas anteriores:

$$DE_d = EEM*\sqrt 2$$

$$MDD95\% = EEM*\sqrt 2*1.96 = DE_d*1.96$$

La DEd es la desviación estándar de las diferencias individuales entre las dos muestras. Sin embargo, nosotros estamos interesados en la dispersión de la media, no de los valores individuales, de modo que tenemos que usar un estadístico que recoja dicha dispersión de la media, que es el error estándar de la media:

$$EE_{media} = \frac{DE_d}{\sqrt n}$$

Con este error estándar, podemos reescribir la fórmula de la MDD95% para obtener la fórmula de la MDMD95%:

$$MDMD95\% = \frac{MDD95\%}{\sqrt n} = \frac{EEM*\sqrt 2*1.96}{\sqrt n}$$

Siendo n igual al tamaño muestral total entre dos (asumiendo que ambos grupos tienen el mismo tamaño muestral). De este modo, la MDMD95%, a diferencia de la MDD95%, si varía en función del tamaño de la muestra, a mayor tamaño muestral empleado, menor MDMD95%.

Sin embargo, no tiene sentido utilizar la MDMD95% para interpretar diferencias medias, ya que no aporta información útil si ya usamos el punto de corte del umbral crítico de significación (p < .05). La explicación a este fenómeno recae en las varianzas involucradas en sus respectivos cálculos.

Cuando calculamos la MDMD95% solamente estamos teniendo en cuenta el error atribuible a la ausencia de fiabilidad perfecta del procedimiento de medición, es decir, si tenemos dos muestras a comparar, entonces:

$$\sigma^2_{sanos} = \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{error_{tendinopatia}}$$

$$MDMD95\% = \frac{\sqrt {\sigma^2_{error_{sanos}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Sin embargo, si pensamos ahora en un experimento real, cuando calculamos un valor-p o un intervalo de confianza para una diferencia media entre dos muestras, ahí ya no solo tenemos el error de medición, sino que también tenemos otro error, el proveniente de la variabilidad real de dicha variable en cada una de las muestras (es decir, que los sujetos son distintos entre sí no solo por errores de medición, sino porque efectivamente tienen distinta fuerza), que arriba se ignora en los cálculos:

$$\sigma^2_{sanos} = \sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}$$

Con estos datos podemos calcular el intervalo de confianza asociado a una diferencia media entre dos grupos de igual tamaño muestral (no es exactamente la misma que para una t-Student pero sirve igual para ejemplificar este punto de la entrada):

$$IC95\%= \bar x_{dif} \pm \frac{\sqrt {\sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}} + \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Como se aprecia, en el segundo caso hay más variabilidad, más error en el cálculo. Esto produce la siguiente situación y es que, si una diferencia media es estadísticamente significativa al evaluarla con una prueba t-Student (fórmula similar a la última), entonces dicha diferencia media estará siempre por encima del valor de la MDMD95%, es decir, es imposible obtener una diferencia de medias estadísticamente significativa que sea inferior a la MDMD95% y es por ello que, como comenté al inicio de este apartado, la MDMD95% no aporta más información útil para interpretar la diferencia de medias y por tanto, carece de sentido su utilización.

En la figura anterior se reflejan 100 estudios simulados, con 30 sujetos por grupo en cada uno, asumiendo una diferencia media real de 5N, con una desviación estándar en cada grupo de 10 y un EEM de 3.61. En el gráfico se muestra la diferencia media de cada simulación con su respectivo intervalo de confianza al 95% basado en una prueba t-Student. La línea horizontal morada continua marca el cero, de modo que las simulaciones cuyo limite inferior del intervalo de confianza (color tomate) no sobrepasa el cero, son significativas para p < .05. La línea horizontal azul entrecortada marca el valor de la MDMD95% para ese EEM y ese tamaño muestral, que es de 1.83. Como puede apreciarse, ninguno de los resultados significativos (color tomate) presenta una diferencia media por debajo de la MDMD95%, ejemplificando lo comentado anteriormente acerca de que la MDMD95% no aporta información útil adicional.

Conclusiones

La mínima diferencia detectable es un estadístico orientado a interpretar diferencias individuales, pero no muestrales. La utilización de este valor para interpretar diferencias de medias muestrales y/o realizar cálculos de tamaño muestral tiene consecuencias nefastas en la potencia estadística y la adecuada interpretación de los resultados de una investigación. Por su parte, la mínima diferencia media detectable, tampoco debería utilizarse para interpretar las diferencias medias de una investigación, ya que no aporta más información útil que la aportada por el intervalo de confianza calculado para dicha diferencia media.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Modelo Lineal General Temas Básicos

Covarianza

Asociación: Covarianza

En esta entrada se ofrece una breve explicación del concepto de covarianza, que tiene especial relevancia dentro del modelo lineal general. El entendimiento de la covarianza supone el primer paso a la comprensión del concepto de asociación estadística entre dos variables cuantitativas.

La covarianza (Cov) es el primer concepto a entender para poder adentrarse en el mundo de las asociaciones entre variables cuantitativas. Hay dos preguntas que toda persona que quiera comprender este concepto de asociación tiene que hacerse, ¿Qué implica decir que dos variables presentan asociación? ¿Cómo podemos medir dicha asociación? En esta entrada, mediante el entendimiento de la covarianza y algún otro concepto, podrás entender mejor la primera pregunta y dar una respuesta parcial a la segunda.

Cuando decimos que dos variables presentan una asociación, que están correlacionadas, estamos diciendo que, en cierto grado, varían conjuntamente. Es decir, que cuando el valor de una incrementa o disminuye, el de la otra tiende también a incrementar o disminuir en un sujeto dado. Ahora veamos como se puede reflejar en números esa variación conjunta.

Vamos a partir de un escenario simulado, en el que hemos medido a 10 sujetos la intensidad del dolor de hombro (cm) y la fuerza en rotación externa (N):

$$\begin{array} {| ccc |} \hline Sujeto & Dolor & Fuerza \\ \hline 1 & 1 & 180 \\ \hline 2 & 2 & 160 \\ \hline 3 & 3 & 190 \\ \hline 4 & 4 & 120 \\ \hline 5 & 5 & 150 \\ \hline 6 & 6 & 140 \\ \hline 7 & 7 & 130 \\ \hline 8 & 8 & 170 \\ \hline 9 & 9 & 100 \\ \hline 10 & 10 & 110 \\ \hline \end{array}$$

Como hemos comentado, queremos obtener un estadístico que nos sirva para medir el grado en que dos variables varían de manera conjunta, de modo que resulta obvio, que dicho estadístico se tendrá que calcular utilizando los valores de ambas variables. Podríamos calcular el producto de los valores de cada una de las variables, es decir:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 180 & 180 \\ \hline 2 & 2 & 160 & 320 \\ \hline 3 & 3 & 190 & 570 \\ \hline 4 & 4 & 120 & 480 \\ \hline 5 & 5 & 150 & 750 \\ \hline 6 & 6 & 140 & 840 \\ \hline 7 & 7 & 130 & 910 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 100 & 900 \\ \hline 10 & 10 & 110 & 1100 \\ \hline \end{array}$$

Si sumamos dichos productos de la última columna, obtenemos un valor que en nuestro caso simulado es igual a 7410.  Pero, ¿Por qué nos interesa ese valor? Si multiplicamos dos valores grandes, se obtiene como resultado un valor «grande», si multiplicamos dos pequeños, se obtiene como resultado un valor «pequeño» y si multiplicamos uno grande por uno pequeño, obtenemos un valor «medio». Si imaginamos que queremos maximizar la relación entre estas dos variables, existiendo una correlación positiva perfecta, es decir, que a mayor valor de una, mayor valor de la otra, entonces ocurriría que el sujeto con el mayor valor de dolor (10 cm), tendría el mayor valor de fuerza (190 N). Podemos simular ese supuesto caso, obteniéndose la siguiente tabla:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 100 & 100 \\ \hline 2 & 2 & 110 & 120 \\ \hline 3 & 3 & 120 & 360 \\ \hline 4 & 4 & 130 & 520 \\ \hline 5 & 5 & 140 & 700 \\ \hline 6 & 6 & 150 & 900 \\ \hline 7 & 7 & 160 & 1120 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 180 & 1620 \\ \hline 10 & 10 & 190 & 1900 \\ \hline \end{array}$$

En este nuevo caso simulado, la suma de productos es de 8800. Como puede apreciarse, es un valor superior al anterior, el orden de los valores (mayor a menor) coincide en ambas variables, a cada valor máximo le corresponde el máximo que podría del conjunto, esto hace que se maximice la suma de productos, es decir, que obtenga su máximo valor posible con estos datos. Podríamos hacer lo mismo pero a la inversa, es decir, al valor máximo de dolor asociarle el valor mínimo de fuerza, es decir, estando en el caso simulado con una relación negativa perfecta entre las dos variables, en cuyo caso obtendríamos el mínimo valor posible de la suma de productos, siendo de 7150. Por tanto, tenemos dos extremos, el de la máxima correlación positiva posible (8800) y el de la máxima correlación negativa posible (7150). Si realizásemos el proceso anterior de asignación de los valores de fuerza y dolor de forma aleatoria, habrá algún valor que obtengamos de suma de productos que reflejará la mínima correlación posible, que se encontrará entre 7150 y 8800. Como podemos observar, el valor de suma de productos inicial (7410) está próximo al valor de la correlación perfecta negativa (7150), esto nos indicaría a priori que parece haber una correlación negativa en nuestra muestra original (primera tabla) entre ambas variables.

No obstante, esta suma de productos no es lo que se suele utilizar como posible estimador de la correlación entre dos variables. Es aquí donde entra en juego el concepto de covarianza. En lugar de multiplicar directamente los valores como hemos hecho en el caso anterior, lo que se hace es multiplicar la diferencia de dichos valores con respecto a la media muestral, de forma que con los datos iniciales, tendríamos la siguiente tabla:

$$\begin{array} {| ccccccc | } \hline Sujeto & Dolor & Fuerza & D*F & d_i – \bar d & f_i – \bar f & (d_i – \bar d) * (f_i – \bar f) \\ \hline 1 & 1 & 180 & 180 & -4.5 & 35 & -157.5 \\ \hline 2 & 2 & 160 & 320 & -3.5 & 15 & -52.5 \\ \hline 3 & 3 & 190 & 570 & -2.5 & 45 & -112.5 \\ \hline 4 & 4 & 120 & 480 & -1.5 & -25 & 37.5 \\ \hline 5 & 5 & 150 & 750 & -0.5 & 5 & -2.5 \\ \hline 6 & 6 & 140 & 840 & 0.5 & -5 & -2.5 \\ \hline 7 & 7 & 130 & 910 & 1.5 & -15 & -22.5 \\ \hline 8 & 8 & 170 & 1360 & 2.5 & 25 & 62.5 \\ \hline 9 & 9 & 100 & 900 & 3.5 & -45 & 157.5 \\ \hline 10 & 10 & 110 & 1100 & 4.5 & -35 & -157.5 \\ \hline \end{array}$$

En este caso las tres últimas columnas son las importantes, la primera refleja las diferencias del valor de dolor de cada sujeto con respecto a la media del grupo, la segunda lo mismo pero para la fuerza y la tercera es el producto de estas dos columnas anteriores. Si sumamos los valores de la última columna, obtenemos lo que se conoce como producto cruzado, que en este caso tiene un valor de -565. La diferencia de este valor, con respecto a la primera multiplicación que hacíamos con los datos originales, es que está centrado en el cero, es decir, mientras que en el anterior caso si las variables tenían cero correlación, obteníamos un valor de productos distinto de cero, en este caso cuando hay cero correlación el valor del producto cruzado es de cero. ¿Y qué es entonces la covarianza? Dado que el valor del producto cruzado depende del número de sujetos de la muestra, lo que se hace es dividir entre dicho valor (o entre los grados de libertad si es una estimación poblacional a partir de una muestra), para controlar este factor, de manera que puedan compararse distintas muestras. Este valor es la covarianza, cuya fórmula sería:

$$ Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(y_i – \bar y)}{n-1}$$

En nuestro caso, el valor de la covarianza entre el dolor y la fuerza es de -62.78 (el signo negativo indica que la correlación es negativa, a menos dolor más fuerza). Si la correlación entre dos variables es de cero, entonces su covarianza también. La fórmula anterior puede resultar familiar, eso es por su similitud con la fórmula de la varianza de una variable:

$$\sigma^2_x = \frac{\sum_{i=1}^{n}(x_i – \bar x)^2}{n-1} = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(x_i – \bar x)}{n-1}$$

Es importante darse cuenta de esta similitud, ya que sirve pare entender el concepto de «variabilidad conjunta». Mientras que para una sola variable, al estimar su variabilidad, multiplicábamos el mismo término por si mismo (elevábamos al cuadrado), ahora lo que se hace es, como tenemos dos variables, multiplicamos un término por el otro, para obtener un estimador de esa variabilidad conjunta de ambas variables, la covarianza. Entender esta similitud servirá posteriormente para comprender otro concepto, el coeficiente de correlación de Pearson. Este coeficiente es el que se utiliza en última instancia para evaluar la correlación entre dos variables cuantitativas que cumplan una serie de asunciones. No obstante, ya se ha podido conocer en esta entrada un estadístico que permite evaluar la relación entre dos variables, la covarianza, que es de suma importancia para múltiples análisis estadísticos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Modelo Lineal General Temas Básicos

Modelo Lineal General Explicación

Modelo Lineal General: Explicación básica

En esta entrada se ofrece una explicación del concepto de Modelo Lineal General, ejemplificándose como una regresión lineal simple y una prueba t-Student son el mismo análisis con distinto nombre.

El Modelo Lineal General engloba un conjunto de análisis paramétricos que se basan en intentar predecir una variable continua en función de una o más variables, asumiendo que la relación entre ellas es de tipo lineal, usando el método de mínimos cuadrados ordinarios. Bajo este modelo se incluyen análisis como la prueba t-Student, la regresión lineal simple y múltiple, el Análisis de la Varianza y el Análisis de la Covarianza. A pesar de existir tantos nombres distintos, todos ellos son en realidad el mismo tipo de análisis, una regresión lineal con una o más variables predictoras. En esta entrada voy a ejemplificar esta afirmación equiparando la prueba t-Student a una regresión lineal simple.

Vamos a partir de un estudio transversal en el que queremos evaluar si existen diferencias en la fuerza de rotación externa entre personas con y sin tendinopatía del manguito rotador. Para ello, asumiremos los siguientes valores poblacionales de fuerza de rotación externa:

$$Sanos \rightarrow \mu_{sanos} = 150N \ y \ \sigma_{sanos} = 40N$$

$$Dolor \rightarrow \mu_{dolor} = 140N \ y \ \sigma_{dolor} = 40N$$

Partiendo de estos datos poblacionales, simulamos un estudio en el que seleccionamos mediante un muestreo probabilístico 320 sujetos sanos y 320 con tendinopatía del manguito, obteniendo los siguientes datos muestrales:

$$Sanos \rightarrow \bar x_{sanos} = 152.07N \ y \ s_{sanos} = 41.32N$$

$$Dolor \rightarrow \bar x_{dolor} = 140.75N \ y \ s_{dolor} = 39.35N$$

En este estudio tenemos por tanto dos variables, la variable Dolor (0 = no, 1 = si), que sería la variable independiente (categórica binomial) y la variable fuerza (medida en Newtons), que sería la variable dependiente (cuantitativa continua). Con ellas, podemos crear el siguiente modelo de regresión lineal simple, donde queremos predecir la fuerza en función de la presencia de dolor:

$$Fuerza_i = C + b*Dolor_i$$

En esta fórmula, C es la constante y b es el coeficiente de regresión sin estandarizar. Imaginemos ahora que queremos predecir el valor fuerza de un sujeto i perteneciente al grupo de los participantes sanos. En este caso, el valor de dicho sujeto en la variable Dolor es cero, de modo que la anterior fórmula quedaría como:

$$Fuerza_i = C + b*0$$

$$Fuerza_i = C$$

Es decir, el valor predicho para dicho sujeto es igual a la constante de la fórmula de regresión lineal. Pero, ¿Qué valor tiene dicha constante? Recordando la entrada de mínimos cuadrados ordinarios, el mejor valor que podemos utilizar para predecir la puntuación de un sujeto de una muestra, es la media de dicha muestra, por tanto:

$$Fuerza_i = C = \bar x_{sanos} = 152.07$$

Es decir, la constante de la fórmula de regresión es la media del grupo de los participantes sanos. Ahora solo nos quedaría por conocer cual es el valor del coeficiente de regresión sin estandarizar (b) para poder completar la fórmula. Imaginemos que queremos predecir el valor de un sujeto i perteneciente al grupo de participantes con tendinopatía del manguito rotador. En este caso, el valor de la variable Dolor para dicho sujeto es de uno, de manera que:

$$Fuerza_i = 152.07 + b*1$$

$$Fuerza_i = 152.07 + b$$

Si partimos de la misma asunción realizada anteriormente basándonos en el método de mínimos cuadrados ordinarios, que es en el que se basa el modelo lineal general, el mejor valor que podemos utilizar para predecir la fuerza de un sujeto del grupo de participantes con tendinopatía del manguito rotador es la media de dicho grupo, de manera que la fórmula quedaría como:

$$140.75 = 152.07 + b$$

Si despejamos b de dicha fórmula, obtenemos que:

$$b = 140.74 – 152.07 = -11.32$$

Es decir, el coeficiente de regresión sin estandarizar (b) es igual a la diferencia media entre el grupo de participantes sanos y el grupo de sujetos con tendinopatía del manguito rotador. Por tanto, lo que estamos evaluando con este modelo de regresión lineal es si la diferencia media entre los grupos es estadísticamente significativa, que es lo mismo que evaluamos cuando utilizamos la prueba t-Student. A continuación muestro los resultados utilizando ambos análisis, de forma que se pueda observar que se obtiene el mismo resultado con ambos análisis, ya que son matemáticamente equivalentes, aunque les pongamos distinto nombre:

Prueba t-Student:

$$t = 3.55, gl = 636.49, p = .000416$$

$$ \bar x_{dolor – sano} = -11.32, Intervalo \ de \ Confianza \ 95\% = 5.06 \ a \ 17.58$$

Regresión lineal simple:

$$Constante = 152.07, error \ estandar = 2.26, t = 67.246 p < .0001$$

$$b = -11.32, error \ estandar = 3.19, t = 3.55, p = .000416, Intervalo \ de \ Confianza \ 95 \% = 5.06 \ a \ 17.58$$

Por tanto, queda demostrado que la prueba t-Student y una regresión lineal simple son el mismo análisis estadístico. Esta misma demostración puede realizarse con otros análisis como un Análisis de la Varianza, aunque de una manera no tan visual como en el presente caso, pero con la misma conclusión, el Análisis de la Varianza no es más que un análisis de regresión lineal, bajo el modelo lineal general, todo son regresiones lineales.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Guía Estadística Modelo Lineal General Repositorio

ANOVA y ANCOVA Investigadores

Repositorio: ANOVA & ANCOVA para investigadores

Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs | Psychology (Acceso libre)

  • En este artículo se explican los cálculos subyacentes a distintos tamaños del efecto relacionados con las comparaciones por pares y los ANOVA, así como algunas recomendaciones para su utilización y reporte en estudios de investigación

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Guía Estadística Métodos Robustos Modelo Lineal General Repositorio

Métodos Robustos del Modelo Lineal General

Repositorio: Modelo Lineal General Robusto

Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation | Behavior Research Methods (Acceso libre)

  • En este artículo se ofrece una introducción a los estimadores de errores estándar consistentes a la heterocedasticidad para los análisis de regresión basados en mínimos cuadrados ordinarios.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …