Categorías
Análisis Crítico Modelo Lineal General Observacional

Análisis Crítico #1

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: Análisis Crítico

Abstract

  • Background

    The use of predictive equation of muscular torque can reduce physical effort and time spent during evaluation. The aim of this study is to establish, validate, and test the accuracy of a prediction equation to estimate the hip external rotators (HER) torque in adults and older adults by means of hip extensors (HEX) torque measurement.

  • Design

    Cross-sectional.

  • Methods

    Eighty-three healthy adults (development set) were assessed to test the association of HEX and HER torques and to establish the prediction equation. A separate 36 adults and 15 older adults (validation sets) were assessed to test the ability of the equation to estimate HER torque. Hip isometric strength was assessed by a handheld dynamometer.

  • Results

    Simple linear regression analysis revealed that HEX torque was associated with HER torque (r = 0.80; p < 0.0001), resulting in the following prediction equation: HERtorque= −0.02 + (0.58 * HEXtorque). Paired t-test revealed no difference between directly measured and predicted values of HER torque in adults (mean difference = 0.02; 95% CI = −0.115, 0.072) and older adults (mean difference = 0.05; 95% CI = −0.02, 0.12).

  • Conclusion

    Simple linear regression analysis revealed that HEX torque was associated with HER torque (r = 0.80; p < 0.0001), resulting in the following prediction equation: HERtorque= −0.02 + (0.58 * HEXtorque). Paired t-test revealed no difference between directly measured and predicted values of HER torque in adults (mean difference = 0.02; 95% CI = −0.115, 0.072) and older adults (mean difference = 0.05; 95% CI = −0.02, 0.12).

Categorías
Modelo Lineal General Temas Básicos

Transitividad de Correlaciones

Correlación: Transitividad

En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele hacerse sobre dicha propiedad, pudiendo llevar a conclusiones erróneas.

Antes de comenzar la lectura de esta entrada, me gustaría pedirte que realizases el siguiente test, que se repetirá de manera similar al final de la entrada, con el objetivo de que puedas darte cuenta las creencias erróneas que tienes actualmente y de si has adquirido conocimientos nuevos tras la lectura de la entrada.

33
Creado en Por Admin

Transitividad Correlaciones (Test Inicial)

1 / 9

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

2 / 9

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

3 / 9

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

4 / 9

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

5 / 9

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

6 / 9

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

7 / 9

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

8 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

9 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

Tu puntación es

The average score is 66%

0%

Imaginemos que sabemos que existe una relación entre la fuerza de prensión manual máxima (X) y la fuerza en rotación externa isométrica máxima de hombro (Y), y que existe una relación entre dicha rotación externa isométrica máxima (Y) y la discapacidad del hombro (Z). En base a ello, decidimos empezar a usar la fuerza de prensión manual como estimador de la discapacidad del hombro. En este razonamiento estaríamos haciendo uso de la transitividad, como X se relaciona con Y, y Y se relaciona con Z, entonces X se relaciona con Z, es decir, hay una «transmisión de la correlación».

Para poder entender la transitividad aplicada a las correlaciones, debemos conocer antes el concepto del coeficiente de determinación (R2) y el porcentaje de variabilidad explicada. A modo resumen simple, en función del valor del coeficiente de correlación de Pearson (r):

  • r = 0, no hay correlación.
  • r = 1, correlación perfecta positiva.
  • r = -1, correlación perfecta negativa.

Si elevamos dicho coeficiente de correlación al cuadrado, obtenemos el coeficiente de determinación (R2), que indica el porcentaje de variabilidad que podemos explicar de una variable a través de otra, por ejemplo si tenemos un coeficiente de Pearson de 0.50, el coeficiente de determinación sería R2 = 0.25, es decir, un 25% de variabilidad explicada. Este concepto puede representarse gráficamente con diagramas de Venn, que facilitarán entender el concepto de transitividad de las correlaciones. Si el área de ambos rectángulos es de 1, un R2 de 0.25 implica que hay un solapamiento del 25% del área los rectángulos.

Imaginemos ahora que tenemos tres variables en lugar de dos, con los siguientes valores de R2 entre ellas:

  • X-Y: 0.25
  • Y-Z: 0.25

Una posible representación mediante diagramas de Venn de estos valores de R2 sería la siguiente:

Cómo se puede apreciar en dicho diagrama, a pesar de que hay una correlación (r = 0.50) entre X e Y y Z e Y, los rectángulos de X y Z no se solapan, indicando una ausencia de correlación entre ellas. En otras palabras, que dos variables (X y Z) se relacionen con una misma variable (Y), no implica que esas dos tengan que presentar una correlación. Este es el principal error de interpretación que se comete con respecto a la transitividad de las correlaciones. Volviendo al ejemplo inicial sobre la prensión manual, la información facilitada en dicho enunciado impide saber si realmente la prensión manual se relaciona con la discapacidad del hombro, se requieren más datos. Pero… ¿Qué datos?

Tenemos dos opciones, una buena y adecuada y otra mala que solo utilizaré para ejemplificar la propiedad de transitividad aplicada a las correlaciones. La opción buena es la obvia, si se quiere estimar la correlación entre dos variables, lo adecuado es medir ambas y analizar directamente dicha correlación, no hacer estimaciones indirectas basadas en la transitividad.

Como ya he comentado, no tiene porque haber transitividad de una correlación de Pearson. Sabemos que la correlación entre X y Z se encuentra dentro del siguiente intervalo basado en las correlaciones entre X e Y y Z e Y:

$$r_{xy}r_{yz} – \sqrt{(1- R^2_{xy})(1-R^2_{yz})} \leq r_{xz} \leq r_{xy}r_{yz} + \sqrt{(1- R^2_{xy})(1-R^2_{yz})}$$

De esta fórmula podemos extraer varias conclusiones. Una primera es que, si y solo si rxy = ryz = 0, entonces rxz puede tomar todo el rango de valores posibles, es decir, de -1 a +1.

Otra conclusión sería que, si y solo si rxy = ryz (sin tener en cuenta el signo de la correlación, es decir, su valor absoluto), entonces puede existir una correlación perfecta entre X y Z, es decir rxz = 1 o rxz = -1, cuyo signo dependerá de los de las otras dos relaciones. Si nos imaginamos esta situación con los diagramas de Venn, tiene más sentido, pues que haya una relación perfecta (positiva o negativa) entre X y Z, implica que ambos rectángulos estarían superpuestos de manera perfecta y por tanto, el solapamiento de ambos con la variable Y sería el mismo, es decir, R2xy = R2yz.

Por otro lado y aunque no tan fácilmente reconocible como esa primera conclusión, de dicha fórmula también podemos concluir que, si rxy; 0, y ryz; 0, entonces rxz; 0 si y solo si:

$$R^2{xy} + R^2{yz} > 1$$

Es decir, habría transitividad de la correlación positiva solo cuando se cumpla esa situación. De forma más generalista, solo cuando la anterior situación se cumpla, la correlación entre X y Z no podrá ser igual a cero, en el resto de casos, puede existir una correlación igual a cero entre ambas variables. Nuevamente, si pensamos en los diagramas de Venn, podemos apreciar esa condición más fácilmente. El área del rectángulo de Y es igual a 1, de manera que si la suma de las áreas solapadas de X y Z con Y son superiores a 1, eso implica que los rectángulos de X y Z han de estar solapados también. A continuación muestro un ejemplo de diagrama de Venn donde casi hay solapamiento entre X y Z, con solo un 5% de la variabilidad de Y sin explicar. Si X y Z explicasen más porcentaje de la variabilidad de Y, es decir, si juntásemos más dichos rectángulos, acabarían por solaparse.

Este punto es importante, pues incluso con correlaciones altas  entre X e Y y Z e Y, puede darse una correlación de cero entre X y Z. Por ejemplo, asumiendo que rxy = ryz, entonces la correlación máxima que permitiría la posibilidad de que existiera una correlación de cero entre X y Z sería:

$$r_{xy} = r_{yz} = \sqrt 50 = 0. 7071$$

Es decir, podemos tener hasta una correlación entre X e Y y entre Z e Y de 0.7071 y ello no tendría que implicar que hubiera una correlación entre X y Z. Con la fórmula inicial de los intervalos del coeficiente de correlación entre X y Z en función de rxy y ryz, podemos calcular la correlación mínima que podríamos esperar entre X y Z, así como también evaluar en que situaciones es plausible una ausencia de correlación entre ambas variables.

Implicaciones de la malinterpretación de la transitividad de las correlaciones

¿Por qué es importante conocer como se comportan las correlaciones con respecto a la transitividad? Para no cometer errores grandes y, en mi experiencia por lo que he podido apreciar, encadenados, de interpretaciones y asunciones. Un ejemplo de malinterpretación común sería el siguiente:

«Estamos buscando artículos y nos encontramos con uno que ha visto que hay una correlación de 0.7 entre la fuerza máxima prensil y la fuerza isométrica máxima de rotación externa de hombro, nos acordamos que hace unos meses leímos otro estudio que había encontrado una correlación de 0.67 entre la fuerza isométrica máxima de rotación externa y la discapacidad del hombro, y en base a ambos estudios, decidimos empezar a evaluar y tratar la fuerza prensil en clínica en sujetos con patología dolorosa del hombro.»

Otra opción sería que, en función de esos dos estudios, decidiéramos hacer un ensayo clínico orientado a trabajar la fuerza prensil para mejorar la discapacidad en sujetos con dolor relacionado con el manguito rotador, o que decidiéramos no evaluar en un transversal la fuerza de rotación externa porque requiere de un dinamómetro que es más caro y midiéramos en su lugar la fuerza prensil, asumiendo que también se relaciona con la discapacidad. Todas estas decisiones son erróneas y pueden llevar a errores muy grandes, tanto en la práctica clínica como en investigación. Cuando he comentado que en mi experiencia, son errores encadenados, es porque muchas veces he observado que, en lugar de molestarnos en evaluar directamente las correlaciones, las asumimos presentes por transitividad, una tras otra, aceptando algunas como verdades ya comprobadas, y guiando líneas de investigación durante años y años, en base a un error conceptual de estadística.

Por último, otro ejemplo donde también aprecio se malinterpreta notoriamente la transitividad es en las pruebas de valoración. Tendemos a buscar métodos más baratos para evaluar determinados parámetros en nuestros sujetos en investigación, porque se supone tendrán mayor aplicabilidad clínica. Si bien esto es lo deseable, no siempre es posible. En esta búsqueda de métodos más baratos, pecamos de la falacia de la transitividad. Cuando se realiza un estudio de estas características, se suele comparar el nuevo método con uno considerado «gold standard» para evaluar su validez, calculándose la correlación entre las mediciones tomadas con ambos métodos. Mucha gente asume que por ejemplo, un valor de correlación de Pearson de 0.70, sería indicativo de buena validez, y concluyen que por tanto, el nuevo método podría implementarse en la práctica clínica e investigación, ahorrando costes. El motivo subyacente en la gran mayoría de casos, sea consciente o no quien realiza el mismo, es la aceptación de la transitividad, mejor dicho, la malinterpretación de la misma.

Si aceptamos una correlación de 0.70 entre ambos métodos de medición, necesitaríamos que se diera una correlación de 0.72 entre el gold standard y otra variable de interés, para que empezase a haber transitividad de dicha correlación hacia el nuevo método de medición. Por ejemplo, si asumimos que el gold standard presenta una correlación de 0.85 con otra variable, la correlación estimada del nuevo método de medición con dicha variable, por transitividad, sería de 0.219. ¿Podemos por tanto usar indistintamente el nuevo método de medición? La respuesta es, en función de solo esta información, no. Pues ya hemos visto que la transitividad no justificaría dejar de usar el gold standard, pues perderíamos casi toda la correlación con la otra variable de interés. Esto no implica que no pudiera darse una relación más alta entre el nuevo método y dicha variable, simplemente que, por transitividad, no pasaría y por tanto un razonamiento basado en la misma, no se sostiene.

A continuación te dejo un segundo test, con el fin de que puedas evaluar el conocimiento que has adquirido con la presente entrada y si ha mejorado tu capacidad de interpretación de literatura científica:

6
Creado en Por Admin

Transitividad Correlación (Test Final)

1 / 15

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

2 / 15

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

3 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.50 y la correlación entre Z e Y es de 0.49, ¿Puede la correlación entre X y Z llegar a ser perfecta (sin importar el signo)?

4 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

5 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.80, ¿Cuál es la correlación mínima que tendría que haber entre Z e Y para que hubiera transitividad hacia la correlación entre X y Z?

6 / 15

Si la correlación entre la fuerza prensil y la fuerza en rotación externa de hombro es de 0.60, y la correlación entre la fuerza en rotación externa y la discapacidad es de 0.50, ¿Cuáles serían los límites de posibles valores de la correlación entre la prensión manual y la discapacidad?

7 / 15

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

8 / 15

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

9 / 15

Dadas tres variables (X, Y, Z), sabiendo que la correlación entre X e Y es de 0.60 y la correlación entre Z e Y es de 0.70. ¿Podría haber una correlación entre X y Z igual a cero?

10 / 15

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

11 / 15

Si la correlación entre la fuerza en rotación externa máxima de hombro y el grado de discapacidad es de 0.60, y la correlación entre dicha fuerza en rotación externa y la fuerza prensil es de 0.90, ¿Cuál es la correlación estimada por transitividad entre la fuerza prensil y la discapacidad de hombro?

12 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.40 y la correlación entre Z e Y es de 0.80, ¿Puede ser negativa la correlación entre X y Z?

13 / 15

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

14 / 15

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

15 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

Tu puntación es

The average score is 63%

0%

Conclusiones

Las correlaciones no son transitivas, la posibilidad de presencia o no de transitividad depende de la magnitud y dirección de las correlaciones. No debemos caer en el error de inferir asociaciones por transitividad, sin haberlas evaluado de manera directa, pues puede llevarnos a cometer errores cruciales tanto en investigación, como en la práctica clínica.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Básico Modelo Lineal General

Regresion Lineal – Interpretacion Coeficientes

Regresión lineal: Interpretación de Coeficientes

En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal simple y múltiple cuando todas las variables independientes son cuantitativas continuas, sin entrar en detalle de supuestos matemáticos subyacentes a dichos análisis.

Los análisis de regresión lineal son de los más utilizados en nuestro campo y se encuentran dentro del modelo lineal general. Este tipo de análisis ofrecen una gran versatilidad para el estudio de múltiples hipótesis de investigación, pudiendo aportar información muy útil. En esta entrada nos centraremos en al interpretación de la regresión lineal cuando todas las variables del modelo son cuantitativas continuas. Vamos a distinguir tres formas de regresión lineal:

  • Regresión lineal simple.
  • Regresión lineal múltiple sin interacción.
  • Regresión lineal múltiple con interacción.

Notación matemática

Este sería el modelo más sencillo de regresión lineal, donde se dispone de una variable dependiente (y) y una sola variable independiente (x), que quedaría definido matemáticamente como:

$$y_i = c + b_1x_i + \epsilon_i$$

Por otro lado, visualmente un modelo de regresión lineal quedaría definido en un gráfico de dispersión como:

Para poder comprender los modelos de regresión lineal múltiples más avanzados, es necesario empezar a entender la notación matemática utilizada en la regresión lineal. A continuación se muestra a que hace referencia cada letra de la anterior fórmula:

  • yi = Esta es la variable dependiente, la que se intenta «predecir» en función de los valores de las variables independientes. El subíndice i hace referencia al sujeto i del que se está intentando predecir el valor de y. 
  • c = Esta es la constante del modelo, el valor en el que la recta de regresión corta el eje de las ordenadas, es decir, el valor de y cuando x = 0.
  • xi = Esta es la variable independiente, la que se utiliza para «predecir» los valores de y. Puede haber más de una, que pueden nombrarse con cualquier otra letra, aunque es habitual usar posteriormente wz. Estas serán las letras a utilizar en los ejemplos de esta entrada.
  • b1 = Este es el coeficiente de regresión sin estandarizar, estos coeficientes se calculan siguiendo el método de los mínimos cuadrados ordinarios. Hay un coeficiente de regresión sin estandarizar por cada variable independiente incluida en el modelo.
  • ϵiEste es el error asociado al sujeto i. Normalmente, este término no se incluye en la notación de la fórmula del modelo de regresión lineal, aunque se tiene en cuenta para los análisis estadísticos. En la gráfica se refleja el error asociado a cada sujeto con una línea vertical anaranjada, que es la distancia del valor observado en el sujeto hasta la recta de regresión, que es el valor que predecimos en función de nuestra variable/s independiente/s.

Una vez conocidos los términos, podemos pasar a comprender como interpretar un análisis de regresión lineal simple y posteriormente múltiple.

Regresión lineal simple

En la fórmula mostrada anteriormente, yi hacía referencia al valor observado para el sujeto i en la variable dependiente, dado que se incluyó el término del error (ϵi) en la fórmula. Cuando dejamos fuera este término, yi hace referencia al valor predicho de la variable dependiente y para el sujeto i (el valor de la recta de regresión). De ahora en adelante, hablaremos siempre del valor predicho, que es lo que realmente se estima con los modelos de regresión lineal. Pero… ¿Qué es el valor predicho?

A lo largo de toda la página web me veréis insistir mucho en entender conceptos básicos como diferenciar estimadores muestrales de estimadores individuales, así como la importancia de comprender adecuadamente el concepto de tendencia central y más en concreto, el de la media. El valor predicho con un modelo de regresión lineal es una media. Si partimos de un valor cualquiera de la variable independiente (x), por ejemplo x = 68kg, el valor predicho de la variable dependiente (y = Fuerza) sería la fuerza media estimada de todos los sujetos que presentan un peso de 68kg. *Nota: Debemos tener en cuenta que puede haber muchas mal-especificaciones en el modelo de regresión, por ejemplo porque no haya una relación lineal y sea de otro tipo, que no hayamos tenido en cuenta todas las variables posibles a incluir en el modelo o que nuestra muestra no sirva para generalizar el modelo a otras (ej. sujetos jóvenes sin generalizar a la tercera edad), pero no entraremos en detalle en estos puntos en esta entrada.

Se ha comentado que b1 es el coeficiente de regresión sin estandarizar. Se le denomina sin estandarizar porque no se han manipulado las unidades de medida a la hora de su cálculo, presenta las mismas unidades que la variable dependiente, en el caso de una regresión lineal simple el coeficiente de regresión estandarizado sería igual al coeficiente de correlación de Pearson. Este coeficiente es el que nos indica la posible presencia o no de una relación lineal entre la variable independiente y la dependiente, su interpretación sería la siguiente:

  • b1 < 0. Relación negativa entre las dos variables.
  • b1 = 0. Ausencia de relación entre las dos variables.
  • b1 > 0. Relación positiva entre las dos variables.

La ausencia de estandarización conlleva un problema, no podemos saber como de grande es o no es la relación lineal con respecto a otros coeficientes de otros modelos de regresión lineal (a diferencia de con el coeficiente de correlación de Pearson, que si podemos), debido a que su valor depende de las unidades de medida de y. Es decir, imaginemos que queremos predecir la fuerza isométrica máxima de rotación externa de hombro en función del índice de masa corporal y por otro lado, en función de la estatura, quedando dos modelos de regresión lineal simple como los siguientes:

$$Fuerza_i = 32.54 + 5.10*IMC_i$$

$$Fuerza_i = -65.93 + 1.27*Estatura_i$$

Como puede apreciarse, en ambos casos existe una relación positiva, ya que el coeficiente de regresión sin estandarizar es mayor que cero (5.10 para la fuerza y 1.27 para la estatura). Sin embargo, aunque el valor del coeficiente de la estatura sea menor que el del IMC, ambas variables presentan la misma relación con la fuerza, un coeficiente de correlación de Pearson de 0.50 en ambos casos. La discrepancia observada en los coeficientes sin estandarizar es debida a que las unidades de medida del IMC y la estatura difieren, siento en este caso simulado:

$$IMC = \{\bar x = 23kg/m^2, \sigma = 3kg/m^2\}$$

$$Estatura = \{\bar x = 170cm, \sigma = 12cm\}$$

Esto mismo sucedería si cambiásemos de variable dependiente, ya que sus unidades también influyen en el valor del coeficiente de regresión sin estandarizar. De aquí en adelante, nos olvidaremos de medir lo «grande» o «pequeña» que es la relación lineal y nos centraremos simplemente en interpretar los modelos de regresión lineal con coeficientes sin estandarizar.

En una regresión lineal simple, el coeficiente b1 hace referencia al cambio estimado en unidades de que se deriva de incrementar una unidad en x. Por ejemplo, en el caso anterior de la estatura, por cada incremento en 1cm de estatura se estima un incremento de 1.27N de fuerza de rotación externa. Retomando la representación gráfica de la regresión lineal simple, el coeficiente b1 haría referencia a la pendiente de la recta de regresión.

Regresión lineal múltiple sin interacción

Ya sabemos a que hace referencia el coeficiente b1 cuando solo hay una variable independiente en el modelo, pero ¿Qué interpretación tienen estos coeficientes cuando tenemos más de una variable independiente? Establezcamos un nuevo modelo, donde se pretenda predecir la fuerza en rotación externa incluyendo la estatura y el peso como variables independientes:

$$y_i = c + b_1 x_i + b_2 w_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i$$

$$Fuerza_i = -251.14 + 3.98*Peso_i + 0.96*Estatura_i$$

Cuando en un modelo de regresión lineal se incluyen dos o más variables dependientes por separado, estamos forzando al modelo a un supuesto, que no existe interacción entre el peso y la estatura a la hora de predecir la fuerza, es decir, que la relación estimada del peso con la fuerza es independiente de la estatura y la relación estimada de la estatura con la fuerza es independiente del peso. La definición por tanto de los coeficientes sin estandarizar sería:

  • b1 = Cambio estimado en unidades de y que se deriva de incrementar 1kg el peso, manteniendo la estatura constante.
  • b2 = Cambio estimado en unidades de y que se deriva de incrementar 1cm la estatura, manteniendo la peso constante.

Es decir, si tenemos dos personas con la misma estatura, por ejemplo 170cm, una que pesa 68kg y otra que pesa 69kg, la diferencia de fuerza que estimamos entre ellas es de 3.98N (b1). Esto se cumpliría para cualquier valor de estatura, siempre que ambos sujetos tengan la misma. Del mismo modo, si tenemos dos personas que pesan lo mismo, una que mide 170cm y otra que mide 171cm, la diferencia de fuerza que estimamos entre ellas es de 0.96N (b2), a expensas del peso que presenten, siempre que sea el mismo.

Expresado desde un punto de vista gráfico (por ejemplo para el peso), la pendiente (b1) de la recta de regresión obtenida de predecir la fuerza en función del peso no varía en función de la estatura:

En esta imagen se reflejan las recta de regresión entre el peso y la fuerza, para cinco valores de estatura (de 162cm a 178cm), calculadas a partir de las fórmulas mostradas anteriormente. Como puede apreciarse, la pendiente de las rectas es idéntica, son rectas paralelas donde lo único que cambia es la constante, ejemplificando visualmente la definición aportada anteriormente.

Hay dos conceptos que suelen nombrarse mucho en relación a los análisis de regresión lineal múltiple, el de factor de confusión y/o covariable. Hay situaciones en las que queremos estimar la relación que tiene una variable con otra, «controlando» para otros posibles factores de confusión, denominados covariables del modelo. Por ejemplo, podríamos querer estimar la relación lineal que hay entre la intensidad del dolor de hombro y la fuerza isométrica en rotación externa, controlando para las covariables edad, estatura y peso.

Regresión lineal múltiple con interacción

Como se ha comentado anteriormente, al incluir solo por separado las dos variables independientes, se fuerza el modelo a asumir que la relación estimada por ejemplo del peso con la fuerza, es independiente del valor de estatura de los sujetos y viceversa, que esto se traducía en que el valor del coeficiente de regresión del peso (b1) no varía en función de la estatura, que la pendiente de dicha recta de regresión es la misma, como se podía apreciar en la última figura. Antes de pasar a explicar que es la interacción, creo que es mejor observar una representación gráfica de la misma con el mismo modelo anterior:

Como se puede apreciar, en este caso, la pendiente de la recta de regresión para el peso si varia en función de la estatura de los sujetos, es decir, el coeficiente de regresión del peso (b1) varía en función de la estatura. Para entender esto, primero debemos conocer como se expresa un modelo de regresión lineal múltiple con interacción y a que hace referencia dicha interacción:

$$y_i = c + b_1 x_i + b_2 w_i + b_3 z_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Interaccion$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

Tal y como se refleja en estas fórmulas, un modelo de regresión lineal con interacción es aquel en el que se incluye un tercer término en el modelo (la interacción), con su respectivo coeficiente de regresión (b3). Ese tercer término no es más que una variable que se crea multiplicando los valores de las otras dos incluidas en el modelo, es decir, si un sujeto tiene una estatura de 170cm y un peso de 72kg, su valor en la variable interacción sería de 12240. ¿A qué hace referencia aquí entonces el coeficiente de regresión de la interacción (b3)?

Podemos definir b3 como el cambio estimado del coeficiente de regresión del peso (b1) que se deriva del incremento de una unidad en la estatura (+ 1cm), o viceversa, el cambio estimado del coeficiente de regresión de la estatura (b2) que se deriva del incremento de una unidad en el peso (+ 1kg). Voy a centrarme en el coeficiente de regresión del peso para explicar mejor esta definición, reestructurando un poco la fórmula mostrada anteriormente. Imaginemos que es viable tener una estatura de 0cm e incrementamos en una unidad la estatura, teniendo por tanto un valor de estatura para un sujeto dado de 1cm, entonces sustituyendo en la anterior fórmula tendríamos que:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*1 + b_3*Peso_i*1$$

$$Fuerza_i = (c + b_2) + Peso_i*(b_1 + b_3)$$

He puesto dentro de un mismo paréntesis la constante y el coeficiente b2 puesto que al multiplicarlo por 1 quedaría un valor numérico, que se sumaría a la constante. Por otro lado, al adjudicar el valor 1 a la estatura en el término de la interacción, lo que queda es un coeficiente de regresión multiplicado solo por la variable peso, de modo que se puede unificar dicho coeficiente (b3) con el coeficiente b1 en un mismo paréntesis, quedando ambos multiplicados por el peso. Es aquí donde queda ejemplificada la definición mostrada anteriormente, de que el coeficiente de regresión del peso ha incrementado b3 unidades debido al incremento de una unidad en la estatura, ya que si la estatura tuviera un valor hipotético de cero, entones:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*0 + b_3*Peso_i*0$$

$$Fuerza_i = c + Peso_i*b_1$$

Quedando ejemplificado que el incremento de una unidad de la estatura es lo comentado anteriormente. En términos de visualización gráfica, la pendiente de la recta de regresión entre el peso y la fuerza se incrementaría b3 unidades con el incremento de una unidad en la estatura.

De esta última fórmula se extrae además otra definición nueva. Mientras que en la regresión lineal múltiple sin interacción el coeficiente de regresión del peso (b1) hacia referencia a la relación entre el peso y la fuerza, independiente de la estatura (manteniendo la estatura constante), ahora el coeficiente de regresión del peso (b1) refleja la relación entre el peso y la fuerza cuando la estatura es igual a cero, sucediendo lo mismo pero a la inversa para el coeficiente de la estatura. Es decir, la inclusión del término de interacción cambia el significado de los coeficientes de regresión del peso (b1) y la estatura (b2), esto es importante ya que, si no se conoce este hecho, se pueden malinterpretar gravemente dichos coeficientes al leer un artículo de investigación. Normalmente, cuando se incluye un término de interacción, lo que interesa es el coeficiente de regresión de la interacción, que es lo que se suele estar testando, no esos otros coeficientes.

Puede que te hayas dado cuenta ya de un factor importante sobre la interpretación de dichos coeficientes de regresión al incluir la interacción, ¿Cómo que b1 es la relación entre el peso y la fuerza cuando la estatura es igual a cero? ¿Quién puede medir cero centímetros? No tiene sentido. Es por ello que para mejorar la interpretación de dichos coeficientes, suele realizarse un procedimiento que se denomina «centrar en la media». *Nota: Aunque no es el objetivo de esta entrada y no profundizaré en ello, si quería remarcar que el objetivo de centrar en la media es puramente para hacer que esos coeficientes tengan un sentido de interpretación, nada que ver la «eliminación» de la colinealidad entre variables independientes con el objetivo de mejorar el modelo de regresión, ya que no sirve para tal propósito.

Este procedimiento consiste en restar a cada valor el de la media de la muestra para dicha variable, es decir, si un sujeto tiene un peso de 55kg pero la media muestral es de 60kg, entonces su valor quedaría como -5. Esta actuación no alterará el coeficiente de regresión de la interacción ni la significación estadística del mismo, solo alterará los otros dos coeficientes de las variables implicadas en la interacción, en nuestro caso b1 y b2. En este caso, por ejemplo para el peso, b1 ya no sería la relación entre el peso y la fuerza cuando la estatura es igual a cero, sería la relación entre el peso y la fuerza cuando la estatura es igual a la media de la muestra, y lo mismo sucedería con b2. Por tanto, ahora si tienen un sentido interpretable ambos coeficientes.

En esta entrada no profundizaré más en la interpretación de una interacción, ni en que pasos habría que seguir después de haber evaluado si hay o no una interacción estadísticamente significativa. No obstante, pondré un ejemplo más con 3 variables independientes. Imaginemos ahora el siguiente modelo de regresión lineal múltiple con interacción:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i$$

En este caso tenemos 3 variables independientes incluidas en el modelo, así como un término de interacción, la interacción entre la estatura y el peso. Por ejemplo para el peso, su coeficiente de regresión (asumiendo que hemos centrado en la media), sería la relación entre el peso y la fuerza cuando la estatura tiene el valor de la media de la muestra y se mantiene la edad constante, es decir, si la estatura media de la muestra fuese de 170cm, b1 sería la diferencia de fuerza estimada entre dos sujetos que miden 170cm y tienen la misma edad, se cual sea esta, pero que presentan una diferencia entre ellos de 1kg de peso. Por otro lado, el coeficiente de regresión de la edad (b3) sería la relación entre la edad y la fuerza, manteniendo constantes la estatura y el peso, es decir, la diferencia de fuerza estimada entre dos sujetos que tienen la misma estatura y peso, sean cuales sean estos, pero que difieren en 1 año de edad. En otras palabras, la inclusión de una interacción solo cambia la interpretación de los coeficientes de regresión de las variables involucradas en la misma, no las del resto de variables incluidas en el modelo. Este principio de razonamiento de interpretación se aplicaría en modelos más complejos, con varias interacciones y más variables independientes incluidas. Pondré un último ejemplo:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i*Edad_i*$$

En este caso se ha incluido una interacción entre las 3 variables (edad, estatura y peso), de forma que el coeficiente de regresión de la edad (b3) pasaría a ser, asumiendo que hemos centrado en la media, la relación entre la edad y la fuerza cuando la estatura y el peso tienen los valores de la media de la muestra.

Según se van incluyendo más variables e interacciones en el modelo, su interpretación puede volverse algo más tediosa y es por eso que no profundizaré en modelos más avanzados en esta entrada, pues pienso requerirían de demasiado tiempo y una base previa profunda de conocimiento de estadística para no errar en la interpretación de los mismos.

Conclusiones

A pesar de ser métodos de análisis ampliamente extendidos dentro del campo de la Fisioterapia, mi sensación subjetiva es que existe mucho desconocimiento sobre como interpretar los mismos. En esta entrada he querido profundizar solo en la parte de interpretación del sentido de los coeficientes de regresión, algo que a priori podría parecer complejo pero en verdad no lo es tanto. Finalmente, quiero remarcar que la interpretación crítica adecuada de un modelo de regresión lineal múltiple, requiere de tener en cuenta más aspectos que los mencionados en esta entrada, la cual constituye simplemente una base para comenzar a comprender mejor este tipo de análisis estadísticos.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Fiabilidad Modelo Lineal General Temas Avanzados

El mal uso de la MDD en la interpretación de diferencias medias

Interpretación de medias: El mal uso de la Mínima Diferencia Detectable

En esta entrada profundizo en la estadística subyacente a la utilización de la mínima diferencia detectable (MDD) en la interpretación de diferencias medias, que actualmente se sigue haciendo en diversas publicaciones del campo de la Fisioterapia. A lo largo de la entrada, explicaré los motivos por los cuales pienso esta práctica está equivocada y puede llevarnos a fallos cruciales de interpretación de los resultados de una investigación. 

Nota: En esta entrada se utilizan conceptos avanzados de estadística aplicada y puede que, sin una base previa, resulte más complicada su comprensión. No se abordarán múltiples aspectos básicos para no extender demasiado el contenido de la misma, dándose por hecho que el lector presenta esa base de conocimiento.

La mínima diferencia detectable (MDD) es un estadístico comúnmente reportado en los análisis de fiabilidad con variables continuas. Este estadístico constituye un limite de un intervalo de confianza (IC), normalmente del intervalo al 90% o 95% de confianza (utilizaré este último para todas las explicaciones y simulaciones a lo largo de la entrada). Su interpretación simplista sería la siguiente.

Imaginemos que tenemos un sujeto al que hemos medido la fuerza isométrica máxima de rotación externa de hombro, con un dinamómetro manual. En la primera medición antes de comenzar el tratamiento, el sujeto muestra una fuerza de 130N, mientras que en la segunda medición tras la aplicación del tratamiento, el sujeto muestra un valor de fuerza de 135N. Sabemos que la fiabilidad del dinamómetro no es perfecta, es decir, que al utilizar este instrumento dentro del procedimiento empleado, cometemos errores en la medición. Entonces, ¿Cómo podríamos saber si la diferencia observada en el post-tratamiento no se ha debido a un error de medición? Aquí es donde entra en juego el concepto de MDD.

La mínima diferencia detectable al 95% de confianza (MDD95%), es un valor que, partiendo de que se cumplen distintas asunciones y que lo único que ha influido en la diferencia observada es el error de medición (es decir, que no hay ningún otro factor, ni la intervención, que hayan influido), por encima del mismo solo se encontrarían un 5% de las posibles diferencias absolutas obtenibles debidas al error de medición. De forma que se asume que, si obtenemos una diferencia superior a dicho valor, como es «poco plausible» obtener esa diferencia bajo la hipótesis de que dicha diferencia se haya obtenido solo por un error de medición, entonces rechazamos dicha hipótesis.*

*Nota: Debemos tomar está definición como muy simplista y «con pinzas», ya que realmente no es tan sencilla su interpretación en términos de probabilidad, pero no entraré en ese detalle en esta entrada, pues no es su propósito.

En términos más formales, si medimos a un sujeto infinitas veces y asumimos que lo único que influye en las diferencias observadas entre las distintas mediciones es el error proveniente del procedimiento de medición empleado y calculamos diferencias de parejas de mediciones de manera aleatoria, el intervalo de confianza al 95% de esa distribución de datos (de esas diferencias entre dos mediciones seleccionadas de manera aleatoria), es decir, más o menos los valores que se alejan 1.96 desviaciones estándar (DEd) asumiendo algunas cosas, eso sería el valor de la MDD95%. La fórmula que suele utilizarse para el cálculo de la MDD95% es la siguiente:

$$MDD95\% = 1.96*DE_d = 1.96*EEM*\sqrt 2$$

En esta fórmula el EEM es el error estándar de la media, que es una estimación de la desviación estándar resultante de medir a un sujeto infinitas veces influyendo solo el error de medición. Como en la MDD95% tenemos dos mediciones y no solo una, se multiplica el EEM por la raíz cuadrada de dos, debido a que:

$$EEM = \frac{DE_d}{\sqrt 2}$$

$$DE_d = EEM*\sqrt 2$$

Después de esta introducción, vamos a focalizarnos en el tema concreto de esta entrada. Como he comentado, la MDD95%es un estadístico orientado a interpretar la diferencia entre dos mediciones realizadas a un mismo sujeto. Sin embargo, la MDD95% se utiliza a veces también para interpretar diferencias de medias muestrales y para cálculos de tamaño muestral, dos procedimientos a mi parecer erróneos por los motivos que expondré a continuación.

Mínima diferencia detectable en la interpretación de diferencias medias

Mostraré primero las consecuencias de utilizar la MDD95% en la interpretación de la diferencia media entre dos grupos. Voy a simular un estudio en el que queremos comparar la fuerza isométrica máxima de rotación externa de hombro, medida con dinamometría, entre sujetos con y sin tendinopatía del manguito rotador. Asumiremos los siguientes valores poblacionales reales y los siguientes valores de error de medición (mismo error de medición en ambas poblaciones):

$$Tendinopatía = \{\mu_t = 140, \sigma_t = 10\}$$

$$Sanos = \{\mu_s = 145, \sigma_s = 10\}$$

$$Error \ de \ medicion = \{EEM = 3.61, MDC95\% = 10\}$$

Partiendo de estos datos, si asumimos un umbral crítico de significación de p < .05, necesitaríamos 64 sujetos de cada grupo para conseguir una potencia estadística del 80%, asumiendo que no se cometen errores en el proceso de medición. Si asumimos el error de medición mencionado anteriormente la potencia disminuye y si, además de eso, utilizamos el punto de corte de la MDD95% para decidir cuando hay diferencias entre los grupos y cuando no, la potencia disminuye aun más, quedando las tres definidas para esa misma muestra como:

  • Sin error de medición: 80%.
  • Con error de medición: 75%.
  • Con error de medición + MDC95%: 0.40% (aproximada). *Esta potencia se ha calculado asumiendo que hay diferencias reales si y solo si el resultado obtenido es estadísticamente significativo y además, superior a 10N, el valor de la MDC95%.

Como puede apreciarse, al utilizar la MDD95% como punto de corte para decidir si «hay diferencias reales o no» entre estas dos poblaciones, la potencia estadística disminuye notoriamente. Además, debemos tener en cuenta otro factor, una paradoja que se da debido a la relación entre el tamaño muestral y la distribución de las diferencias medias.

Según incrementamos el tamaño muestral, la estimación de la diferencia media es más precisa, es decir, los valores de diferencias medias observados se aproximarán cada vez más al valor real, en este caso de 5N. No obstante, aunque se incremente el tamaño muestral, el valor de la MDD95% no varía, es fijo. Por tanto, aunque de manera habitual incrementar el tamaño muestral incrementa la potencia, en este caso sucede lo contrario. Al aproximarse cada vez más los valores a 5N, habrá menos cantidad de muestras en las que la diferencia observada sea superior a 10, de manera que la potencia disminuye. Por ejemplo, para los siguientes tamaños muestrales, la potencia aproximada sería:

  • 75 sujetos por grupo = 0.25%
  • 80 sujetos por grupo = 0.18%
  • 90 sujetos por grupo = 0.07%
  • 100 sujetos por grupo = 0.04%

Es decir, no podríamos mejorar la potencia estadística incrementando el tamaño muestral, si no que tendríamos que disminuirlo, algo que carece de sentido. Este efecto dependerá del efecto real bajo estudio (la diferencia de medias real) y la fiabilidad del procedimiento de medición. A medida que la fiabilidad se aproxime a una fiabilidad perfecta (es decir, la MDD95% tienda a cero), el efecto negativo de usar la MDD95% será menor. Sin embargo, puede observarse como en casos como el presente, con una fiabilidad muy buena con un EEM de tan solo 3.61, el efecto del uso de la MDD95% es devastador.

Mínima diferencia detectable en el cálculo del tamaño muestral

Otra práctica que he podido observar algunas veces en la investigación en Fisioterapia, es la utilización de la MDD95% para los cálculos de tamaño muestral, donde se produce también otra situación paradójica similar a la descrita anteriormente.

Como ya he comentado, según incrementa el error de medición disminuye la potencia estadística, por ejemplo para el caso anterior con 64 sujetos por grupo, la potencia estimada para los siguientes errores estándar de la media sería:

  • EEM de 5 = 71%.
  • EEM de 7 = 63%.
  • EEM de 10 = 51%.
  • EEM de 15 = 34%.

Esto hace que, según aumente el error de medición, debamos incrementar el tamaño muestral si queremos mantener una potencia estadística deseada (por ejemplo, del 80%). Asumiendo los valores anteriores de EEM, la muestra necesaria para alcanzar un 80% de potencia sería:

  • EEM de 0 = 64 sujetos por grupo.
  • EEM de 5 = 80 sujetos por grupo.
  • EEM de 7 = 95 sujetos por grupo.
  • EEM de 10 = 127 sujetos por grupo.
  • EEM de 15 = 205 sujetos por grupo.

Ahora procedamos como he visto hacer a algún/a investigador/a de nuestro campo, utilizando el valor de la MDD95% como la diferencia de medias real estimada a detectar en nuestro estudio. Vamos a asumir que la dispersión de la diferencia está fija en 10 (aunque luego explicaré que esto no es así), de manera que para distintos valores de MDD95% usados como estimadores de la «diferencia de medias real», el tamaño muestral para un 80% de potencia sería:

  • MDD95% de 3 = 176 sujetos por grupo.
  • MDD95% de 5 = 64 sujetos por grupo.
  • MDD95% de 7 = 33 sujetos por grupo.
  • MDD 95% de 10 = 17 sujetos por grupo.

Es decir, según incrementamos la diferencia de medias real estimada, el número de sujetos necesario para alcanzar un 80% de potencia (manteniendo el resto constante) disminuye. Es aquí donde se da la paradoja. Al inicio he comentado que, a menor fiabilidad hay más variabilidad de error y por tanto, la potencia estadística disminuye y necesitamos más muestra para alcanzar la potencia deseada. A menor fiabilidad, mayor es el valor de la MDD95%. Por tanto, ¿Cómo vamos a usar la MDD95% para calcular el tamaño muestral si su utilización disminuye aún más la muestra necesaria calculada? En efecto, carece de sentido. En los últimos cálculos asumí que la dispersión de las diferencias estaba fijada en 10, sin embargo, esto no es realista, ya que según disminuye la fiabilidad dicha dispersión aumenta.

Asumiendo una dispersión real (sin errores de medición) de 10 en cada muestra, con una diferencia de medias real de 5N y un tamaño muestral de 64 sujetos por grupo, teníamos un 80% de potencia. Ahora mostraré que sucede en la potencia real estimada de un estudio, cuando se incrementa el error de medición (EEM) y se utiliza además para el cálculo del tamaño muestral la MDD95% asociada a ese error de medición:

$$\begin{array} {| ccc |} \hline EEM & Potencia \ real & Muestra \ 80\% & MDD95\% & Muestra \ MDD95\% & Potencia \ real \ MDD95\% \\ \hline 2.53 & 78\% & 68 & 7 & 33 & 49\% \\ \hline 3.61 & 75\% & 72 & 10 & 17 & 26\% \\ \hline 4.33 & 73\% & 76 & 12 & 12 & 19\% \\ \hline \end{array}$$

Como puede apreciarse, el uso de la MDD95% para estimar el tamaño muestral se traduce en una mayor y considerable pérdida de potencia estadística real de nuestro estudio, al disminuir el tamaño muestral cuando en realidad, al haber menos fiabilidad, deberíamos incrementarlo tal y como se muestra en la tercera columna. 

Mínima diferencia media detectable

Como he comentado anteriormente, el uso de la MDD95% está orientado a diferencias entre dos mediciones realizadas a un mismo individuo, es decir, es un estadístico orientado a individuos y no a muestras.

Una pregunta que podríamos hacernos es, si podemos calcular la MDD95% para diferencias individuales, ¿podemos también calcularla para diferencias medias? La respuesta es sí, a este valor le llamaré mínima diferencia media detectable al 95% de confianza (MDMD95%). Ahora supongo que, a lo mejor, te estas planeando la siguiente pregunta obvia, ¿podemos usar la MDMD95% para interpretar diferencias medias? Y la respuesta quizás no te resulte tan obvia y no te guste tanto: no.

Si retomamos las fórmulas anteriores:

$$DE_d = EEM*\sqrt 2$$

$$MDD95\% = EEM*\sqrt 2*1.96 = DE_d*1.96$$

La DEd es la desviación estándar de las diferencias individuales entre las dos muestras. Sin embargo, nosotros estamos interesados en la dispersión de la media, no de los valores individuales, de modo que tenemos que usar un estadístico que recoja dicha dispersión de la media, que es el error estándar de la media:

$$EE_{media} = \frac{DE_d}{\sqrt n}$$

Con este error estándar, podemos reescribir la fórmula de la MDD95% para obtener la fórmula de la MDMD95%:

$$MDMD95\% = \frac{MDD95\%}{\sqrt n} = \frac{EEM*\sqrt 2*1.96}{\sqrt n}$$

Siendo n igual al tamaño muestral total entre dos (asumiendo que ambos grupos tienen el mismo tamaño muestral). De este modo, la MDMD95%, a diferencia de la MDD95%, si varía en función del tamaño de la muestra, a mayor tamaño muestral empleado, menor MDMD95%.

Sin embargo, no tiene sentido utilizar la MDMD95% para interpretar diferencias medias, ya que no aporta información útil si ya usamos el punto de corte del umbral crítico de significación (p < .05). La explicación a este fenómeno recae en las varianzas involucradas en sus respectivos cálculos.

Cuando calculamos la MDMD95% solamente estamos teniendo en cuenta el error atribuible a la ausencia de fiabilidad perfecta del procedimiento de medición, es decir, si tenemos dos muestras a comparar, entonces:

$$\sigma^2_{sanos} = \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{error_{tendinopatia}}$$

$$MDMD95\% = \frac{\sqrt {\sigma^2_{error_{sanos}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Sin embargo, si pensamos ahora en un experimento real, cuando calculamos un valor-p o un intervalo de confianza para una diferencia media entre dos muestras, ahí ya no solo tenemos el error de medición, sino que también tenemos otro error, el proveniente de la variabilidad real de dicha variable en cada una de las muestras (es decir, que los sujetos son distintos entre sí no solo por errores de medición, sino porque efectivamente tienen distinta fuerza), que arriba se ignora en los cálculos:

$$\sigma^2_{sanos} = \sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}$$

Con estos datos podemos calcular el intervalo de confianza asociado a una diferencia media entre dos grupos de igual tamaño muestral (no es exactamente la misma que para una t-Student pero sirve igual para ejemplificar este punto de la entrada):

$$IC95\%= \bar x_{dif} \pm \frac{\sqrt {\sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}} + \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Como se aprecia, en el segundo caso hay más variabilidad, más error en el cálculo. Esto produce la siguiente situación y es que, si una diferencia media es estadísticamente significativa al evaluarla con una prueba t-Student (fórmula similar a la última), entonces dicha diferencia media estará siempre por encima del valor de la MDMD95%, es decir, es imposible obtener una diferencia de medias estadísticamente significativa que sea inferior a la MDMD95% y es por ello que, como comenté al inicio de este apartado, la MDMD95% no aporta más información útil para interpretar la diferencia de medias y por tanto, carece de sentido su utilización.

En la figura anterior se reflejan 100 estudios simulados, con 30 sujetos por grupo en cada uno, asumiendo una diferencia media real de 5N, con una desviación estándar en cada grupo de 10 y un EEM de 3.61. En el gráfico se muestra la diferencia media de cada simulación con su respectivo intervalo de confianza al 95% basado en una prueba t-Student. La línea horizontal morada continua marca el cero, de modo que las simulaciones cuyo limite inferior del intervalo de confianza (color tomate) no sobrepasa el cero, son significativas para p < .05. La línea horizontal azul entrecortada marca el valor de la MDMD95% para ese EEM y ese tamaño muestral, que es de 1.83. Como puede apreciarse, ninguno de los resultados significativos (color tomate) presenta una diferencia media por debajo de la MDMD95%, ejemplificando lo comentado anteriormente acerca de que la MDMD95% no aporta información útil adicional.

Conclusiones

La mínima diferencia detectable es un estadístico orientado a interpretar diferencias individuales, pero no muestrales. La utilización de este valor para interpretar diferencias de medias muestrales y/o realizar cálculos de tamaño muestral tiene consecuencias nefastas en la potencia estadística y la adecuada interpretación de los resultados de una investigación. Por su parte, la mínima diferencia media detectable, tampoco debería utilizarse para interpretar las diferencias medias de una investigación, ya que no aporta más información útil que la aportada por el intervalo de confianza calculado para dicha diferencia media.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Modelo Lineal General Temas Básicos

Covarianza

Asociación: Covarianza

En esta entrada se ofrece una breve explicación del concepto de covarianza, que tiene especial relevancia dentro del modelo lineal general. El entendimiento de la covarianza supone el primer paso a la comprensión del concepto de asociación estadística entre dos variables cuantitativas.

La covarianza (Cov) es el primer concepto a entender para poder adentrarse en el mundo de las asociaciones entre variables cuantitativas. Hay dos preguntas que toda persona que quiera comprender este concepto de asociación tiene que hacerse, ¿Qué implica decir que dos variables presentan asociación? ¿Cómo podemos medir dicha asociación? En esta entrada, mediante el entendimiento de la covarianza y algún otro concepto, podrás entender mejor la primera pregunta y dar una respuesta parcial a la segunda.

Cuando decimos que dos variables presentan una asociación, que están correlacionadas, estamos diciendo que, en cierto grado, varían conjuntamente. Es decir, que cuando el valor de una incrementa o disminuye, el de la otra tiende también a incrementar o disminuir en un sujeto dado. Ahora veamos como se puede reflejar en números esa variación conjunta.

Vamos a partir de un escenario simulado, en el que hemos medido a 10 sujetos la intensidad del dolor de hombro (cm) y la fuerza en rotación externa (N):

$$\begin{array} {| ccc |} \hline Sujeto & Dolor & Fuerza \\ \hline 1 & 1 & 180 \\ \hline 2 & 2 & 160 \\ \hline 3 & 3 & 190 \\ \hline 4 & 4 & 120 \\ \hline 5 & 5 & 150 \\ \hline 6 & 6 & 140 \\ \hline 7 & 7 & 130 \\ \hline 8 & 8 & 170 \\ \hline 9 & 9 & 100 \\ \hline 10 & 10 & 110 \\ \hline \end{array}$$

Como hemos comentado, queremos obtener un estadístico que nos sirva para medir el grado en que dos variables varían de manera conjunta, de modo que resulta obvio, que dicho estadístico se tendrá que calcular utilizando los valores de ambas variables. Podríamos calcular el producto de los valores de cada una de las variables, es decir:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 180 & 180 \\ \hline 2 & 2 & 160 & 320 \\ \hline 3 & 3 & 190 & 570 \\ \hline 4 & 4 & 120 & 480 \\ \hline 5 & 5 & 150 & 750 \\ \hline 6 & 6 & 140 & 840 \\ \hline 7 & 7 & 130 & 910 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 100 & 900 \\ \hline 10 & 10 & 110 & 1100 \\ \hline \end{array}$$

Si sumamos dichos productos de la última columna, obtenemos un valor que en nuestro caso simulado es igual a 7410.  Pero, ¿Por qué nos interesa ese valor? Si multiplicamos dos valores grandes, se obtiene como resultado un valor «grande», si multiplicamos dos pequeños, se obtiene como resultado un valor «pequeño» y si multiplicamos uno grande por uno pequeño, obtenemos un valor «medio». Si imaginamos que queremos maximizar la relación entre estas dos variables, existiendo una correlación positiva perfecta, es decir, que a mayor valor de una, mayor valor de la otra, entonces ocurriría que el sujeto con el mayor valor de dolor (10 cm), tendría el mayor valor de fuerza (190 N). Podemos simular ese supuesto caso, obteniéndose la siguiente tabla:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 100 & 100 \\ \hline 2 & 2 & 110 & 120 \\ \hline 3 & 3 & 120 & 360 \\ \hline 4 & 4 & 130 & 520 \\ \hline 5 & 5 & 140 & 700 \\ \hline 6 & 6 & 150 & 900 \\ \hline 7 & 7 & 160 & 1120 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 180 & 1620 \\ \hline 10 & 10 & 190 & 1900 \\ \hline \end{array}$$

En este nuevo caso simulado, la suma de productos es de 8800. Como puede apreciarse, es un valor superior al anterior, el orden de los valores (mayor a menor) coincide en ambas variables, a cada valor máximo le corresponde el máximo que podría del conjunto, esto hace que se maximice la suma de productos, es decir, que obtenga su máximo valor posible con estos datos. Podríamos hacer lo mismo pero a la inversa, es decir, al valor máximo de dolor asociarle el valor mínimo de fuerza, es decir, estando en el caso simulado con una relación negativa perfecta entre las dos variables, en cuyo caso obtendríamos el mínimo valor posible de la suma de productos, siendo de 7150. Por tanto, tenemos dos extremos, el de la máxima correlación positiva posible (8800) y el de la máxima correlación negativa posible (7150). Si realizásemos el proceso anterior de asignación de los valores de fuerza y dolor de forma aleatoria, habrá algún valor que obtengamos de suma de productos que reflejará la mínima correlación posible, que se encontrará entre 7150 y 8800. Como podemos observar, el valor de suma de productos inicial (7410) está próximo al valor de la correlación perfecta negativa (7150), esto nos indicaría a priori que parece haber una correlación negativa en nuestra muestra original (primera tabla) entre ambas variables.

No obstante, esta suma de productos no es lo que se suele utilizar como posible estimador de la correlación entre dos variables. Es aquí donde entra en juego el concepto de covarianza. En lugar de multiplicar directamente los valores como hemos hecho en el caso anterior, lo que se hace es multiplicar la diferencia de dichos valores con respecto a la media muestral, de forma que con los datos iniciales, tendríamos la siguiente tabla:

$$\begin{array} {| ccccccc | } \hline Sujeto & Dolor & Fuerza & D*F & d_i – \bar d & f_i – \bar f & (d_i – \bar d) * (f_i – \bar f) \\ \hline 1 & 1 & 180 & 180 & -4.5 & 35 & -157.5 \\ \hline 2 & 2 & 160 & 320 & -3.5 & 15 & -52.5 \\ \hline 3 & 3 & 190 & 570 & -2.5 & 45 & -112.5 \\ \hline 4 & 4 & 120 & 480 & -1.5 & -25 & 37.5 \\ \hline 5 & 5 & 150 & 750 & -0.5 & 5 & -2.5 \\ \hline 6 & 6 & 140 & 840 & 0.5 & -5 & -2.5 \\ \hline 7 & 7 & 130 & 910 & 1.5 & -15 & -22.5 \\ \hline 8 & 8 & 170 & 1360 & 2.5 & 25 & 62.5 \\ \hline 9 & 9 & 100 & 900 & 3.5 & -45 & 157.5 \\ \hline 10 & 10 & 110 & 1100 & 4.5 & -35 & -157.5 \\ \hline \end{array}$$

En este caso las tres últimas columnas son las importantes, la primera refleja las diferencias del valor de dolor de cada sujeto con respecto a la media del grupo, la segunda lo mismo pero para la fuerza y la tercera es el producto de estas dos columnas anteriores. Si sumamos los valores de la última columna, obtenemos lo que se conoce como producto cruzado, que en este caso tiene un valor de -565. La diferencia de este valor, con respecto a la primera multiplicación que hacíamos con los datos originales, es que está centrado en el cero, es decir, mientras que en el anterior caso si las variables tenían cero correlación, obteníamos un valor de productos distinto de cero, en este caso cuando hay cero correlación el valor del producto cruzado es de cero. ¿Y qué es entonces la covarianza? Dado que el valor del producto cruzado depende del número de sujetos de la muestra, lo que se hace es dividir entre dicho valor (o entre los grados de libertad si es una estimación poblacional a partir de una muestra), para controlar este factor, de manera que puedan compararse distintas muestras. Este valor es la covarianza, cuya fórmula sería:

$$ Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(y_i – \bar y)}{n-1}$$

En nuestro caso, el valor de la covarianza entre el dolor y la fuerza es de -62.78 (el signo negativo indica que la correlación es negativa, a menos dolor más fuerza). Si la correlación entre dos variables es de cero, entonces su covarianza también. La fórmula anterior puede resultar familiar, eso es por su similitud con la fórmula de la varianza de una variable:

$$\sigma^2_x = \frac{\sum_{i=1}^{n}(x_i – \bar x)^2}{n-1} = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(x_i – \bar x)}{n-1}$$

Es importante darse cuenta de esta similitud, ya que sirve pare entender el concepto de «variabilidad conjunta». Mientras que para una sola variable, al estimar su variabilidad, multiplicábamos el mismo término por si mismo (elevábamos al cuadrado), ahora lo que se hace es, como tenemos dos variables, multiplicamos un término por el otro, para obtener un estimador de esa variabilidad conjunta de ambas variables, la covarianza. Entender esta similitud servirá posteriormente para comprender otro concepto, el coeficiente de correlación de Pearson. Este coeficiente es el que se utiliza en última instancia para evaluar la correlación entre dos variables cuantitativas que cumplan una serie de asunciones. No obstante, ya se ha podido conocer en esta entrada un estadístico que permite evaluar la relación entre dos variables, la covarianza, que es de suma importancia para múltiples análisis estadísticos.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Modelo Lineal General Temas Básicos

Modelo Lineal General Explicación

Modelo Lineal General: Explicación básica

En esta entrada se ofrece una explicación del concepto de Modelo Lineal General, ejemplificándose como una regresión lineal simple y una prueba t-Student son el mismo análisis con distinto nombre.

El Modelo Lineal General engloba un conjunto de análisis paramétricos que se basan en intentar predecir una variable continua en función de una o más variables, asumiendo que la relación entre ellas es de tipo lineal, usando el método de mínimos cuadrados ordinarios. Bajo este modelo se incluyen análisis como la prueba t-Student, la regresión lineal simple y múltiple, el Análisis de la Varianza y el Análisis de la Covarianza. A pesar de existir tantos nombres distintos, todos ellos son en realidad el mismo tipo de análisis, una regresión lineal con una o más variables predictoras. En esta entrada voy a ejemplificar esta afirmación equiparando la prueba t-Student a una regresión lineal simple.

Vamos a partir de un estudio transversal en el que queremos evaluar si existen diferencias en la fuerza de rotación externa entre personas con y sin tendinopatía del manguito rotador. Para ello, asumiremos los siguientes valores poblacionales de fuerza de rotación externa:

$$Sanos \rightarrow \mu_{sanos} = 150N \ y \ \sigma_{sanos} = 40N$$

$$Dolor \rightarrow \mu_{dolor} = 140N \ y \ \sigma_{dolor} = 40N$$

Partiendo de estos datos poblacionales, simulamos un estudio en el que seleccionamos mediante un muestreo probabilístico 320 sujetos sanos y 320 con tendinopatía del manguito, obteniendo los siguientes datos muestrales:

$$Sanos \rightarrow \bar x_{sanos} = 152.07N \ y \ s_{sanos} = 41.32N$$

$$Dolor \rightarrow \bar x_{dolor} = 140.75N \ y \ s_{dolor} = 39.35N$$

En este estudio tenemos por tanto dos variables, la variable Dolor (0 = no, 1 = si), que sería la variable independiente (categórica binomial) y la variable fuerza (medida en Newtons), que sería la variable dependiente (cuantitativa continua). Con ellas, podemos crear el siguiente modelo de regresión lineal simple, donde queremos predecir la fuerza en función de la presencia de dolor:

$$Fuerza_i = C + b*Dolor_i$$

En esta fórmula, C es la constante y b es el coeficiente de regresión sin estandarizar. Imaginemos ahora que queremos predecir el valor fuerza de un sujeto i perteneciente al grupo de los participantes sanos. En este caso, el valor de dicho sujeto en la variable Dolor es cero, de modo que la anterior fórmula quedaría como:

$$Fuerza_i = C + b*0$$

$$Fuerza_i = C$$

Es decir, el valor predicho para dicho sujeto es igual a la constante de la fórmula de regresión lineal. Pero, ¿Qué valor tiene dicha constante? Recordando la entrada de mínimos cuadrados ordinarios, el mejor valor que podemos utilizar para predecir la puntuación de un sujeto de una muestra, es la media de dicha muestra, por tanto:

$$Fuerza_i = C = \bar x_{sanos} = 152.07$$

Es decir, la constante de la fórmula de regresión es la media del grupo de los participantes sanos. Ahora solo nos quedaría por conocer cual es el valor del coeficiente de regresión sin estandarizar (b) para poder completar la fórmula. Imaginemos que queremos predecir el valor de un sujeto i perteneciente al grupo de participantes con tendinopatía del manguito rotador. En este caso, el valor de la variable Dolor para dicho sujeto es de uno, de manera que:

$$Fuerza_i = 152.07 + b*1$$

$$Fuerza_i = 152.07 + b$$

Si partimos de la misma asunción realizada anteriormente basándonos en el método de mínimos cuadrados ordinarios, que es en el que se basa el modelo lineal general, el mejor valor que podemos utilizar para predecir la fuerza de un sujeto del grupo de participantes con tendinopatía del manguito rotador es la media de dicho grupo, de manera que la fórmula quedaría como:

$$140.75 = 152.07 + b$$

Si despejamos b de dicha fórmula, obtenemos que:

$$b = 140.74 – 152.07 = -11.32$$

Es decir, el coeficiente de regresión sin estandarizar (b) es igual a la diferencia media entre el grupo de participantes sanos y el grupo de sujetos con tendinopatía del manguito rotador. Por tanto, lo que estamos evaluando con este modelo de regresión lineal es si la diferencia media entre los grupos es estadísticamente significativa, que es lo mismo que evaluamos cuando utilizamos la prueba t-Student. A continuación muestro los resultados utilizando ambos análisis, de forma que se pueda observar que se obtiene el mismo resultado con ambos análisis, ya que son matemáticamente equivalentes, aunque les pongamos distinto nombre:

Prueba t-Student:

$$t = 3.55, gl = 636.49, p = .000416$$

$$ \bar x_{dolor – sano} = -11.32, Intervalo \ de \ Confianza \ 95\% = 5.06 \ a \ 17.58$$

Regresión lineal simple:

$$Constante = 152.07, error \ estandar = 2.26, t = 67.246 p < .0001$$

$$b = -11.32, error \ estandar = 3.19, t = 3.55, p = .000416, Intervalo \ de \ Confianza \ 95 \% = 5.06 \ a \ 17.58$$

Por tanto, queda demostrado que la prueba t-Student y una regresión lineal simple son el mismo análisis estadístico. Esta misma demostración puede realizarse con otros análisis como un Análisis de la Varianza, aunque de una manera no tan visual como en el presente caso, pero con la misma conclusión, el Análisis de la Varianza no es más que un análisis de regresión lineal, bajo el modelo lineal general, todo son regresiones lineales.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Guía Estadística Modelo Lineal General Repositorio

ANOVA y ANCOVA Investigadores

Repositorio: ANOVA & ANCOVA para investigadores

Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs | Psychology (Acceso libre)

  • En este artículo se explican los cálculos subyacentes a distintos tamaños del efecto relacionados con las comparaciones por pares y los ANOVA, así como algunas recomendaciones para su utilización y reporte en estudios de investigación

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Guía Estadística Métodos Robustos Modelo Lineal General Repositorio

Métodos Robustos del Modelo Lineal General

Repositorio: Modelo Lineal General Robusto

Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation | Behavior Research Methods (Acceso libre)

  • En este artículo se ofrece una introducción a los estimadores de errores estándar consistentes a la heterocedasticidad para los análisis de regresión basados en mínimos cuadrados ordinarios.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Guía Estadística Modelo Lineal General Repositorio

Guía Estadística Regresión

Repositorio: Regresión para investigadores

A Guideline for Reporting Mediation Analyses of Randomized Trials and Observational Studies: The AGReMA Statement | JAMA (Acceso libre)

  • En este artículo se recoge la guía AGReMA para el reporte de análisis de mediación en ensayos clínicos aleatorizados y en estudios observacionales. Se puede acceder a más material sobre la guía en su página web AGReMA (agrema-statement.org).

Moderation analysis in two-instance repeated measures designs: Probing methods and multiple moderator models | Behav Res Methods (Acceso libre)

  • En este artículo se explica como realizar un análisis de moderación con dos medidas repetidas y se ofrece una herramienta gratuita (MEMORE) para SPSS y SAS con el fin de facilitar la realización de dichos análisis y de los análisis de mediación en ese mismo tipo de diseño.

PROCESS para SPSS, SAS y R (Acceso libre)

  • En este enlace se puede acceder de manera gratuita a la macro PROCESS para SPSS, SAS y R. Es una herramienta que considero indispensable para cualquier persona interesada en la realización de análisis estadísticos de regresión lineal.

Repeated Measures Correlation | Psychology (Acceso libre)

  • En este artículo se explica como calcular el coeficiente de correlación (correlación de medidas repetidas) cuando tenemos más de 1 medición por cada sujeto en las dos variables cuantitativas a correlacionar, teniendo en cuenta esa estructura multinivel, en lugar de utilizar la media de cada sujeto para los análisis estadísticos.

Statistical mediation analysis with a multicategorical independent variable | Br J Math Stat Psychol

  • En este artículo se ofrece una introducción a los análisis de mediación con variables multicategóricas independientes. Su lectura facilitará además la capacidad de implementación de este tipo de análisis en la macro PROCESS para SPSS.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Guía Estadística Modelo Lineal General Repositorio Tamaño Muestral

Tamaño Muestral ANOVA ANCOVA

Repositorio: Tamaño Muestral (ANOVA & ANCOVA)

Sample size estimation for randomised controlled trials with repeated assessment of patient-reported outcomes: what correlation between baseline and follow-up outcomes should we assume? | Trials (Acceso libre)

  • En este artículo se explican distintos aspectos relacionados con la superioridad del ANCOVA sobre el ANOVA con respecto a la potencia estadística y se dan recomendaciones basadas en cálculos de múltiples estudios publicados sobre que correlación asumir para el cálculo de tamaños muestrales basados en ANCOVA.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …