PhysioStats

Categorías
coquetear en argentina https://physiostats.com/agencias-matrimoniales-en-malaga/ mujeres solteras en toronto canada Modelo Lineal General Temas Avanzados Uncategorized

Cambio Intra- & Entre-Grupos en Ensayos Aleatorizados

De la práctica clínica a los ensayos aleatorizados

En la práctica clínica, la forma que disponemos de saber si un paciente mejora, es tomar una medición basal de referencia y una o varias mediciones en distintos momentos posteriores de seguimiento. Después, podemos observar la diferencia de dichas mediciones posteriores con la situación basal, para ver si ha habido un cambio en dicha variable. Sin embargo, a que se debe dicho cambio, pudiendo ser a un efecto de la intervención aplicada, historia natural, errores en el procedimiento de medición, etc. También puede deberse a una combinación de estos, influyendo algunos más y otros menos, por ejemplo:

Para poder saber cuál es la efectividad de la intervención, si es que hay alguna, debemos poder restar a dicha mejoría observada el efecto atribuible a otros factores, como los errores de medición o la historia natural. Sin embargo, esto no puede realizarse con un solo grupo de sujetos, ya que no
tenemos forma de saber cuánto ha influido cada factor, por ello es necesario contar con un grupo no expuesto a la intervención, pero si a los otros factores que pueden influir en que los pacientes cambien a lo largo del tiempo. Esto es lo que se realiza en un ensayo clínico aleatorizado. Por ejemplo, podemos comparar un programa de ejercicio (grupo experimental) con un grupo que no reciba tratamiento (grupo control). La mejoría del grupo de ejercicio podría ser la siguiente:

Como se ha comentado, no sabemos cuándo ha contribuido cada factor a dicha mejoría y si hay o no algún efecto del tratamiento. La mejoría del grupo control podría ser esta: 

Dado que lo único que diferencia (si se ha realizado bien el estudio) al grupo experimental del control, es la aplicación de ejercicio terapéutico, si calculamos la diferencia entre ambos podremos obtener una estimación del efecto de la intervención:

Diferencias intra-grupo dentro del contexto de un ensayo clínico aleatorizado

Como se ha comentado, las diferencias intra-grupo no nos aportan información sobre la efectividad de una intervención, siendo esta información aportada por las diferencias entre-grupos. Entonces, ¿Qué utilidad tienen las diferencias intra-grupo en un ensayo aleatorizado?

Utilidad de la medición basal (antes de la intervención)

En contra de la intuición, las mediciones basales, antes de aplicar el tratamiento, no son en absoluto necesarias para poder evaluar la efectividad de una intervención en un ensayo aleatorizado. Se puede realizar un estudio aleatorizado midiendo solo a los 3 meses de haber aplicado la intervención, y poder obtener estimaciones precisas de la efectividad de esta.

Volviendo a la práctica clínica, si tenemos dos sujetos, uno que con una intensidad de dolor post-tratamiento de 3 y otro de 2.9 podríamos pensar que ambos han mejorado por igual, sin embargo, nos faltaría un dato, la situación de dolor basal de la que partían. Si uno de los sujetos partía de una intensidad de 8 y el otro de 4, las mejorías de uno y otro serían 5 y 2.1, habiendo claras diferencias (aunque no sabríamos si la mejoría sería por el tratamiento). Es decir, el calcular el cambio intra-grupo, con respecto a la medición basal, es una forma de “ajustar” o “controlar” para posibles diferencias en la situación basal, ya que la diferencia de los sujetos en el post-tratamiento depende de sus diferencias en la situación basal, y sin tener en cuenta la misma entonces podríamos malinterpretar quien ha mejorado más o menos.

En un ensayo aleatorizado, ese control de la situación basal se realiza mediante el proceso de asignación aleatoria a los grupos de tratamiento, que hace que la asignación al tratamiento sea independiente de la situación basal de los sujetos en la variable de interés y en todas las variables confusoras (medidas o sin medir en el estudio). Por ello, en este tipo de diseños no sería necesario como se ha comentado una medición basal para poder analizar la efectividad de un determinado tratamiento, pudiéndose analizar simplemente las diferencias post-tratamiento entre los grupos.

El motivo por el cual se realiza una medición basal, antes de aplicar la intervención, es porque de esta forma podemos mejorar la potencia estadística, siendo más fácil encontrar un efecto de la intervención bajo estudio, si es que existe alguno. Es decir, se realiza para disminuir el número de sujetos necesarios para llevar a cabo la investigación.

Cuando se dice que la aleatorización hace que la asignación al tratamiento sea independiente de la situación basal, implica decir que la diferencia media esperada (“real”) entre los grupos en la situación basal es de cero. Se habla de diferencia media esperada porque es el valor al que tiende dicho estadístico cuando el tamaño muestral tiende a infinito, sin embargo, en investigación las muestras nunca suelen ser tan grandes y, por tanto, siempre se observan pequeñas diferencias en la situación basal entre los grupos, originadas por la asignación aleatoria. Como sabemos que la diferencia real es de cero, si medimos la situación basal (previa al tratamiento), podemos incluir esa variable en un tipo de análisis conocido como Análisis de la Covarianza, para forzar a que dicha diferencia será cero en la situación basal en nuestro estudio, ajustándose las diferencias post-tratamiento y la precisión en la estimación de estas, mejorando la potencia estadística de los ensayos clínicos y, por tanto, necesitándose menos muestra. 

Los cambios como un modelo de regresión

Cuando calculamos la diferencia en dos momentos de tiempo de una variable, el objetivo es “ajustar” o “controlar” para la situación basal. En la práctica clínica normalmente medimos a un paciente varias veces, de modo que solo podemos realizar esta resta. Sin embargo, en una investigación se suele medir a un conjunto de pacientes (una muestra), siendo este procedimiento de resta simple inadecuado.

Desde un punto de vista de un modelo de regresión lineal, la medición post-tratamiento (Ypost) puede definirse como:

$$Y_{post} \quad=\quad C + b_1 \cdot Y_{basal} + error$$

Cuando calculamos manualmente la diferencia (post- menos basal) de cada sujeto, estamos asumiendo el siguiente modelo:

$$ Y_{post} \quad-\quad Y_{basal} \quad=\quad C + error $$

La única forma de que las dos ecuaciones se igualen, es que b1 (el coeficiente de regresión sin estandarizar) sea igual a 1, algo que rara vez sucede en la práctica. Dado que el objetivo de calcular el cambio post- menos basal es “controlar” para discrepancias en la situación basal, eso implica que la variable “Diferencia” obtenida, debe ser independiente de la situación basal (correlación = 0), algo que solo sucederá si b1 = 1. De no ser así, habrá una relación entre la diferencia y la situación basal, como se muestra a continuación con datos simulados:

Esto tiene dos implicaciones. Por un lado, sigue habiendo dependencia con la situación basal, pudiéndose sobreestimar o infraestimar el posible efecto de la intervención, y por otro, no se minimizarían los errores del modelo de regresión, disminuyendo por tanto la precisión y potencia estadística del estudio.

Los ensayos aleatorizados como un modelo de regresión

Partamos ahora del contexto de un ensayo aleatorizado, donde se van a comparar dos grupos,  uno que recibe un tratamiento experimental y un grupo control sin tratamiento, tomándose mediciones en la situación basal y a los 6 meses de seguimiento. En este caso tenemos tres posibilidades para comparar ambos grupos: ver las diferencias en el post-tratamiento, calcular el cambio del post- con respecto a la medición basal y ver las diferencias entre los grupos en esta nueva variable, o utilizar un análisis de la covarianza. El modelo de regresión de cada una de estas opciones sería:

Comparar POST-:

$$
Y_{post}\quad=\quad C + b_1\cdot Tratamiento
$$

Comparar CAMBIO:

$$Y_{post}\quad-\quad Y_{basal} \quad=\quad C + b_1\cdot Tratamiento$$

Modelo ANCOVA:

$$Y_{post} \quad=\quad C + b_1\cdot Tratamiento + b_2\cdot Y_{basal}$$

En el primer caso (POST-), se asume que la relación entre la medición post-tratamiento y la medición basal es de cero (b2 = 0); en el segundo caso, como se comentaba en el apartado anterior, se asume que b2 es igual a 1; y finalmente en el tercer caso, se deja al modelo de regresión calcular la mejor estimación posible de b2, en lugar de asumir un valor concreto, para minimizar los errores del modelo. En los tres casos, el coeficiente b1 sería la diferencia media entre ambos grupos.

Como se comentaba al inicio de la entrada,  no es necesario tomar mediciones basales para poder evaluar la efectividad de una intervención en un ensayo aleatorizado, siendo también innecesario el cálculo de la diferencia con respecto a la medición basal, teniendo estos procedimientos simplemente la utilidad de mejorar la potencia estadística y precisión (cuando la correlación entre la medición post- y la basal no es igual a cero). En otras palabras,  si la muestra es lo suficientemente grande, dará igual que evaluemos solo las diferencias post-tratamiento, ya que la asignación aleatoria asegura una diferencia basal nula cuando la muestra tiende a infinito. Por ejemplo, asumiendo una diferencia media de 0.5 y una desviación estándar de 1, la muestra necesaria para una potencia deseada del 90%, en función de la correlación entre la medición basal y la post-tratamiento, para cada uno de los tres modelos sería:

Como se puede apreciar en el gráfico, el modelo de ANCOVA optimiza la disminución de los errores del modelo, requiriéndose siempre menos muestra salvo que la correlación sea de 0 o de 1, donde tendría la misma utilidad que el modelo POST-tratamiento o el modelo CAMBIO, pero no menos utilidad. Dado que la potencia estadística solo puede ir de 0 a 100, si incrementásemos mucho el tamaño muestral (ej. 10,000 sujetos por grupo) daría igual que modelo utilizásemos en un ECA, ya que la potencia tendería a su limite superior de 100, siendo las diferencias entre los 3 métodos irrelevantes. Sin embargo, esta no suele ser la situación habitual en la práctica, donde al haber menos muestra, se pueden observar pequeñas diferencias a nivel basal entre los grupos, siendo recomendable por tanto el uso del ANCOVA que minimizaría los errores del modelo con respecto a los otros dos.

Centrándonos ahora en los coeficientes b1 de los tres modelos, es decir, en las diferencias medias entre los grupos, también se observa algo contraintuitivo. Tendemos a pensar que es algo distinto calcular las diferencias entre grupos del cambio con respecto a la medición basal, a calcular las diferencias solo en el post-tratamiento, o mediante el uso del ANCOVA, sin embargo, todos esos procedimientos están estimando lo mismo, el efecto de la intervención, es decir, si incrementamos la muestra lo suficiente, los coeficientes b1 de cada uno de los 3 modelos tenderán todos hacia un mismo valor, estiman lo mismo. Lo único distinto es que cambia la precisión de la estimación y por eso se obtienen pequeñas diferencias de dichos coeficientes en un ensayo clínico realizado, pero a nivel conceptual son lo mismo. Por tanto, la creencia popular de que calcular el cambio con respecto a la situación basal para comparar dicha variable entre dos tratamientos, ofrece una visión más “real” de la efectividad de una intervención, porque estamos comparando mejorías en el tiempo, no se sostiene.

Los engaños de las diferencias intra-grupo en los ensayos aleatorizados

Como se explicaba al inicio del texto, la asignación aleatoria a los grupos de tratamiento es lo que garantiza la independencia con respecto a variables confusoras, de forma que la inferencia causal solo es aplicable en un ensayo aleatorizado a las diferencias entre-grupos, pero no a las intra-grupo. A pesar de ello, actualmente la mayoría de las revistas científicas de nuestro campo solicitan reportar las diferencias intra-grupo dentro del contexto de un ensayo clínico, un procedimiento que más que ayudar a interpretar mejor los resultados, solo puede confundir y sesgar más al lector, induciendo a malinterpretaciones del ensayo clínico. Por ejemplo, dado que la asignación aleatoria no elimina factores de confusión de las diferencias intra-grupo, donde también influyen aspectos como la historia natural, esto hace que dicha diferencia dentro del grupo experimental tienda a sobreestimar la efectividad de la intervención, ya que en ella también se sumaria el efecto de la historia natural del proceso en cuestión.

A continuación, muestro algunas preguntas frecuentes con sus respectivas respuestas, a fin de prevenir al lector tales malinterpretaciones (algunos aspectos ya se han comentado previamente):

Preguntas y respuestas

Si un grupo experimental mejora de manera significativa y el control no, ¿implica que la intervención es efectiva?

No

Si dos grupos experimentales mejoran igual a lo largo del tiempo, ¿significa que ambas intervenciones son igual de efectivas, o que son efectivas?

No

¿Es necesario tomar una medición basal (antes de aplicar el tratamiento) en un ensayo aleatorizado para evaluar la efectividad de este?

No

Si las diferencias entre grupos no son significativas ni relevantes, pero solo el grupo experimental ha mostrado diferencias significativas intra-grupo, ¿significa que puede que la intervención sea efectiva?

No

¿Calcular la diferencia post- menos basal en un ensayo aleatorizado es un procedimiento estadístico adecuado?

No

¿Las diferencias intra-grupo sobreestiman el efecto de la intervención?

Si

¿Son distintas a nivel conceptual las diferencias entre-grupos ajustadas de un ANCOVA y las calculadas mediante la variable diferencia post- menos basal?

No

¿Es necesario observar las diferencias intra-grupo para interpretar adecuadamente los resultados de un ensayo aleatorizado?

No

Literatura de interés

El tema tratado en esta entrada es complejo y con muchos matices y aspectos a tener en consideración, algunos no abordados en la misma. Por ello, recomiendo a cualquier persona interesada en la interpretación y realización de ensayos aleatorizados leer estas fuentes de información a fin de mejorar su entendimiento en esta materia:

Conclusiones

Las diferencias intra-grupo no son necesarias dentro del contexto de un ensayo aleatorizado, pudiendo derivar solo en malinterpretaciones de los resultados del mismo. Por ello, es recomendable no tener en cuenta tales diferencias, incluso no reportarlas, cuando se lea o se realice un estudio con este tipo de diseño. Todo ensayo aleatorizado debería analizarse y reportarse con un modelo ANCOVA (u otra variante de modelo de regresión multivariable, incluyendo la medición basal como covariable).

Categorías
Tamaño Muestral Temas Avanzados

Tamaño Muestral: Potencia observada

Tamaño Muestral: Potencia Observada

En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los que esta practica esta totalmente desaconsejada.

La potencia de un determinado análisis estadístico, bajo unas circunstancias determinadas asumidas, sería la probabilidad a largo plazo de obtener un resultado estadísticamente significativo (asumiendo un punto de corte preseleccionado de valor-p) con dicho análisis, siempre y cuando se cumplan todos los supuestos de dichas circunstancias asumidas. En otras palabras, si se cumplen todas las asunciones, y un análisis (ej. t-Student) tiene una potencia del 50% con un tamaño muestral de 40 sujetos por grupo, asumiendo como significativo un valor-p < 0.05, eso significa que si repitiéramos infinitas veces dicho experimento, obtendríamos resultados significativos en el 50% de las replicaciones aproximadamente. Como hemos dicho, todo esto asumiendo que nuestras asunciones se cumplen a la perfección, que en un ejemplo inventado podrían ser:

  • La hipótesis nula (H0) es la diferencia igual a cero.
  • La hipótesis alternativa (H1) especificada es cierta.
  • Diferencia media poblacional bajo la H1 igual a 30.
  • Desviación típica poblacional es igual a 12.
  • Homocedasticidad asumida.
  • Distribución normal asumida.
  • Solo influye el muestreo aleatorio en la variabilidad entre las distintas replicaciones del experimento.

Cualquier variación en estas asunciones alteraría la potencia real de dicho análisis para un determinado tamaño muestral dado.

Muchos investigadores basan sus cálculos de tamaño muestral en la potencia “deseada” para un determinado análisis, partiendo de unas asunciones establecidas a priori. Sin embargo, también hay otra práctica muy extendida, que es el cálculo de la potencia del estudio, una vez se ha realizado el mismo, con los datos obtenidos, conocida como potencia post hoc o potencia observada.

Razones por las que se calcula la potencia observada en investigación

Ejemplo número uno:

Un grupo de investigadores realizan un ensayo aleatorizado con 15 sujetos por grupo, porque eran los que tenían disponibles. Tras ello, obtienen un una diferencia media de 5 puntos (p = 0.011). Sin embargo, como tenían poca muestra, no acaban de estar convencidos de que puedan confiar en esos resultados para rechazar la H0 y aceptar la H1, por ello, deciden calcular la potencia observada del estudio, ya que establecen que si dicha potencia es baja, entonces a lo mejor ese resultado aunque sea significativo, no es una prueba grande en contra de la H0, mientras que si se obtiene una potencia observada alta, eso nos indicaría que podemos confiar más en estos resultados, ya que teníamos muestra suficiente para encontrar dicha diferencia, y por tanto debemos tener más confianza en que podemos rechazar la H0. Realizan el cálculo y obtienen una potencia observada del 73%, concluyendo por tanto que efectivamente, tienen pruebas robustas para rechazar la H0.

Ejemplo número dos:

Otro grupo de investigadores realizan otro ensayo aleatorizado con 15 sujetos por grupo, también porque eran los que tenían disponibles. En este caso, los investigadores obtienen una diferencia media de 2 (p = 0.54). Sin embargo, como tenían poca muestra, deciden calcular la potencia observada, ya que puede ser que ese resultado no sea porque la hipótesis nula es cierta, sino simplemente porque tenían poca potencia para detectar la misma, por el escaso tamaño muestral. De modo que establecen que, si la potencia observada es baja, entonces puede ser simplemente un problema del tamaño muestral, y no de que la H0 sea cierta, y si obtienen una potencia alta, entonces sí que es plausible que los resultados obtenidos se deban a que la H0 es cierta. Obtienen una potencia observada del 9%, concluyendo por tanto que sus resultados posiblemente se deban al pequeño tamaño muestral y no a que la H0 tenga que ser cierta.

Ejemplo número tres: Contraintuitivo

Un tercer grupo de investigadores realizan otro ensayo aleatorizado, en este caso, disponen de 300 sujetos por grupo en su hospital. Obtienen una diferencia media de 1.1 (p = 0.24). Sin embargo, realizan el mismo razonamiento anterior y deciden calcular la potencia observada, resultando en un valor del 22%. Concluyen por tanto que, como la potencia observada es baja, los resultados no se deben en verdad a que la H0 tenga que ser cierta, sino que es un problema de que se tenía poca muestra.

Puede ser que los dos primeros ejemplos pareciesen “razonables”, sin embargo, aplicando ese mismo razonamiento, nos hemos topado con un tercer ejemplo en el que se afirma que una muestra de 300 sujetos por grupo, es también pequeña. De hecho, esto sucedería incluso aunque la muestra hubiera sido de 3000 sujetos por grupo, las conclusiones de dichos investigadores habrían sido las mismas, que la muestra era demasiado pequeña y que dicho valor-p no constituía un indicativo de que la H0 fuese más plausible que la H1.

Relación entre la potencia observada y el valor-p observado

Para poder entender mejor el ejemplo contraintuitivo, así como poder realizar una interpretación adecuada de la potencia observada, es necesario entender su relación con el valor-p observado. En la siguiente figura muestro la relación existente entre el valor-p observado y la potencia observada, para una prueba t-Student para dos muestras independientes.

La potencia observada tiene una relación directa con el valor-p observado, en otras palabras, la potencia observada no aporta información adicional al valor-p observado. Los valores-p pequeños siempre tendrán asociados valores altos de potencia observada y viceversa, sin importar si la H0 es cierta o falsa. De hecho, el gráfico anterior está elaborado con simulaciones donde la H0 es cierta.

Este concepto se puede comprender mejor enfrentando las distribuciones de la H0 y la H1. Por ejemplo, en un caso hipotético de 50 sujetos por grupo, para una potencia del 80%, tendríamos la siguiente figura:

En esta figura, el gráfico de densidad rojo hace referencia a la H0 y el gráfico azul a la H1, el valor de la mitad de alfa (contraste a dos colas) es el umbral crítico de significación (en nuestro caso asumiremos p < 0.05), que se muestra en la figura como una línea verde vertical. La potencia es todo el área bajo la curva azul que queda a la derecha de la línea verde vertical de la derecha, en este caso, el 80%, para una diferencia media observada de 2.85 (desviación estándar = 5). Ahora veamos que pasa si el valor de la diferencia media observada es el que coincide con la línea verde vertical, es decir, el umbral crítico de significación (valor-p = 0.05):

En este caso, la potencia observada es del 50%, ya que como se puede apreciar, la mitad de la gráfica azul queda a la izquierda de la línea verde y la otra mitad a la derecha, por lo que, la probabilidad de obtener un resultado significativo (p < 0.05), sería aproximadamente del 50% asumiendo que la H1 es cierta. Si seguimos desplazando esta gráfica azul a la izquierda, la potencia observada iría disminuyendo progresivamente, y como podemos ver, dado que ambas gráficas son curvilíneas, la relación entre el valor-p observado y la potencia observada no es lineal, sino exponencial como se mostraba en la primera figura. Si nos vamos al extremo, superponiendo las gráficas, puede apreciarse como entonces la potencia observada es igual al umbral crítico de significación especificado, en nuestro caso, 5%.

La potencia observada es engañosa: Llamada a la acción para su abolición

Debido a que la potencia observada tiene una relación directa inversa con el valor-p observado, no sirve para lo que se utiliza en la práctica clínica, como los ejemplos anteriormente mencionados. Si utilizamos la potencia observada para “interpretar mejor” los resultados del valor-p, entonces tenderemos a sobrestimar todos los resultados significativos, porque siempre obtendremos potencias observadas elevadas, y de manera inversa siempre podremos concluir que cualquier resultado no significativo se debe a un escaso tamaño muestral, a expensas de la muestra utilizada, y por tanto la H0 nunca será plausible si así lo deseamos.

Las recomendaciones por estadísticos desde hace décadas es no llevar a cabo dicha práctica, ya que solo deriva en errores de interpretación de los resultados de una investigación. La potencia debería siempre ser establecida a priori, a la hora de realizar el cálculo de tamaño muestral, en función de unas asunciones también establecidas a priori en función de literatura previa y conocimiento técnico sobre la materia, y nunca calculada en base a los resultados del propio estudio. No obstante, aún así mi recomendación sigue siendo, al igual que he especificado en otras entradas de esta web, calcular el tamaño muestral basándonos en la precisión y no en la potencia, que es la metodología adecuada que lleva a menos errores a la larga.

Conclusiones

La potencia post hoc o potencia observada no debe calcularse dentro del seno de una investigación. Este valor no aporta ninguna información adicional al valor-p observado y su cálculo y utilización para interpretar los resultados es engañoso, derivando en errores grandes con respecto a las conclusiones que pueden sacarse del propio estudio.

La potencia debe establecerse siempre a priori en base a unas asunciones también establecidas a priori. Sin embargo, el cálculo de tamaño muestral basado en precisión sigue siendo más recomendado.

Prueba

Prueba de extracto

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Categorías
coquetear en argentina Guía Estadística Tamaño Muestral Temas Avanzados

Tamaño Muestral ANOVA mixto GPower

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power

En esta entrada se recoge una breve explicación de uno de los errores más comunes cometidos dentro del campo de la Fisioterapia, a la hora de calcular tamaños muestrales con el programa G*Power.

El software G*Power es uno de los más utilizados dentro del campo de la Fisioterapia (y otros) para calcular tamaños muestrales a priori durante la fase de planificación de un estudio de investigación. Este software facilita cálculos de tamaño muestral basados en potencia para distintos análisis, como comparaciones de dos medias, correlación de Pearson y lo que es la temática de esta entrada, los Análisis de la Varianza (ANOVA), más concretamente aquellos con medidas repetidas.
Desde aquí y en el resto de la entrada, basaré las explicaciones en un ANOVA mixto con tres grupos de tratamiento (ejercicio, terapia manual, vendaje) y 4 momentos de medición (basal, 3 meses, 6 meses y 12 meses), ya que es el tipo de análisis que suele usarse para calcular tamaños muestrales en ensayos controlados aleatorizados en Fisioterapia. Los cálculos propuestos son para la interacción tiempo-por-grupo.

Comenzaré con un pequeño ejemplo de cómo se suele proceder en G*Power para calcular ese tamaño muestral a priori. Para poder calcularlo se requiere especificar una serie de valores:

  • Número de grupos.
  • Número de mediciones.
  • Tamaño del efecto estimado (f o ηp2).
  • Correlación entre medidas repetidas.
  • Potencia deseada.
  • Nivel alfa de significación.
  • Corrección en caso de no esfericidad.

De estos datos, ya tenemos especificados algunos en base al diseño que he propuesto, y otros los asumiremos según valores típicos utilizados en Fisioterapia:

  • Número de grupos: 3
  • Número de mediciones: 4
  • Tamaño del efecto: Medio (f = 0.25 // ηp2 = 0.06)
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 80%
  • Nivel alfa de significación: 0.05
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)

Con estos datos, el tamaño muestral calculado es de 30 sujetos, es decir, 10 sujetos por grupo. Parece algo pequeño, pero…si el G*Power nos ha dado ese resultado, es que es correcto, ¿o no? A continuación, explicaré con más detalle el punto sobre el que trata la entrada, el tamaño el efecto, y haré un pequeño matiz al final de esta sobre la asunción de esfericidad asumida.

Tamaños del efecto pequeños, medios y grandes. Dos etas cuadrado

En el anterior ejemplo he especificado que se estimaba un tamaño del efecto medio, que se correspondía con un valor f = 0.25 o un valor de ηp2 = 0.06. Estos valores no los he nombrado al azar, ya que mucha gente se basa en la siguiente recomendación sobre lo que es un tamaño del efecto pequeño, medio y grande en el caso de ANOVAs:

  • Efecto pequeño: f = 0.10 / ηp2 = 0.01
  • Efecto medio: f = 0.25 / ηp2 = 0.06
  • Efecto grande: f = 0.40 / ηp2 = 0.14

Con respecto a los ANOVA, hay distintos tamaños del efecto, me centraré solamente en dos para esta entrada: el coeficiente eta cuadrado (η2) y el coeficiente eta cuadrado parcial (ηp2). El primero se usaría cuando solo tenemos un factor (ej., comparamos 3 grupos con una sola medición, solo habría un factor, el factor grupo). El segundo por su lado, se utiliza cuando tenemos varios factores, como sería en nuestro ejemplo de ensayo aleatorizado, donde disponemos del factor grupo y el factor tiempo (medidas repetidas). De forma simplificada, pueden definirse matemáticamente como:

$$\eta^2 = \frac{SS_{efecto}}{SS_{total}}$$

$$\eta_{p}^2 = \frac{SS_{efecto}}{SS_{efecto} + SS_{error}}$$

En el caso de un ANOVA mixto, tenemos 3 posibles efectos de interés, el efecto principal grupo, el efecto principal tiempo y la interacción tiempo por grupo. De este modo, si nuestro interés es la interacción tiempo-por-grupo, tendríamos (nota: fórmulas simplificadas):

$$\eta^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{grupo} + SS_{tiempo} + SS_{error}}$$

$$\eta_{p}^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{error}}$$

Eta cuadrado parcial y correlación entre medidas repetidas

El coeficiente eta cuadrado parcial (ηp2) se ve influenciado por la correlación entre medidas repetidas. No entraré en detalles, pero esa influencia es en el sentido de que, a mayor correlación entre medidas repetidas, mayor valor de ηp2 y consecuentemente, mayor potencia estadística (es decir, se requerirá menor muestra). Por ejemplo, imaginemos el caso anterior, con una correlación asumida de 0.50 el tamaño muestral resultante era de 30 sujetos. Si elevamos la correlación asumida a 0.70, el tamaño muestral baja a 21 sujetos, y si la elevamos a 0.90, entonces el cálculo nos devuelve tan solo 9 sujetos (3 por grupo).

Sobra decir que manipular dicha correlación para obtener un menor tamaño muestral es engañoso. En ausencia de datos previos, lo ideal sería asumir una correlación de 0.50 como máximo, o ser incluso más conservadores con correlaciones más pequeñas si las mediciones están muy separadas en el tiempo (de 0.40-0.45 por ejemplo) (Walters 2019). Asumir correlaciones por encima de 0.50 debe estar muy justificado.

Distintos tamaños del efecto: EL ERROR
Todas las explicaciones anteriores enlazan con este apartado, que es el verdadero motivo de la entrada, la existencia de distintas especificaciones de tamaño del efecto f y ηp2, que pueden llevar a cometer errores importantes al realizar cálculos de tamaño muestral con G*Power. Tenemos tres métodos:
  • Método que usa G*Power.
  • Método basado en datos extraídos de SPSS.
  • Método basado en Cohen, 1988 (quién dio las recomendaciones de tamaño del efecto mencionadas anteriormente).
La diferencia entre ellos es la utilización de la correlación de medidas repetidas. Utilizando el método que aparece por defecto en G*Power, debemos especificar la correlación para el cálculo del tamaño muestral. Esto se debe a que G*Power no tiene en cuenta dicha correlación para la especificación del tamaño del efecto estimado que le hemos especificado, sino que la utiliza luego directamente en el cálculo. Por otro lado, cuando se calcula en SPSS un coeficiente eta cuadrado parcial (ηp2), se tiene en cuenta ya para su cálculo la correlación entre medidas repetidas. En otras palabras, el coeficiente eta cuadrado parcial en que se basa el cálculo de G*Power, no es el mismo que el que facilita SPSS, sus valores no coinciden, así como tampoco es lo mismo un f = 0.25 según G*Power, que un f = 0.25 según SPSS, tal y como se especifica en el manual de utilización del G*Power. Anteriormente he comentado que a mayor correlación mayor valor de ηp2 y, por tanto, menos muestra necesaria para un determinado estudio, como mostré incrementando la correlación en el cálculo inicial. Por otro lado, como acabo de comentar, el cálculo del coeficiente ηp2 que facilita SPSS al hacer un análisis, ya tiene en cuenta la correlación entre medidas repetidas. Por tanto, si nos basamos en un ηp2 de SPSS, que ya tiene en cuenta dicha correlación y por tanto será más grande, y lo metemos en el G*Power para calcular el tamaño muestral según G*Power, donde tenemos que especificar la correlación, estamos usando dos veces la correlación, una vez que se usó en SPSS para dar el valor de ηp2 y otra ahora en el cálculo del tamaño muestral en G*Power, con la implicación de que sobreestimamos el tamaño del efecto y por consecuente, infraestimamos la muestra necesaria. Existe una opción en el G*Power para especificar al software en que nos estamos basando cuando especificamos un tamaño del efecto para calcular el tamaño muestral basado en un ANOVA con medidas repetidas, abajo del todo en un botón de “Opciones”.
Es imprescindible cambiar en dicho apartado la especificación del tamaño del efecto según en que nos estemos basando. Si nos basamos en datos extraídos de estudios previos, que por lo general utilizan la forma de cálculo de ηp2 del SPSS donde ya se tiene en cuenta la correlación entre medidas repetidas, debemos seleccionar dicho apartado en “Opciones”. Mientras que, si nos basamos en las “recomendaciones de Cohen” de un tamaño pequeño, medio y grande, entonces debemos seleccionar dicha opción. ¿Por qué es tan importante esto? Volviendo al ejemplo inicial, nos salía una muestra de 30 sujetos (10 por grupo), para un supuesto valor f = 0.25, siguiendo las recomendaciones de que ese valor corresponde a un tamaño del efecto medio según Cohen. Si ahora especificamos que el tamaño del efecto es según Cohen en la pestaña “Opciones”, el tamaño muestral resultante es de 222 sujetos (74 sujetos por grupo). Veamos otro ejemplo con valores reales extraídos de un reciente estudio. En este estudio se calcula el tamaño muestral para la interacción tiempo-por-grupo de un ANOVA mixto con las siguientes especificaciones:
  • Número de grupos: 4
  • Número de mediciones: 3
  • Tamaño del efecto: ηp2 = 0.048 (extraído de un estudio piloto previo, calculado con SPSS).
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 90%
  • Nivel alfa de significación: 0.01
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)
De acuerdo con sus especificaciones, el tamaño muestral resultante reportado en el estudio fue de 84 sujetos (21 por grupo). Este sería el tamaño muestral calculado, basándose en un ηp2 de 0.048 extraído de SPSS, pero manteniendo la especificación de tamaño del efecto según G*Power. Al cambiar en la pestaña “Opciones” el tamaño del efecto a “según SPSS”, el tamaño muestral resultante es de 240 sujetos (60 por grupo). Es decir, su estudio con esa muestra no “tenía” una potencia como ellos querían del 90%, sino que realmente tenía una potencia del 28%, por haber especificado mal el tamaño del efecto en G*Power a la hora de realizar su cálculo.
Una nota sobre la esfericidad

No entraré en detalles en esta entrada acerca de la asunción de esfericidad, ya que no es el propósito de esta. Pero si quisiera hacer una anotación de cara a los cálculos de tamaño muestral basados en ANOVA mediante G*Power. De manera resumida, la asunción de esfericidad rara vez (por no decir nunca) podemos asumir que se cumpla en la vida real. Esto implica que no podemos especificar valores de corrección iguales a 1, es decir, sin corrección, asumiendo que dicho asunción se cumplirá a la perfección. La opción correcta es asumir un cierto grado de incumplimiento en dicha asunción, y tener en cuenta este aspecto para calcular el tamaño muestral, introduciendo una ligera corrección. Si no disponemos de datos previos fiables, una opción conservadora es establecer un valor de corrección de esfericidad de 0.75. ¿Por qué es esto importante?

Cuando la asunción de esfericidad se cumple a la perfección (corrección igual a 1) se requiere menos muestra para encontrar un efecto. En otras palabras, si ponemos el valor de 1 en el cálculo, obtendremos menos muestra. Pero como he comentado, esta situación es muy poco plausible en la vida real, de modo que, si hacemos eso, estaríamos infraestimando nuestra muestra.

En los ejemplos anteriormente mencionados, la muestra del primer estudio inventado (especificando bien el tamaño del efecto) pasaría de 222 sin corrección, a 267 sujetos con una corrección de 0.75. En el segundo caso del estudio real, el cambio sería de 240 sin corrección, a 292 sujetos con la corrección de 0.75.

Precisión por encima de potencia

El contenido de esta entrada tiene como objetivo simplemente explicar algunos errores comunes realizados al calcular tamaños del efecto basados en potencia con G*Power. No obstante, nada del contenido de la misma debe ser interpretado como una recomendación a favor de los cálculos de tamaño muestral basados en potencia, que tienden a infraestimar las muestras necesarias en investigación. Mi recomendación es basar siempre los cálculos en la precisión en lugar de la potencia. En el apartado de Repositorio: Guías de Estadística, se recogen distintas fuentes de información para realizar cálculos de tamaño muestral adecuadamente para distintos tipos de análisis.

Conclusiones

Por lo general, dentro del campo de la investigación en Fisioterapia, se utilizan muestras demasiado pequeñas en la mayoría de estudios publicados. Los principales motivos que achaco a este fenómeno son: 1) Cálculos basados en potencia y no precisión; 2) asunción de cumplimiento de distintas asunciones estadísticas que no se cumplen en realidad; 3) utilización errónea de la algunas herramientas disponibles para cálculos de tamaño muestral (como el G*Power); y 4) ausencia de adherencia a las recomendaciones de expertos en la materia.

La investigación en Fisioterapia se vería beneficiada enormemente por una mejora en las estimaciones a priori de tamaños muestrales basados en precisión, con la utilización correcta de las distintas herramientas disponibles, y adhiriéndose a las recomendaciones de expertos en la materia para un determinado tipo de diseño y/o análisis estadístico.

Prueba

Prueba de extracto

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Categorías
Fiabilidad Modelo Lineal General Temas Avanzados

El mal uso de la MDD en la interpretación de diferencias medias

Interpretación de medias: El mal uso de la Mínima Diferencia Detectable

En esta entrada profundizo en la estadística subyacente a la utilización de la mínima diferencia detectable (MDD) en la interpretación de diferencias medias, que actualmente se sigue haciendo en diversas publicaciones del campo de la Fisioterapia. A lo largo de la entrada, explicaré los motivos por los cuales pienso esta práctica está equivocada y puede llevarnos a fallos cruciales de interpretación de los resultados de una investigación. 

Nota: En esta entrada se utilizan conceptos avanzados de estadística aplicada y puede que, sin una base previa, resulte más complicada su comprensión. No se abordarán múltiples aspectos básicos para no extender demasiado el contenido de la misma, dándose por hecho que el lector presenta esa base de conocimiento.

La mínima diferencia detectable (MDD) es un estadístico comúnmente reportado en los análisis de fiabilidad con variables continuas. Este estadístico constituye un limite de un intervalo de confianza (IC), normalmente del intervalo al 90% o 95% de confianza (utilizaré este último para todas las explicaciones y simulaciones a lo largo de la entrada). Su interpretación simplista sería la siguiente.

Imaginemos que tenemos un sujeto al que hemos medido la fuerza isométrica máxima de rotación externa de hombro, con un dinamómetro manual. En la primera medición antes de comenzar el tratamiento, el sujeto muestra una fuerza de 130N, mientras que en la segunda medición tras la aplicación del tratamiento, el sujeto muestra un valor de fuerza de 135N. Sabemos que la fiabilidad del dinamómetro no es perfecta, es decir, que al utilizar este instrumento dentro del procedimiento empleado, cometemos errores en la medición. Entonces, ¿Cómo podríamos saber si la diferencia observada en el post-tratamiento no se ha debido a un error de medición? Aquí es donde entra en juego el concepto de MDD.

La mínima diferencia detectable al 95% de confianza (MDD95%), es un valor que, partiendo de que se cumplen distintas asunciones y que lo único que ha influido en la diferencia observada es el error de medición (es decir, que no hay ningún otro factor, ni la intervención, que hayan influido), por encima del mismo solo se encontrarían un 5% de las posibles diferencias absolutas obtenibles debidas al error de medición. De forma que se asume que, si obtenemos una diferencia superior a dicho valor, como es «poco plausible» obtener esa diferencia bajo la hipótesis de que dicha diferencia se haya obtenido solo por un error de medición, entonces rechazamos dicha hipótesis.*

*Nota: Debemos tomar está definición como muy simplista y «con pinzas», ya que realmente no es tan sencilla su interpretación en términos de probabilidad, pero no entraré en ese detalle en esta entrada, pues no es su propósito.

En términos más formales, si medimos a un sujeto infinitas veces y asumimos que lo único que influye en las diferencias observadas entre las distintas mediciones es el error proveniente del procedimiento de medición empleado y calculamos diferencias de parejas de mediciones de manera aleatoria, el intervalo de confianza al 95% de esa distribución de datos (de esas diferencias entre dos mediciones seleccionadas de manera aleatoria), es decir, más o menos los valores que se alejan 1.96 desviaciones estándar (DEd) asumiendo algunas cosas, eso sería el valor de la MDD95%. La fórmula que suele utilizarse para el cálculo de la MDD95% es la siguiente:

$$MDD95\% = 1.96*DE_d = 1.96*EEM*\sqrt 2$$

En esta fórmula el EEM es el error estándar de la media, que es una estimación de la desviación estándar resultante de medir a un sujeto infinitas veces influyendo solo el error de medición. Como en la MDD95% tenemos dos mediciones y no solo una, se multiplica el EEM por la raíz cuadrada de dos, debido a que:

$$EEM = \frac{DE_d}{\sqrt 2}$$

$$DE_d = EEM*\sqrt 2$$

Después de esta introducción, vamos a focalizarnos en el tema concreto de esta entrada. Como he comentado, la MDD95%es un estadístico orientado a interpretar la diferencia entre dos mediciones realizadas a un mismo sujeto. Sin embargo, la MDD95% se utiliza a veces también para interpretar diferencias de medias muestrales y para cálculos de tamaño muestral, dos procedimientos a mi parecer erróneos por los motivos que expondré a continuación.

Mínima diferencia detectable en la interpretación de diferencias medias

Mostraré primero las consecuencias de utilizar la MDD95% en la interpretación de la diferencia media entre dos grupos. Voy a simular un estudio en el que queremos comparar la fuerza isométrica máxima de rotación externa de hombro, medida con dinamometría, entre sujetos con y sin tendinopatía del manguito rotador. Asumiremos los siguientes valores poblacionales reales y los siguientes valores de error de medición (mismo error de medición en ambas poblaciones):

$$Tendinopatía = \{\mu_t = 140, \sigma_t = 10\}$$

$$Sanos = \{\mu_s = 145, \sigma_s = 10\}$$

$$Error \ de \ medicion = \{EEM = 3.61, MDC95\% = 10\}$$

Partiendo de estos datos, si asumimos un umbral crítico de significación de p < .05, necesitaríamos 64 sujetos de cada grupo para conseguir una potencia estadística del 80%, asumiendo que no se cometen errores en el proceso de medición. Si asumimos el error de medición mencionado anteriormente la potencia disminuye y si, además de eso, utilizamos el punto de corte de la MDD95% para decidir cuando hay diferencias entre los grupos y cuando no, la potencia disminuye aun más, quedando las tres definidas para esa misma muestra como:

  • Sin error de medición: 80%.
  • Con error de medición: 75%.
  • Con error de medición + MDC95%: 0.40% (aproximada). *Esta potencia se ha calculado asumiendo que hay diferencias reales si y solo si el resultado obtenido es estadísticamente significativo y además, superior a 10N, el valor de la MDC95%.

Como puede apreciarse, al utilizar la MDD95% como punto de corte para decidir si «hay diferencias reales o no» entre estas dos poblaciones, la potencia estadística disminuye notoriamente. Además, debemos tener en cuenta otro factor, una paradoja que se da debido a la relación entre el tamaño muestral y la distribución de las diferencias medias.

Según incrementamos el tamaño muestral, la estimación de la diferencia media es más precisa, es decir, los valores de diferencias medias observados se aproximarán cada vez más al valor real, en este caso de 5N. No obstante, aunque se incremente el tamaño muestral, el valor de la MDD95% no varía, es fijo. Por tanto, aunque de manera habitual incrementar el tamaño muestral incrementa la potencia, en este caso sucede lo contrario. Al aproximarse cada vez más los valores a 5N, habrá menos cantidad de muestras en las que la diferencia observada sea superior a 10, de manera que la potencia disminuye. Por ejemplo, para los siguientes tamaños muestrales, la potencia aproximada sería:

  • 75 sujetos por grupo = 0.25%
  • 80 sujetos por grupo = 0.18%
  • 90 sujetos por grupo = 0.07%
  • 100 sujetos por grupo = 0.04%

Es decir, no podríamos mejorar la potencia estadística incrementando el tamaño muestral, si no que tendríamos que disminuirlo, algo que carece de sentido. Este efecto dependerá del efecto real bajo estudio (la diferencia de medias real) y la fiabilidad del procedimiento de medición. A medida que la fiabilidad se aproxime a una fiabilidad perfecta (es decir, la MDD95% tienda a cero), el efecto negativo de usar la MDD95% será menor. Sin embargo, puede observarse como en casos como el presente, con una fiabilidad muy buena con un EEM de tan solo 3.61, el efecto del uso de la MDD95% es devastador.

Mínima diferencia detectable en el cálculo del tamaño muestral

Otra práctica que he podido observar algunas veces en la investigación en Fisioterapia, es la utilización de la MDD95% para los cálculos de tamaño muestral, donde se produce también otra situación paradójica similar a la descrita anteriormente.

Como ya he comentado, según incrementa el error de medición disminuye la potencia estadística, por ejemplo para el caso anterior con 64 sujetos por grupo, la potencia estimada para los siguientes errores estándar de la media sería:

  • EEM de 5 = 71%.
  • EEM de 7 = 63%.
  • EEM de 10 = 51%.
  • EEM de 15 = 34%.

Esto hace que, según aumente el error de medición, debamos incrementar el tamaño muestral si queremos mantener una potencia estadística deseada (por ejemplo, del 80%). Asumiendo los valores anteriores de EEM, la muestra necesaria para alcanzar un 80% de potencia sería:

  • EEM de 0 = 64 sujetos por grupo.
  • EEM de 5 = 80 sujetos por grupo.
  • EEM de 7 = 95 sujetos por grupo.
  • EEM de 10 = 127 sujetos por grupo.
  • EEM de 15 = 205 sujetos por grupo.

Ahora procedamos como he visto hacer a algún/a investigador/a de nuestro campo, utilizando el valor de la MDD95% como la diferencia de medias real estimada a detectar en nuestro estudio. Vamos a asumir que la dispersión de la diferencia está fija en 10 (aunque luego explicaré que esto no es así), de manera que para distintos valores de MDD95% usados como estimadores de la «diferencia de medias real», el tamaño muestral para un 80% de potencia sería:

  • MDD95% de 3 = 176 sujetos por grupo.
  • MDD95% de 5 = 64 sujetos por grupo.
  • MDD95% de 7 = 33 sujetos por grupo.
  • MDD 95% de 10 = 17 sujetos por grupo.

Es decir, según incrementamos la diferencia de medias real estimada, el número de sujetos necesario para alcanzar un 80% de potencia (manteniendo el resto constante) disminuye. Es aquí donde se da la paradoja. Al inicio he comentado que, a menor fiabilidad hay más variabilidad de error y por tanto, la potencia estadística disminuye y necesitamos más muestra para alcanzar la potencia deseada. A menor fiabilidad, mayor es el valor de la MDD95%. Por tanto, ¿Cómo vamos a usar la MDD95% para calcular el tamaño muestral si su utilización disminuye aún más la muestra necesaria calculada? En efecto, carece de sentido. En los últimos cálculos asumí que la dispersión de las diferencias estaba fijada en 10, sin embargo, esto no es realista, ya que según disminuye la fiabilidad dicha dispersión aumenta.

Asumiendo una dispersión real (sin errores de medición) de 10 en cada muestra, con una diferencia de medias real de 5N y un tamaño muestral de 64 sujetos por grupo, teníamos un 80% de potencia. Ahora mostraré que sucede en la potencia real estimada de un estudio, cuando se incrementa el error de medición (EEM) y se utiliza además para el cálculo del tamaño muestral la MDD95% asociada a ese error de medición:

$$\begin{array} {| ccc |} \hline EEM & Potencia \ real & Muestra \ 80\% & MDD95\% & Muestra \ MDD95\% & Potencia \ real \ MDD95\% \\ \hline 2.53 & 78\% & 68 & 7 & 33 & 49\% \\ \hline 3.61 & 75\% & 72 & 10 & 17 & 26\% \\ \hline 4.33 & 73\% & 76 & 12 & 12 & 19\% \\ \hline \end{array}$$

Como puede apreciarse, el uso de la MDD95% para estimar el tamaño muestral se traduce en una mayor y considerable pérdida de potencia estadística real de nuestro estudio, al disminuir el tamaño muestral cuando en realidad, al haber menos fiabilidad, deberíamos incrementarlo tal y como se muestra en la tercera columna. 

Mínima diferencia media detectable

Como he comentado anteriormente, el uso de la MDD95% está orientado a diferencias entre dos mediciones realizadas a un mismo individuo, es decir, es un estadístico orientado a individuos y no a muestras.

Una pregunta que podríamos hacernos es, si podemos calcular la MDD95% para diferencias individuales, ¿podemos también calcularla para diferencias medias? La respuesta es sí, a este valor le llamaré mínima diferencia media detectable al 95% de confianza (MDMD95%). Ahora supongo que, a lo mejor, te estas planeando la siguiente pregunta obvia, ¿podemos usar la MDMD95% para interpretar diferencias medias? Y la respuesta quizás no te resulte tan obvia y no te guste tanto: no.

Si retomamos las fórmulas anteriores:

$$DE_d = EEM*\sqrt 2$$

$$MDD95\% = EEM*\sqrt 2*1.96 = DE_d*1.96$$

La DEd es la desviación estándar de las diferencias individuales entre las dos muestras. Sin embargo, nosotros estamos interesados en la dispersión de la media, no de los valores individuales, de modo que tenemos que usar un estadístico que recoja dicha dispersión de la media, que es el error estándar de la media:

$$EE_{media} = \frac{DE_d}{\sqrt n}$$

Con este error estándar, podemos reescribir la fórmula de la MDD95% para obtener la fórmula de la MDMD95%:

$$MDMD95\% = \frac{MDD95\%}{\sqrt n} = \frac{EEM*\sqrt 2*1.96}{\sqrt n}$$

Siendo n igual al tamaño muestral total entre dos (asumiendo que ambos grupos tienen el mismo tamaño muestral). De este modo, la MDMD95%, a diferencia de la MDD95%, si varía en función del tamaño de la muestra, a mayor tamaño muestral empleado, menor MDMD95%.

Sin embargo, no tiene sentido utilizar la MDMD95% para interpretar diferencias medias, ya que no aporta información útil si ya usamos el punto de corte del umbral crítico de significación (p < .05). La explicación a este fenómeno recae en las varianzas involucradas en sus respectivos cálculos.

Cuando calculamos la MDMD95% solamente estamos teniendo en cuenta el error atribuible a la ausencia de fiabilidad perfecta del procedimiento de medición, es decir, si tenemos dos muestras a comparar, entonces:

$$\sigma^2_{sanos} = \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{error_{tendinopatia}}$$

$$MDMD95\% = \frac{\sqrt {\sigma^2_{error_{sanos}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Sin embargo, si pensamos ahora en un experimento real, cuando calculamos un valor-p o un intervalo de confianza para una diferencia media entre dos muestras, ahí ya no solo tenemos el error de medición, sino que también tenemos otro error, el proveniente de la variabilidad real de dicha variable en cada una de las muestras (es decir, que los sujetos son distintos entre sí no solo por errores de medición, sino porque efectivamente tienen distinta fuerza), que arriba se ignora en los cálculos:

$$\sigma^2_{sanos} = \sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}$$

Con estos datos podemos calcular el intervalo de confianza asociado a una diferencia media entre dos grupos de igual tamaño muestral (no es exactamente la misma que para una t-Student pero sirve igual para ejemplificar este punto de la entrada):

$$IC95\%= \bar x_{dif} \pm \frac{\sqrt {\sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}} + \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Como se aprecia, en el segundo caso hay más variabilidad, más error en el cálculo. Esto produce la siguiente situación y es que, si una diferencia media es estadísticamente significativa al evaluarla con una prueba t-Student (fórmula similar a la última), entonces dicha diferencia media estará siempre por encima del valor de la MDMD95%, es decir, es imposible obtener una diferencia de medias estadísticamente significativa que sea inferior a la MDMD95% y es por ello que, como comenté al inicio de este apartado, la MDMD95% no aporta más información útil para interpretar la diferencia de medias y por tanto, carece de sentido su utilización.

En la figura anterior se reflejan 100 estudios simulados, con 30 sujetos por grupo en cada uno, asumiendo una diferencia media real de 5N, con una desviación estándar en cada grupo de 10 y un EEM de 3.61. En el gráfico se muestra la diferencia media de cada simulación con su respectivo intervalo de confianza al 95% basado en una prueba t-Student. La línea horizontal morada continua marca el cero, de modo que las simulaciones cuyo limite inferior del intervalo de confianza (color tomate) no sobrepasa el cero, son significativas para p < .05. La línea horizontal azul entrecortada marca el valor de la MDMD95% para ese EEM y ese tamaño muestral, que es de 1.83. Como puede apreciarse, ninguno de los resultados significativos (color tomate) presenta una diferencia media por debajo de la MDMD95%, ejemplificando lo comentado anteriormente acerca de que la MDMD95% no aporta información útil adicional.

Conclusiones

La mínima diferencia detectable es un estadístico orientado a interpretar diferencias individuales, pero no muestrales. La utilización de este valor para interpretar diferencias de medias muestrales y/o realizar cálculos de tamaño muestral tiene consecuencias nefastas en la potencia estadística y la adecuada interpretación de los resultados de una investigación. Por su parte, la mínima diferencia media detectable, tampoco debería utilizarse para interpretar las diferencias medias de una investigación, ya que no aporta más información útil que la aportada por el intervalo de confianza calculado para dicha diferencia media.

Prueba

Prueba de extracto

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Categorías
Fiabilidad Temas Avanzados

Fiabilidad de Diferencias (I)

Fiabilidad: Diferencia entre dos mediciones (I)

En esta entrada se ofrece una breve explicación de un factor a tener en cuenta con respecto a la fiabilidad de las mediciones y de su diferencia. Es un punto importante para la planificación, análisis e interpretación especialmente de los ensayos clínicos aleatorizados.

Existen situaciones en investigación en las cuales se mide una misma variable múltiples veces a lo largo del tiempo. En estos casos, una opción de análisis que suele realizarse, es calcular las diferencias entre los pares de mediciones y utilizar esta nueva variable calculada para los análisis estadísticos. Sin embargo, no siempre quienes toman tales decisiones son conscientes de algunas de las implicaciones de las mismas para con respecto a tu investigación. A continuación explico un aspecto (pero no el único) a tener en cuenta en estos casos, en relación con el campo de la fiabilidad.

Vamos a partir de la asunción de que queremos realizar un ensayo clínico aleatorizado (ECA), donde comparamos dos tratamientos (ejercicio de fuerza y ejercicio aeróbico) en sujetos «hombro congelado», para la mejoría del rango de movimiento de rotación externa, con tan solo dos mediciones, una basal antes del tratamiento (B) y otra al finalizar el programa de tratamiento a los 3 meses (P). Decidimos calcular la diferencia entre dichas dos mediciones (P – B) y utilizar esa nueva variable para comparar los tratamientos y evaluar si alguno es más efectivo.

Antes de comenzar, es necesario recordar la definición matemática de la fiabilidad (ρ) relativa, que sería igual a la división de la variabilidad real (σ2r) entre la variabilidad real más la variabilidad del error de medición (σ2e), es decir, entre la variabilidad total (σ2t):

$$\rho= \frac{\sigma^2_r}{\sigma^2_r + \sigma^2_e}$$

Partiré de esta fórmula para desarrollar toda la explicación. Vamos a sumir que existe independencia entre los errores de medición, es decir, que no existe una correlación entre el error de medición cometido en la situación basal y el cometido a los 3 meses para un determinado sujeto dado, así como que no hay una correlación entre el error de medición cometido y el valor real del sujeto, es decir, que estamos ante un caso de homocedasticidad. Finalmente, también asumiremos que la correlación existente entre la medición basal (B) y la post-tratamiento (P) es positiva (Walters 2019).

Asumiendo todo esto, podemos definir la varianza de las cada una de las dos variables (B y P) con su respectivo error de medición (e) como:

$$\sigma^2_B = \sigma^2_{rb} + \sigma^2_{eb}$$

$$\sigma^2_P = \sigma^2_{rp} + \sigma^2_{ep}$$

Ahora retomaremos las propiedades de la varianza, en concreto la tercera, con la que podemos estimar la variabilidad real de la diferencia entre P y B, excluyendo los términos de error de medición:

$$\sigma^2_{r(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)$$

Mientras que, en función de las asunciones de arriba de independencia de errores y homocedasticidad, la variabilidad total de P menos B quedaría definida como:

$$\sigma^2_{t(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}$$

El término importante de dichas fórmulas es la covarianza, el -2Cov(P,B). Cuando dos variables no presentan correlación (r = 0), el valor de la covariable es cero, mientras que cuando estamos en un caso de correlación positiva perfecta (r = 1), el valor de la covarianza es máximo. Si retomamos la fórmula de fiabilidad, podemos expresar la fiabilidad de la diferencia P-B como:

$$\rho_{p-b} = \frac{\sigma^2_{r(p-b)}}{\sigma^2_{r(p-b)} + \sigma^2_{e(p-b)}} = \frac{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)}{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}}$$

Como se puede apreciar, según incremente la correlación entre P y B, la covarianza se incrementará también y por tanto, el componente del numerador, que es la variabilidad real, disminuirá, produciendo por tanto una disminución en la fiabilidad de la diferencia P-B en comparación a las fiabilidades individuales de la medición basal (B) y post-tratamiento (P). Este hecho puede apreciarse más fácilmente si observamos la fórmula estimada para la fiabilidad de las diferencias en función de la fiabilidad de cada medición y la correlación entre ellas, que quedaría definida como (Chiou 1996):

$$\rho_{p-b} = \frac{\sigma^2_b\rho_b + \sigma^2_p\rho_p – 2r_{bp}\sigma_b\sigma_p}{\sigma^2_b + \sigma^2_p – 2r_{bp}\sigma_b\sigma_p}$$

Realizaré una asunción más para simplificar esta fórmula. Asumiendo que las varianzas de la medición basal y la post-tratamiento son iguales, entonces:

$$\rho_{p-b} = \frac{\rho_b + \rho_p – 2r_{bp}}{2(1-r_{bp})}$$

En esta última fórmula se puede apreciar mejor como cuando aumenta la correlación entre B y P (rbp), disminuye la fiabilidad de la diferencia.

Conclusiones

Estos aspectos de cambios en la fiabilidad en las diferencias con respecto a las mediciones deben tenerse en consideración a la hora de decidir que análisis utilizar en una investigación, existiendo otras opciones como el Análisis de la Covarianza (ANCOVA) o la regresión lineal múltiple que pueden ser más adecuadas. Sin embargo, los ejemplos aquí mostrados se basan en que se dan una serie de asunciones, que no siempre tienen porqué darse y que pueden alterar las conclusiones aquí extraídas de pérdida de fiabilidad, pudiendo darse situaciones donde el uso de las diferencias no esté tan desaconsejado. Mi posición al respecto, con respecto al campo de los ensayos clínicos aleatorizados en Fisioterapia, es que se prime la utilización de ANCOVA y/o regresión lineal múltiple por encima de las diferencias y análisis como el Análisis de la Varianza (ANOVA). En caso de que se decidiera usar estas diferencias, debería valorarse y tenerse en cuenta la posible pérdida de fiabilidad a la hora de realizar los cálculos de tamaño muestral.

Prueba

Prueba de extracto

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …