Categorías
Avanzado Ensayos Clínicos Inferencias Modelo Lineal General Temas Avanzados Uncategorized

Cambio Intra- & Entre-Grupos en Ensayos Aleatorizados

Ensayos aleatorizados: Cambio intra- & entre-grupos

En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del contexto de un ensayo aleatorizado, haciendo hincapié en su finalidad, limitaciones y adecuada interpretación.

De la práctica clínica a los ensayos aleatorizados

En la práctica clínica, la forma que disponemos de saber si un paciente mejora, es tomar una medición basal de referencia y una o varias mediciones en distintos momentos posteriores de seguimiento. Después, podemos observar la diferencia de dichas mediciones posteriores con la situación basal, para ver si ha habido un cambio en dicha variable. Sin embargo, a que se debe dicho cambio, pudiendo ser a un efecto de la intervención aplicada, historia natural, errores en el procedimiento de medición, etc. También puede deberse a una combinación de estos, influyendo algunos más y otros menos, por ejemplo:

Para poder saber cuál es la efectividad de la intervención, si es que hay alguna, debemos poder restar a dicha mejoría observada el efecto atribuible a otros factores, como los errores de medición o la historia natural. Sin embargo, esto no puede realizarse con un solo grupo de sujetos, ya que no tenemos forma de saber cuánto ha influido cada factor, por ello es necesario contar con un grupo no expuesto a la intervención, pero si a los otros factores que pueden influir en que los pacientes cambien a lo largo del tiempo. Esto es lo que se realiza en un ensayo clínico aleatorizado. Por ejemplo, podemos comparar un programa de ejercicio (grupo experimental) con un grupo que no reciba tratamiento (grupo control). La mejoría del grupo de ejercicio podría ser la siguiente:

Como se ha comentado, no sabemos cuándo ha contribuido cada factor a dicha mejoría y si hay o no algún efecto del tratamiento. La mejoría del grupo control podría ser esta: 

Dado que lo único que diferencia (si se ha realizado bien el estudio) al grupo experimental del control, es la aplicación de ejercicio terapéutico, si calculamos la diferencia entre ambos podremos obtener una estimación del efecto de la intervención:

Diferencias intra-grupo dentro del contexto de un ensayo clínico aleatorizado

Como se ha comentado, las diferencias intra-grupo no nos aportan información sobre la efectividad de una intervención, siendo esta información aportada por las diferencias entre-grupos. Entonces, ¿Qué utilidad tienen las diferencias intra-grupo en un ensayo aleatorizado?

Utilidad de la medición basal (antes de la intervención)

En contra de la intuición, las mediciones basales, antes de aplicar el tratamiento, no son en absoluto necesarias para poder evaluar la efectividad de una intervención en un ensayo aleatorizado. Se puede realizar un estudio aleatorizado midiendo solo a los 3 meses de haber aplicado la intervención, y poder obtener estimaciones precisas de la efectividad de esta.

Volviendo a la práctica clínica, si tenemos dos sujetos, uno que con una intensidad de dolor post-tratamiento de 3 y otro de 2.9 podríamos pensar que ambos han mejorado por igual, sin embargo, nos faltaría un dato, la situación de dolor basal de la que partían. Si uno de los sujetos partía de una intensidad de 8 y el otro de 4, las mejorías de uno y otro serían 5 y 2.1, habiendo claras diferencias (aunque no sabríamos si la mejoría sería por el tratamiento). Es decir, el calcular el cambio intra-grupo, con respecto a la medición basal, es una forma de “ajustar” o “controlar” para posibles diferencias en la situación basal, ya que la diferencia de los sujetos en el post-tratamiento depende de sus diferencias en la situación basal, y sin tener en cuenta la misma entonces podríamos malinterpretar quien ha mejorado más o menos.

En un ensayo aleatorizado, ese control de la situación basal se realiza mediante el proceso de asignación aleatoria a los grupos de tratamiento, que hace que la asignación al tratamiento sea independiente de la situación basal de los sujetos en la variable de interés y en todas las variables confusoras (medidas o sin medir en el estudio). Por ello, en este tipo de diseños no sería necesario como se ha comentado una medición basal para poder analizar la efectividad de un determinado tratamiento, pudiéndose analizar simplemente las diferencias post-tratamiento entre los grupos.

El motivo por el cual se realiza una medición basal, antes de aplicar la intervención, es porque de esta forma podemos mejorar la potencia estadística, siendo más fácil encontrar un efecto de la intervención bajo estudio, si es que existe alguno. Es decir, se realiza para disminuir el número de sujetos necesarios para llevar a cabo la investigación.

Cuando se dice que la aleatorización hace que la asignación al tratamiento sea independiente de la situación basal, implica decir que la diferencia media esperada (“real”) entre los grupos en la situación basal es de cero. Se habla de diferencia media esperada porque es el valor al que tiende dicho estadístico cuando el tamaño muestral tiende a infinito, sin embargo, en investigación las muestras nunca suelen ser tan grandes y, por tanto, siempre se observan pequeñas diferencias en la situación basal entre los grupos, originadas por la asignación aleatoria. Como sabemos que la diferencia real es de cero, si medimos la situación basal (previa al tratamiento), podemos incluir esa variable en un tipo de análisis conocido como Análisis de la Covarianza, para forzar a que dicha diferencia será cero en la situación basal en nuestro estudio, ajustándose las diferencias post-tratamiento y la precisión en la estimación de estas, mejorando la potencia estadística de los ensayos clínicos y, por tanto, necesitándose menos muestra. 

Los cambios como un modelo de regresión

Cuando calculamos la diferencia en dos momentos de tiempo de una variable, el objetivo es “ajustar” o “controlar” para la situación basal. En la práctica clínica normalmente medimos a un paciente varias veces, de modo que solo podemos realizar esta resta. Sin embargo, en una investigación se suele medir a un conjunto de pacientes (una muestra), siendo este procedimiento de resta simple inadecuado.

Desde un punto de vista de un modelo de regresión lineal, la medición post-tratamiento (Ypost) puede definirse como:

$$Y_{post} = C + b_1*Y_{basal} + error$$

Cuando calculamos manualmente la diferencia (post- menos basal) de cada sujeto, estamos asumiendo el siguiente modelo:

$$Y_{post} – Y_{basal} = C + error$$

La única forma de que las dos ecuaciones se igualen, es que b1 (el coeficiente de regresión sin estandarizar) sea igual a 1, algo que rara vez sucede en la práctica. Dado que el objetivo de calcular el cambio post- menos basal es “controlar” para discrepancias en la situación basal, eso implica que la variable “Diferencia” obtenida, debe ser independiente de la situación basal (correlación = 0), algo que solo sucederá si b1 = 1. De no ser así, habrá una relación entre la diferencia y la situación basal, como se muestra a continuación con datos simulados:

Esto tiene dos implicaciones. Por un lado, sigue habiendo dependencia con la situación basal, pudiéndose sobreestimar o infraestimar el posible efecto de la intervención, y por otro, no se minimizarían los errores del modelo de regresión, disminuyendo por tanto la precisión y potencia estadística del estudio.

Los ensayos aleatorizados como un modelo de regresión

Partamos ahora del contexto de un ensayo aleatorizado, donde se van a comparar dos grupos,  uno que recibe un tratamiento experimental y un grupo control sin tratamiento, tomándose mediciones en la situación basal y a los 6 meses de seguimiento. En este caso tenemos tres posibilidades para comparar ambos grupos: ver las diferencias en el post-tratamiento, calcular el cambio del post- con respecto a la medición basal y ver las diferencias entre los grupos en esta nueva variable, o utilizar un análisis de la covarianza. El modelo de regresión de cada una de estas opciones sería:

Comparar POST-

$$Y_{post} = C + b_1*Tratamiento$$

Comparar CAMBIO

$$Y_{post} – Y_{basal} = C + b_1*Tratamiento$$

Modelo ANCOVA

$$Y_{post} = C + b_1*Tratamiento + b_2*Y_{basal}$$

En el primer caso (POST-), se asume que la relación entre la medición post-tratamiento y la medición basal es de cero (b2 = 0); en el segundo caso, como se comentaba en el apartado anterior, se asume que b2 es igual a 1; y finalmente en el tercer caso, se deja al modelo de regresión calcular la mejor estimación posible de b2, en lugar de asumir un valor concreto, para minimizar los errores del modelo. En los tres casos, el coeficiente b1 sería la diferencia media entre ambos grupos.

Como se comentaba al inicio de la entrada,  no es necesario tomar mediciones basales para poder evaluar la efectividad de una intervención en un ensayo aleatorizado, siendo también innecesario el cálculo de la diferencia con respecto a la medición basal, teniendo estos procedimientos simplemente la utilidad de mejorar la potencia estadística y precisión (cuando la correlación entre la medición post- y la basal no es igual a cero). En otras palabras,  si la muestra es lo suficientemente grande, dará igual que evaluemos solo las diferencias post-tratamiento, ya que la asignación aleatoria asegura una diferencia basal nula cuando la muestra tiende a infinito. Por ejemplo, asumiendo una diferencia media de 0.5 y una desviación estándar de 1, la muestra necesaria para una potencia deseada del 90%, en función de la correlación entre la medición basal y la post-tratamiento, para cada uno de los tres modelos sería:

Como se puede apreciar en el gráfico, el modelo de ANCOVA optimiza la disminución de los errores del modelo, requiriéndose siempre menos muestra salvo que la correlación sea de 0 o de 1, donde tendría la misma utilidad que el modelo POST-tratamiento o el modelo CAMBIO, pero no menos utilidad. Dado que la potencia estadística solo puede ir de 0 a 100, si incrementásemos mucho el tamaño muestral (ej. 10,000 sujetos por grupo) daría igual que modelo utilizásemos en un ECA, ya que la potencia tendería a su limite superior de 100, siendo las diferencias entre los 3 métodos irrelevantes. Sin embargo, esta no suele ser la situación habitual en la práctica, donde al haber menos muestra, se pueden observar pequeñas diferencias a nivel basal entre los grupos, siendo recomendable por tanto el uso del ANCOVA que minimizaría los errores del modelo con respecto a los otros dos.

Centrándonos ahora en los coeficientes b1 de los tres modelos, es decir, en las diferencias medias entre los grupos, también se observa algo contraintuitivo. Tendemos a pensar que es algo distinto calcular las diferencias entre grupos del cambio con respecto a la medición basal, a calcular las diferencias solo en el post-tratamiento, o mediante el uso del ANCOVA, sin embargo, todos esos procedimientos están estimando lo mismo, el efecto de la intervención, es decir, si incrementamos la muestra lo suficiente, los coeficientes b1 de cada uno de los 3 modelos tenderán todos hacia un mismo valor, estiman lo mismo. Lo único distinto es que cambia la precisión de la estimación y por eso se obtienen pequeñas diferencias de dichos coeficientes en un ensayo clínico realizado, pero a nivel conceptual son lo mismo. Por tanto, la creencia popular de que calcular el cambio con respecto a la situación basal para comparar dicha variable entre dos tratamientos, ofrece una visión más “real” de la efectividad de una intervención, porque estamos comparando mejorías en el tiempo, no se sostiene.

Los engaños de las diferencias intra-grupo en los ensayos aleatorizados

Como se explicaba al inicio del texto, la asignación aleatoria a los grupos de tratamiento es lo que garantiza la independencia con respecto a variables confusoras, de forma que la inferencia causal solo es aplicable en un ensayo aleatorizado a las diferencias entre-grupos, pero no a las intra-grupo. A pesar de ello, actualmente la mayoría de las revistas científicas de nuestro campo solicitan reportar las diferencias intra-grupo dentro del contexto de un ensayo clínico, un procedimiento que más que ayudar a interpretar mejor los resultados, solo puede confundir y sesgar más al lector, induciendo a malinterpretaciones del ensayo clínico. Por ejemplo, dado que la asignación aleatoria no elimina factores de confusión de las diferencias intra-grupo, donde también influyen aspectos como la historia natural, esto hace que dicha diferencia dentro del grupo experimental tienda a sobreestimar la efectividad de la intervención, ya que en ella también se sumaria el efecto de la historia natural del proceso en cuestión.

A continuación, muestro algunas preguntas frecuentes con sus respectivas respuestas, a fin de prevenir al lector tales malinterpretaciones (algunos aspectos ya se han comentado previamente):

Preguntas y respuestas

Si un grupo experimental mejora de manera significativa y el control no, ¿implica que la intervención es efectiva?

No

Si dos grupos experimentales mejoran igual a lo largo del tiempo, ¿significa que ambas intervenciones son igual de efectivas, o que son efectivas?

No

¿Es necesario tomar una medición basal (antes de aplicar el tratamiento) en un ensayo aleatorizado para evaluar la efectividad de este?

No

Si las diferencias entre grupos no son significativas ni relevantes, pero solo el grupo experimental ha mostrado diferencias significativas intra-grupo, ¿significa que puede que la intervención sea efectiva?

No

¿Calcular la diferencia post- menos basal en un ensayo aleatorizado es un procedimiento estadístico adecuado?

No

¿Las diferencias intra-grupo sobreestiman el efecto de la intervención?

Si

¿Son distintas a nivel conceptual las diferencias entre-grupos ajustadas de un ANCOVA y las calculadas mediante la variable diferencia post- menos basal?

No

¿Es necesario observar las diferencias intra-grupo para interpretar adecuadamente los resultados de un ensayo aleatorizado?

No

 

Literatura de interés
Conclusiones

Las diferencias intra-grupo no son necesarias dentro del contexto de un ensayo aleatorizado, pudiendo derivar solo en malinterpretaciones de los resultados del mismo. Por ello, es recomendable no tener en cuenta tales diferencias, incluso no reportarlas, cuando se lea o se realice un estudio con este tipo de diseño. Todo ensayo aleatorizado debería analizarse y reportarse con un modelo ANCOVA (u otra variante de modelo de regresión multivariable, incluyendo la medición basal como covariable).

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Tamaño Muestral Temas Avanzados

Tamaño Muestral: Potencia observada

Tamaño Muestral: Potencia Observada

En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los que esta practica esta totalmente desaconsejada.

La potencia de un determinado análisis estadístico, bajo unas circunstancias determinadas asumidas, sería la probabilidad a largo plazo de obtener un resultado estadísticamente significativo (asumiendo un punto de corte preseleccionado de valor-p) con dicho análisis, siempre y cuando se cumplan todos los supuestos de dichas circunstancias asumidas. En otras palabras, si se cumplen todas las asunciones, y un análisis (ej. t-Student) tiene una potencia del 50% con un tamaño muestral de 40 sujetos por grupo, asumiendo como significativo un valor-p < 0.05, eso significa que si repitiéramos infinitas veces dicho experimento, obtendríamos resultados significativos en el 50% de las replicaciones aproximadamente. Como hemos dicho, todo esto asumiendo que nuestras asunciones se cumplen a la perfección, que en un ejemplo inventado podrían ser:

  • La hipótesis nula (H0) es la diferencia igual a cero.
  • La hipótesis alternativa (H1) especificada es cierta.
  • Diferencia media poblacional bajo la H1 igual a 30.
  • Desviación típica poblacional es igual a 12.
  • Homocedasticidad asumida.
  • Distribución normal asumida.
  • Solo influye el muestreo aleatorio en la variabilidad entre las distintas replicaciones del experimento.

Cualquier variación en estas asunciones alteraría la potencia real de dicho análisis para un determinado tamaño muestral dado.

Muchos investigadores basan sus cálculos de tamaño muestral en la potencia “deseada” para un determinado análisis, partiendo de unas asunciones establecidas a priori. Sin embargo, también hay otra práctica muy extendida, que es el cálculo de la potencia del estudio, una vez se ha realizado el mismo, con los datos obtenidos, conocida como potencia post hoc o potencia observada.

Razones por las que se calcula la potencia observada en investigación

Ejemplo número uno:

Un grupo de investigadores realizan un ensayo aleatorizado con 15 sujetos por grupo, porque eran los que tenían disponibles. Tras ello, obtienen un una diferencia media de 5 puntos (p = 0.011). Sin embargo, como tenían poca muestra, no acaban de estar convencidos de que puedan confiar en esos resultados para rechazar la H0 y aceptar la H1, por ello, deciden calcular la potencia observada del estudio, ya que establecen que si dicha potencia es baja, entonces a lo mejor ese resultado aunque sea significativo, no es una prueba grande en contra de la H0, mientras que si se obtiene una potencia observada alta, eso nos indicaría que podemos confiar más en estos resultados, ya que teníamos muestra suficiente para encontrar dicha diferencia, y por tanto debemos tener más confianza en que podemos rechazar la H0. Realizan el cálculo y obtienen una potencia observada del 73%, concluyendo por tanto que efectivamente, tienen pruebas robustas para rechazar la H0.

Ejemplo número dos:

Otro grupo de investigadores realizan otro ensayo aleatorizado con 15 sujetos por grupo, también porque eran los que tenían disponibles. En este caso, los investigadores obtienen una diferencia media de 2 (p = 0.54). Sin embargo, como tenían poca muestra, deciden calcular la potencia observada, ya que puede ser que ese resultado no sea porque la hipótesis nula es cierta, sino simplemente porque tenían poca potencia para detectar la misma, por el escaso tamaño muestral. De modo que establecen que, si la potencia observada es baja, entonces puede ser simplemente un problema del tamaño muestral, y no de que la H0 sea cierta, y si obtienen una potencia alta, entonces sí que es plausible que los resultados obtenidos se deban a que la H0 es cierta. Obtienen una potencia observada del 9%, concluyendo por tanto que sus resultados posiblemente se deban al pequeño tamaño muestral y no a que la H0 tenga que ser cierta.

Ejemplo número tres: Contraintuitivo

Un tercer grupo de investigadores realizan otro ensayo aleatorizado, en este caso, disponen de 300 sujetos por grupo en su hospital. Obtienen una diferencia media de 1.1 (p = 0.24). Sin embargo, realizan el mismo razonamiento anterior y deciden calcular la potencia observada, resultando en un valor del 22%. Concluyen por tanto que, como la potencia observada es baja, los resultados no se deben en verdad a que la H0 tenga que ser cierta, sino que es un problema de que se tenía poca muestra.

Puede ser que los dos primeros ejemplos pareciesen “razonables”, sin embargo, aplicando ese mismo razonamiento, nos hemos topado con un tercer ejemplo en el que se afirma que una muestra de 300 sujetos por grupo, es también pequeña. De hecho, esto sucedería incluso aunque la muestra hubiera sido de 3000 sujetos por grupo, las conclusiones de dichos investigadores habrían sido las mismas, que la muestra era demasiado pequeña y que dicho valor-p no constituía un indicativo de que la H0 fuese más plausible que la H1.

Relación entre la potencia observada y el valor-p observado

Para poder entender mejor el ejemplo contraintuitivo, así como poder realizar una interpretación adecuada de la potencia observada, es necesario entender su relación con el valor-p observado. En la siguiente figura muestro la relación existente entre el valor-p observado y la potencia observada, para una prueba t-Student para dos muestras independientes.

La potencia observada tiene una relación directa con el valor-p observado, en otras palabras, la potencia observada no aporta información adicional al valor-p observado. Los valores-p pequeños siempre tendrán asociados valores altos de potencia observada y viceversa, sin importar si la H0 es cierta o falsa. De hecho, el gráfico anterior está elaborado con simulaciones donde la H0 es cierta.

Este concepto se puede comprender mejor enfrentando las distribuciones de la H0 y la H1. Por ejemplo, en un caso hipotético de 50 sujetos por grupo, para una potencia del 80%, tendríamos la siguiente figura:

En esta figura, el gráfico de densidad rojo hace referencia a la H0 y el gráfico azul a la H1, el valor de la mitad de alfa (contraste a dos colas) es el umbral crítico de significación (en nuestro caso asumiremos p < 0.05), que se muestra en la figura como una línea verde vertical. La potencia es todo el área bajo la curva azul que queda a la derecha de la línea verde vertical de la derecha, en este caso, el 80%, para una diferencia media observada de 2.85 (desviación estándar = 5). Ahora veamos que pasa si el valor de la diferencia media observada es el que coincide con la línea verde vertical, es decir, el umbral crítico de significación (valor-p = 0.05):

En este caso, la potencia observada es del 50%, ya que como se puede apreciar, la mitad de la gráfica azul queda a la izquierda de la línea verde y la otra mitad a la derecha, por lo que, la probabilidad de obtener un resultado significativo (p < 0.05), sería aproximadamente del 50% asumiendo que la H1 es cierta. Si seguimos desplazando esta gráfica azul a la izquierda, la potencia observada iría disminuyendo progresivamente, y como podemos ver, dado que ambas gráficas son curvilíneas, la relación entre el valor-p observado y la potencia observada no es lineal, sino exponencial como se mostraba en la primera figura. Si nos vamos al extremo, superponiendo las gráficas, puede apreciarse como entonces la potencia observada es igual al umbral crítico de significación especificado, en nuestro caso, 5%.

La potencia observada es engañosa: Llamada a la acción para su abolición

Debido a que la potencia observada tiene una relación directa inversa con el valor-p observado, no sirve para lo que se utiliza en la práctica clínica, como los ejemplos anteriormente mencionados. Si utilizamos la potencia observada para “interpretar mejor” los resultados del valor-p, entonces tenderemos a sobrestimar todos los resultados significativos, porque siempre obtendremos potencias observadas elevadas, y de manera inversa siempre podremos concluir que cualquier resultado no significativo se debe a un escaso tamaño muestral, a expensas de la muestra utilizada, y por tanto la H0 nunca será plausible si así lo deseamos.

Las recomendaciones por estadísticos desde hace décadas es no llevar a cabo dicha práctica, ya que solo deriva en errores de interpretación de los resultados de una investigación. La potencia debería siempre ser establecida a priori, a la hora de realizar el cálculo de tamaño muestral, en función de unas asunciones también establecidas a priori en función de literatura previa y conocimiento técnico sobre la materia, y nunca calculada en base a los resultados del propio estudio. No obstante, aún así mi recomendación sigue siendo, al igual que he especificado en otras entradas de esta web, calcular el tamaño muestral basándonos en la precisión y no en la potencia, que es la metodología adecuada que lleva a menos errores a la larga.

Conclusiones

La potencia post hoc o potencia observada no debe calcularse dentro del seno de una investigación. Este valor no aporta ninguna información adicional al valor-p observado y su cálculo y utilización para interpretar los resultados es engañoso, derivando en errores grandes con respecto a las conclusiones que pueden sacarse del propio estudio.

La potencia debe establecerse siempre a priori en base a unas asunciones también establecidas a priori. Sin embargo, el cálculo de tamaño muestral basado en precisión sigue siendo más recomendado.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Guía Estadística Tamaño Muestral Temas Avanzados

Tamaño Muestral ANOVA mixto GPower

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power

En esta entrada se recoge una breve explicación de uno de los errores más comunes cometidos dentro del campo de la Fisioterapia, a la hora de calcular tamaños muestrales con el programa G*Power.

El software G*Power es uno de los más utilizados dentro del campo de la Fisioterapia (y otros) para calcular tamaños muestrales a priori durante la fase de planificación de un estudio de investigación. Este software facilita cálculos de tamaño muestral basados en potencia para distintos análisis, como comparaciones de dos medias, correlación de Pearson y lo que es la temática de esta entrada, los Análisis de la Varianza (ANOVA), más concretamente aquellos con medidas repetidas.
Desde aquí y en el resto de la entrada, basaré las explicaciones en un ANOVA mixto con tres grupos de tratamiento (ejercicio, terapia manual, vendaje) y 4 momentos de medición (basal, 3 meses, 6 meses y 12 meses), ya que es el tipo de análisis que suele usarse para calcular tamaños muestrales en ensayos controlados aleatorizados en Fisioterapia. Los cálculos propuestos son para la interacción tiempo-por-grupo.

Comenzaré con un pequeño ejemplo de cómo se suele proceder en G*Power para calcular ese tamaño muestral a priori. Para poder calcularlo se requiere especificar una serie de valores:

  • Número de grupos.
  • Número de mediciones.
  • Tamaño del efecto estimado (f o ηp2).
  • Correlación entre medidas repetidas.
  • Potencia deseada.
  • Nivel alfa de significación.
  • Corrección en caso de no esfericidad.

De estos datos, ya tenemos especificados algunos en base al diseño que he propuesto, y otros los asumiremos según valores típicos utilizados en Fisioterapia:

  • Número de grupos: 3
  • Número de mediciones: 4
  • Tamaño del efecto: Medio (f = 0.25 // ηp2 = 0.06)
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 80%
  • Nivel alfa de significación: 0.05
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)

Con estos datos, el tamaño muestral calculado es de 30 sujetos, es decir, 10 sujetos por grupo. Parece algo pequeño, pero…si el G*Power nos ha dado ese resultado, es que es correcto, ¿o no? A continuación, explicaré con más detalle el punto sobre el que trata la entrada, el tamaño el efecto, y haré un pequeño matiz al final de esta sobre la asunción de esfericidad asumida.

Tamaños del efecto pequeños, medios y grandes. Dos etas cuadrado

En el anterior ejemplo he especificado que se estimaba un tamaño del efecto medio, que se correspondía con un valor f = 0.25 o un valor de ηp2 = 0.06. Estos valores no los he nombrado al azar, ya que mucha gente se basa en la siguiente recomendación sobre lo que es un tamaño del efecto pequeño, medio y grande en el caso de ANOVAs:

  • Efecto pequeño: f = 0.10 / ηp2 = 0.01
  • Efecto medio: f = 0.25 / ηp2 = 0.06
  • Efecto grande: f = 0.40 / ηp2 = 0.14

Con respecto a los ANOVA, hay distintos tamaños del efecto, me centraré solamente en dos para esta entrada: el coeficiente eta cuadrado (η2) y el coeficiente eta cuadrado parcial (ηp2). El primero se usaría cuando solo tenemos un factor (ej., comparamos 3 grupos con una sola medición, solo habría un factor, el factor grupo). El segundo por su lado, se utiliza cuando tenemos varios factores, como sería en nuestro ejemplo de ensayo aleatorizado, donde disponemos del factor grupo y el factor tiempo (medidas repetidas). De forma simplificada, pueden definirse matemáticamente como:

$$\eta^2 = \frac{SS_{efecto}}{SS_{total}}$$

$$\eta_{p}^2 = \frac{SS_{efecto}}{SS_{efecto} + SS_{error}}$$

En el caso de un ANOVA mixto, tenemos 3 posibles efectos de interés, el efecto principal grupo, el efecto principal tiempo y la interacción tiempo por grupo. De este modo, si nuestro interés es la interacción tiempo-por-grupo, tendríamos (nota: fórmulas simplificadas):

$$\eta^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{grupo} + SS_{tiempo} + SS_{error}}$$

$$\eta_{p}^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{error}}$$

Eta cuadrado parcial y correlación entre medidas repetidas

El coeficiente eta cuadrado parcial (ηp2) se ve influenciado por la correlación entre medidas repetidas. No entraré en detalles, pero esa influencia es en el sentido de que, a mayor correlación entre medidas repetidas, mayor valor de ηp2 y consecuentemente, mayor potencia estadística (es decir, se requerirá menor muestra). Por ejemplo, imaginemos el caso anterior, con una correlación asumida de 0.50 el tamaño muestral resultante era de 30 sujetos. Si elevamos la correlación asumida a 0.70, el tamaño muestral baja a 21 sujetos, y si la elevamos a 0.90, entonces el cálculo nos devuelve tan solo 9 sujetos (3 por grupo).

Sobra decir que manipular dicha correlación para obtener un menor tamaño muestral es engañoso. En ausencia de datos previos, lo ideal sería asumir una correlación de 0.50 como máximo, o ser incluso más conservadores con correlaciones más pequeñas si las mediciones están muy separadas en el tiempo (de 0.40-0.45 por ejemplo) (Walters 2019). Asumir correlaciones por encima de 0.50 debe estar muy justificado.

Distintos tamaños del efecto: EL ERROR
Todas las explicaciones anteriores enlazan con este apartado, que es el verdadero motivo de la entrada, la existencia de distintas especificaciones de tamaño del efecto f y ηp2, que pueden llevar a cometer errores importantes al realizar cálculos de tamaño muestral con G*Power. Tenemos tres métodos:
  • Método que usa G*Power.
  • Método basado en datos extraídos de SPSS.
  • Método basado en Cohen, 1988 (quién dio las recomendaciones de tamaño del efecto mencionadas anteriormente).
La diferencia entre ellos es la utilización de la correlación de medidas repetidas. Utilizando el método que aparece por defecto en G*Power, debemos especificar la correlación para el cálculo del tamaño muestral. Esto se debe a que G*Power no tiene en cuenta dicha correlación para la especificación del tamaño del efecto estimado que le hemos especificado, sino que la utiliza luego directamente en el cálculo. Por otro lado, cuando se calcula en SPSS un coeficiente eta cuadrado parcial (ηp2), se tiene en cuenta ya para su cálculo la correlación entre medidas repetidas. En otras palabras, el coeficiente eta cuadrado parcial en que se basa el cálculo de G*Power, no es el mismo que el que facilita SPSS, sus valores no coinciden, así como tampoco es lo mismo un f = 0.25 según G*Power, que un f = 0.25 según SPSS, tal y como se especifica en el manual de utilización del G*Power. Anteriormente he comentado que a mayor correlación mayor valor de ηp2 y, por tanto, menos muestra necesaria para un determinado estudio, como mostré incrementando la correlación en el cálculo inicial. Por otro lado, como acabo de comentar, el cálculo del coeficiente ηp2 que facilita SPSS al hacer un análisis, ya tiene en cuenta la correlación entre medidas repetidas. Por tanto, si nos basamos en un ηp2 de SPSS, que ya tiene en cuenta dicha correlación y por tanto será más grande, y lo metemos en el G*Power para calcular el tamaño muestral según G*Power, donde tenemos que especificar la correlación, estamos usando dos veces la correlación, una vez que se usó en SPSS para dar el valor de ηp2 y otra ahora en el cálculo del tamaño muestral en G*Power, con la implicación de que sobreestimamos el tamaño del efecto y por consecuente, infraestimamos la muestra necesaria. Existe una opción en el G*Power para especificar al software en que nos estamos basando cuando especificamos un tamaño del efecto para calcular el tamaño muestral basado en un ANOVA con medidas repetidas, abajo del todo en un botón de “Opciones”.
Es imprescindible cambiar en dicho apartado la especificación del tamaño del efecto según en que nos estemos basando. Si nos basamos en datos extraídos de estudios previos, que por lo general utilizan la forma de cálculo de ηp2 del SPSS donde ya se tiene en cuenta la correlación entre medidas repetidas, debemos seleccionar dicho apartado en “Opciones”. Mientras que, si nos basamos en las “recomendaciones de Cohen” de un tamaño pequeño, medio y grande, entonces debemos seleccionar dicha opción. ¿Por qué es tan importante esto? Volviendo al ejemplo inicial, nos salía una muestra de 30 sujetos (10 por grupo), para un supuesto valor f = 0.25, siguiendo las recomendaciones de que ese valor corresponde a un tamaño del efecto medio según Cohen. Si ahora especificamos que el tamaño del efecto es según Cohen en la pestaña “Opciones”, el tamaño muestral resultante es de 222 sujetos (74 sujetos por grupo). Veamos otro ejemplo con valores reales extraídos de un reciente estudio. En este estudio se calcula el tamaño muestral para la interacción tiempo-por-grupo de un ANOVA mixto con las siguientes especificaciones:
  • Número de grupos: 4
  • Número de mediciones: 3
  • Tamaño del efecto: ηp2 = 0.048 (extraído de un estudio piloto previo, calculado con SPSS).
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 90%
  • Nivel alfa de significación: 0.01
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)
De acuerdo con sus especificaciones, el tamaño muestral resultante reportado en el estudio fue de 84 sujetos (21 por grupo). Este sería el tamaño muestral calculado, basándose en un ηp2 de 0.048 extraído de SPSS, pero manteniendo la especificación de tamaño del efecto según G*Power. Al cambiar en la pestaña “Opciones” el tamaño del efecto a “según SPSS”, el tamaño muestral resultante es de 240 sujetos (60 por grupo). Es decir, su estudio con esa muestra no “tenía” una potencia como ellos querían del 90%, sino que realmente tenía una potencia del 28%, por haber especificado mal el tamaño del efecto en G*Power a la hora de realizar su cálculo.
Una nota sobre la esfericidad

No entraré en detalles en esta entrada acerca de la asunción de esfericidad, ya que no es el propósito de esta. Pero si quisiera hacer una anotación de cara a los cálculos de tamaño muestral basados en ANOVA mediante G*Power. De manera resumida, la asunción de esfericidad rara vez (por no decir nunca) podemos asumir que se cumpla en la vida real. Esto implica que no podemos especificar valores de corrección iguales a 1, es decir, sin corrección, asumiendo que dicho asunción se cumplirá a la perfección. La opción correcta es asumir un cierto grado de incumplimiento en dicha asunción, y tener en cuenta este aspecto para calcular el tamaño muestral, introduciendo una ligera corrección. Si no disponemos de datos previos fiables, una opción conservadora es establecer un valor de corrección de esfericidad de 0.75. ¿Por qué es esto importante?

Cuando la asunción de esfericidad se cumple a la perfección (corrección igual a 1) se requiere menos muestra para encontrar un efecto. En otras palabras, si ponemos el valor de 1 en el cálculo, obtendremos menos muestra. Pero como he comentado, esta situación es muy poco plausible en la vida real, de modo que, si hacemos eso, estaríamos infraestimando nuestra muestra.

En los ejemplos anteriormente mencionados, la muestra del primer estudio inventado (especificando bien el tamaño del efecto) pasaría de 222 sin corrección, a 267 sujetos con una corrección de 0.75. En el segundo caso del estudio real, el cambio sería de 240 sin corrección, a 292 sujetos con la corrección de 0.75.

Precisión por encima de potencia

El contenido de esta entrada tiene como objetivo simplemente explicar algunos errores comunes realizados al calcular tamaños del efecto basados en potencia con G*Power. No obstante, nada del contenido de la misma debe ser interpretado como una recomendación a favor de los cálculos de tamaño muestral basados en potencia, que tienden a infraestimar las muestras necesarias en investigación. Mi recomendación es basar siempre los cálculos en la precisión en lugar de la potencia. En el apartado de Repositorio: Guías de Estadística, se recogen distintas fuentes de información para realizar cálculos de tamaño muestral adecuadamente para distintos tipos de análisis.

Conclusiones

Por lo general, dentro del campo de la investigación en Fisioterapia, se utilizan muestras demasiado pequeñas en la mayoría de estudios publicados. Los principales motivos que achaco a este fenómeno son: 1) Cálculos basados en potencia y no precisión; 2) asunción de cumplimiento de distintas asunciones estadísticas que no se cumplen en realidad; 3) utilización errónea de la algunas herramientas disponibles para cálculos de tamaño muestral (como el G*Power); y 4) ausencia de adherencia a las recomendaciones de expertos en la materia.

La investigación en Fisioterapia se vería beneficiada enormemente por una mejora en las estimaciones a priori de tamaños muestrales basados en precisión, con la utilización correcta de las distintas herramientas disponibles, y adhiriéndose a las recomendaciones de expertos en la materia para un determinado tipo de diseño y/o análisis estadístico.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Meta-análisis Metodología Temas Avanzados

Guía Básica de Cribado para Revisiones Sistemáticas

Revisión Sistemática: Guía básica de cribado

En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, para la realización del cribado de estudios a incluir en una revisión sistemática.

La fase de cribado de una revisión sistemática es una de las más importantes de este tipo de estudios. Dependiendo de los resultados de nuestras búsquedas, el cribado puede llevar demasiado tiempo, no obstante, existen algunas estrategias para optimizar el tiempo de realización de dicha fase, así como la calidad metodológica de la misma.  En esta entrada explicaré como suelo proceder a la hora de planificar y realizar dicha fase en una revisión sistemática.

Esquema de realización del cribado

Antes de proceder con la explicación de las distintas fases del cribado de una revisión sistemática, mostraré aquí un esquema (que será el que seguiré) de los pasos a seguir:

  1. Selección de las aplicaciones a utilizar para el cribado.
  2. Importación de las búsquedas.
  3. Detección y eliminación de duplicados.
  4. Criterios de inclusión/exclusión.
  5. Palabras clave para facilitar el cribado.
  6. Pilotaje previo: análisis de concordancia entre revisores.
  7. Cribado de título y resumen.
  8. Resolución de conflictos.
  9. Organización del sistema de criterios de exclusión.
  10. Cribado de texto completo.
  11. Resolución de conflictos.
Aplicaciones para el cribado

Actualmente utilizo dos aplicaciones web que pueden optimizar mucho el tiempo de realización de la fase de cribado, Covidence y Rayyan. En la siguiente tabla muestro una comparativa general de ambas con respecto a varias funciones.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} \\ \hline Gratuito & Pago \ (> 500 \ articulos) \\ \hline Duplicados \ a \ mano & Duplicados \ automatico \\ \hline Multiples \ revisores & Solo \ dos \ revisores \ (gratis) \\ \hline No \ ambos \ cribados & Ambos \ cribados \\ \hline \end{array}$$

A pesar de que el precio por usar Covidence de manera íntegra es elevado, la parte gratuita de la misma es bastante útil en la fase de cribado, como explicaré más adelante. Además de utilizar Covidence y Rayyan, también recomiendo utilizar la aplicación de escritorio de Mendeley  y Microsoft Excel. A continuación muestro un resumen de la finalidad con la que utilizar cada una de dichas aplicaciones:

  • Mendeley:
    • Importación de artículos.
  • Covidence:
    • Detección y eliminación de duplicados.
  • Rayyan:
    • Detección y eliminación de duplicados.
    • Pilotaje.
    • Cribado de título y resumen.
  • Microsoft Excel:
    • Cribado de texto completo.
Importación de búsquedas

Antes de proceder al cribado de los artículos, es necesario importar los archivos extraídos de las distintas bases de datos que contienen nuestras búsquedas. No todas las bases de datos permiten exportar las búsquedas realizadas en los mismos formatos y no todas las aplicaciones permiten importar archivos en los mismos formatos. En la siguiente tabla muestro los tipos de archivos que permiten importar las tres aplicaciones que suelo utilizar en una revisión sistemática.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} & \textbf {Mendeley} \\ \hline EndNote \ (.enw) & EndNote \ XML \ (.xml) &  EndNote \ XML \ (.xml) \\  Refman/RIS \ (.ris) & RIS \ (.ris) & BibTeX \ (.bib) \\ BibTeX  \ (.bib) && RIS \ (.ris) \\ CSV \ (.csv) & & Zotero \ Library \ (zotero.sqlite) \\ Pubmed \ XML \ (.xml) & & \\ Nuevo \ Pubmed \ (.nbib) & & \\ Web \ of \ Science/CIW \ (.ciw) & & \\ \hline \end{array}$$

Como puede apreciarse, Covidence está muy limitado en cuanto al tipo de archivos que permite importar y este es el motivo de que haya añadido Mendeley al listado de aplicaciones a utilizar en la fase de cribado. Todas las bases de datos que suelen consultarse en revisiones sistemáticas en Fisioterapia permiten exportar las búsquedas en alguno de los formatos permitidos por Mendeley. De este modo, si realizamos una búsqueda en una base de datos que no permite exportar en un formato aceptado por Covidence, lo que yo suelo hacer es importar dichas búsquedas a Mendeley, para después exportar esos artículos con formato .ris, una función que Mendeley permite, pudiendo finalmente importar dichas búsquedas en Covidence. Es indispensable poder importar todas las búsquedas en Covidence, ya que esta es la aplicación a utilizar en la primera fase de la detección y eliminación de duplicados.

Detección y eliminación de duplicados

Es importante reportar las herramientas utilizadas para proceder con la detección y eliminación de duplicados, entre otras cosas por un motivo de transparencia y de facilitación de reproducibilidad de la metodología empleada para el cribado, de acuerdo a las recomendaciones de la declaración PRISMA de reporte de las búsquedas en una revisión sistemática.

A pesar de que la aplicación web Covidence es de pago, una de sus funcionalidades gratuitas es de gran ayuda. Como ya he comentado, Covidence solo permite cribar de manera gratuita hasta un máximo de 500 artículos. Sin embargo, aunque no podamos cribar más de 500, si podemos importar más de 500, de hecho, podemos importar el número que necesitemos de artículos y proceder a la detección y eliminación de duplicados con dicha aplicación. Este primer paso es muy relevante, ya que a diferencia de Rayyan, Covidence si elimina los duplicados de manera automática. Una vez realizado este primer paso, procederemos a exportar los artículos restantes de Covidence para importarlos en Rayyan, donde proseguiremos con esta fase.

A pesar de que Covidence detecta y elimina la gran mayoría de duplicados, aun se deja algunos que detectará Rayyan. La desventaja de Rayyan es que, aunque detecta los duplicados de manera automática, no los elimina. Rayyan detectará posibles duplicados de acuerdo al porcentaje de concordancia de palabras en los distintos campos de importación de los artículos y luego tendremos que ir revisando uno a uno los casos de posible duplicado y decidir si existe o no duplicación y eliminar el artículo que no nos interese.

Por mi experiencia con grandes importaciones de artículos (6000 a 9000), el paso de Covidence lo considero indispensable, pues la tarea de eliminación manual de duplicados en Rayyan con cantidades de 1000-2000 duplicados, llevará demasiado tiempo sin existir necesidad para ello. Normalmente, con cantidades altas de resultados en las búsquedas como las referidas al inicio de este párrafo, una vez eliminamos duplicados en Covidence, los que suelen detectarse en Rayyan son pocos, entre 100-300 en las revisiones que he llevado a cabo, un número asequible para resolver manualmente en esta aplicación.

Por último, cabe destacar que, a pesar de usar dos aplicaciones, aún pueden quedar duplicados sin detectar que se deberán eliminar posteriormente en las fases respectivas de cribado de título-resumen o texto completo.

Criterios de inclusión y exclusión

El establecimiento de unos criterios de inclusión y exclusión claros resulta obvio para una buena calidad de la fase de cribado y a nivel general, para una buena calidad de la revisión sistemática.

El establecimiento de los criterios de inclusión y exclusión tiene, a mi modo de ver, dos partes: la parte explícita que se reportará en el manuscrito final y la parte no explícita que no se reportará, pero que es de suma importancia durante el proceso de cribado. Explicaré este punto con un ejemplo práctico de una revisión que estoy actualmente realizando, donde un criterio de inclusión explicito es: “Medir la cinemática escapular durante la elevación/descenso del brazo con sistemas de medición 3D que no sean de superficie”.

Este sería el criterio explícito, tal cual se reportará en el manuscrito de la publicación. Por otro lado, tendríamos la parte no explícita del criterio, que sería en parte la siguiente:

  • Sistemas optoelectrónicos no se incluyen (son de superficie).
  • Sistema VICON no se incluye (es de superficie).
  • Sistemas basados en sensores con cámaras infrarrojos no se incluyen (son de superficie).
  • Sistemas elecromagnéticos pueden ser de superficie o acoplados a pins insertados en hueso. Los primeros no se incluyen y los segundos sí.
  • En caso de que no se reporte el tipo de sistema electromagnético en título/resumen, se incluye el estudio y en la fase de texto completo se evaluará si es de superficie o con pins insertados en hueso para ver si finalmente se incluye el artículo o no.
  • Sistemas de fluoroscopia y radiografía de incluyen (no son de superficie).

Estos son algunos de los puntos no explícitos que acompañan a ese criterio explícito. El problema de no tener claros estos puntos y no detallarlos adecuadamente en las instrucciones para los revisores que realizarán el cribado, es que puede ser que se dejen estudios fuera que podrían haberse incluido o viceversa. En el segundo caso tiene solución ya que los podremos excluir finalmente cuando el IP tenga acceso al listado final de artículos incluidos. Sin embargo, en el primer caso (excluir estudios susceptibles de haber sido incluido), no podremos detectar que esto ha sucedido ni solventarlo.

El investigador encargado del establecimiento de los criterios de inclusión/exclusión debe valorar que los revisores que realizarán el cribado puede que no tengan el mismo conocimiento que él/ella (ej. Puede que los revisores no sepan que un sistema optoelectrónico es de superficie), y que es su obligación detallar al máximo posible los distintos criterios, así como posibles situaciones donde surja duda (como el caso de los sensores electromagnéticos donde no se reporta si son de superficie o no), para que los revisores tenga claro qué decisiones tomar y no se vea afectada la calidad de la fase de cribado.

Mi recomendación es elaborar una lista detallada de los criterios de inclusión/exclusión explícitos y todos sus componentes no explícitos en un Word y, previo comienzo al cribado, organizar una reunión con los distintos revisores que intervendrán en la misma para aclarar cualquier posible duda al respecto de manera previa.

Palabras clave para facilitar el cribado

Una de las utilidades que presenta Rayyan y que mejorará no solo el tiempo de realización del cribado de título y resumen, sino también posiblemente su calidad, es la presencia de palabras clave destacadas.

Cuando importamos un listado de artículos en Rayyan, la aplicación elabora de manera automática un listado de palabras clave destacadas de inclusión y exclusión, las cuales recomiendo encarecidamente eliminar para elaborar nuestra lista propia, ya que el listado facilitado por Rayyan normalmente no se adecua a los objetivos de nuestra revisión.

Las palabras claves de inclusión aparecerán destacadas en verde y las de exclusión en rojo, facilitando visualmente el cribado. Hay veces en las que la presencia de una palabra determinada en el título de un estudio, por ejemplo «systematic review» es motivo suficiente para su exclusión. El disponer de un listado de palabras de exclusión facilita detectar estos artículos de manera rápida visualmente y por tanto optimizar el tiempo necesario para esta fase de cribado.  Del mismo modo, el disponer de palabras resaltadas en el resumen puede facilitar la localización de la información relevante para decidir si se debe incluir o excluir dicho artículo durante esta fase de cribado, siendo de especial utilidad en la detección de las partes no explícitas de los criterios de inclusión y exclusión.

Pilotaje previo: análisis de concordancia entre revisores

La fase de pilotaje previo es una de las más importantes con respecto al cribado en una revisión sistemática, siendo actualmente recomendada por la Colaboración Cochrane. El objetivo de esta fase es evaluar si los revisores que realizarán el cribado han comprendido adecuadamente los criterios de inclusión y exclusión, antes de proceder al cribado de todos los estudios encontrados con la estrategia de búsqueda.

Si los revisores no tienen claros los criterios de inclusión y exclusión, pueden originarse muchas discrepancias entre ellos, que deberán ser resueltas por un tercer revisor. Sin embargo, aunque podríamos pensar que este es el motivo principal de realizar el pilotaje previo, existe otro motivo aún más importante. Del mismo modo que una falta de comprensión de los criterios puede hacer que un revisor incluya un estudio y otro revisor lo excluya, también puede producir que dos revisores excluyan un artículo que fuera susceptible de haber sido incluido en la revisión. En el primer caso, disponemos de otra fase que es la resolución de conflictos, donde podrá solventarse en parte ese problema. Sin embargo, si dos revisores deciden excluir un artículo que debería haberse incluido, habremos perdido ese estudio en esta fase de cribado y no tendremos forma de saber que hemos errado ni de solucionar el problema posteriormente. Este es el motivo principal por el cual es importante hacer el pilotaje previo, para prevenir que esto suceda.

Cuando realizamos la búsqueda en las distintas bases de datos podemos encontrarnos en dos situaciones distintas, según la cual recomiendo proceder de una u otra forma con respecto al pilotaje previo:

  • Número pequeño de artículos encontrados (suelo usar un punto de corte de < 500 estudios tras eliminar duplicados): No realizar pilotaje previo.
  • Número elevado de artículos encontrados: Pilotaje previo con 200-300 artículos.

Número pequeño de artículos

Cuando el número total de artículos a cribar en la fase de título y resumen no es muy elevado (< 500), se puede optar por no realizar un pilotaje previo. El motivo por el cual recomiendo esto es porque, desde mi punto de vista, el número de artículos que podremos seleccionar para realizar el pilotaje será demasiado pequeño y esto puede dar lugar a resultados extremos en el análisis de concordancia, sin que podamos asegurarnos que dicha concordancia se mantenga en el resto del cribado. Es por ello que, en estos casos, considero más útil realizar el cribado directamente y realizar el análisis de concordancia con el total de artículos incluidos. En caso de que dicho análisis no salga óptimo, se llevaría a cabo una reunión de resolución de dudas con respecto a los criterios de inclusión y exclusión para volver a proceder a cribar todos los artículos nuevamente, antes de pasar a la fase de resolución de conflictos.

Número elevado de artículos

En este caso si considero adecuada la realización del pilotaje. La propuesta que muestro de número de artículos a utilizar es debida a que, según mi conocimiento, ese número de estudios parece ser suficiente para asegurar niveles adecuados de precisión en la estimación de distintos coeficientes de fiabilidad de variables categóricas, como el Kappa de Cohen o el AC1 de Gwet, que son las dos propuestas que recomiendo utilizar.

Lo ideal sería poder realizar un muestreo aleatorio de los estudios a utilizar para realizar el cribado, pero esto por experiencia, requiere de demasiado trabajo. El motivo de llevar a cabo ese muestreo ideal sería obtener una muestra representativa de estudios con respecto al total de estudios que posteriormente se cribarán en la fase de título y resumen. A pesar de que considero esta aleatorización, a nivel práctico no viable, si que podemos tener en cuenta alguna consideración para evitar sesgar el pilotaje en cierta medida. Recomiendo encarecidamente evitar:

  • Seleccionar estudios de una sola base de datos (mínimo 2).
  • Seleccionar solo estudios de una franja temporal (ej. solo estudios antiguos entre 1990 y 2000, cuando nuestra muestra de estudios a cribar para la revisión incluye artículos de 1990 hasta el año 2020).

El primer punto puede no meter muchos sesgos, pero el segundo si es importante evitarlo. Por ejemplo, puede ser que estemos realizando una revisión sobre la efectividad de una intervención que antiguamente no se utilizase, de forma que si en el pilotaje incluimos solo estudios muy antiguos, puede ser que apenas salgan estudios de inclusión, de manera que solo podríamos evaluar si hay buena concordancia con los criterios de exclusión, pero no con los de inclusión, de forma que el pilotaje no sería útil.

El pilotaje deberá realizarse igual que se realizará el cribado posterior, es decir, utilizando la misma aplicación y el mismo listado de palabras clave destacadas (si se deciden usar).

Interpretación del análisis de concordancia

La fase de pilotaje presenta una característica a tener en cuenta para la interpretación de los análisis estadísticos de concordancia, el efecto de la elevada prevalencia de los estudios a excluir. Normalmente, la mayor parte de estudios de una revisión sistemática serán excluidos durante el cribado y este desequilibrio entre los SI y los NO tiene repercusiones en estadísticos como el Kappa de Cohen, pudiendo darse el caso de un alto grado de concordancia entre los examinadores con un valor no tan alto del Kappa de Cohen. Existen dos opciones:

  • Interpretar el valor del Kappa de Cohen junto con los índices de prevalencia y sesgos, así como el Kappa ajustado para la prevalencia y sesgos (PABAK).
  • Utilizar el coeficiente AC1 de Gwet, que es más robusto ante ese efecto de la prevalencia.

En cualquiera de los casos, recomiendo valores superiores a 0.70-0.80 del PABAK o AC1 de Gwet para poder asumir una buena concordancia entre los examinadores. No obstante, también debe evaluarse otro aspecto, el número total de estudios incluidos en el cribado (de acuerdo de inclusión). Por ejemplo, imaginemos un caso de un pilotaje de 200 artículos donde existe un 10% de discrepancias (20 artículos con discrepancias), es decir un porcentaje pequeño, en dos escenarios distintos:

$$Escenario \ 1= \begin{bmatrix} & Incluido & Excluido\\Incluido & 2 & 10 \\Excluido & 10 & 178\end{bmatrix}, \ AC1 = 0.89$$

$$Escenario \ 2= \begin{bmatrix} & Incluido & Excluido\\Incluido & 20 & 10 \\Excluido & 10 & 160\end{bmatrix}, \ AC1 = 0.87$$

En ambos casos simulados hay el mismo porcentaje de discrepancias y tenemos un valor similar del coeficiente AC1 de Gwet, sin embargo, las dos situaciones son muy diferentes en cuanto a interpretación. En el primer caso, solamente hay acuerdo de inclusión en dos estudios. Este numero es especialmente pequeño y en estos casos la decisión que suelo tomar es concluir que no ha habido una concordancia suficiente como para poder proceder con el cribado. En el segundo caso, sin embargo, mi actuación sería proceder con el cribado, asumiendo un porcentaje aceptable de concordancia entre los revisores.

Análisis y aclaración de conflictos

Cuando se realiza la fase de pilotaje existen dos posibles resultados, que concluyamos que hay un acuerdo aceptable entre los revisores o que no. En ambos casos se procederá con el análisis y aclaración de los conflictos, sin embargo, si concluimos que no ha habido un acuerdo adecuado, el siguiente paso sería repetir el pilotaje con una muestra nueva de estudios, mientras que si hemos concluido que el acuerdo era aceptable, entonces se procederá con la fase de cribado de título y resumen.

Durante la fase de análisis y aclaración de conflictos, el investigador principal deberá revisar los artículos en los que han habido las discrepancias a fin de dilucidar los posibles malentendidos con los criterios de inclusión y/o exclusión que han llevado a tales discrepancias. Posteriormente, deberá elaborar un documento word con las aclaraciones pertinentes, pero sin nombrar estudios concretos, es decir, no se puede decir «el estudio X debería haberse incluido por este motivo». Simplemente deberán recogerse las aclaraciones con respecto a los criterios de inclusión/exclusión que el investigador principal consideré pertinentes con respecto a las discrepancias observadas.

Cribado de título y resumen

Durante esta fase, como su propio nombre indica, se cribarán los artículos por título y resumen igual que se hizo en la fase de pilotaje, salvo que aquí se cribarán ya todos los estudios susceptibles de ser incluidos en la revisión sistemática.

La totalidad de esta fase recomiendo realizarla en Rayyan, ya que su realización en Excel incluso con un número pequeño de artículos, requerirá de más tiempo del necesario. Un aspecto que merece la pena ser remarcado con respecto a esta fase del cribado es la primacía de la sensibilidad sobre la especificidad.

Durante esta fase, es recomendable que en caso de duda sobre si incluir o no un determinado estudio, por falta de información, se incluya. Supone un mayor problema excluir un estudio que realmente debería haberse incluido en la revisión, que decidir incluir en la fase de titulo y resumen un estudio que no deba incluirse. En el segundo caso, con el posterior cribado de texto completo, donde disponemos de más información, se podrá discernir si realmente el estudio ha de ser incluido o no, por lo que no sería un problema. Sin embargo, como ya he comentado, si ambos revisores excluyen un artículo que debiera incluirse, no tenemos forma de detectar este suceso ni tomar medidas para remediarlo.

Por último, cabe destacar que en esta fase han de incluirse nuevamente también todos los artículos utilizados para el pilotaje previo, es decir, dichos artículos se cribarán nuevamente a pesar de haberse utilizado para la fase de pilotaje.

Resolución de conflictos

La fase de resolución de conflictos de título y resumen puede realizarse en Rayyan, aunque la aplicación no permite como tal “resolver los conflictos”, pero podemos organizar esta fase de manera manual. Rayyan dispone de un botón de enmascaramiento que podemos apagar, de tal manera que al acceder a la revisión se puedan observar las decisiones de ambos revisores y seleccionar un apartado donde solo se incluyen los artículos con discrepancias.

El primer paso para planificar esta fase es desactivar el botón de enmascaramiento, acceder al apartado de discrepancias y exportar dichos estudios. Después deberemos crear una nueva revisión en Rayyan, donde importaremos solo los estudios con discrepancias, para que el tercer evaluador encargado de resolverlas cribe dichos estudios sin conocimiento de las decisiones de los revisores previos.

Tendremos por tanto dos archivos que exportar en formato .csv, uno de la revisión original con los artículos que ambos revisores decidieron incluir y otro de la revisión creada para resolver las discrepancias con los artículos que el tercer revisor decidió incluir. Estos serán los artículos que se cribarán en la fase posterior de texto completo.

Organización del sistema de criterios de exclusión

A diferencia de la fase de cribado de título y resumen, donde no es necesario reportar los motivos de exclusión de acuerdo a las recomendaciones de la Cochrane, en la fase de cribado a texto completo si es necesario hacerlo. Es por ello que, el primer paso para planificar esta fase será la organización de dichos criterios de exclusión.

Debido a que en esta fase han de reportarse los motivos concretos por los que se excluye cada artículo, esto ha de tenerse también en cuenta a la hora de evaluar posteriormente las discrepancias, ya que puede ser que dos revisores decidan excluir un artículo pero por motivos diferentes, constituyendo eso también una discrepancia entre ambos que deberá ser resuelta. Sin una adecuada organización de los criterios de exclusión, es probable que se produzcan muchas discrepancias innecesarias.

Los estudios pueden presentar más de un criterio de exclusión, sin embargo, con la simple presencia de uno de ellos ya deberán ser excluidos, sin necesidad de reportar todos los que presentaban. Esto hace que el orden en que se evalúan dichos criterios de exclusión importe y es el motivo por el cual es necesario organizar los mismos antes de comenzar el cribado a texto completo.

La forma de proceder que considero más óptima para organizar los criterios de exclusión es seguir el orden en que suele presentarse la información en un estudio de investigación, es decir, empezar por los criterios de exclusión sobre el diseño del estudio y terminar por aquellos que tengan que ver con las variables resultado o las intervenciones. El orden en que suele presentarse la información en una investigación en términos generales (siempre hay excepciones) sería:

  1. Diseño del estudio.
  2. Sujetos.
  3. Tamaño muestral.
  4. Intervenciones.
  5. Variables resultado.
  6. Análisis estadístico.

Además del orden, debemos simplificar los criterios de exclusión para la elaboración de dicho listado, de manera que queden redactados tal cual aparecerán posteriormente en el diagrama de flujo de la publicación definitiva. Un ejemplo podría ser el siguiente:

  1. Diseño de estudio inadecuado.
  2. Sujetos con otras patologías.
  3. Tamaño muestral inferior a 60 sujetos.
  4. Ausencia de un grupo con ejercicio terapéutico.
  5. Ausencia de medidas de resultado de discapacidad.

De este modo, primero iremos al apartado de diseño del estudio y si está presente dicho criterio de exclusión, excluiríamos el artículo sin leer el resto del manuscrito, optimizando el tiempo de cribado. Si ambos revisores proceden con el mismo listado, no debería haber discrepancias entre ellos derivadas del orden de evaluación de los criterios de exclusión.

Cribado de texto completo

Esta sería la última fase (incluyendo la resolución de conflictos de texto completo) de la fase de cribado de una revisión sistemática. A diferencia del cribado de título y resumen, en el que Rayyan puede facilitarnos la tarea, el cribado de texto completo personalmente recomiendo realizarlo mediante Microsoft Excel, ya que creo se optimiza más el tiempo.

El primer paso a realizar en la planificación del cribado a texto completo es organizar los resultados obtenidos del cribado de título y resumen. Mediante Rayyan deberemos exportar dos documentos .csv (valores separados por comas), uno que incluirá los artículos incluidos por ambos revisores y otro que incluirá los artículos incluidos por el tercer revisor en la fase de resolución de discrepancias. Estos dos archivos .csv deberemos unificarlos en uno solo. Una vez exportados los artículos, debemos convertir el archivo .csv al formato de Microsoft Excel. Visualmente, los datos exportados de los artículos incluidos en formato .csv quedarían como:

 

Como puede apreciarse, todos los datos están guardados en una misma celda, separándose con comas cada apartado de los datos (número Rayyan, título, año de publicación…). Para convertir los datos a formato Excel y que cada columna se corresponda con un apartado se debe proceder de la siguiente manera:

  1. Seleccionar la primera columna.
  2. Ir a la sección «Datos».
  3. Abrir la herramienta «Texto en columnas».
  4. Seleccionar el tipo de archivo «Delimitados».
  5. Seleccionar el separador «Coma».
  6. Seleccionar el formato de datos «General».
  7. Clicar en «Finalizar» y cuando nos pregunte «Aquí hay datos. ¿Desea reemplazarlos?» clicar en «Aceptar».

De este modo ya dispondremos de los datos de los artículos incluidos separados por columnas. Antes de proseguir con la modificación del Excel, deberán encontrarse los documentos a texto completo de todos los estudios incluidos. Mi recomendación a la hora de guardar dichos archivos, es adjudicarles nombre con la siguiente estructura, «Año de publicación. Título del estudio», por ejemplo, «2009. Motion of the Shoulder Complex During Multiplanar Humeral Elevation». El motivo de nombrar así los documentos es simplemente para facilitar su localización mientras se realiza el cribado en el Excel. Si se orden los documentos alfabéticamente en la carpeta donde los guardemos y se hace lo mismo con las filas en Excel, será mucho más fácil encontrar el PDF asociado a cada artículo a cribar en el Excel.

Los únicos datos que serán necesarios en el Excel (el archivo .csv deberá guardarse finalmente como .xlsx que es el formato de Excel) que se utilizará para el cribado de texto completo son por tanto el año de publicación y el título, el resto de columnas deberán ser eliminadas para facilitar la funcionalidad del Excel. Personalmente recomiendo dejar la primera columna con los años de publicación y la segunda con el título de los estudios, es decir, intercambiar el orden en que aparecen al exportar los datos desde Rayyan.

El siguiente paso es construir el sistema de cribado en Excel mediante la elaboración de listas de datos. Primero debemos crear una nueva hoja en nuestro documento de Excel, donde se encontrarán las distintas opciones de nuestras listas. Mi recomendación es crear dos listas, una para la decisión de incluir o no el estudio y otra con los motivos de exclusión:

El motivo de crear estas listas escritas es porque, cuando creemos las listas desplegables a utilizar para el cribado a texto completo, debemos especificar de que celdas debe coger el desplegable las opciones a enseñar. Estas listas desplegables se crean de la siguiente manera:

  1. Seleccionar todas las celdas en las que vayamos a querer insertar el desplegable.
  2. En la sección «Datos», seleccionar la herramienta de «Validación de datos», justo a la derecha de «Texto en columnas».
  3. En «Criterio de validación» seleccionar «Lista» en la sección de «Permitir».
  4. En esa misma página, seleccionar en la sección «Origen» las celdas donde hemos creado nuestras opciones para dicha lista.
  5. Clicar en «Aceptar».

Una vez realizados estos pasos, ya dispondremos de celdas con un listado desplegable de opciones, facilitando la tarea a los revisores que se encarguen de realizar la fase de cribado a texto completo.

Con todo ello, ya estaría finalizado el Excel para realizar la fase de cribado de texto completo. Para proceder con esta fase, cada revisor cribará los estudios en un Excel independiente. Una vez finalizado el cribado, el investigador principal deberá detectar las discrepancias entre ambos revisores, para lo cual recomiendo unificar las columnas de «Decisiones» de ambos revisores en un mismo Excel. Los estudios en los cuales haya discrepancias deberán enviarse en un nuevo Excel, sin contener ninguna información sobre las decisiones de los revisores previos, a un tercer revisor que será el encargado de resolver las mismas, finalizando de este modo la fase de cribado de la revisión sistemática.

Conclusiones

La fase de cribado es una de las más importantes de una revisión sistemática. Esta fase requiere tener en cuenta algunos aspectos metodológicos importantes para mejorar la calidad de la misma (destacando las partes no explícitas de los criterios de inclusión y exclusión, así como el pilotaje previo) y para optimizar su tiempo de realización (destacando el uso de distintas aplicaciones). Las recomendaciones aquí mencionadas recogen mi forma de trabajar a la hora de planificar y realizar una revisión sistemática, aunque existen otras opciones para ello. Personalmente, animo encarecidamente a todo aquel/aquella que vaya a realizar una revisión sistemática, a estudiar antes detenidamente las consideraciones metodológicas de este tipo de estudios.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Fiabilidad Modelo Lineal General Temas Avanzados

El mal uso de la MDD en la interpretación de diferencias medias

Interpretación de medias: El mal uso de la Mínima Diferencia Detectable

En esta entrada profundizo en la estadística subyacente a la utilización de la mínima diferencia detectable (MDD) en la interpretación de diferencias medias, que actualmente se sigue haciendo en diversas publicaciones del campo de la Fisioterapia. A lo largo de la entrada, explicaré los motivos por los cuales pienso esta práctica está equivocada y puede llevarnos a fallos cruciales de interpretación de los resultados de una investigación. 

Nota: En esta entrada se utilizan conceptos avanzados de estadística aplicada y puede que, sin una base previa, resulte más complicada su comprensión. No se abordarán múltiples aspectos básicos para no extender demasiado el contenido de la misma, dándose por hecho que el lector presenta esa base de conocimiento.

La mínima diferencia detectable (MDD) es un estadístico comúnmente reportado en los análisis de fiabilidad con variables continuas. Este estadístico constituye un limite de un intervalo de confianza (IC), normalmente del intervalo al 90% o 95% de confianza (utilizaré este último para todas las explicaciones y simulaciones a lo largo de la entrada). Su interpretación simplista sería la siguiente.

Imaginemos que tenemos un sujeto al que hemos medido la fuerza isométrica máxima de rotación externa de hombro, con un dinamómetro manual. En la primera medición antes de comenzar el tratamiento, el sujeto muestra una fuerza de 130N, mientras que en la segunda medición tras la aplicación del tratamiento, el sujeto muestra un valor de fuerza de 135N. Sabemos que la fiabilidad del dinamómetro no es perfecta, es decir, que al utilizar este instrumento dentro del procedimiento empleado, cometemos errores en la medición. Entonces, ¿Cómo podríamos saber si la diferencia observada en el post-tratamiento no se ha debido a un error de medición? Aquí es donde entra en juego el concepto de MDD.

La mínima diferencia detectable al 95% de confianza (MDD95%), es un valor que, partiendo de que se cumplen distintas asunciones y que lo único que ha influido en la diferencia observada es el error de medición (es decir, que no hay ningún otro factor, ni la intervención, que hayan influido), por encima del mismo solo se encontrarían un 5% de las posibles diferencias absolutas obtenibles debidas al error de medición. De forma que se asume que, si obtenemos una diferencia superior a dicho valor, como es «poco plausible» obtener esa diferencia bajo la hipótesis de que dicha diferencia se haya obtenido solo por un error de medición, entonces rechazamos dicha hipótesis.*

*Nota: Debemos tomar está definición como muy simplista y «con pinzas», ya que realmente no es tan sencilla su interpretación en términos de probabilidad, pero no entraré en ese detalle en esta entrada, pues no es su propósito.

En términos más formales, si medimos a un sujeto infinitas veces y asumimos que lo único que influye en las diferencias observadas entre las distintas mediciones es el error proveniente del procedimiento de medición empleado y calculamos diferencias de parejas de mediciones de manera aleatoria, el intervalo de confianza al 95% de esa distribución de datos (de esas diferencias entre dos mediciones seleccionadas de manera aleatoria), es decir, más o menos los valores que se alejan 1.96 desviaciones estándar (DEd) asumiendo algunas cosas, eso sería el valor de la MDD95%. La fórmula que suele utilizarse para el cálculo de la MDD95% es la siguiente:

$$MDD95\% = 1.96*DE_d = 1.96*EEM*\sqrt 2$$

En esta fórmula el EEM es el error estándar de la media, que es una estimación de la desviación estándar resultante de medir a un sujeto infinitas veces influyendo solo el error de medición. Como en la MDD95% tenemos dos mediciones y no solo una, se multiplica el EEM por la raíz cuadrada de dos, debido a que:

$$EEM = \frac{DE_d}{\sqrt 2}$$

$$DE_d = EEM*\sqrt 2$$

Después de esta introducción, vamos a focalizarnos en el tema concreto de esta entrada. Como he comentado, la MDD95%es un estadístico orientado a interpretar la diferencia entre dos mediciones realizadas a un mismo sujeto. Sin embargo, la MDD95% se utiliza a veces también para interpretar diferencias de medias muestrales y para cálculos de tamaño muestral, dos procedimientos a mi parecer erróneos por los motivos que expondré a continuación.

Mínima diferencia detectable en la interpretación de diferencias medias

Mostraré primero las consecuencias de utilizar la MDD95% en la interpretación de la diferencia media entre dos grupos. Voy a simular un estudio en el que queremos comparar la fuerza isométrica máxima de rotación externa de hombro, medida con dinamometría, entre sujetos con y sin tendinopatía del manguito rotador. Asumiremos los siguientes valores poblacionales reales y los siguientes valores de error de medición (mismo error de medición en ambas poblaciones):

$$Tendinopatía = \{\mu_t = 140, \sigma_t = 10\}$$

$$Sanos = \{\mu_s = 145, \sigma_s = 10\}$$

$$Error \ de \ medicion = \{EEM = 3.61, MDC95\% = 10\}$$

Partiendo de estos datos, si asumimos un umbral crítico de significación de p < .05, necesitaríamos 64 sujetos de cada grupo para conseguir una potencia estadística del 80%, asumiendo que no se cometen errores en el proceso de medición. Si asumimos el error de medición mencionado anteriormente la potencia disminuye y si, además de eso, utilizamos el punto de corte de la MDD95% para decidir cuando hay diferencias entre los grupos y cuando no, la potencia disminuye aun más, quedando las tres definidas para esa misma muestra como:

  • Sin error de medición: 80%.
  • Con error de medición: 75%.
  • Con error de medición + MDC95%: 0.40% (aproximada). *Esta potencia se ha calculado asumiendo que hay diferencias reales si y solo si el resultado obtenido es estadísticamente significativo y además, superior a 10N, el valor de la MDC95%.

Como puede apreciarse, al utilizar la MDD95% como punto de corte para decidir si «hay diferencias reales o no» entre estas dos poblaciones, la potencia estadística disminuye notoriamente. Además, debemos tener en cuenta otro factor, una paradoja que se da debido a la relación entre el tamaño muestral y la distribución de las diferencias medias.

Según incrementamos el tamaño muestral, la estimación de la diferencia media es más precisa, es decir, los valores de diferencias medias observados se aproximarán cada vez más al valor real, en este caso de 5N. No obstante, aunque se incremente el tamaño muestral, el valor de la MDD95% no varía, es fijo. Por tanto, aunque de manera habitual incrementar el tamaño muestral incrementa la potencia, en este caso sucede lo contrario. Al aproximarse cada vez más los valores a 5N, habrá menos cantidad de muestras en las que la diferencia observada sea superior a 10, de manera que la potencia disminuye. Por ejemplo, para los siguientes tamaños muestrales, la potencia aproximada sería:

  • 75 sujetos por grupo = 0.25%
  • 80 sujetos por grupo = 0.18%
  • 90 sujetos por grupo = 0.07%
  • 100 sujetos por grupo = 0.04%

Es decir, no podríamos mejorar la potencia estadística incrementando el tamaño muestral, si no que tendríamos que disminuirlo, algo que carece de sentido. Este efecto dependerá del efecto real bajo estudio (la diferencia de medias real) y la fiabilidad del procedimiento de medición. A medida que la fiabilidad se aproxime a una fiabilidad perfecta (es decir, la MDD95% tienda a cero), el efecto negativo de usar la MDD95% será menor. Sin embargo, puede observarse como en casos como el presente, con una fiabilidad muy buena con un EEM de tan solo 3.61, el efecto del uso de la MDD95% es devastador.

Mínima diferencia detectable en el cálculo del tamaño muestral

Otra práctica que he podido observar algunas veces en la investigación en Fisioterapia, es la utilización de la MDD95% para los cálculos de tamaño muestral, donde se produce también otra situación paradójica similar a la descrita anteriormente.

Como ya he comentado, según incrementa el error de medición disminuye la potencia estadística, por ejemplo para el caso anterior con 64 sujetos por grupo, la potencia estimada para los siguientes errores estándar de la media sería:

  • EEM de 5 = 71%.
  • EEM de 7 = 63%.
  • EEM de 10 = 51%.
  • EEM de 15 = 34%.

Esto hace que, según aumente el error de medición, debamos incrementar el tamaño muestral si queremos mantener una potencia estadística deseada (por ejemplo, del 80%). Asumiendo los valores anteriores de EEM, la muestra necesaria para alcanzar un 80% de potencia sería:

  • EEM de 0 = 64 sujetos por grupo.
  • EEM de 5 = 80 sujetos por grupo.
  • EEM de 7 = 95 sujetos por grupo.
  • EEM de 10 = 127 sujetos por grupo.
  • EEM de 15 = 205 sujetos por grupo.

Ahora procedamos como he visto hacer a algún/a investigador/a de nuestro campo, utilizando el valor de la MDD95% como la diferencia de medias real estimada a detectar en nuestro estudio. Vamos a asumir que la dispersión de la diferencia está fija en 10 (aunque luego explicaré que esto no es así), de manera que para distintos valores de MDD95% usados como estimadores de la «diferencia de medias real», el tamaño muestral para un 80% de potencia sería:

  • MDD95% de 3 = 176 sujetos por grupo.
  • MDD95% de 5 = 64 sujetos por grupo.
  • MDD95% de 7 = 33 sujetos por grupo.
  • MDD 95% de 10 = 17 sujetos por grupo.

Es decir, según incrementamos la diferencia de medias real estimada, el número de sujetos necesario para alcanzar un 80% de potencia (manteniendo el resto constante) disminuye. Es aquí donde se da la paradoja. Al inicio he comentado que, a menor fiabilidad hay más variabilidad de error y por tanto, la potencia estadística disminuye y necesitamos más muestra para alcanzar la potencia deseada. A menor fiabilidad, mayor es el valor de la MDD95%. Por tanto, ¿Cómo vamos a usar la MDD95% para calcular el tamaño muestral si su utilización disminuye aún más la muestra necesaria calculada? En efecto, carece de sentido. En los últimos cálculos asumí que la dispersión de las diferencias estaba fijada en 10, sin embargo, esto no es realista, ya que según disminuye la fiabilidad dicha dispersión aumenta.

Asumiendo una dispersión real (sin errores de medición) de 10 en cada muestra, con una diferencia de medias real de 5N y un tamaño muestral de 64 sujetos por grupo, teníamos un 80% de potencia. Ahora mostraré que sucede en la potencia real estimada de un estudio, cuando se incrementa el error de medición (EEM) y se utiliza además para el cálculo del tamaño muestral la MDD95% asociada a ese error de medición:

$$\begin{array} {| ccc |} \hline EEM & Potencia \ real & Muestra \ 80\% & MDD95\% & Muestra \ MDD95\% & Potencia \ real \ MDD95\% \\ \hline 2.53 & 78\% & 68 & 7 & 33 & 49\% \\ \hline 3.61 & 75\% & 72 & 10 & 17 & 26\% \\ \hline 4.33 & 73\% & 76 & 12 & 12 & 19\% \\ \hline \end{array}$$

Como puede apreciarse, el uso de la MDD95% para estimar el tamaño muestral se traduce en una mayor y considerable pérdida de potencia estadística real de nuestro estudio, al disminuir el tamaño muestral cuando en realidad, al haber menos fiabilidad, deberíamos incrementarlo tal y como se muestra en la tercera columna. 

Mínima diferencia media detectable

Como he comentado anteriormente, el uso de la MDD95% está orientado a diferencias entre dos mediciones realizadas a un mismo individuo, es decir, es un estadístico orientado a individuos y no a muestras.

Una pregunta que podríamos hacernos es, si podemos calcular la MDD95% para diferencias individuales, ¿podemos también calcularla para diferencias medias? La respuesta es sí, a este valor le llamaré mínima diferencia media detectable al 95% de confianza (MDMD95%). Ahora supongo que, a lo mejor, te estas planeando la siguiente pregunta obvia, ¿podemos usar la MDMD95% para interpretar diferencias medias? Y la respuesta quizás no te resulte tan obvia y no te guste tanto: no.

Si retomamos las fórmulas anteriores:

$$DE_d = EEM*\sqrt 2$$

$$MDD95\% = EEM*\sqrt 2*1.96 = DE_d*1.96$$

La DEd es la desviación estándar de las diferencias individuales entre las dos muestras. Sin embargo, nosotros estamos interesados en la dispersión de la media, no de los valores individuales, de modo que tenemos que usar un estadístico que recoja dicha dispersión de la media, que es el error estándar de la media:

$$EE_{media} = \frac{DE_d}{\sqrt n}$$

Con este error estándar, podemos reescribir la fórmula de la MDD95% para obtener la fórmula de la MDMD95%:

$$MDMD95\% = \frac{MDD95\%}{\sqrt n} = \frac{EEM*\sqrt 2*1.96}{\sqrt n}$$

Siendo n igual al tamaño muestral total entre dos (asumiendo que ambos grupos tienen el mismo tamaño muestral). De este modo, la MDMD95%, a diferencia de la MDD95%, si varía en función del tamaño de la muestra, a mayor tamaño muestral empleado, menor MDMD95%.

Sin embargo, no tiene sentido utilizar la MDMD95% para interpretar diferencias medias, ya que no aporta información útil si ya usamos el punto de corte del umbral crítico de significación (p < .05). La explicación a este fenómeno recae en las varianzas involucradas en sus respectivos cálculos.

Cuando calculamos la MDMD95% solamente estamos teniendo en cuenta el error atribuible a la ausencia de fiabilidad perfecta del procedimiento de medición, es decir, si tenemos dos muestras a comparar, entonces:

$$\sigma^2_{sanos} = \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{error_{tendinopatia}}$$

$$MDMD95\% = \frac{\sqrt {\sigma^2_{error_{sanos}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Sin embargo, si pensamos ahora en un experimento real, cuando calculamos un valor-p o un intervalo de confianza para una diferencia media entre dos muestras, ahí ya no solo tenemos el error de medición, sino que también tenemos otro error, el proveniente de la variabilidad real de dicha variable en cada una de las muestras (es decir, que los sujetos son distintos entre sí no solo por errores de medición, sino porque efectivamente tienen distinta fuerza), que arriba se ignora en los cálculos:

$$\sigma^2_{sanos} = \sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}$$

Con estos datos podemos calcular el intervalo de confianza asociado a una diferencia media entre dos grupos de igual tamaño muestral (no es exactamente la misma que para una t-Student pero sirve igual para ejemplificar este punto de la entrada):

$$IC95\%= \bar x_{dif} \pm \frac{\sqrt {\sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}} + \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Como se aprecia, en el segundo caso hay más variabilidad, más error en el cálculo. Esto produce la siguiente situación y es que, si una diferencia media es estadísticamente significativa al evaluarla con una prueba t-Student (fórmula similar a la última), entonces dicha diferencia media estará siempre por encima del valor de la MDMD95%, es decir, es imposible obtener una diferencia de medias estadísticamente significativa que sea inferior a la MDMD95% y es por ello que, como comenté al inicio de este apartado, la MDMD95% no aporta más información útil para interpretar la diferencia de medias y por tanto, carece de sentido su utilización.

En la figura anterior se reflejan 100 estudios simulados, con 30 sujetos por grupo en cada uno, asumiendo una diferencia media real de 5N, con una desviación estándar en cada grupo de 10 y un EEM de 3.61. En el gráfico se muestra la diferencia media de cada simulación con su respectivo intervalo de confianza al 95% basado en una prueba t-Student. La línea horizontal morada continua marca el cero, de modo que las simulaciones cuyo limite inferior del intervalo de confianza (color tomate) no sobrepasa el cero, son significativas para p < .05. La línea horizontal azul entrecortada marca el valor de la MDMD95% para ese EEM y ese tamaño muestral, que es de 1.83. Como puede apreciarse, ninguno de los resultados significativos (color tomate) presenta una diferencia media por debajo de la MDMD95%, ejemplificando lo comentado anteriormente acerca de que la MDMD95% no aporta información útil adicional.

Conclusiones

La mínima diferencia detectable es un estadístico orientado a interpretar diferencias individuales, pero no muestrales. La utilización de este valor para interpretar diferencias de medias muestrales y/o realizar cálculos de tamaño muestral tiene consecuencias nefastas en la potencia estadística y la adecuada interpretación de los resultados de una investigación. Por su parte, la mínima diferencia media detectable, tampoco debería utilizarse para interpretar las diferencias medias de una investigación, ya que no aporta más información útil que la aportada por el intervalo de confianza calculado para dicha diferencia media.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Fiabilidad Temas Avanzados

Fiabilidad de Diferencias (I)

Fiabilidad: Diferencia entre dos mediciones (I)

En esta entrada se ofrece una breve explicación de un factor a tener en cuenta con respecto a la fiabilidad de las mediciones y de su diferencia. Es un punto importante para la planificación, análisis e interpretación especialmente de los ensayos clínicos aleatorizados.

Existen situaciones en investigación en las cuales se mide una misma variable múltiples veces a lo largo del tiempo. En estos casos, una opción de análisis que suele realizarse, es calcular las diferencias entre los pares de mediciones y utilizar esta nueva variable calculada para los análisis estadísticos. Sin embargo, no siempre quienes toman tales decisiones son conscientes de algunas de las implicaciones de las mismas para con respecto a tu investigación. A continuación explico un aspecto (pero no el único) a tener en cuenta en estos casos, en relación con el campo de la fiabilidad.

Vamos a partir de la asunción de que queremos realizar un ensayo clínico aleatorizado (ECA), donde comparamos dos tratamientos (ejercicio de fuerza y ejercicio aeróbico) en sujetos «hombro congelado», para la mejoría del rango de movimiento de rotación externa, con tan solo dos mediciones, una basal antes del tratamiento (B) y otra al finalizar el programa de tratamiento a los 3 meses (P). Decidimos calcular la diferencia entre dichas dos mediciones (P – B) y utilizar esa nueva variable para comparar los tratamientos y evaluar si alguno es más efectivo.

Antes de comenzar, es necesario recordar la definición matemática de la fiabilidad (ρ) relativa, que sería igual a la división de la variabilidad real (σ2r) entre la variabilidad real más la variabilidad del error de medición (σ2e), es decir, entre la variabilidad total (σ2t):

$$\rho= \frac{\sigma^2_r}{\sigma^2_r + \sigma^2_e}$$

Partiré de esta fórmula para desarrollar toda la explicación. Vamos a sumir que existe independencia entre los errores de medición, es decir, que no existe una correlación entre el error de medición cometido en la situación basal y el cometido a los 3 meses para un determinado sujeto dado, así como que no hay una correlación entre el error de medición cometido y el valor real del sujeto, es decir, que estamos ante un caso de homocedasticidad. Finalmente, también asumiremos que la correlación existente entre la medición basal (B) y la post-tratamiento (P) es positiva (Walters 2019).

Asumiendo todo esto, podemos definir la varianza de las cada una de las dos variables (B y P) con su respectivo error de medición (e) como:

$$\sigma^2_B = \sigma^2_{rb} + \sigma^2_{eb}$$

$$\sigma^2_P = \sigma^2_{rp} + \sigma^2_{ep}$$

Ahora retomaremos las propiedades de la varianza, en concreto la tercera, con la que podemos estimar la variabilidad real de la diferencia entre P y B, excluyendo los términos de error de medición:

$$\sigma^2_{r(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)$$

Mientras que, en función de las asunciones de arriba de independencia de errores y homocedasticidad, la variabilidad total de P menos B quedaría definida como:

$$\sigma^2_{t(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}$$

El término importante de dichas fórmulas es la covarianza, el -2Cov(P,B). Cuando dos variables no presentan correlación (r = 0), el valor de la covariable es cero, mientras que cuando estamos en un caso de correlación positiva perfecta (r = 1), el valor de la covarianza es máximo. Si retomamos la fórmula de fiabilidad, podemos expresar la fiabilidad de la diferencia P-B como:

$$\rho_{p-b} = \frac{\sigma^2_{r(p-b)}}{\sigma^2_{r(p-b)} + \sigma^2_{e(p-b)}} = \frac{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)}{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}}$$

Como se puede apreciar, según incremente la correlación entre P y B, la covarianza se incrementará también y por tanto, el componente del numerador, que es la variabilidad real, disminuirá, produciendo por tanto una disminución en la fiabilidad de la diferencia P-B en comparación a las fiabilidades individuales de la medición basal (B) y post-tratamiento (P). Este hecho puede apreciarse más fácilmente si observamos la fórmula estimada para la fiabilidad de las diferencias en función de la fiabilidad de cada medición y la correlación entre ellas, que quedaría definida como (Chiou 1996):

$$\rho_{p-b} = \frac{\sigma^2_b\rho_b + \sigma^2_p\rho_p – 2r_{bp}\sigma_b\sigma_p}{\sigma^2_b + \sigma^2_p – 2r_{bp}\sigma_b\sigma_p}$$

Realizaré una asunción más para simplificar esta fórmula. Asumiendo que las varianzas de la medición basal y la post-tratamiento son iguales, entonces:

$$\rho_{p-b} = \frac{\rho_b + \rho_p – 2r_{bp}}{2(1-r_{bp})}$$

En esta última fórmula se puede apreciar mejor como cuando aumenta la correlación entre B y P (rbp), disminuye la fiabilidad de la diferencia.

Conclusiones

Estos aspectos de cambios en la fiabilidad en las diferencias con respecto a las mediciones deben tenerse en consideración a la hora de decidir que análisis utilizar en una investigación, existiendo otras opciones como el Análisis de la Covarianza (ANCOVA) o la regresión lineal múltiple que pueden ser más adecuadas. Sin embargo, los ejemplos aquí mostrados se basan en que se dan una serie de asunciones, que no siempre tienen porqué darse y que pueden alterar las conclusiones aquí extraídas de pérdida de fiabilidad, pudiendo darse situaciones donde el uso de las diferencias no esté tan desaconsejado. Mi posición al respecto, con respecto al campo de los ensayos clínicos aleatorizados en Fisioterapia, es que se prime la utilización de ANCOVA y/o regresión lineal múltiple por encima de las diferencias y análisis como el Análisis de la Varianza (ANOVA). En caso de que se decidiera usar estas diferencias, debería valorarse y tenerse en cuenta la posible pérdida de fiabilidad a la hora de realizar los cálculos de tamaño muestral.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …