Categorías
Temas Básicos

Minima Diferencia Clinicamente Relevante

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I)

En esta entrada se proporciona una breve explicación de la limitada, incluso ausencia, de utilidad de los valores conocidos como Mínima Diferencia Clínicamente Relevante (o Importante) para discernir si un paciente mejora en la práctica clínica o interpretar los resultados de una investigación.

Uno de los retos a los que se enfrentan tanto clínicos como investigadores es dar respuesta a siguiente pregunta: ¿Son mis hallazgos relevantes? Tanto si se está tratando a un paciente y se observa una mejoría en una variable (ej. intensidad del dolor, grado de discapacidad…), como si se está realizando un ensayo clínico aleatorizado y se encuentra una mejoría estadísticamente significativa de un tratamiento con respecto a otro, debemos decidir si esas diferencias son o no relevantes y merecen ser tenidas en consideración. Por ejemplo, puede ser que existan diferencias medias entre dos tratamientos para un problema musculoesquelético concreto, pero que sean tan pequeñas (ej., 0.3 cm en una EVA), que no sirvan para guiarnos en la práctica clínica con respecto a que intervención es mejor aplicar, y por tanto no podamos concluir que una intervención parece ser mejor que la otra.

Una de las propuestas que se han hecho desde hace décadas para dar respuesta a esta pregunta es la Mínima Diferencia Clínicamente Relevante (MDCR). De manera simplificada, este concepto viene a definir un punto de corte en una variable concreta, por encima del cual se considera que la mejoría de un paciente o diferencia de medias entre dos tratamientos es relevante y debe ser tenida en consideración en nuestra práctica clínica. Existen varias propuestas estadísticas para realizar su cálculo, que no son el objetivo de esta entrada, motivo por el cual no serán abordadas.

De estos métodos propuestos, el más utilizado dentro del campo de ciencias de la salud es el denominado método de anclaje (anchor-based). Este método, de manera simplificada, consiste en relacionar la mejoría observada de cada sujeto de un estudio de investigación, con otra variable que se considera «gold standard», el cual asumimos que nos informa de manera más directa de la relevancia clínica del hallazgo en cuestión en dicha variable resultado. Dentro de estos «gold standard», el más utilizado en ciencias de la salud es la Percepción de Mejoría del Paciente, que puede medirse con distintas herramientas basadas en preguntar al paciente cuanto percibe que ha mejorado/empeorado y que, finalmente, acaban dividiendo a los sujetos en dos grupos: aquellos que refieren una percepción de mejoría y aquellos que no. En función de esta clasificación en dos grupos, se calcula un punto de corte que «optimiza» la predicción de la mejoría por parte del paciente en función de la variable resultado que nos interesa (ej. EVA para intensidad del dolor). Ese punto de corte es lo que se conoce como MDCR.

Sin embargo, existe un problema, ya que nunca se consigue una predicción perfecta de esa percepción de mejoría por parte del paciente. Es decir, habrá personas que tengan una mejoría por debajo de dicho punto de corte y, sin embargo, refieran encontrarse mucho mejor y al revés, personas que reporten una mejoría por encima de dicho punto de corte pero que no perciban encontrarse mejor. Esta ausencia de relación perfecta entre ambas variables, de capacidad de discriminación perfecta de los sujetos que perciben encontrarse mejor y aquellos que no, es lo que hace que la MDCR calculada según los pasos mencionados carezca de utilidad alguna, tanto en la práctica clínica como en investigación.

Sin embargo, no debemos preocuparnos porque dicho valor, la MDCR, sea totalmente inútil para su propósito, ya que disponemos de una solución más adecuada, sencilla y rápida, que hemos tenido siempre al alcance de nuestra mano. La pregunta que queríamos responder sería, ¿mis pacientes perciben esta mejoría como relevante? y las opciones de dar respuesta para los clínicos y los investigadores serían:

  • Clínicos: Si queréis conocer la percepción de mejoría del paciente que estáis tratando, solo tenéis que preguntarle.
  • Investigadores: Si queréis evaluar si la mejoría con un tratamiento se percibe como mejor por parte de los pacientes en comparación a la mejoría obtenida con otro tratamiento, podéis medir directamente en vuestras investigaciones la Percepción de Mejoría del Paciente con cualquiera de las escalas ordinales disponibles.

Conclusiones

El concepto de MDCR utilizando métodos de anclaje con un «gold standard« de percepción de mejoría del paciente carece de utilidad, tanto en la práctica clínica como en investigación. No existe necesidad de «predecir» algo que podemos medir de manera directa siempre.

 

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Calculadora Tamaño Muestral

Calculadora Muestral – Ensayo Aleatorizado

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova - precisión)

En esta entrada se recoge una breve guía práctica de recomendaciones para calcular el tamaño muestral mínimo necesario para un ensayo clínico aleatorizado, en función de la precisión deseada de una diferencia de medias ajustada para la medición basal.

En esta página se presenta una aplicación Shiny que he creado para calcular el tamaño muestral mínimo necesario para un ensayo clínico aleatorizado (ECA), en función de la precisión deseada de una diferencia de medias ajustada de un Análisis de la Covarianza (ANCOVA). El motivo de que se presente para este tipo de análisis es debido a los siguientes motivos:

  1. Las interacciones tiempo-por-grupo tienen una peor interpretación clínica para guiar los cálculos.
  2. La potencia para detectar una diferencia de medias es menor que para detectar una interacción tiempo-por-grupo.
  3. El ajuste de la medición basal mediante un ANCOVA mejora la precisión en la estimación de la diferencia entre-grupos.

La aplicación se basa en la función ‘ss.aipe.c.ancova’ del paquete de R ‘MBESS’ creado por Ken Kelley, que se basa en la amplitud deseada del intervalo de confianza con una potencia estadística deseada.

Material de Información


Paquete R ‘MBESS’: MBESS: The MBESS R Package version 4.9.2 from CRAN (rdrr.io)

Función ‘ss.aipe.c.ancova’: ss.aipe.c.ancova in MBESS: The MBESS R Package (rdrr.io)

Artículo: Lai & Kelley (2011). Accuracy in parameter estimation for ANCOVA and ANOVA contrasts: Sample size planning via narrow confidence intervals.


Guía resumen para el cálculo

La precisión de una diferencia de medias entre-grupos ajustada para la medición basal, mediante un análisis tipo ACOVA (o lo que es lo mismo, una regresión lineal), se ve incrementada en una magnitud de √1−𝜌2 en un ensayo aleatorizado, siendo 𝜌 la correlación entre la medición basal y la post-tratamiento.(Borm et al., 2007) Es por ello que el cálculo planteado se realiza en base a dicha diferencia de medias ajustadas, en lugar de a una diferencia de medias post-tratamiento sin ajustar.

El primer parámetro a tener en consideración es la desviación estándar de la variable resultado de interés. A menor desviación estándar, mayor precisión, de modo que debemos procurar no infraestimar este parámetro a la hora de realizar los cálculos, para no obtener una muestra más pequeña de lo necesario. La recomendación es revisar la literatura previa publicada con tratamientos, momentos de seguimiento y variables resultado similares para estimar un valor plausible. Los estudios con poca muestra tienden a infraestimar el valor de la desviación estándar. Existen dos propuestas para corregir dicha infraestimación, cuya implementación puede ser recomendable incluso aunque se extraigan los datos de desviación estándar de ensayos aleatorizados y no de estudios piloto.(Whitehead et al., 2015)

El segundo parámetro a especificar es la correlación (𝜌) entre la medición basal y la post-tratamiento. A mayor correlación, mayor precisión y por lo tanto menor muestra necesaria. Debemos procurar no sobre-estimar el valor de la correlación para evitar obtener muestras demasiado pequeñas. Según se incrementa la distancia temporal entre la medición basal y la post-tratamiento, el valor de dicha correlación tiende a disminuir. En el artículo de Walters et al. del año 2019 se ofrece una revisión detallada sobre los valores plausibles de correlación para variables resultado auto-reportadas por el paciente. Una recomendación conservadora y plausible es usar un valor de 𝜌 = 0.50, para seguimientos iguales o inferiores a 2 años, y de 𝜌 = 0.40 para seguimientos superiores a 2 años. No obstante, este valor puede ser contrastado y definido en base a literatura previa publicada con una metodología similar al ensayo clínico a realizar.

El tercer parámetro a especificar es el valor del MoE deseado, que sería la mitad de la amplitud del intervalo de confianza. Este valor es el más complejo de especificar, ya que es difícil saber cual es margen aceptable de precisión, pues esto depende de múltiples factores contextuales, pudiendo variar mucho de una población a otra, o según el tipo de tratamiento implementado. A mayor MoE menor muestra necesaria, ya que disminuimos la precisión que esperamos obtener, de forma que debemos procurar no sobre-estimar el valor de MoE deseado. No se pueden dar recomendaciones de un valor mínimo de MoE adecuado, pero si algunas recomendaciones de como no especificar dicho MoE. La pregunta que debemos hacernos para establecer el MoE sería: ¿Cambiarían las conclusiones que sacaría de mi estudio si el valor de la diferencia de medias observada variase en una magnitud de +/- el valor del MoE? Si la respuesta es no, entonces ese valor de MoE es aceptable. El MoE no debe ser establecido en función de la mínima diferencia detectable, debido a que a mayor error de medición, mayor valor de la mínima diferencia detectable y por tanto menos muestra necesaria, infraestimándose aun más el cálculo. Por otro lado, también debe tenerse cautela al usar directamente la de mínima diferencia clínicamente relevante, ya que también son valores orientados a diferencias individuales y no muestrales.

En relación al MoE, está el concepto de potencia asociada al MoE esperado, que tiene una interpretación al concepto clásico de potencia, salvo que en lugar de para una diferencia media, para una amplitud esperada del intervalo de confianza. Una recomendación conservadora es usar una potencia del 80%. Si se especifica un valor del 50% estaríamos ignorando el concepto de potencia, y el cálculo sería simplemente un cálculo de precisión sin potencia considerada, como el que ofrecen otros paquetes de R o programas como Epidat para algún estadístico.

Otro parámetro a especificar es el X% de confianza del intervalo de confianza, que por defecto está establecido en el 95%. Esta calculadora está basada para la diferencia entre dos grupos, si el ensayo aleatorizado tuviera más de dos grupos, el procedimiento sería seleccionar aquellos dos de mayor relevancia (o que más muestra necesitasen) para realizar el cálculo, y ampliar la muestra necesaria para el tercer grupo. Si se dispone de más de dos grupos y se desea realizar alguna corrección para tasas de error esperadas, la recomendación es utilizar la corrección de Bonferroni a la hora de especificar el X% de confianza del intervalo. Por ejemplo, si disponemos de tres grupos, el X% quedaría definido como 1-0.05/3 = 0.9833, en lugar del valor predefinido de 0.95.

Finalmente, el último parámetro a especificar es el porcentaje de pérdidas esperado, cuyo valor conservador está predefinido en 0.15, siendo plausibles y recomendables valores entre 0.10 y 0.20.

Con todos estos parámetros especificados, la calculadora devolvería el tamaño muestral mínimo necesario por grupo para realizar el ensayo aleatorizado.

¡IMPORTANTE!

Las aplicaciones Shiny funcionan mediante un sistema de suscripción, donde se «alquila» un periodo de tiempo mensual de utilización de las mismas. Por favor, una vez realizado el cálculo, asegúrate de cerrar la pestaña del explorador para no gastar un tiempo innecesario y que más personas puedan utilizar la aplicación si lo necesitan. ¡Muchas gracias!

Calculadora para Ensayos Aleatorizados

Parámetro a especificar Descripción
Desviación estándar (Grupo Experimental)
Desviación estándar post-tratamiento del grupo experimental.
Desviación estándar (Grupo Control)
Desviación estándar post-tratamiento del grupo control.
Correlación
Correlación entre la medición basal y la post-tratamiento.
MoE Esperado
Mitad de la amplitud del intervalo de confianza deseada.
Nivel del intervalo de confianza
Porcentaje del intervalo de confianza deseado. Por defecto = 0.95.
Potencia para el MoE esperado
Potencia deseada para obtener un MoE igual o inferior al esperado. Por defecto = 0.80.
Porcentaje esperado de pérdidas
Porcentaje esperado de pérdidas para corregir el cálculo de tamaño muestral. Por defecto = 0.15.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Avanzado Ensayos Clínicos Inferencias Modelo Lineal General Temas Avanzados Uncategorized

Cambio Intra- & Entre-Grupos en Ensayos Aleatorizados

Ensayos aleatorizados: Cambio intra- & entre-grupos

En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del contexto de un ensayo aleatorizado, haciendo hincapié en su finalidad, limitaciones y adecuada interpretación.

De la práctica clínica a los ensayos aleatorizados

En la práctica clínica, la forma que disponemos de saber si un paciente mejora, es tomar una medición basal de referencia y una o varias mediciones en distintos momentos posteriores de seguimiento. Después, podemos observar la diferencia de dichas mediciones posteriores con la situación basal, para ver si ha habido un cambio en dicha variable. Sin embargo, a que se debe dicho cambio, pudiendo ser a un efecto de la intervención aplicada, historia natural, errores en el procedimiento de medición, etc. También puede deberse a una combinación de estos, influyendo algunos más y otros menos, por ejemplo:

Para poder saber cuál es la efectividad de la intervención, si es que hay alguna, debemos poder restar a dicha mejoría observada el efecto atribuible a otros factores, como los errores de medición o la historia natural. Sin embargo, esto no puede realizarse con un solo grupo de sujetos, ya que no tenemos forma de saber cuánto ha influido cada factor, por ello es necesario contar con un grupo no expuesto a la intervención, pero si a los otros factores que pueden influir en que los pacientes cambien a lo largo del tiempo. Esto es lo que se realiza en un ensayo clínico aleatorizado. Por ejemplo, podemos comparar un programa de ejercicio (grupo experimental) con un grupo que no reciba tratamiento (grupo control). La mejoría del grupo de ejercicio podría ser la siguiente:

Como se ha comentado, no sabemos cuándo ha contribuido cada factor a dicha mejoría y si hay o no algún efecto del tratamiento. La mejoría del grupo control podría ser esta: 

Dado que lo único que diferencia (si se ha realizado bien el estudio) al grupo experimental del control, es la aplicación de ejercicio terapéutico, si calculamos la diferencia entre ambos podremos obtener una estimación del efecto de la intervención:

Diferencias intra-grupo dentro del contexto de un ensayo clínico aleatorizado

Como se ha comentado, las diferencias intra-grupo no nos aportan información sobre la efectividad de una intervención, siendo esta información aportada por las diferencias entre-grupos. Entonces, ¿Qué utilidad tienen las diferencias intra-grupo en un ensayo aleatorizado?

Utilidad de la medición basal (antes de la intervención)

En contra de la intuición, las mediciones basales, antes de aplicar el tratamiento, no son en absoluto necesarias para poder evaluar la efectividad de una intervención en un ensayo aleatorizado. Se puede realizar un estudio aleatorizado midiendo solo a los 3 meses de haber aplicado la intervención, y poder obtener estimaciones precisas de la efectividad de esta.

Volviendo a la práctica clínica, si tenemos dos sujetos, uno que con una intensidad de dolor post-tratamiento de 3 y otro de 2.9 podríamos pensar que ambos han mejorado por igual, sin embargo, nos faltaría un dato, la situación de dolor basal de la que partían. Si uno de los sujetos partía de una intensidad de 8 y el otro de 4, las mejorías de uno y otro serían 5 y 2.1, habiendo claras diferencias (aunque no sabríamos si la mejoría sería por el tratamiento). Es decir, el calcular el cambio intra-grupo, con respecto a la medición basal, es una forma de “ajustar” o “controlar” para posibles diferencias en la situación basal, ya que la diferencia de los sujetos en el post-tratamiento depende de sus diferencias en la situación basal, y sin tener en cuenta la misma entonces podríamos malinterpretar quien ha mejorado más o menos.

En un ensayo aleatorizado, ese control de la situación basal se realiza mediante el proceso de asignación aleatoria a los grupos de tratamiento, que hace que la asignación al tratamiento sea independiente de la situación basal de los sujetos en la variable de interés y en todas las variables confusoras (medidas o sin medir en el estudio). Por ello, en este tipo de diseños no sería necesario como se ha comentado una medición basal para poder analizar la efectividad de un determinado tratamiento, pudiéndose analizar simplemente las diferencias post-tratamiento entre los grupos.

El motivo por el cual se realiza una medición basal, antes de aplicar la intervención, es porque de esta forma podemos mejorar la potencia estadística, siendo más fácil encontrar un efecto de la intervención bajo estudio, si es que existe alguno. Es decir, se realiza para disminuir el número de sujetos necesarios para llevar a cabo la investigación.

Cuando se dice que la aleatorización hace que la asignación al tratamiento sea independiente de la situación basal, implica decir que la diferencia media esperada (“real”) entre los grupos en la situación basal es de cero. Se habla de diferencia media esperada porque es el valor al que tiende dicho estadístico cuando el tamaño muestral tiende a infinito, sin embargo, en investigación las muestras nunca suelen ser tan grandes y, por tanto, siempre se observan pequeñas diferencias en la situación basal entre los grupos, originadas por la asignación aleatoria. Como sabemos que la diferencia real es de cero, si medimos la situación basal (previa al tratamiento), podemos incluir esa variable en un tipo de análisis conocido como Análisis de la Covarianza, para forzar a que dicha diferencia será cero en la situación basal en nuestro estudio, ajustándose las diferencias post-tratamiento y la precisión en la estimación de estas, mejorando la potencia estadística de los ensayos clínicos y, por tanto, necesitándose menos muestra. 

Los cambios como un modelo de regresión

Cuando calculamos la diferencia en dos momentos de tiempo de una variable, el objetivo es “ajustar” o “controlar” para la situación basal. En la práctica clínica normalmente medimos a un paciente varias veces, de modo que solo podemos realizar esta resta. Sin embargo, en una investigación se suele medir a un conjunto de pacientes (una muestra), siendo este procedimiento de resta simple inadecuado.

Desde un punto de vista de un modelo de regresión lineal, la medición post-tratamiento (Ypost) puede definirse como:

$$Y_{post} = C + b_1*Y_{basal} + error$$

Cuando calculamos manualmente la diferencia (post- menos basal) de cada sujeto, estamos asumiendo el siguiente modelo:

$$Y_{post} – Y_{basal} = C + error$$

La única forma de que las dos ecuaciones se igualen, es que b1 (el coeficiente de regresión sin estandarizar) sea igual a 1, algo que rara vez sucede en la práctica. Dado que el objetivo de calcular el cambio post- menos basal es “controlar” para discrepancias en la situación basal, eso implica que la variable “Diferencia” obtenida, debe ser independiente de la situación basal (correlación = 0), algo que solo sucederá si b1 = 1. De no ser así, habrá una relación entre la diferencia y la situación basal, como se muestra a continuación con datos simulados:

Esto tiene dos implicaciones. Por un lado, sigue habiendo dependencia con la situación basal, pudiéndose sobreestimar o infraestimar el posible efecto de la intervención, y por otro, no se minimizarían los errores del modelo de regresión, disminuyendo por tanto la precisión y potencia estadística del estudio.

Los ensayos aleatorizados como un modelo de regresión

Partamos ahora del contexto de un ensayo aleatorizado, donde se van a comparar dos grupos,  uno que recibe un tratamiento experimental y un grupo control sin tratamiento, tomándose mediciones en la situación basal y a los 6 meses de seguimiento. En este caso tenemos tres posibilidades para comparar ambos grupos: ver las diferencias en el post-tratamiento, calcular el cambio del post- con respecto a la medición basal y ver las diferencias entre los grupos en esta nueva variable, o utilizar un análisis de la covarianza. El modelo de regresión de cada una de estas opciones sería:

Comparar POST-

$$Y_{post} = C + b_1*Tratamiento$$

Comparar CAMBIO

$$Y_{post} – Y_{basal} = C + b_1*Tratamiento$$

Modelo ANCOVA

$$Y_{post} = C + b_1*Tratamiento + b_2*Y_{basal}$$

En el primer caso (POST-), se asume que la relación entre la medición post-tratamiento y la medición basal es de cero (b2 = 0); en el segundo caso, como se comentaba en el apartado anterior, se asume que b2 es igual a 1; y finalmente en el tercer caso, se deja al modelo de regresión calcular la mejor estimación posible de b2, en lugar de asumir un valor concreto, para minimizar los errores del modelo. En los tres casos, el coeficiente b1 sería la diferencia media entre ambos grupos.

Como se comentaba al inicio de la entrada,  no es necesario tomar mediciones basales para poder evaluar la efectividad de una intervención en un ensayo aleatorizado, siendo también innecesario el cálculo de la diferencia con respecto a la medición basal, teniendo estos procedimientos simplemente la utilidad de mejorar la potencia estadística y precisión (cuando la correlación entre la medición post- y la basal no es igual a cero). En otras palabras,  si la muestra es lo suficientemente grande, dará igual que evaluemos solo las diferencias post-tratamiento, ya que la asignación aleatoria asegura una diferencia basal nula cuando la muestra tiende a infinito. Por ejemplo, asumiendo una diferencia media de 0.5 y una desviación estándar de 1, la muestra necesaria para una potencia deseada del 90%, en función de la correlación entre la medición basal y la post-tratamiento, para cada uno de los tres modelos sería:

Como se puede apreciar en el gráfico, el modelo de ANCOVA optimiza la disminución de los errores del modelo, requiriéndose siempre menos muestra salvo que la correlación sea de 0 o de 1, donde tendría la misma utilidad que el modelo POST-tratamiento o el modelo CAMBIO, pero no menos utilidad. Dado que la potencia estadística solo puede ir de 0 a 100, si incrementásemos mucho el tamaño muestral (ej. 10,000 sujetos por grupo) daría igual que modelo utilizásemos en un ECA, ya que la potencia tendería a su limite superior de 100, siendo las diferencias entre los 3 métodos irrelevantes. Sin embargo, esta no suele ser la situación habitual en la práctica, donde al haber menos muestra, se pueden observar pequeñas diferencias a nivel basal entre los grupos, siendo recomendable por tanto el uso del ANCOVA que minimizaría los errores del modelo con respecto a los otros dos.

Centrándonos ahora en los coeficientes b1 de los tres modelos, es decir, en las diferencias medias entre los grupos, también se observa algo contraintuitivo. Tendemos a pensar que es algo distinto calcular las diferencias entre grupos del cambio con respecto a la medición basal, a calcular las diferencias solo en el post-tratamiento, o mediante el uso del ANCOVA, sin embargo, todos esos procedimientos están estimando lo mismo, el efecto de la intervención, es decir, si incrementamos la muestra lo suficiente, los coeficientes b1 de cada uno de los 3 modelos tenderán todos hacia un mismo valor, estiman lo mismo. Lo único distinto es que cambia la precisión de la estimación y por eso se obtienen pequeñas diferencias de dichos coeficientes en un ensayo clínico realizado, pero a nivel conceptual son lo mismo. Por tanto, la creencia popular de que calcular el cambio con respecto a la situación basal para comparar dicha variable entre dos tratamientos, ofrece una visión más “real” de la efectividad de una intervención, porque estamos comparando mejorías en el tiempo, no se sostiene.

Los engaños de las diferencias intra-grupo en los ensayos aleatorizados

Como se explicaba al inicio del texto, la asignación aleatoria a los grupos de tratamiento es lo que garantiza la independencia con respecto a variables confusoras, de forma que la inferencia causal solo es aplicable en un ensayo aleatorizado a las diferencias entre-grupos, pero no a las intra-grupo. A pesar de ello, actualmente la mayoría de las revistas científicas de nuestro campo solicitan reportar las diferencias intra-grupo dentro del contexto de un ensayo clínico, un procedimiento que más que ayudar a interpretar mejor los resultados, solo puede confundir y sesgar más al lector, induciendo a malinterpretaciones del ensayo clínico. Por ejemplo, dado que la asignación aleatoria no elimina factores de confusión de las diferencias intra-grupo, donde también influyen aspectos como la historia natural, esto hace que dicha diferencia dentro del grupo experimental tienda a sobreestimar la efectividad de la intervención, ya que en ella también se sumaria el efecto de la historia natural del proceso en cuestión.

A continuación, muestro algunas preguntas frecuentes con sus respectivas respuestas, a fin de prevenir al lector tales malinterpretaciones (algunos aspectos ya se han comentado previamente):

Preguntas y respuestas

Si un grupo experimental mejora de manera significativa y el control no, ¿implica que la intervención es efectiva?

No

Si dos grupos experimentales mejoran igual a lo largo del tiempo, ¿significa que ambas intervenciones son igual de efectivas, o que son efectivas?

No

¿Es necesario tomar una medición basal (antes de aplicar el tratamiento) en un ensayo aleatorizado para evaluar la efectividad de este?

No

Si las diferencias entre grupos no son significativas ni relevantes, pero solo el grupo experimental ha mostrado diferencias significativas intra-grupo, ¿significa que puede que la intervención sea efectiva?

No

¿Calcular la diferencia post- menos basal en un ensayo aleatorizado es un procedimiento estadístico adecuado?

No

¿Las diferencias intra-grupo sobreestiman el efecto de la intervención?

Si

¿Son distintas a nivel conceptual las diferencias entre-grupos ajustadas de un ANCOVA y las calculadas mediante la variable diferencia post- menos basal?

No

¿Es necesario observar las diferencias intra-grupo para interpretar adecuadamente los resultados de un ensayo aleatorizado?

No

 

Literatura de interés
Conclusiones

Las diferencias intra-grupo no son necesarias dentro del contexto de un ensayo aleatorizado, pudiendo derivar solo en malinterpretaciones de los resultados del mismo. Por ello, es recomendable no tener en cuenta tales diferencias, incluso no reportarlas, cuando se lea o se realice un estudio con este tipo de diseño. Todo ensayo aleatorizado debería analizarse y reportarse con un modelo ANCOVA (u otra variante de modelo de regresión multivariable, incluyendo la medición basal como covariable).

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Tamaño Muestral Temas Avanzados

Tamaño Muestral: Potencia observada

Tamaño Muestral: Potencia Observada

En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los que esta practica esta totalmente desaconsejada.

La potencia de un determinado análisis estadístico, bajo unas circunstancias determinadas asumidas, sería la probabilidad a largo plazo de obtener un resultado estadísticamente significativo (asumiendo un punto de corte preseleccionado de valor-p) con dicho análisis, siempre y cuando se cumplan todos los supuestos de dichas circunstancias asumidas. En otras palabras, si se cumplen todas las asunciones, y un análisis (ej. t-Student) tiene una potencia del 50% con un tamaño muestral de 40 sujetos por grupo, asumiendo como significativo un valor-p < 0.05, eso significa que si repitiéramos infinitas veces dicho experimento, obtendríamos resultados significativos en el 50% de las replicaciones aproximadamente. Como hemos dicho, todo esto asumiendo que nuestras asunciones se cumplen a la perfección, que en un ejemplo inventado podrían ser:

  • La hipótesis nula (H0) es la diferencia igual a cero.
  • La hipótesis alternativa (H1) especificada es cierta.
  • Diferencia media poblacional bajo la H1 igual a 30.
  • Desviación típica poblacional es igual a 12.
  • Homocedasticidad asumida.
  • Distribución normal asumida.
  • Solo influye el muestreo aleatorio en la variabilidad entre las distintas replicaciones del experimento.

Cualquier variación en estas asunciones alteraría la potencia real de dicho análisis para un determinado tamaño muestral dado.

Muchos investigadores basan sus cálculos de tamaño muestral en la potencia “deseada” para un determinado análisis, partiendo de unas asunciones establecidas a priori. Sin embargo, también hay otra práctica muy extendida, que es el cálculo de la potencia del estudio, una vez se ha realizado el mismo, con los datos obtenidos, conocida como potencia post hoc o potencia observada.

Razones por las que se calcula la potencia observada en investigación

Ejemplo número uno:

Un grupo de investigadores realizan un ensayo aleatorizado con 15 sujetos por grupo, porque eran los que tenían disponibles. Tras ello, obtienen un una diferencia media de 5 puntos (p = 0.011). Sin embargo, como tenían poca muestra, no acaban de estar convencidos de que puedan confiar en esos resultados para rechazar la H0 y aceptar la H1, por ello, deciden calcular la potencia observada del estudio, ya que establecen que si dicha potencia es baja, entonces a lo mejor ese resultado aunque sea significativo, no es una prueba grande en contra de la H0, mientras que si se obtiene una potencia observada alta, eso nos indicaría que podemos confiar más en estos resultados, ya que teníamos muestra suficiente para encontrar dicha diferencia, y por tanto debemos tener más confianza en que podemos rechazar la H0. Realizan el cálculo y obtienen una potencia observada del 73%, concluyendo por tanto que efectivamente, tienen pruebas robustas para rechazar la H0.

Ejemplo número dos:

Otro grupo de investigadores realizan otro ensayo aleatorizado con 15 sujetos por grupo, también porque eran los que tenían disponibles. En este caso, los investigadores obtienen una diferencia media de 2 (p = 0.54). Sin embargo, como tenían poca muestra, deciden calcular la potencia observada, ya que puede ser que ese resultado no sea porque la hipótesis nula es cierta, sino simplemente porque tenían poca potencia para detectar la misma, por el escaso tamaño muestral. De modo que establecen que, si la potencia observada es baja, entonces puede ser simplemente un problema del tamaño muestral, y no de que la H0 sea cierta, y si obtienen una potencia alta, entonces sí que es plausible que los resultados obtenidos se deban a que la H0 es cierta. Obtienen una potencia observada del 9%, concluyendo por tanto que sus resultados posiblemente se deban al pequeño tamaño muestral y no a que la H0 tenga que ser cierta.

Ejemplo número tres: Contraintuitivo

Un tercer grupo de investigadores realizan otro ensayo aleatorizado, en este caso, disponen de 300 sujetos por grupo en su hospital. Obtienen una diferencia media de 1.1 (p = 0.24). Sin embargo, realizan el mismo razonamiento anterior y deciden calcular la potencia observada, resultando en un valor del 22%. Concluyen por tanto que, como la potencia observada es baja, los resultados no se deben en verdad a que la H0 tenga que ser cierta, sino que es un problema de que se tenía poca muestra.

Puede ser que los dos primeros ejemplos pareciesen “razonables”, sin embargo, aplicando ese mismo razonamiento, nos hemos topado con un tercer ejemplo en el que se afirma que una muestra de 300 sujetos por grupo, es también pequeña. De hecho, esto sucedería incluso aunque la muestra hubiera sido de 3000 sujetos por grupo, las conclusiones de dichos investigadores habrían sido las mismas, que la muestra era demasiado pequeña y que dicho valor-p no constituía un indicativo de que la H0 fuese más plausible que la H1.

Relación entre la potencia observada y el valor-p observado

Para poder entender mejor el ejemplo contraintuitivo, así como poder realizar una interpretación adecuada de la potencia observada, es necesario entender su relación con el valor-p observado. En la siguiente figura muestro la relación existente entre el valor-p observado y la potencia observada, para una prueba t-Student para dos muestras independientes.

La potencia observada tiene una relación directa con el valor-p observado, en otras palabras, la potencia observada no aporta información adicional al valor-p observado. Los valores-p pequeños siempre tendrán asociados valores altos de potencia observada y viceversa, sin importar si la H0 es cierta o falsa. De hecho, el gráfico anterior está elaborado con simulaciones donde la H0 es cierta.

Este concepto se puede comprender mejor enfrentando las distribuciones de la H0 y la H1. Por ejemplo, en un caso hipotético de 50 sujetos por grupo, para una potencia del 80%, tendríamos la siguiente figura:

En esta figura, el gráfico de densidad rojo hace referencia a la H0 y el gráfico azul a la H1, el valor de la mitad de alfa (contraste a dos colas) es el umbral crítico de significación (en nuestro caso asumiremos p < 0.05), que se muestra en la figura como una línea verde vertical. La potencia es todo el área bajo la curva azul que queda a la derecha de la línea verde vertical de la derecha, en este caso, el 80%, para una diferencia media observada de 2.85 (desviación estándar = 5). Ahora veamos que pasa si el valor de la diferencia media observada es el que coincide con la línea verde vertical, es decir, el umbral crítico de significación (valor-p = 0.05):

En este caso, la potencia observada es del 50%, ya que como se puede apreciar, la mitad de la gráfica azul queda a la izquierda de la línea verde y la otra mitad a la derecha, por lo que, la probabilidad de obtener un resultado significativo (p < 0.05), sería aproximadamente del 50% asumiendo que la H1 es cierta. Si seguimos desplazando esta gráfica azul a la izquierda, la potencia observada iría disminuyendo progresivamente, y como podemos ver, dado que ambas gráficas son curvilíneas, la relación entre el valor-p observado y la potencia observada no es lineal, sino exponencial como se mostraba en la primera figura. Si nos vamos al extremo, superponiendo las gráficas, puede apreciarse como entonces la potencia observada es igual al umbral crítico de significación especificado, en nuestro caso, 5%.

La potencia observada es engañosa: Llamada a la acción para su abolición

Debido a que la potencia observada tiene una relación directa inversa con el valor-p observado, no sirve para lo que se utiliza en la práctica clínica, como los ejemplos anteriormente mencionados. Si utilizamos la potencia observada para “interpretar mejor” los resultados del valor-p, entonces tenderemos a sobrestimar todos los resultados significativos, porque siempre obtendremos potencias observadas elevadas, y de manera inversa siempre podremos concluir que cualquier resultado no significativo se debe a un escaso tamaño muestral, a expensas de la muestra utilizada, y por tanto la H0 nunca será plausible si así lo deseamos.

Las recomendaciones por estadísticos desde hace décadas es no llevar a cabo dicha práctica, ya que solo deriva en errores de interpretación de los resultados de una investigación. La potencia debería siempre ser establecida a priori, a la hora de realizar el cálculo de tamaño muestral, en función de unas asunciones también establecidas a priori en función de literatura previa y conocimiento técnico sobre la materia, y nunca calculada en base a los resultados del propio estudio. No obstante, aún así mi recomendación sigue siendo, al igual que he especificado en otras entradas de esta web, calcular el tamaño muestral basándonos en la precisión y no en la potencia, que es la metodología adecuada que lleva a menos errores a la larga.

Conclusiones

La potencia post hoc o potencia observada no debe calcularse dentro del seno de una investigación. Este valor no aporta ninguna información adicional al valor-p observado y su cálculo y utilización para interpretar los resultados es engañoso, derivando en errores grandes con respecto a las conclusiones que pueden sacarse del propio estudio.

La potencia debe establecerse siempre a priori en base a unas asunciones también establecidas a priori. Sin embargo, el cálculo de tamaño muestral basado en precisión sigue siendo más recomendado.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Avanzado Guía Estadística Tamaño Muestral Temas Avanzados

Tamaño Muestral ANOVA mixto GPower

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power

En esta entrada se recoge una breve explicación de uno de los errores más comunes cometidos dentro del campo de la Fisioterapia, a la hora de calcular tamaños muestrales con el programa G*Power.

El software G*Power es uno de los más utilizados dentro del campo de la Fisioterapia (y otros) para calcular tamaños muestrales a priori durante la fase de planificación de un estudio de investigación. Este software facilita cálculos de tamaño muestral basados en potencia para distintos análisis, como comparaciones de dos medias, correlación de Pearson y lo que es la temática de esta entrada, los Análisis de la Varianza (ANOVA), más concretamente aquellos con medidas repetidas.
Desde aquí y en el resto de la entrada, basaré las explicaciones en un ANOVA mixto con tres grupos de tratamiento (ejercicio, terapia manual, vendaje) y 4 momentos de medición (basal, 3 meses, 6 meses y 12 meses), ya que es el tipo de análisis que suele usarse para calcular tamaños muestrales en ensayos controlados aleatorizados en Fisioterapia. Los cálculos propuestos son para la interacción tiempo-por-grupo.

Comenzaré con un pequeño ejemplo de cómo se suele proceder en G*Power para calcular ese tamaño muestral a priori. Para poder calcularlo se requiere especificar una serie de valores:

  • Número de grupos.
  • Número de mediciones.
  • Tamaño del efecto estimado (f o ηp2).
  • Correlación entre medidas repetidas.
  • Potencia deseada.
  • Nivel alfa de significación.
  • Corrección en caso de no esfericidad.

De estos datos, ya tenemos especificados algunos en base al diseño que he propuesto, y otros los asumiremos según valores típicos utilizados en Fisioterapia:

  • Número de grupos: 3
  • Número de mediciones: 4
  • Tamaño del efecto: Medio (f = 0.25 // ηp2 = 0.06)
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 80%
  • Nivel alfa de significación: 0.05
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)

Con estos datos, el tamaño muestral calculado es de 30 sujetos, es decir, 10 sujetos por grupo. Parece algo pequeño, pero…si el G*Power nos ha dado ese resultado, es que es correcto, ¿o no? A continuación, explicaré con más detalle el punto sobre el que trata la entrada, el tamaño el efecto, y haré un pequeño matiz al final de esta sobre la asunción de esfericidad asumida.

Tamaños del efecto pequeños, medios y grandes. Dos etas cuadrado

En el anterior ejemplo he especificado que se estimaba un tamaño del efecto medio, que se correspondía con un valor f = 0.25 o un valor de ηp2 = 0.06. Estos valores no los he nombrado al azar, ya que mucha gente se basa en la siguiente recomendación sobre lo que es un tamaño del efecto pequeño, medio y grande en el caso de ANOVAs:

  • Efecto pequeño: f = 0.10 / ηp2 = 0.01
  • Efecto medio: f = 0.25 / ηp2 = 0.06
  • Efecto grande: f = 0.40 / ηp2 = 0.14

Con respecto a los ANOVA, hay distintos tamaños del efecto, me centraré solamente en dos para esta entrada: el coeficiente eta cuadrado (η2) y el coeficiente eta cuadrado parcial (ηp2). El primero se usaría cuando solo tenemos un factor (ej., comparamos 3 grupos con una sola medición, solo habría un factor, el factor grupo). El segundo por su lado, se utiliza cuando tenemos varios factores, como sería en nuestro ejemplo de ensayo aleatorizado, donde disponemos del factor grupo y el factor tiempo (medidas repetidas). De forma simplificada, pueden definirse matemáticamente como:

$$\eta^2 = \frac{SS_{efecto}}{SS_{total}}$$

$$\eta_{p}^2 = \frac{SS_{efecto}}{SS_{efecto} + SS_{error}}$$

En el caso de un ANOVA mixto, tenemos 3 posibles efectos de interés, el efecto principal grupo, el efecto principal tiempo y la interacción tiempo por grupo. De este modo, si nuestro interés es la interacción tiempo-por-grupo, tendríamos (nota: fórmulas simplificadas):

$$\eta^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{grupo} + SS_{tiempo} + SS_{error}}$$

$$\eta_{p}^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{error}}$$

Eta cuadrado parcial y correlación entre medidas repetidas

El coeficiente eta cuadrado parcial (ηp2) se ve influenciado por la correlación entre medidas repetidas. No entraré en detalles, pero esa influencia es en el sentido de que, a mayor correlación entre medidas repetidas, mayor valor de ηp2 y consecuentemente, mayor potencia estadística (es decir, se requerirá menor muestra). Por ejemplo, imaginemos el caso anterior, con una correlación asumida de 0.50 el tamaño muestral resultante era de 30 sujetos. Si elevamos la correlación asumida a 0.70, el tamaño muestral baja a 21 sujetos, y si la elevamos a 0.90, entonces el cálculo nos devuelve tan solo 9 sujetos (3 por grupo).

Sobra decir que manipular dicha correlación para obtener un menor tamaño muestral es engañoso. En ausencia de datos previos, lo ideal sería asumir una correlación de 0.50 como máximo, o ser incluso más conservadores con correlaciones más pequeñas si las mediciones están muy separadas en el tiempo (de 0.40-0.45 por ejemplo) (Walters 2019). Asumir correlaciones por encima de 0.50 debe estar muy justificado.

Distintos tamaños del efecto: EL ERROR
Todas las explicaciones anteriores enlazan con este apartado, que es el verdadero motivo de la entrada, la existencia de distintas especificaciones de tamaño del efecto f y ηp2, que pueden llevar a cometer errores importantes al realizar cálculos de tamaño muestral con G*Power. Tenemos tres métodos:
  • Método que usa G*Power.
  • Método basado en datos extraídos de SPSS.
  • Método basado en Cohen, 1988 (quién dio las recomendaciones de tamaño del efecto mencionadas anteriormente).
La diferencia entre ellos es la utilización de la correlación de medidas repetidas. Utilizando el método que aparece por defecto en G*Power, debemos especificar la correlación para el cálculo del tamaño muestral. Esto se debe a que G*Power no tiene en cuenta dicha correlación para la especificación del tamaño del efecto estimado que le hemos especificado, sino que la utiliza luego directamente en el cálculo. Por otro lado, cuando se calcula en SPSS un coeficiente eta cuadrado parcial (ηp2), se tiene en cuenta ya para su cálculo la correlación entre medidas repetidas. En otras palabras, el coeficiente eta cuadrado parcial en que se basa el cálculo de G*Power, no es el mismo que el que facilita SPSS, sus valores no coinciden, así como tampoco es lo mismo un f = 0.25 según G*Power, que un f = 0.25 según SPSS, tal y como se especifica en el manual de utilización del G*Power. Anteriormente he comentado que a mayor correlación mayor valor de ηp2 y, por tanto, menos muestra necesaria para un determinado estudio, como mostré incrementando la correlación en el cálculo inicial. Por otro lado, como acabo de comentar, el cálculo del coeficiente ηp2 que facilita SPSS al hacer un análisis, ya tiene en cuenta la correlación entre medidas repetidas. Por tanto, si nos basamos en un ηp2 de SPSS, que ya tiene en cuenta dicha correlación y por tanto será más grande, y lo metemos en el G*Power para calcular el tamaño muestral según G*Power, donde tenemos que especificar la correlación, estamos usando dos veces la correlación, una vez que se usó en SPSS para dar el valor de ηp2 y otra ahora en el cálculo del tamaño muestral en G*Power, con la implicación de que sobreestimamos el tamaño del efecto y por consecuente, infraestimamos la muestra necesaria. Existe una opción en el G*Power para especificar al software en que nos estamos basando cuando especificamos un tamaño del efecto para calcular el tamaño muestral basado en un ANOVA con medidas repetidas, abajo del todo en un botón de “Opciones”.
Es imprescindible cambiar en dicho apartado la especificación del tamaño del efecto según en que nos estemos basando. Si nos basamos en datos extraídos de estudios previos, que por lo general utilizan la forma de cálculo de ηp2 del SPSS donde ya se tiene en cuenta la correlación entre medidas repetidas, debemos seleccionar dicho apartado en “Opciones”. Mientras que, si nos basamos en las “recomendaciones de Cohen” de un tamaño pequeño, medio y grande, entonces debemos seleccionar dicha opción. ¿Por qué es tan importante esto? Volviendo al ejemplo inicial, nos salía una muestra de 30 sujetos (10 por grupo), para un supuesto valor f = 0.25, siguiendo las recomendaciones de que ese valor corresponde a un tamaño del efecto medio según Cohen. Si ahora especificamos que el tamaño del efecto es según Cohen en la pestaña “Opciones”, el tamaño muestral resultante es de 222 sujetos (74 sujetos por grupo). Veamos otro ejemplo con valores reales extraídos de un reciente estudio. En este estudio se calcula el tamaño muestral para la interacción tiempo-por-grupo de un ANOVA mixto con las siguientes especificaciones:
  • Número de grupos: 4
  • Número de mediciones: 3
  • Tamaño del efecto: ηp2 = 0.048 (extraído de un estudio piloto previo, calculado con SPSS).
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 90%
  • Nivel alfa de significación: 0.01
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)
De acuerdo con sus especificaciones, el tamaño muestral resultante reportado en el estudio fue de 84 sujetos (21 por grupo). Este sería el tamaño muestral calculado, basándose en un ηp2 de 0.048 extraído de SPSS, pero manteniendo la especificación de tamaño del efecto según G*Power. Al cambiar en la pestaña “Opciones” el tamaño del efecto a “según SPSS”, el tamaño muestral resultante es de 240 sujetos (60 por grupo). Es decir, su estudio con esa muestra no “tenía” una potencia como ellos querían del 90%, sino que realmente tenía una potencia del 28%, por haber especificado mal el tamaño del efecto en G*Power a la hora de realizar su cálculo.
Una nota sobre la esfericidad

No entraré en detalles en esta entrada acerca de la asunción de esfericidad, ya que no es el propósito de esta. Pero si quisiera hacer una anotación de cara a los cálculos de tamaño muestral basados en ANOVA mediante G*Power. De manera resumida, la asunción de esfericidad rara vez (por no decir nunca) podemos asumir que se cumpla en la vida real. Esto implica que no podemos especificar valores de corrección iguales a 1, es decir, sin corrección, asumiendo que dicho asunción se cumplirá a la perfección. La opción correcta es asumir un cierto grado de incumplimiento en dicha asunción, y tener en cuenta este aspecto para calcular el tamaño muestral, introduciendo una ligera corrección. Si no disponemos de datos previos fiables, una opción conservadora es establecer un valor de corrección de esfericidad de 0.75. ¿Por qué es esto importante?

Cuando la asunción de esfericidad se cumple a la perfección (corrección igual a 1) se requiere menos muestra para encontrar un efecto. En otras palabras, si ponemos el valor de 1 en el cálculo, obtendremos menos muestra. Pero como he comentado, esta situación es muy poco plausible en la vida real, de modo que, si hacemos eso, estaríamos infraestimando nuestra muestra.

En los ejemplos anteriormente mencionados, la muestra del primer estudio inventado (especificando bien el tamaño del efecto) pasaría de 222 sin corrección, a 267 sujetos con una corrección de 0.75. En el segundo caso del estudio real, el cambio sería de 240 sin corrección, a 292 sujetos con la corrección de 0.75.

Precisión por encima de potencia

El contenido de esta entrada tiene como objetivo simplemente explicar algunos errores comunes realizados al calcular tamaños del efecto basados en potencia con G*Power. No obstante, nada del contenido de la misma debe ser interpretado como una recomendación a favor de los cálculos de tamaño muestral basados en potencia, que tienden a infraestimar las muestras necesarias en investigación. Mi recomendación es basar siempre los cálculos en la precisión en lugar de la potencia. En el apartado de Repositorio: Guías de Estadística, se recogen distintas fuentes de información para realizar cálculos de tamaño muestral adecuadamente para distintos tipos de análisis.

Conclusiones

Por lo general, dentro del campo de la investigación en Fisioterapia, se utilizan muestras demasiado pequeñas en la mayoría de estudios publicados. Los principales motivos que achaco a este fenómeno son: 1) Cálculos basados en potencia y no precisión; 2) asunción de cumplimiento de distintas asunciones estadísticas que no se cumplen en realidad; 3) utilización errónea de la algunas herramientas disponibles para cálculos de tamaño muestral (como el G*Power); y 4) ausencia de adherencia a las recomendaciones de expertos en la materia.

La investigación en Fisioterapia se vería beneficiada enormemente por una mejora en las estimaciones a priori de tamaños muestrales basados en precisión, con la utilización correcta de las distintas herramientas disponibles, y adhiriéndose a las recomendaciones de expertos en la materia para un determinado tipo de diseño y/o análisis estadístico.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Guía Estadística Repositorio Tamaño Muestral

Tamaño Muestral Modelos Predictivos

repositorio: tamaño muestral modelos predictivos

Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med

  • En este artículo se ofrece una guía de cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos multivariables cuando la variable resultado es continua.

Minimum sample size for developing a multivariable prediction model: PART II – binary and time-to-event outcomes | Stat Med (Acceso libre)

  • En este artículo se ofrece una guía de cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos multivariables cuando la variable resultado es dicotómica o el tiempo de supervivencia.

Minimum sample size calculations for external validation of a clinical prediction model with a time-to-event outcome | Stat Med (Acceso libre)

  • En este artículo se ofrecen recomendaciones de cálculo de tamaño muestral mínimo para la validación externa de un modelo predictivo multivariable cuando la variable resultado es el tiempo de supervivencia.

Minimum sample size for external validation of a clinical prediction model with a binary outcome | Stat Med (Acceso libre)

  • En este artículo se ofrecen recomendaciones de cálculo de tamaño muestral mínimo para la validación externa de un modelo predictivo multivariable cuando la variable resultado es dicotómica.

Calculating the sample size required for developing a clinical prediction model | BMJ (Acceso libre)

  • En este artículo se recogen tres guías de cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos multivariables con variables resultado continuas, dicotómicas y de tiempo de supervivencia, incluyendo ejemplos de los cálculos y recomendaciones de qué hacer cuando no se dispone de algunos datos de investigaciones previas.

A note on estimating the Cox-Snell R2 from a reported C statistic (AUROC) to inform sample size calculations for developing a prediction model with a binary outcome | Stat Med (Acceso libre)

  • En este artículo se ofrece una guía de como estimar el coeficiente R2 de Cox-Snell en función del estadístico C para realizar cálculos de tamaño muestral para la elaboración de modelos predictivos con una variable resultado dicotómica

Paquete de R ‘pmsampsize’

  • En este enlace se recoge la documentación disponible con respecto al paquete de R ‘pmsampsize’ con el que se puede realizar el cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos con variables resultado continuas, dicotómicas y de tiempo de supervivencia. Este paquete implementa los conocimientos de los artículos mencionados anteriormente para dichos cálculos, facilitando la tarea.

Aplicación Web basada en ‘pmsampsize’

  • Esta aplicación hace los mismos cálculos que el paquete de R ‘pmsampsize’, para aquellos que estén familiarizados con el programa. La guía para su utilización se recoge aquí.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Análisis Crítico Modelo Lineal General Observacional

Análisis Crítico #1

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: Análisis Crítico

Abstract

  • Background

    The use of predictive equation of muscular torque can reduce physical effort and time spent during evaluation. The aim of this study is to establish, validate, and test the accuracy of a prediction equation to estimate the hip external rotators (HER) torque in adults and older adults by means of hip extensors (HEX) torque measurement.

  • Design

    Cross-sectional.

  • Methods

    Eighty-three healthy adults (development set) were assessed to test the association of HEX and HER torques and to establish the prediction equation. A separate 36 adults and 15 older adults (validation sets) were assessed to test the ability of the equation to estimate HER torque. Hip isometric strength was assessed by a handheld dynamometer.

  • Results

    Simple linear regression analysis revealed that HEX torque was associated with HER torque (r = 0.80; p < 0.0001), resulting in the following prediction equation: HERtorque= −0.02 + (0.58 * HEXtorque). Paired t-test revealed no difference between directly measured and predicted values of HER torque in adults (mean difference = 0.02; 95% CI = −0.115, 0.072) and older adults (mean difference = 0.05; 95% CI = −0.02, 0.12).

  • Conclusion

    Simple linear regression analysis revealed that HEX torque was associated with HER torque (r = 0.80; p < 0.0001), resulting in the following prediction equation: HERtorque= −0.02 + (0.58 * HEXtorque). Paired t-test revealed no difference between directly measured and predicted values of HER torque in adults (mean difference = 0.02; 95% CI = −0.115, 0.072) and older adults (mean difference = 0.05; 95% CI = −0.02, 0.12).

Carta de respuesta al editor

Carta de respuesta de los autores

Categorías
Modelo Lineal General Temas Básicos

Transitividad de Correlaciones

Correlación: Transitividad

En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele hacerse sobre dicha propiedad, pudiendo llevar a conclusiones erróneas.

Antes de comenzar la lectura de esta entrada, me gustaría pedirte que realizases el siguiente test, que se repetirá de manera similar al final de la entrada, con el objetivo de que puedas darte cuenta las creencias erróneas que tienes actualmente y de si has adquirido conocimientos nuevos tras la lectura de la entrada.

38
Creado en Por Admin

Transitividad Correlaciones (Test Inicial)

1 / 9

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

2 / 9

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

3 / 9

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

4 / 9

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

5 / 9

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

6 / 9

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

7 / 9

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

8 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

9 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

Tu puntación es

The average score is 65%

0%

Imaginemos que sabemos que existe una relación entre la fuerza de prensión manual máxima (X) y la fuerza en rotación externa isométrica máxima de hombro (Y), y que existe una relación entre dicha rotación externa isométrica máxima (Y) y la discapacidad del hombro (Z). En base a ello, decidimos empezar a usar la fuerza de prensión manual como estimador de la discapacidad del hombro. En este razonamiento estaríamos haciendo uso de la transitividad, como X se relaciona con Y, y Y se relaciona con Z, entonces X se relaciona con Z, es decir, hay una «transmisión de la correlación».

Para poder entender la transitividad aplicada a las correlaciones, debemos conocer antes el concepto del coeficiente de determinación (R2) y el porcentaje de variabilidad explicada. A modo resumen simple, en función del valor del coeficiente de correlación de Pearson (r):

  • r = 0, no hay correlación.
  • r = 1, correlación perfecta positiva.
  • r = -1, correlación perfecta negativa.

Si elevamos dicho coeficiente de correlación al cuadrado, obtenemos el coeficiente de determinación (R2), que indica el porcentaje de variabilidad que podemos explicar de una variable a través de otra, por ejemplo si tenemos un coeficiente de Pearson de 0.50, el coeficiente de determinación sería R2 = 0.25, es decir, un 25% de variabilidad explicada. Este concepto puede representarse gráficamente con diagramas de Venn, que facilitarán entender el concepto de transitividad de las correlaciones. Si el área de ambos rectángulos es de 1, un R2 de 0.25 implica que hay un solapamiento del 25% del área los rectángulos.

Imaginemos ahora que tenemos tres variables en lugar de dos, con los siguientes valores de R2 entre ellas:

  • X-Y: 0.25
  • Y-Z: 0.25

Una posible representación mediante diagramas de Venn de estos valores de R2 sería la siguiente:

Cómo se puede apreciar en dicho diagrama, a pesar de que hay una correlación (r = 0.50) entre X e Y y Z e Y, los rectángulos de X y Z no se solapan, indicando una ausencia de correlación entre ellas. En otras palabras, que dos variables (X y Z) se relacionen con una misma variable (Y), no implica que esas dos tengan que presentar una correlación. Este es el principal error de interpretación que se comete con respecto a la transitividad de las correlaciones. Volviendo al ejemplo inicial sobre la prensión manual, la información facilitada en dicho enunciado impide saber si realmente la prensión manual se relaciona con la discapacidad del hombro, se requieren más datos. Pero… ¿Qué datos?

Tenemos dos opciones, una buena y adecuada y otra mala que solo utilizaré para ejemplificar la propiedad de transitividad aplicada a las correlaciones. La opción buena es la obvia, si se quiere estimar la correlación entre dos variables, lo adecuado es medir ambas y analizar directamente dicha correlación, no hacer estimaciones indirectas basadas en la transitividad.

Como ya he comentado, no tiene porque haber transitividad de una correlación de Pearson. Sabemos que la correlación entre X y Z se encuentra dentro del siguiente intervalo basado en las correlaciones entre X e Y y Z e Y:

$$r_{xy}r_{yz} – \sqrt{(1- R^2_{xy})(1-R^2_{yz})} \leq r_{xz} \leq r_{xy}r_{yz} + \sqrt{(1- R^2_{xy})(1-R^2_{yz})}$$

De esta fórmula podemos extraer varias conclusiones. Una primera es que, si y solo si rxy = ryz = 0, entonces rxz puede tomar todo el rango de valores posibles, es decir, de -1 a +1.

Otra conclusión sería que, si y solo si rxy = ryz (sin tener en cuenta el signo de la correlación, es decir, su valor absoluto), entonces puede existir una correlación perfecta entre X y Z, es decir rxz = 1 o rxz = -1, cuyo signo dependerá de los de las otras dos relaciones. Si nos imaginamos esta situación con los diagramas de Venn, tiene más sentido, pues que haya una relación perfecta (positiva o negativa) entre X y Z, implica que ambos rectángulos estarían superpuestos de manera perfecta y por tanto, el solapamiento de ambos con la variable Y sería el mismo, es decir, R2xy = R2yz.

Por otro lado y aunque no tan fácilmente reconocible como esa primera conclusión, de dicha fórmula también podemos concluir que, si rxy > 0, y ryz > 0, entonces rxz > 0 si y solo si:

$$R^2{xy} + R^2{yz} > 1$$

Es decir, habría transitividad de la correlación positiva solo cuando se cumpla esa situación. De forma más generalista, solo cuando la anterior situación se cumpla, la correlación entre X y Z no podrá ser igual a cero, en el resto de casos, puede existir una correlación igual a cero entre ambas variables. Nuevamente, si pensamos en los diagramas de Venn, podemos apreciar esa condición más fácilmente. El área del rectángulo de Y es igual a 1, de manera que si la suma de las áreas solapadas de X y Z con Y son superiores a 1, eso implica que los rectángulos de X y Z han de estar solapados también. A continuación muestro un ejemplo de diagrama de Venn donde casi hay solapamiento entre X y Z, con solo un 5% de la variabilidad de Y sin explicar. Si X y Z explicasen más porcentaje de la variabilidad de Y, es decir, si juntásemos más dichos rectángulos, acabarían por solaparse.

Este punto es importante, pues incluso con correlaciones altas  entre X e Y y Z e Y, puede darse una correlación de cero entre X y Z. Por ejemplo, asumiendo que rxy = ryz, entonces la correlación máxima que permitiría la posibilidad de que existiera una correlación de cero entre X y Z sería:

$$r_{xy} = r_{yz} = \sqrt 50 = 0. 7071$$

Es decir, podemos tener hasta una correlación entre X e Y y entre Z e Y de 0.7071 y ello no tendría que implicar que hubiera una correlación entre X y Z. Con la fórmula inicial de los intervalos del coeficiente de correlación entre X y Z en función de rxy y ryz, podemos calcular la correlación mínima que podríamos esperar entre X y Z, así como también evaluar en que situaciones es plausible una ausencia de correlación entre ambas variables.

Implicaciones de la malinterpretación de la transitividad de las correlaciones

¿Por qué es importante conocer como se comportan las correlaciones con respecto a la transitividad? Para no cometer errores grandes y, en mi experiencia por lo que he podido apreciar, encadenados, de interpretaciones y asunciones. Un ejemplo de malinterpretación común sería el siguiente:

«Estamos buscando artículos y nos encontramos con uno que ha visto que hay una correlación de 0.7 entre la fuerza máxima prensil y la fuerza isométrica máxima de rotación externa de hombro, nos acordamos que hace unos meses leímos otro estudio que había encontrado una correlación de 0.67 entre la fuerza isométrica máxima de rotación externa y la discapacidad del hombro, y en base a ambos estudios, decidimos empezar a evaluar y tratar la fuerza prensil en clínica en sujetos con patología dolorosa del hombro.»

Otra opción sería que, en función de esos dos estudios, decidiéramos hacer un ensayo clínico orientado a trabajar la fuerza prensil para mejorar la discapacidad en sujetos con dolor relacionado con el manguito rotador, o que decidiéramos no evaluar en un transversal la fuerza de rotación externa porque requiere de un dinamómetro que es más caro y midiéramos en su lugar la fuerza prensil, asumiendo que también se relaciona con la discapacidad. Todas estas decisiones son erróneas y pueden llevar a errores muy grandes, tanto en la práctica clínica como en investigación. Cuando he comentado que en mi experiencia, son errores encadenados, es porque muchas veces he observado que, en lugar de molestarnos en evaluar directamente las correlaciones, las asumimos presentes por transitividad, una tras otra, aceptando algunas como verdades ya comprobadas, y guiando líneas de investigación durante años y años, en base a un error conceptual de estadística.

Por último, otro ejemplo donde también aprecio se malinterpreta notoriamente la transitividad es en las pruebas de valoración. Tendemos a buscar métodos más baratos para evaluar determinados parámetros en nuestros sujetos en investigación, porque se supone tendrán mayor aplicabilidad clínica. Si bien esto es lo deseable, no siempre es posible. En esta búsqueda de métodos más baratos, pecamos de la falacia de la transitividad. Cuando se realiza un estudio de estas características, se suele comparar el nuevo método con uno considerado «gold standard» para evaluar su validez, calculándose la correlación entre las mediciones tomadas con ambos métodos. Mucha gente asume que por ejemplo, un valor de correlación de Pearson de 0.70, sería indicativo de buena validez, y concluyen que por tanto, el nuevo método podría implementarse en la práctica clínica e investigación, ahorrando costes. El motivo subyacente en la gran mayoría de casos, sea consciente o no quien realiza el mismo, es la aceptación de la transitividad, mejor dicho, la malinterpretación de la misma.

Si aceptamos una correlación de 0.70 entre ambos métodos de medición, necesitaríamos que se diera una correlación de 0.72 entre el gold standard y otra variable de interés, para que empezase a haber transitividad de dicha correlación hacia el nuevo método de medición. Por ejemplo, si asumimos que el gold standard presenta una correlación de 0.85 con otra variable, la correlación estimada del nuevo método de medición con dicha variable, por transitividad, sería de 0.219. ¿Podemos por tanto usar indistintamente el nuevo método de medición? La respuesta es, en función de solo esta información, no. Pues ya hemos visto que la transitividad no justificaría dejar de usar el gold standard, pues perderíamos casi toda la correlación con la otra variable de interés. Esto no implica que no pudiera darse una relación más alta entre el nuevo método y dicha variable, simplemente que, por transitividad, no pasaría y por tanto un razonamiento basado en la misma, no se sostiene.

A continuación te dejo un segundo test, con el fin de que puedas evaluar el conocimiento que has adquirido con la presente entrada y si ha mejorado tu capacidad de interpretación de literatura científica:

7
Creado en Por Admin

Transitividad Correlación (Test Final)

1 / 15

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

2 / 15

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

3 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.50 y la correlación entre Z e Y es de 0.49, ¿Puede la correlación entre X y Z llegar a ser perfecta (sin importar el signo)?

4 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

5 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.80, ¿Cuál es la correlación mínima que tendría que haber entre Z e Y para que hubiera transitividad hacia la correlación entre X y Z?

6 / 15

Si la correlación entre la fuerza prensil y la fuerza en rotación externa de hombro es de 0.60, y la correlación entre la fuerza en rotación externa y la discapacidad es de 0.50, ¿Cuáles serían los límites de posibles valores de la correlación entre la prensión manual y la discapacidad?

7 / 15

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

8 / 15

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

9 / 15

Dadas tres variables (X, Y, Z), sabiendo que la correlación entre X e Y es de 0.60 y la correlación entre Z e Y es de 0.70. ¿Podría haber una correlación entre X y Z igual a cero?

10 / 15

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

11 / 15

Si la correlación entre la fuerza en rotación externa máxima de hombro y el grado de discapacidad es de 0.60, y la correlación entre dicha fuerza en rotación externa y la fuerza prensil es de 0.90, ¿Cuál es la correlación estimada por transitividad entre la fuerza prensil y la discapacidad de hombro?

12 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.40 y la correlación entre Z e Y es de 0.80, ¿Puede ser negativa la correlación entre X y Z?

13 / 15

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

14 / 15

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

15 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

Tu puntación es

The average score is 65%

0%

Conclusiones

Las correlaciones no son transitivas, la posibilidad de presencia o no de transitividad depende de la magnitud y dirección de las correlaciones. No debemos caer en el error de inferir asociaciones por transitividad, sin haberlas evaluado de manera directa, pues puede llevarnos a cometer errores cruciales tanto en investigación, como en la práctica clínica.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Básico Modelo Lineal General

Regresion Lineal – Interpretacion Coeficientes

Regresión lineal: Interpretación de Coeficientes

En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal simple y múltiple cuando todas las variables independientes son cuantitativas continuas, sin entrar en detalle de supuestos matemáticos subyacentes a dichos análisis.

Los análisis de regresión lineal son de los más utilizados en nuestro campo y se encuentran dentro del modelo lineal general. Este tipo de análisis ofrecen una gran versatilidad para el estudio de múltiples hipótesis de investigación, pudiendo aportar información muy útil. En esta entrada nos centraremos en al interpretación de la regresión lineal cuando todas las variables del modelo son cuantitativas continuas. Vamos a distinguir tres formas de regresión lineal:

  • Regresión lineal simple.
  • Regresión lineal múltiple sin interacción.
  • Regresión lineal múltiple con interacción.

Notación matemática

Este sería el modelo más sencillo de regresión lineal, donde se dispone de una variable dependiente (y) y una sola variable independiente (x), que quedaría definido matemáticamente como:

$$y_i = c + b_1x_i + \epsilon_i$$

Por otro lado, visualmente un modelo de regresión lineal quedaría definido en un gráfico de dispersión como:

Para poder comprender los modelos de regresión lineal múltiples más avanzados, es necesario empezar a entender la notación matemática utilizada en la regresión lineal. A continuación se muestra a que hace referencia cada letra de la anterior fórmula:

  • yi = Esta es la variable dependiente, la que se intenta «predecir» en función de los valores de las variables independientes. El subíndice i hace referencia al sujeto i del que se está intentando predecir el valor de y. 
  • c = Esta es la constante del modelo, el valor en el que la recta de regresión corta el eje de las ordenadas, es decir, el valor de y cuando x = 0.
  • xi = Esta es la variable independiente, la que se utiliza para «predecir» los valores de y. Puede haber más de una, que pueden nombrarse con cualquier otra letra, aunque es habitual usar posteriormente wz. Estas serán las letras a utilizar en los ejemplos de esta entrada.
  • b1 = Este es el coeficiente de regresión sin estandarizar, estos coeficientes se calculan siguiendo el método de los mínimos cuadrados ordinarios. Hay un coeficiente de regresión sin estandarizar por cada variable independiente incluida en el modelo.
  • ϵiEste es el error asociado al sujeto i. Normalmente, este término no se incluye en la notación de la fórmula del modelo de regresión lineal, aunque se tiene en cuenta para los análisis estadísticos. En la gráfica se refleja el error asociado a cada sujeto con una línea vertical anaranjada, que es la distancia del valor observado en el sujeto hasta la recta de regresión, que es el valor que predecimos en función de nuestra variable/s independiente/s.

Una vez conocidos los términos, podemos pasar a comprender como interpretar un análisis de regresión lineal simple y posteriormente múltiple.

Regresión lineal simple

En la fórmula mostrada anteriormente, yi hacía referencia al valor observado para el sujeto i en la variable dependiente, dado que se incluyó el término del error (ϵi) en la fórmula. Cuando dejamos fuera este término, yi hace referencia al valor predicho de la variable dependiente y para el sujeto i (el valor de la recta de regresión). De ahora en adelante, hablaremos siempre del valor predicho, que es lo que realmente se estima con los modelos de regresión lineal. Pero… ¿Qué es el valor predicho?

A lo largo de toda la página web me veréis insistir mucho en entender conceptos básicos como diferenciar estimadores muestrales de estimadores individuales, así como la importancia de comprender adecuadamente el concepto de tendencia central y más en concreto, el de la media. El valor predicho con un modelo de regresión lineal es una media. Si partimos de un valor cualquiera de la variable independiente (x), por ejemplo x = 68kg, el valor predicho de la variable dependiente (y = Fuerza) sería la fuerza media estimada de todos los sujetos que presentan un peso de 68kg. *Nota: Debemos tener en cuenta que puede haber muchas mal-especificaciones en el modelo de regresión, por ejemplo porque no haya una relación lineal y sea de otro tipo, que no hayamos tenido en cuenta todas las variables posibles a incluir en el modelo o que nuestra muestra no sirva para generalizar el modelo a otras (ej. sujetos jóvenes sin generalizar a la tercera edad), pero no entraremos en detalle en estos puntos en esta entrada.

Se ha comentado que b1 es el coeficiente de regresión sin estandarizar. Se le denomina sin estandarizar porque no se han manipulado las unidades de medida a la hora de su cálculo, presenta las mismas unidades que la variable dependiente, en el caso de una regresión lineal simple el coeficiente de regresión estandarizado sería igual al coeficiente de correlación de Pearson. Este coeficiente es el que nos indica la posible presencia o no de una relación lineal entre la variable independiente y la dependiente, su interpretación sería la siguiente:

  • b1 < 0. Relación negativa entre las dos variables.
  • b1 = 0. Ausencia de relación entre las dos variables.
  • b1 > 0. Relación positiva entre las dos variables.

La ausencia de estandarización conlleva un problema, no podemos saber como de grande es o no es la relación lineal con respecto a otros coeficientes de otros modelos de regresión lineal (a diferencia de con el coeficiente de correlación de Pearson, que si podemos), debido a que su valor depende de las unidades de medida de y. Es decir, imaginemos que queremos predecir la fuerza isométrica máxima de rotación externa de hombro en función del índice de masa corporal y por otro lado, en función de la estatura, quedando dos modelos de regresión lineal simple como los siguientes:

$$Fuerza_i = 32.54 + 5.10*IMC_i$$

$$Fuerza_i = -65.93 + 1.27*Estatura_i$$

Como puede apreciarse, en ambos casos existe una relación positiva, ya que el coeficiente de regresión sin estandarizar es mayor que cero (5.10 para la fuerza y 1.27 para la estatura). Sin embargo, aunque el valor del coeficiente de la estatura sea menor que el del IMC, ambas variables presentan la misma relación con la fuerza, un coeficiente de correlación de Pearson de 0.50 en ambos casos. La discrepancia observada en los coeficientes sin estandarizar es debida a que las unidades de medida del IMC y la estatura difieren, siento en este caso simulado:

$$IMC = \{\bar x = 23kg/m^2, \sigma = 3kg/m^2\}$$

$$Estatura = \{\bar x = 170cm, \sigma = 12cm\}$$

Esto mismo sucedería si cambiásemos de variable dependiente, ya que sus unidades también influyen en el valor del coeficiente de regresión sin estandarizar. De aquí en adelante, nos olvidaremos de medir lo «grande» o «pequeña» que es la relación lineal y nos centraremos simplemente en interpretar los modelos de regresión lineal con coeficientes sin estandarizar.

En una regresión lineal simple, el coeficiente b1 hace referencia al cambio estimado en unidades de que se deriva de incrementar una unidad en x. Por ejemplo, en el caso anterior de la estatura, por cada incremento en 1cm de estatura se estima un incremento de 1.27N de fuerza de rotación externa. Retomando la representación gráfica de la regresión lineal simple, el coeficiente b1 haría referencia a la pendiente de la recta de regresión.

Regresión lineal múltiple sin interacción

Ya sabemos a que hace referencia el coeficiente b1 cuando solo hay una variable independiente en el modelo, pero ¿Qué interpretación tienen estos coeficientes cuando tenemos más de una variable independiente? Establezcamos un nuevo modelo, donde se pretenda predecir la fuerza en rotación externa incluyendo la estatura y el peso como variables independientes:

$$y_i = c + b_1 x_i + b_2 w_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i$$

$$Fuerza_i = -251.14 + 3.98*Peso_i + 0.96*Estatura_i$$

Cuando en un modelo de regresión lineal se incluyen dos o más variables dependientes por separado, estamos forzando al modelo a un supuesto, que no existe interacción entre el peso y la estatura a la hora de predecir la fuerza, es decir, que la relación estimada del peso con la fuerza es independiente de la estatura y la relación estimada de la estatura con la fuerza es independiente del peso. La definición por tanto de los coeficientes sin estandarizar sería:

  • b1 = Cambio estimado en unidades de y que se deriva de incrementar 1kg el peso, manteniendo la estatura constante.
  • b2 = Cambio estimado en unidades de y que se deriva de incrementar 1cm la estatura, manteniendo la peso constante.

Es decir, si tenemos dos personas con la misma estatura, por ejemplo 170cm, una que pesa 68kg y otra que pesa 69kg, la diferencia de fuerza que estimamos entre ellas es de 3.98N (b1). Esto se cumpliría para cualquier valor de estatura, siempre que ambos sujetos tengan la misma. Del mismo modo, si tenemos dos personas que pesan lo mismo, una que mide 170cm y otra que mide 171cm, la diferencia de fuerza que estimamos entre ellas es de 0.96N (b2), a expensas del peso que presenten, siempre que sea el mismo.

Expresado desde un punto de vista gráfico (por ejemplo para el peso), la pendiente (b1) de la recta de regresión obtenida de predecir la fuerza en función del peso no varía en función de la estatura:

En esta imagen se reflejan las recta de regresión entre el peso y la fuerza, para cinco valores de estatura (de 162cm a 178cm), calculadas a partir de las fórmulas mostradas anteriormente. Como puede apreciarse, la pendiente de las rectas es idéntica, son rectas paralelas donde lo único que cambia es la constante, ejemplificando visualmente la definición aportada anteriormente.

Hay dos conceptos que suelen nombrarse mucho en relación a los análisis de regresión lineal múltiple, el de factor de confusión y/o covariable. Hay situaciones en las que queremos estimar la relación que tiene una variable con otra, «controlando» para otros posibles factores de confusión, denominados covariables del modelo. Por ejemplo, podríamos querer estimar la relación lineal que hay entre la intensidad del dolor de hombro y la fuerza isométrica en rotación externa, controlando para las covariables edad, estatura y peso.

Regresión lineal múltiple con interacción

Como se ha comentado anteriormente, al incluir solo por separado las dos variables independientes, se fuerza el modelo a asumir que la relación estimada por ejemplo del peso con la fuerza, es independiente del valor de estatura de los sujetos y viceversa, que esto se traducía en que el valor del coeficiente de regresión del peso (b1) no varía en función de la estatura, que la pendiente de dicha recta de regresión es la misma, como se podía apreciar en la última figura. Antes de pasar a explicar que es la interacción, creo que es mejor observar una representación gráfica de la misma con el mismo modelo anterior:

Como se puede apreciar, en este caso, la pendiente de la recta de regresión para el peso si varia en función de la estatura de los sujetos, es decir, el coeficiente de regresión del peso (b1) varía en función de la estatura. Para entender esto, primero debemos conocer como se expresa un modelo de regresión lineal múltiple con interacción y a que hace referencia dicha interacción:

$$y_i = c + b_1 x_i + b_2 w_i + b_3 z_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Interaccion$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

Tal y como se refleja en estas fórmulas, un modelo de regresión lineal con interacción es aquel en el que se incluye un tercer término en el modelo (la interacción), con su respectivo coeficiente de regresión (b3). Ese tercer término no es más que una variable que se crea multiplicando los valores de las otras dos incluidas en el modelo, es decir, si un sujeto tiene una estatura de 170cm y un peso de 72kg, su valor en la variable interacción sería de 12240. ¿A qué hace referencia aquí entonces el coeficiente de regresión de la interacción (b3)?

Podemos definir b3 como el cambio estimado del coeficiente de regresión del peso (b1) que se deriva del incremento de una unidad en la estatura (+ 1cm), o viceversa, el cambio estimado del coeficiente de regresión de la estatura (b2) que se deriva del incremento de una unidad en el peso (+ 1kg). Voy a centrarme en el coeficiente de regresión del peso para explicar mejor esta definición, reestructurando un poco la fórmula mostrada anteriormente. Imaginemos que es viable tener una estatura de 0cm e incrementamos en una unidad la estatura, teniendo por tanto un valor de estatura para un sujeto dado de 1cm, entonces sustituyendo en la anterior fórmula tendríamos que:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*1 + b_3*Peso_i*1$$

$$Fuerza_i = (c + b_2) + Peso_i*(b_1 + b_3)$$

He puesto dentro de un mismo paréntesis la constante y el coeficiente b2 puesto que al multiplicarlo por 1 quedaría un valor numérico, que se sumaría a la constante. Por otro lado, al adjudicar el valor 1 a la estatura en el término de la interacción, lo que queda es un coeficiente de regresión multiplicado solo por la variable peso, de modo que se puede unificar dicho coeficiente (b3) con el coeficiente b1 en un mismo paréntesis, quedando ambos multiplicados por el peso. Es aquí donde queda ejemplificada la definición mostrada anteriormente, de que el coeficiente de regresión del peso ha incrementado b3 unidades debido al incremento de una unidad en la estatura, ya que si la estatura tuviera un valor hipotético de cero, entones:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*0 + b_3*Peso_i*0$$

$$Fuerza_i = c + Peso_i*b_1$$

Quedando ejemplificado que el incremento de una unidad de la estatura es lo comentado anteriormente. En términos de visualización gráfica, la pendiente de la recta de regresión entre el peso y la fuerza se incrementaría b3 unidades con el incremento de una unidad en la estatura.

De esta última fórmula se extrae además otra definición nueva. Mientras que en la regresión lineal múltiple sin interacción el coeficiente de regresión del peso (b1) hacia referencia a la relación entre el peso y la fuerza, independiente de la estatura (manteniendo la estatura constante), ahora el coeficiente de regresión del peso (b1) refleja la relación entre el peso y la fuerza cuando la estatura es igual a cero, sucediendo lo mismo pero a la inversa para el coeficiente de la estatura. Es decir, la inclusión del término de interacción cambia el significado de los coeficientes de regresión del peso (b1) y la estatura (b2), esto es importante ya que, si no se conoce este hecho, se pueden malinterpretar gravemente dichos coeficientes al leer un artículo de investigación. Normalmente, cuando se incluye un término de interacción, lo que interesa es el coeficiente de regresión de la interacción, que es lo que se suele estar testando, no esos otros coeficientes.

Puede que te hayas dado cuenta ya de un factor importante sobre la interpretación de dichos coeficientes de regresión al incluir la interacción, ¿Cómo que b1 es la relación entre el peso y la fuerza cuando la estatura es igual a cero? ¿Quién puede medir cero centímetros? No tiene sentido. Es por ello que para mejorar la interpretación de dichos coeficientes, suele realizarse un procedimiento que se denomina «centrar en la media». *Nota: Aunque no es el objetivo de esta entrada y no profundizaré en ello, si quería remarcar que el objetivo de centrar en la media es puramente para hacer que esos coeficientes tengan un sentido de interpretación, nada que ver la «eliminación» de la colinealidad entre variables independientes con el objetivo de mejorar el modelo de regresión, ya que no sirve para tal propósito.

Este procedimiento consiste en restar a cada valor el de la media de la muestra para dicha variable, es decir, si un sujeto tiene un peso de 55kg pero la media muestral es de 60kg, entonces su valor quedaría como -5. Esta actuación no alterará el coeficiente de regresión de la interacción ni la significación estadística del mismo, solo alterará los otros dos coeficientes de las variables implicadas en la interacción, en nuestro caso b1 y b2. En este caso, por ejemplo para el peso, b1 ya no sería la relación entre el peso y la fuerza cuando la estatura es igual a cero, sería la relación entre el peso y la fuerza cuando la estatura es igual a la media de la muestra, y lo mismo sucedería con b2. Por tanto, ahora si tienen un sentido interpretable ambos coeficientes.

En esta entrada no profundizaré más en la interpretación de una interacción, ni en que pasos habría que seguir después de haber evaluado si hay o no una interacción estadísticamente significativa. No obstante, pondré un ejemplo más con 3 variables independientes. Imaginemos ahora el siguiente modelo de regresión lineal múltiple con interacción:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i$$

En este caso tenemos 3 variables independientes incluidas en el modelo, así como un término de interacción, la interacción entre la estatura y el peso. Por ejemplo para el peso, su coeficiente de regresión (asumiendo que hemos centrado en la media), sería la relación entre el peso y la fuerza cuando la estatura tiene el valor de la media de la muestra y se mantiene la edad constante, es decir, si la estatura media de la muestra fuese de 170cm, b1 sería la diferencia de fuerza estimada entre dos sujetos que miden 170cm y tienen la misma edad, se cual sea esta, pero que presentan una diferencia entre ellos de 1kg de peso. Por otro lado, el coeficiente de regresión de la edad (b3) sería la relación entre la edad y la fuerza, manteniendo constantes la estatura y el peso, es decir, la diferencia de fuerza estimada entre dos sujetos que tienen la misma estatura y peso, sean cuales sean estos, pero que difieren en 1 año de edad. En otras palabras, la inclusión de una interacción solo cambia la interpretación de los coeficientes de regresión de las variables involucradas en la misma, no las del resto de variables incluidas en el modelo. Este principio de razonamiento de interpretación se aplicaría en modelos más complejos, con varias interacciones y más variables independientes incluidas. Pondré un último ejemplo:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i*Edad_i*$$

En este caso se ha incluido una interacción entre las 3 variables (edad, estatura y peso), de forma que el coeficiente de regresión de la edad (b3) pasaría a ser, asumiendo que hemos centrado en la media, la relación entre la edad y la fuerza cuando la estatura y el peso tienen los valores de la media de la muestra.

Según se van incluyendo más variables e interacciones en el modelo, su interpretación puede volverse algo más tediosa y es por eso que no profundizaré en modelos más avanzados en esta entrada, pues pienso requerirían de demasiado tiempo y una base previa profunda de conocimiento de estadística para no errar en la interpretación de los mismos.

Conclusiones

A pesar de ser métodos de análisis ampliamente extendidos dentro del campo de la Fisioterapia, mi sensación subjetiva es que existe mucho desconocimiento sobre como interpretar los mismos. En esta entrada he querido profundizar solo en la parte de interpretación del sentido de los coeficientes de regresión, algo que a priori podría parecer complejo pero en verdad no lo es tanto. Finalmente, quiero remarcar que la interpretación crítica adecuada de un modelo de regresión lineal múltiple, requiere de tener en cuenta más aspectos que los mencionados en esta entrada, la cual constituye simplemente una base para comenzar a comprender mejor este tipo de análisis estadísticos.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Categorías
Meta-análisis Metodología Temas Avanzados

Guía Básica de Cribado para Revisiones Sistemáticas

Revisión Sistemática: Guía básica de cribado

En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, para la realización del cribado de estudios a incluir en una revisión sistemática.

La fase de cribado de una revisión sistemática es una de las más importantes de este tipo de estudios. Dependiendo de los resultados de nuestras búsquedas, el cribado puede llevar demasiado tiempo, no obstante, existen algunas estrategias para optimizar el tiempo de realización de dicha fase, así como la calidad metodológica de la misma.  En esta entrada explicaré como suelo proceder a la hora de planificar y realizar dicha fase en una revisión sistemática.

Esquema de realización del cribado

Antes de proceder con la explicación de las distintas fases del cribado de una revisión sistemática, mostraré aquí un esquema (que será el que seguiré) de los pasos a seguir:

  1. Selección de las aplicaciones a utilizar para el cribado.
  2. Importación de las búsquedas.
  3. Detección y eliminación de duplicados.
  4. Criterios de inclusión/exclusión.
  5. Palabras clave para facilitar el cribado.
  6. Pilotaje previo: análisis de concordancia entre revisores.
  7. Cribado de título y resumen.
  8. Resolución de conflictos.
  9. Organización del sistema de criterios de exclusión.
  10. Cribado de texto completo.
  11. Resolución de conflictos.
Aplicaciones para el cribado

Actualmente utilizo dos aplicaciones web que pueden optimizar mucho el tiempo de realización de la fase de cribado, Covidence y Rayyan. En la siguiente tabla muestro una comparativa general de ambas con respecto a varias funciones.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} \\ \hline Gratuito & Pago \ (> 500 \ articulos) \\ \hline Duplicados \ a \ mano & Duplicados \ automatico \\ \hline Multiples \ revisores & Solo \ dos \ revisores \ (gratis) \\ \hline No \ ambos \ cribados & Ambos \ cribados \\ \hline \end{array}$$

A pesar de que el precio por usar Covidence de manera íntegra es elevado, la parte gratuita de la misma es bastante útil en la fase de cribado, como explicaré más adelante. Además de utilizar Covidence y Rayyan, también recomiendo utilizar la aplicación de escritorio de Mendeley  y Microsoft Excel. A continuación muestro un resumen de la finalidad con la que utilizar cada una de dichas aplicaciones:

  • Mendeley:
    • Importación de artículos.
  • Covidence:
    • Detección y eliminación de duplicados.
  • Rayyan:
    • Detección y eliminación de duplicados.
    • Pilotaje.
    • Cribado de título y resumen.
  • Microsoft Excel:
    • Cribado de texto completo.
Importación de búsquedas

Antes de proceder al cribado de los artículos, es necesario importar los archivos extraídos de las distintas bases de datos que contienen nuestras búsquedas. No todas las bases de datos permiten exportar las búsquedas realizadas en los mismos formatos y no todas las aplicaciones permiten importar archivos en los mismos formatos. En la siguiente tabla muestro los tipos de archivos que permiten importar las tres aplicaciones que suelo utilizar en una revisión sistemática.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} & \textbf {Mendeley} \\ \hline EndNote \ (.enw) & EndNote \ XML \ (.xml) &  EndNote \ XML \ (.xml) \\  Refman/RIS \ (.ris) & RIS \ (.ris) & BibTeX \ (.bib) \\ BibTeX  \ (.bib) && RIS \ (.ris) \\ CSV \ (.csv) & & Zotero \ Library \ (zotero.sqlite) \\ Pubmed \ XML \ (.xml) & & \\ Nuevo \ Pubmed \ (.nbib) & & \\ Web \ of \ Science/CIW \ (.ciw) & & \\ \hline \end{array}$$

Como puede apreciarse, Covidence está muy limitado en cuanto al tipo de archivos que permite importar y este es el motivo de que haya añadido Mendeley al listado de aplicaciones a utilizar en la fase de cribado. Todas las bases de datos que suelen consultarse en revisiones sistemáticas en Fisioterapia permiten exportar las búsquedas en alguno de los formatos permitidos por Mendeley. De este modo, si realizamos una búsqueda en una base de datos que no permite exportar en un formato aceptado por Covidence, lo que yo suelo hacer es importar dichas búsquedas a Mendeley, para después exportar esos artículos con formato .ris, una función que Mendeley permite, pudiendo finalmente importar dichas búsquedas en Covidence. Es indispensable poder importar todas las búsquedas en Covidence, ya que esta es la aplicación a utilizar en la primera fase de la detección y eliminación de duplicados.

Detección y eliminación de duplicados

Es importante reportar las herramientas utilizadas para proceder con la detección y eliminación de duplicados, entre otras cosas por un motivo de transparencia y de facilitación de reproducibilidad de la metodología empleada para el cribado, de acuerdo a las recomendaciones de la declaración PRISMA de reporte de las búsquedas en una revisión sistemática.

A pesar de que la aplicación web Covidence es de pago, una de sus funcionalidades gratuitas es de gran ayuda. Como ya he comentado, Covidence solo permite cribar de manera gratuita hasta un máximo de 500 artículos. Sin embargo, aunque no podamos cribar más de 500, si podemos importar más de 500, de hecho, podemos importar el número que necesitemos de artículos y proceder a la detección y eliminación de duplicados con dicha aplicación. Este primer paso es muy relevante, ya que a diferencia de Rayyan, Covidence si elimina los duplicados de manera automática. Una vez realizado este primer paso, procederemos a exportar los artículos restantes de Covidence para importarlos en Rayyan, donde proseguiremos con esta fase.

A pesar de que Covidence detecta y elimina la gran mayoría de duplicados, aun se deja algunos que detectará Rayyan. La desventaja de Rayyan es que, aunque detecta los duplicados de manera automática, no los elimina. Rayyan detectará posibles duplicados de acuerdo al porcentaje de concordancia de palabras en los distintos campos de importación de los artículos y luego tendremos que ir revisando uno a uno los casos de posible duplicado y decidir si existe o no duplicación y eliminar el artículo que no nos interese.

Por mi experiencia con grandes importaciones de artículos (6000 a 9000), el paso de Covidence lo considero indispensable, pues la tarea de eliminación manual de duplicados en Rayyan con cantidades de 1000-2000 duplicados, llevará demasiado tiempo sin existir necesidad para ello. Normalmente, con cantidades altas de resultados en las búsquedas como las referidas al inicio de este párrafo, una vez eliminamos duplicados en Covidence, los que suelen detectarse en Rayyan son pocos, entre 100-300 en las revisiones que he llevado a cabo, un número asequible para resolver manualmente en esta aplicación.

Por último, cabe destacar que, a pesar de usar dos aplicaciones, aún pueden quedar duplicados sin detectar que se deberán eliminar posteriormente en las fases respectivas de cribado de título-resumen o texto completo.

Criterios de inclusión y exclusión

El establecimiento de unos criterios de inclusión y exclusión claros resulta obvio para una buena calidad de la fase de cribado y a nivel general, para una buena calidad de la revisión sistemática.

El establecimiento de los criterios de inclusión y exclusión tiene, a mi modo de ver, dos partes: la parte explícita que se reportará en el manuscrito final y la parte no explícita que no se reportará, pero que es de suma importancia durante el proceso de cribado. Explicaré este punto con un ejemplo práctico de una revisión que estoy actualmente realizando, donde un criterio de inclusión explicito es: “Medir la cinemática escapular durante la elevación/descenso del brazo con sistemas de medición 3D que no sean de superficie”.

Este sería el criterio explícito, tal cual se reportará en el manuscrito de la publicación. Por otro lado, tendríamos la parte no explícita del criterio, que sería en parte la siguiente:

  • Sistemas optoelectrónicos no se incluyen (son de superficie).
  • Sistema VICON no se incluye (es de superficie).
  • Sistemas basados en sensores con cámaras infrarrojos no se incluyen (son de superficie).
  • Sistemas elecromagnéticos pueden ser de superficie o acoplados a pins insertados en hueso. Los primeros no se incluyen y los segundos sí.
  • En caso de que no se reporte el tipo de sistema electromagnético en título/resumen, se incluye el estudio y en la fase de texto completo se evaluará si es de superficie o con pins insertados en hueso para ver si finalmente se incluye el artículo o no.
  • Sistemas de fluoroscopia y radiografía de incluyen (no son de superficie).

Estos son algunos de los puntos no explícitos que acompañan a ese criterio explícito. El problema de no tener claros estos puntos y no detallarlos adecuadamente en las instrucciones para los revisores que realizarán el cribado, es que puede ser que se dejen estudios fuera que podrían haberse incluido o viceversa. En el segundo caso tiene solución ya que los podremos excluir finalmente cuando el IP tenga acceso al listado final de artículos incluidos. Sin embargo, en el primer caso (excluir estudios susceptibles de haber sido incluido), no podremos detectar que esto ha sucedido ni solventarlo.

El investigador encargado del establecimiento de los criterios de inclusión/exclusión debe valorar que los revisores que realizarán el cribado puede que no tengan el mismo conocimiento que él/ella (ej. Puede que los revisores no sepan que un sistema optoelectrónico es de superficie), y que es su obligación detallar al máximo posible los distintos criterios, así como posibles situaciones donde surja duda (como el caso de los sensores electromagnéticos donde no se reporta si son de superficie o no), para que los revisores tenga claro qué decisiones tomar y no se vea afectada la calidad de la fase de cribado.

Mi recomendación es elaborar una lista detallada de los criterios de inclusión/exclusión explícitos y todos sus componentes no explícitos en un Word y, previo comienzo al cribado, organizar una reunión con los distintos revisores que intervendrán en la misma para aclarar cualquier posible duda al respecto de manera previa.

Palabras clave para facilitar el cribado

Una de las utilidades que presenta Rayyan y que mejorará no solo el tiempo de realización del cribado de título y resumen, sino también posiblemente su calidad, es la presencia de palabras clave destacadas.

Cuando importamos un listado de artículos en Rayyan, la aplicación elabora de manera automática un listado de palabras clave destacadas de inclusión y exclusión, las cuales recomiendo encarecidamente eliminar para elaborar nuestra lista propia, ya que el listado facilitado por Rayyan normalmente no se adecua a los objetivos de nuestra revisión.

Las palabras claves de inclusión aparecerán destacadas en verde y las de exclusión en rojo, facilitando visualmente el cribado. Hay veces en las que la presencia de una palabra determinada en el título de un estudio, por ejemplo «systematic review» es motivo suficiente para su exclusión. El disponer de un listado de palabras de exclusión facilita detectar estos artículos de manera rápida visualmente y por tanto optimizar el tiempo necesario para esta fase de cribado.  Del mismo modo, el disponer de palabras resaltadas en el resumen puede facilitar la localización de la información relevante para decidir si se debe incluir o excluir dicho artículo durante esta fase de cribado, siendo de especial utilidad en la detección de las partes no explícitas de los criterios de inclusión y exclusión.

Pilotaje previo: análisis de concordancia entre revisores

La fase de pilotaje previo es una de las más importantes con respecto al cribado en una revisión sistemática, siendo actualmente recomendada por la Colaboración Cochrane. El objetivo de esta fase es evaluar si los revisores que realizarán el cribado han comprendido adecuadamente los criterios de inclusión y exclusión, antes de proceder al cribado de todos los estudios encontrados con la estrategia de búsqueda.

Si los revisores no tienen claros los criterios de inclusión y exclusión, pueden originarse muchas discrepancias entre ellos, que deberán ser resueltas por un tercer revisor. Sin embargo, aunque podríamos pensar que este es el motivo principal de realizar el pilotaje previo, existe otro motivo aún más importante. Del mismo modo que una falta de comprensión de los criterios puede hacer que un revisor incluya un estudio y otro revisor lo excluya, también puede producir que dos revisores excluyan un artículo que fuera susceptible de haber sido incluido en la revisión. En el primer caso, disponemos de otra fase que es la resolución de conflictos, donde podrá solventarse en parte ese problema. Sin embargo, si dos revisores deciden excluir un artículo que debería haberse incluido, habremos perdido ese estudio en esta fase de cribado y no tendremos forma de saber que hemos errado ni de solucionar el problema posteriormente. Este es el motivo principal por el cual es importante hacer el pilotaje previo, para prevenir que esto suceda.

Cuando realizamos la búsqueda en las distintas bases de datos podemos encontrarnos en dos situaciones distintas, según la cual recomiendo proceder de una u otra forma con respecto al pilotaje previo:

  • Número pequeño de artículos encontrados (suelo usar un punto de corte de < 500 estudios tras eliminar duplicados): No realizar pilotaje previo.
  • Número elevado de artículos encontrados: Pilotaje previo con 200-300 artículos.

Número pequeño de artículos

Cuando el número total de artículos a cribar en la fase de título y resumen no es muy elevado (< 500), se puede optar por no realizar un pilotaje previo. El motivo por el cual recomiendo esto es porque, desde mi punto de vista, el número de artículos que podremos seleccionar para realizar el pilotaje será demasiado pequeño y esto puede dar lugar a resultados extremos en el análisis de concordancia, sin que podamos asegurarnos que dicha concordancia se mantenga en el resto del cribado. Es por ello que, en estos casos, considero más útil realizar el cribado directamente y realizar el análisis de concordancia con el total de artículos incluidos. En caso de que dicho análisis no salga óptimo, se llevaría a cabo una reunión de resolución de dudas con respecto a los criterios de inclusión y exclusión para volver a proceder a cribar todos los artículos nuevamente, antes de pasar a la fase de resolución de conflictos.

Número elevado de artículos

En este caso si considero adecuada la realización del pilotaje. La propuesta que muestro de número de artículos a utilizar es debida a que, según mi conocimiento, ese número de estudios parece ser suficiente para asegurar niveles adecuados de precisión en la estimación de distintos coeficientes de fiabilidad de variables categóricas, como el Kappa de Cohen o el AC1 de Gwet, que son las dos propuestas que recomiendo utilizar.

Lo ideal sería poder realizar un muestreo aleatorio de los estudios a utilizar para realizar el cribado, pero esto por experiencia, requiere de demasiado trabajo. El motivo de llevar a cabo ese muestreo ideal sería obtener una muestra representativa de estudios con respecto al total de estudios que posteriormente se cribarán en la fase de título y resumen. A pesar de que considero esta aleatorización, a nivel práctico no viable, si que podemos tener en cuenta alguna consideración para evitar sesgar el pilotaje en cierta medida. Recomiendo encarecidamente evitar:

  • Seleccionar estudios de una sola base de datos (mínimo 2).
  • Seleccionar solo estudios de una franja temporal (ej. solo estudios antiguos entre 1990 y 2000, cuando nuestra muestra de estudios a cribar para la revisión incluye artículos de 1990 hasta el año 2020).

El primer punto puede no meter muchos sesgos, pero el segundo si es importante evitarlo. Por ejemplo, puede ser que estemos realizando una revisión sobre la efectividad de una intervención que antiguamente no se utilizase, de forma que si en el pilotaje incluimos solo estudios muy antiguos, puede ser que apenas salgan estudios de inclusión, de manera que solo podríamos evaluar si hay buena concordancia con los criterios de exclusión, pero no con los de inclusión, de forma que el pilotaje no sería útil.

El pilotaje deberá realizarse igual que se realizará el cribado posterior, es decir, utilizando la misma aplicación y el mismo listado de palabras clave destacadas (si se deciden usar).

Interpretación del análisis de concordancia

La fase de pilotaje presenta una característica a tener en cuenta para la interpretación de los análisis estadísticos de concordancia, el efecto de la elevada prevalencia de los estudios a excluir. Normalmente, la mayor parte de estudios de una revisión sistemática serán excluidos durante el cribado y este desequilibrio entre los SI y los NO tiene repercusiones en estadísticos como el Kappa de Cohen, pudiendo darse el caso de un alto grado de concordancia entre los examinadores con un valor no tan alto del Kappa de Cohen. Existen dos opciones:

  • Interpretar el valor del Kappa de Cohen junto con los índices de prevalencia y sesgos, así como el Kappa ajustado para la prevalencia y sesgos (PABAK).
  • Utilizar el coeficiente AC1 de Gwet, que es más robusto ante ese efecto de la prevalencia.

En cualquiera de los casos, recomiendo valores superiores a 0.70-0.80 del PABAK o AC1 de Gwet para poder asumir una buena concordancia entre los examinadores. No obstante, también debe evaluarse otro aspecto, el número total de estudios incluidos en el cribado (de acuerdo de inclusión). Por ejemplo, imaginemos un caso de un pilotaje de 200 artículos donde existe un 10% de discrepancias (20 artículos con discrepancias), es decir un porcentaje pequeño, en dos escenarios distintos:

$$Escenario \ 1= \begin{bmatrix} & Incluido & Excluido\\Incluido & 2 & 10 \\Excluido & 10 & 178\end{bmatrix}, \ AC1 = 0.89$$

$$Escenario \ 2= \begin{bmatrix} & Incluido & Excluido\\Incluido & 20 & 10 \\Excluido & 10 & 160\end{bmatrix}, \ AC1 = 0.87$$

En ambos casos simulados hay el mismo porcentaje de discrepancias y tenemos un valor similar del coeficiente AC1 de Gwet, sin embargo, las dos situaciones son muy diferentes en cuanto a interpretación. En el primer caso, solamente hay acuerdo de inclusión en dos estudios. Este numero es especialmente pequeño y en estos casos la decisión que suelo tomar es concluir que no ha habido una concordancia suficiente como para poder proceder con el cribado. En el segundo caso, sin embargo, mi actuación sería proceder con el cribado, asumiendo un porcentaje aceptable de concordancia entre los revisores.

Análisis y aclaración de conflictos

Cuando se realiza la fase de pilotaje existen dos posibles resultados, que concluyamos que hay un acuerdo aceptable entre los revisores o que no. En ambos casos se procederá con el análisis y aclaración de los conflictos, sin embargo, si concluimos que no ha habido un acuerdo adecuado, el siguiente paso sería repetir el pilotaje con una muestra nueva de estudios, mientras que si hemos concluido que el acuerdo era aceptable, entonces se procederá con la fase de cribado de título y resumen.

Durante la fase de análisis y aclaración de conflictos, el investigador principal deberá revisar los artículos en los que han habido las discrepancias a fin de dilucidar los posibles malentendidos con los criterios de inclusión y/o exclusión que han llevado a tales discrepancias. Posteriormente, deberá elaborar un documento word con las aclaraciones pertinentes, pero sin nombrar estudios concretos, es decir, no se puede decir «el estudio X debería haberse incluido por este motivo». Simplemente deberán recogerse las aclaraciones con respecto a los criterios de inclusión/exclusión que el investigador principal consideré pertinentes con respecto a las discrepancias observadas.

Cribado de título y resumen

Durante esta fase, como su propio nombre indica, se cribarán los artículos por título y resumen igual que se hizo en la fase de pilotaje, salvo que aquí se cribarán ya todos los estudios susceptibles de ser incluidos en la revisión sistemática.

La totalidad de esta fase recomiendo realizarla en Rayyan, ya que su realización en Excel incluso con un número pequeño de artículos, requerirá de más tiempo del necesario. Un aspecto que merece la pena ser remarcado con respecto a esta fase del cribado es la primacía de la sensibilidad sobre la especificidad.

Durante esta fase, es recomendable que en caso de duda sobre si incluir o no un determinado estudio, por falta de información, se incluya. Supone un mayor problema excluir un estudio que realmente debería haberse incluido en la revisión, que decidir incluir en la fase de titulo y resumen un estudio que no deba incluirse. En el segundo caso, con el posterior cribado de texto completo, donde disponemos de más información, se podrá discernir si realmente el estudio ha de ser incluido o no, por lo que no sería un problema. Sin embargo, como ya he comentado, si ambos revisores excluyen un artículo que debiera incluirse, no tenemos forma de detectar este suceso ni tomar medidas para remediarlo.

Por último, cabe destacar que en esta fase han de incluirse nuevamente también todos los artículos utilizados para el pilotaje previo, es decir, dichos artículos se cribarán nuevamente a pesar de haberse utilizado para la fase de pilotaje.

Resolución de conflictos

La fase de resolución de conflictos de título y resumen puede realizarse en Rayyan, aunque la aplicación no permite como tal “resolver los conflictos”, pero podemos organizar esta fase de manera manual. Rayyan dispone de un botón de enmascaramiento que podemos apagar, de tal manera que al acceder a la revisión se puedan observar las decisiones de ambos revisores y seleccionar un apartado donde solo se incluyen los artículos con discrepancias.

El primer paso para planificar esta fase es desactivar el botón de enmascaramiento, acceder al apartado de discrepancias y exportar dichos estudios. Después deberemos crear una nueva revisión en Rayyan, donde importaremos solo los estudios con discrepancias, para que el tercer evaluador encargado de resolverlas cribe dichos estudios sin conocimiento de las decisiones de los revisores previos.

Tendremos por tanto dos archivos que exportar en formato .csv, uno de la revisión original con los artículos que ambos revisores decidieron incluir y otro de la revisión creada para resolver las discrepancias con los artículos que el tercer revisor decidió incluir. Estos serán los artículos que se cribarán en la fase posterior de texto completo.

Organización del sistema de criterios de exclusión

A diferencia de la fase de cribado de título y resumen, donde no es necesario reportar los motivos de exclusión de acuerdo a las recomendaciones de la Cochrane, en la fase de cribado a texto completo si es necesario hacerlo. Es por ello que, el primer paso para planificar esta fase será la organización de dichos criterios de exclusión.

Debido a que en esta fase han de reportarse los motivos concretos por los que se excluye cada artículo, esto ha de tenerse también en cuenta a la hora de evaluar posteriormente las discrepancias, ya que puede ser que dos revisores decidan excluir un artículo pero por motivos diferentes, constituyendo eso también una discrepancia entre ambos que deberá ser resuelta. Sin una adecuada organización de los criterios de exclusión, es probable que se produzcan muchas discrepancias innecesarias.

Los estudios pueden presentar más de un criterio de exclusión, sin embargo, con la simple presencia de uno de ellos ya deberán ser excluidos, sin necesidad de reportar todos los que presentaban. Esto hace que el orden en que se evalúan dichos criterios de exclusión importe y es el motivo por el cual es necesario organizar los mismos antes de comenzar el cribado a texto completo.

La forma de proceder que considero más óptima para organizar los criterios de exclusión es seguir el orden en que suele presentarse la información en un estudio de investigación, es decir, empezar por los criterios de exclusión sobre el diseño del estudio y terminar por aquellos que tengan que ver con las variables resultado o las intervenciones. El orden en que suele presentarse la información en una investigación en términos generales (siempre hay excepciones) sería:

  1. Diseño del estudio.
  2. Sujetos.
  3. Tamaño muestral.
  4. Intervenciones.
  5. Variables resultado.
  6. Análisis estadístico.

Además del orden, debemos simplificar los criterios de exclusión para la elaboración de dicho listado, de manera que queden redactados tal cual aparecerán posteriormente en el diagrama de flujo de la publicación definitiva. Un ejemplo podría ser el siguiente:

  1. Diseño de estudio inadecuado.
  2. Sujetos con otras patologías.
  3. Tamaño muestral inferior a 60 sujetos.
  4. Ausencia de un grupo con ejercicio terapéutico.
  5. Ausencia de medidas de resultado de discapacidad.

De este modo, primero iremos al apartado de diseño del estudio y si está presente dicho criterio de exclusión, excluiríamos el artículo sin leer el resto del manuscrito, optimizando el tiempo de cribado. Si ambos revisores proceden con el mismo listado, no debería haber discrepancias entre ellos derivadas del orden de evaluación de los criterios de exclusión.

Cribado de texto completo

Esta sería la última fase (incluyendo la resolución de conflictos de texto completo) de la fase de cribado de una revisión sistemática. A diferencia del cribado de título y resumen, en el que Rayyan puede facilitarnos la tarea, el cribado de texto completo personalmente recomiendo realizarlo mediante Microsoft Excel, ya que creo se optimiza más el tiempo.

El primer paso a realizar en la planificación del cribado a texto completo es organizar los resultados obtenidos del cribado de título y resumen. Mediante Rayyan deberemos exportar dos documentos .csv (valores separados por comas), uno que incluirá los artículos incluidos por ambos revisores y otro que incluirá los artículos incluidos por el tercer revisor en la fase de resolución de discrepancias. Estos dos archivos .csv deberemos unificarlos en uno solo. Una vez exportados los artículos, debemos convertir el archivo .csv al formato de Microsoft Excel. Visualmente, los datos exportados de los artículos incluidos en formato .csv quedarían como:

 

Como puede apreciarse, todos los datos están guardados en una misma celda, separándose con comas cada apartado de los datos (número Rayyan, título, año de publicación…). Para convertir los datos a formato Excel y que cada columna se corresponda con un apartado se debe proceder de la siguiente manera:

  1. Seleccionar la primera columna.
  2. Ir a la sección «Datos».
  3. Abrir la herramienta «Texto en columnas».
  4. Seleccionar el tipo de archivo «Delimitados».
  5. Seleccionar el separador «Coma».
  6. Seleccionar el formato de datos «General».
  7. Clicar en «Finalizar» y cuando nos pregunte «Aquí hay datos. ¿Desea reemplazarlos?» clicar en «Aceptar».

De este modo ya dispondremos de los datos de los artículos incluidos separados por columnas. Antes de proseguir con la modificación del Excel, deberán encontrarse los documentos a texto completo de todos los estudios incluidos. Mi recomendación a la hora de guardar dichos archivos, es adjudicarles nombre con la siguiente estructura, «Año de publicación. Título del estudio», por ejemplo, «2009. Motion of the Shoulder Complex During Multiplanar Humeral Elevation». El motivo de nombrar así los documentos es simplemente para facilitar su localización mientras se realiza el cribado en el Excel. Si se orden los documentos alfabéticamente en la carpeta donde los guardemos y se hace lo mismo con las filas en Excel, será mucho más fácil encontrar el PDF asociado a cada artículo a cribar en el Excel.

Los únicos datos que serán necesarios en el Excel (el archivo .csv deberá guardarse finalmente como .xlsx que es el formato de Excel) que se utilizará para el cribado de texto completo son por tanto el año de publicación y el título, el resto de columnas deberán ser eliminadas para facilitar la funcionalidad del Excel. Personalmente recomiendo dejar la primera columna con los años de publicación y la segunda con el título de los estudios, es decir, intercambiar el orden en que aparecen al exportar los datos desde Rayyan.

El siguiente paso es construir el sistema de cribado en Excel mediante la elaboración de listas de datos. Primero debemos crear una nueva hoja en nuestro documento de Excel, donde se encontrarán las distintas opciones de nuestras listas. Mi recomendación es crear dos listas, una para la decisión de incluir o no el estudio y otra con los motivos de exclusión:

El motivo de crear estas listas escritas es porque, cuando creemos las listas desplegables a utilizar para el cribado a texto completo, debemos especificar de que celdas debe coger el desplegable las opciones a enseñar. Estas listas desplegables se crean de la siguiente manera:

  1. Seleccionar todas las celdas en las que vayamos a querer insertar el desplegable.
  2. En la sección «Datos», seleccionar la herramienta de «Validación de datos», justo a la derecha de «Texto en columnas».
  3. En «Criterio de validación» seleccionar «Lista» en la sección de «Permitir».
  4. En esa misma página, seleccionar en la sección «Origen» las celdas donde hemos creado nuestras opciones para dicha lista.
  5. Clicar en «Aceptar».

Una vez realizados estos pasos, ya dispondremos de celdas con un listado desplegable de opciones, facilitando la tarea a los revisores que se encarguen de realizar la fase de cribado a texto completo.

Con todo ello, ya estaría finalizado el Excel para realizar la fase de cribado de texto completo. Para proceder con esta fase, cada revisor cribará los estudios en un Excel independiente. Una vez finalizado el cribado, el investigador principal deberá detectar las discrepancias entre ambos revisores, para lo cual recomiendo unificar las columnas de «Decisiones» de ambos revisores en un mismo Excel. Los estudios en los cuales haya discrepancias deberán enviarse en un nuevo Excel, sin contener ninguna información sobre las decisiones de los revisores previos, a un tercer revisor que será el encargado de resolver las mismas, finalizando de este modo la fase de cribado de la revisión sistemática.

Conclusiones

La fase de cribado es una de las más importantes de una revisión sistemática. Esta fase requiere tener en cuenta algunos aspectos metodológicos importantes para mejorar la calidad de la misma (destacando las partes no explícitas de los criterios de inclusión y exclusión, así como el pilotaje previo) y para optimizar su tiempo de realización (destacando el uso de distintas aplicaciones). Las recomendaciones aquí mencionadas recogen mi forma de trabajar a la hora de planificar y realizar una revisión sistemática, aunque existen otras opciones para ello. Personalmente, animo encarecidamente a todo aquel/aquella que vaya a realizar una revisión sistemática, a estudiar antes detenidamente las consideraciones metodológicas de este tipo de estudios.

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …