Categorías
Avanzado Ensayos Clínicos Inferencias Modelo Lineal General Temas Avanzados Uncategorized

Cambio Intra- & Entre-Grupos en Ensayos Aleatorizados

Ensayos aleatorizados: Cambio intra- & entre-grupos

En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del contexto de un ensayo aleatorizado, haciendo hincapié en su finalidad, limitaciones y adecuada interpretación.

De la práctica clínica a los ensayos aleatorizados

En la práctica clínica, la forma que disponemos de saber si un paciente mejora, es tomar una medición basal de referencia y una o varias mediciones en distintos momentos posteriores de seguimiento. Después, podemos observar la diferencia de dichas mediciones posteriores con la situación basal, para ver si ha habido un cambio en dicha variable. Sin embargo, a que se debe dicho cambio, pudiendo ser a un efecto de la intervención aplicada, historia natural, errores en el procedimiento de medición, etc. También puede deberse a una combinación de estos, influyendo algunos más y otros menos, por ejemplo:

Para poder saber cuál es la efectividad de la intervención, si es que hay alguna, debemos poder restar a dicha mejoría observada el efecto atribuible a otros factores, como los errores de medición o la historia natural. Sin embargo, esto no puede realizarse con un solo grupo de sujetos, ya que no tenemos forma de saber cuánto ha influido cada factor, por ello es necesario contar con un grupo no expuesto a la intervención, pero si a los otros factores que pueden influir en que los pacientes cambien a lo largo del tiempo. Esto es lo que se realiza en un ensayo clínico aleatorizado. Por ejemplo, podemos comparar un programa de ejercicio (grupo experimental) con un grupo que no reciba tratamiento (grupo control). La mejoría del grupo de ejercicio podría ser la siguiente:

Como se ha comentado, no sabemos cuándo ha contribuido cada factor a dicha mejoría y si hay o no algún efecto del tratamiento. La mejoría del grupo control podría ser esta: 

Dado que lo único que diferencia (si se ha realizado bien el estudio) al grupo experimental del control, es la aplicación de ejercicio terapéutico, si calculamos la diferencia entre ambos podremos obtener una estimación del efecto de la intervención:

Diferencias intra-grupo dentro del contexto de un ensayo clínico aleatorizado

Como se ha comentado, las diferencias intra-grupo no nos aportan información sobre la efectividad de una intervención, siendo esta información aportada por las diferencias entre-grupos. Entonces, ¿Qué utilidad tienen las diferencias intra-grupo en un ensayo aleatorizado?

Utilidad de la medición basal (antes de la intervención)

En contra de la intuición, las mediciones basales, antes de aplicar el tratamiento, no son en absoluto necesarias para poder evaluar la efectividad de una intervención en un ensayo aleatorizado. Se puede realizar un estudio aleatorizado midiendo solo a los 3 meses de haber aplicado la intervención, y poder obtener estimaciones precisas de la efectividad de esta.

Volviendo a la práctica clínica, si tenemos dos sujetos, uno que con una intensidad de dolor post-tratamiento de 3 y otro de 2.9 podríamos pensar que ambos han mejorado por igual, sin embargo, nos faltaría un dato, la situación de dolor basal de la que partían. Si uno de los sujetos partía de una intensidad de 8 y el otro de 4, las mejorías de uno y otro serían 5 y 2.1, habiendo claras diferencias (aunque no sabríamos si la mejoría sería por el tratamiento). Es decir, el calcular el cambio intra-grupo, con respecto a la medición basal, es una forma de “ajustar” o “controlar” para posibles diferencias en la situación basal, ya que la diferencia de los sujetos en el post-tratamiento depende de sus diferencias en la situación basal, y sin tener en cuenta la misma entonces podríamos malinterpretar quien ha mejorado más o menos.

En un ensayo aleatorizado, ese control de la situación basal se realiza mediante el proceso de asignación aleatoria a los grupos de tratamiento, que hace que la asignación al tratamiento sea independiente de la situación basal de los sujetos en la variable de interés y en todas las variables confusoras (medidas o sin medir en el estudio). Por ello, en este tipo de diseños no sería necesario como se ha comentado una medición basal para poder analizar la efectividad de un determinado tratamiento, pudiéndose analizar simplemente las diferencias post-tratamiento entre los grupos.

El motivo por el cual se realiza una medición basal, antes de aplicar la intervención, es porque de esta forma podemos mejorar la potencia estadística, siendo más fácil encontrar un efecto de la intervención bajo estudio, si es que existe alguno. Es decir, se realiza para disminuir el número de sujetos necesarios para llevar a cabo la investigación.

Cuando se dice que la aleatorización hace que la asignación al tratamiento sea independiente de la situación basal, implica decir que la diferencia media esperada (“real”) entre los grupos en la situación basal es de cero. Se habla de diferencia media esperada porque es el valor al que tiende dicho estadístico cuando el tamaño muestral tiende a infinito, sin embargo, en investigación las muestras nunca suelen ser tan grandes y, por tanto, siempre se observan pequeñas diferencias en la situación basal entre los grupos, originadas por la asignación aleatoria. Como sabemos que la diferencia real es de cero, si medimos la situación basal (previa al tratamiento), podemos incluir esa variable en un tipo de análisis conocido como Análisis de la Covarianza, para forzar a que dicha diferencia será cero en la situación basal en nuestro estudio, ajustándose las diferencias post-tratamiento y la precisión en la estimación de estas, mejorando la potencia estadística de los ensayos clínicos y, por tanto, necesitándose menos muestra. 

Los cambios como un modelo de regresión

Cuando calculamos la diferencia en dos momentos de tiempo de una variable, el objetivo es “ajustar” o “controlar” para la situación basal. En la práctica clínica normalmente medimos a un paciente varias veces, de modo que solo podemos realizar esta resta. Sin embargo, en una investigación se suele medir a un conjunto de pacientes (una muestra), siendo este procedimiento de resta simple inadecuado.

Desde un punto de vista de un modelo de regresión lineal, la medición post-tratamiento (Ypost) puede definirse como:

$$Y_{post} = C + b_1*Y_{basal} + error$$

Cuando calculamos manualmente la diferencia (post- menos basal) de cada sujeto, estamos asumiendo el siguiente modelo:

$$Y_{post} – Y_{basal} = C + error$$

La única forma de que las dos ecuaciones se igualen, es que b1 (el coeficiente de regresión sin estandarizar) sea igual a 1, algo que rara vez sucede en la práctica. Dado que el objetivo de calcular el cambio post- menos basal es “controlar” para discrepancias en la situación basal, eso implica que la variable “Diferencia” obtenida, debe ser independiente de la situación basal (correlación = 0), algo que solo sucederá si b1 = 1. De no ser así, habrá una relación entre la diferencia y la situación basal, como se muestra a continuación con datos simulados:

Esto tiene dos implicaciones. Por un lado, sigue habiendo dependencia con la situación basal, pudiéndose sobreestimar o infraestimar el posible efecto de la intervención, y por otro, no se minimizarían los errores del modelo de regresión, disminuyendo por tanto la precisión y potencia estadística del estudio.

Los ensayos aleatorizados como un modelo de regresión

Partamos ahora del contexto de un ensayo aleatorizado, donde se van a comparar dos grupos,  uno que recibe un tratamiento experimental y un grupo control sin tratamiento, tomándose mediciones en la situación basal y a los 6 meses de seguimiento. En este caso tenemos tres posibilidades para comparar ambos grupos: ver las diferencias en el post-tratamiento, calcular el cambio del post- con respecto a la medición basal y ver las diferencias entre los grupos en esta nueva variable, o utilizar un análisis de la covarianza. El modelo de regresión de cada una de estas opciones sería:

Comparar POST-

$$Y_{post} = C + b_1*Tratamiento$$

Comparar CAMBIO

$$Y_{post} – Y_{basal} = C + b_1*Tratamiento$$

Modelo ANCOVA

$$Y_{post} = C + b_1*Tratamiento + b_2*Y_{basal}$$

En el primer caso (POST-), se asume que la relación entre la medición post-tratamiento y la medición basal es de cero (b2 = 0); en el segundo caso, como se comentaba en el apartado anterior, se asume que b2 es igual a 1; y finalmente en el tercer caso, se deja al modelo de regresión calcular la mejor estimación posible de b2, en lugar de asumir un valor concreto, para minimizar los errores del modelo. En los tres casos, el coeficiente b1 sería la diferencia media entre ambos grupos.

Como se comentaba al inicio de la entrada,  no es necesario tomar mediciones basales para poder evaluar la efectividad de una intervención en un ensayo aleatorizado, siendo también innecesario el cálculo de la diferencia con respecto a la medición basal, teniendo estos procedimientos simplemente la utilidad de mejorar la potencia estadística y precisión (cuando la correlación entre la medición post- y la basal no es igual a cero). En otras palabras,  si la muestra es lo suficientemente grande, dará igual que evaluemos solo las diferencias post-tratamiento, ya que la asignación aleatoria asegura una diferencia basal nula cuando la muestra tiende a infinito. Por ejemplo, asumiendo una diferencia media de 0.5 y una desviación estándar de 1, la muestra necesaria para una potencia deseada del 90%, en función de la correlación entre la medición basal y la post-tratamiento, para cada uno de los tres modelos sería:

Como se puede apreciar en el gráfico, el modelo de ANCOVA optimiza la disminución de los errores del modelo, requiriéndose siempre menos muestra salvo que la correlación sea de 0 o de 1, donde tendría la misma utilidad que el modelo POST-tratamiento o el modelo CAMBIO, pero no menos utilidad. Dado que la potencia estadística solo puede ir de 0 a 100, si incrementásemos mucho el tamaño muestral (ej. 10,000 sujetos por grupo) daría igual que modelo utilizásemos en un ECA, ya que la potencia tendería a su limite superior de 100, siendo las diferencias entre los 3 métodos irrelevantes. Sin embargo, esta no suele ser la situación habitual en la práctica, donde al haber menos muestra, se pueden observar pequeñas diferencias a nivel basal entre los grupos, siendo recomendable por tanto el uso del ANCOVA que minimizaría los errores del modelo con respecto a los otros dos.

Centrándonos ahora en los coeficientes b1 de los tres modelos, es decir, en las diferencias medias entre los grupos, también se observa algo contraintuitivo. Tendemos a pensar que es algo distinto calcular las diferencias entre grupos del cambio con respecto a la medición basal, a calcular las diferencias solo en el post-tratamiento, o mediante el uso del ANCOVA, sin embargo, todos esos procedimientos están estimando lo mismo, el efecto de la intervención, es decir, si incrementamos la muestra lo suficiente, los coeficientes b1 de cada uno de los 3 modelos tenderán todos hacia un mismo valor, estiman lo mismo. Lo único distinto es que cambia la precisión de la estimación y por eso se obtienen pequeñas diferencias de dichos coeficientes en un ensayo clínico realizado, pero a nivel conceptual son lo mismo. Por tanto, la creencia popular de que calcular el cambio con respecto a la situación basal para comparar dicha variable entre dos tratamientos, ofrece una visión más “real” de la efectividad de una intervención, porque estamos comparando mejorías en el tiempo, no se sostiene.

Los engaños de las diferencias intra-grupo en los ensayos aleatorizados

Como se explicaba al inicio del texto, la asignación aleatoria a los grupos de tratamiento es lo que garantiza la independencia con respecto a variables confusoras, de forma que la inferencia causal solo es aplicable en un ensayo aleatorizado a las diferencias entre-grupos, pero no a las intra-grupo. A pesar de ello, actualmente la mayoría de las revistas científicas de nuestro campo solicitan reportar las diferencias intra-grupo dentro del contexto de un ensayo clínico, un procedimiento que más que ayudar a interpretar mejor los resultados, solo puede confundir y sesgar más al lector, induciendo a malinterpretaciones del ensayo clínico. Por ejemplo, dado que la asignación aleatoria no elimina factores de confusión de las diferencias intra-grupo, donde también influyen aspectos como la historia natural, esto hace que dicha diferencia dentro del grupo experimental tienda a sobreestimar la efectividad de la intervención, ya que en ella también se sumaria el efecto de la historia natural del proceso en cuestión.

A continuación, muestro algunas preguntas frecuentes con sus respectivas respuestas, a fin de prevenir al lector tales malinterpretaciones (algunos aspectos ya se han comentado previamente):

Preguntas y respuestas

Si un grupo experimental mejora de manera significativa y el control no, ¿implica que la intervención es efectiva?

No

Si dos grupos experimentales mejoran igual a lo largo del tiempo, ¿significa que ambas intervenciones son igual de efectivas, o que son efectivas?

No

¿Es necesario tomar una medición basal (antes de aplicar el tratamiento) en un ensayo aleatorizado para evaluar la efectividad de este?

No

Si las diferencias entre grupos no son significativas ni relevantes, pero solo el grupo experimental ha mostrado diferencias significativas intra-grupo, ¿significa que puede que la intervención sea efectiva?

No

¿Calcular la diferencia post- menos basal en un ensayo aleatorizado es un procedimiento estadístico adecuado?

No

¿Las diferencias intra-grupo sobreestiman el efecto de la intervención?

Si

¿Son distintas a nivel conceptual las diferencias entre-grupos ajustadas de un ANCOVA y las calculadas mediante la variable diferencia post- menos basal?

No

¿Es necesario observar las diferencias intra-grupo para interpretar adecuadamente los resultados de un ensayo aleatorizado?

No

 

Literatura de interés
Conclusiones

Las diferencias intra-grupo no son necesarias dentro del contexto de un ensayo aleatorizado, pudiendo derivar solo en malinterpretaciones de los resultados del mismo. Por ello, es recomendable no tener en cuenta tales diferencias, incluso no reportarlas, cuando se lea o se realice un estudio con este tipo de diseño. Todo ensayo aleatorizado debería analizarse y reportarse con un modelo ANCOVA (u otra variante de modelo de regresión multivariable, incluyendo la medición basal como covariable).

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Guía Estadística Tamaño Muestral Temas Avanzados

Tamaño Muestral ANOVA mixto GPower

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power

En esta entrada se recoge una breve explicación de uno de los errores más comunes cometidos dentro del campo de la Fisioterapia, a la hora de calcular tamaños muestrales con el programa G*Power.

El software G*Power es uno de los más utilizados dentro del campo de la Fisioterapia (y otros) para calcular tamaños muestrales a priori durante la fase de planificación de un estudio de investigación. Este software facilita cálculos de tamaño muestral basados en potencia para distintos análisis, como comparaciones de dos medias, correlación de Pearson y lo que es la temática de esta entrada, los Análisis de la Varianza (ANOVA), más concretamente aquellos con medidas repetidas.
Desde aquí y en el resto de la entrada, basaré las explicaciones en un ANOVA mixto con tres grupos de tratamiento (ejercicio, terapia manual, vendaje) y 4 momentos de medición (basal, 3 meses, 6 meses y 12 meses), ya que es el tipo de análisis que suele usarse para calcular tamaños muestrales en ensayos controlados aleatorizados en Fisioterapia. Los cálculos propuestos son para la interacción tiempo-por-grupo.

Comenzaré con un pequeño ejemplo de cómo se suele proceder en G*Power para calcular ese tamaño muestral a priori. Para poder calcularlo se requiere especificar una serie de valores:

  • Número de grupos.
  • Número de mediciones.
  • Tamaño del efecto estimado (f o ηp2).
  • Correlación entre medidas repetidas.
  • Potencia deseada.
  • Nivel alfa de significación.
  • Corrección en caso de no esfericidad.

De estos datos, ya tenemos especificados algunos en base al diseño que he propuesto, y otros los asumiremos según valores típicos utilizados en Fisioterapia:

  • Número de grupos: 3
  • Número de mediciones: 4
  • Tamaño del efecto: Medio (f = 0.25 // ηp2 = 0.06)
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 80%
  • Nivel alfa de significación: 0.05
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)

Con estos datos, el tamaño muestral calculado es de 30 sujetos, es decir, 10 sujetos por grupo. Parece algo pequeño, pero…si el G*Power nos ha dado ese resultado, es que es correcto, ¿o no? A continuación, explicaré con más detalle el punto sobre el que trata la entrada, el tamaño el efecto, y haré un pequeño matiz al final de esta sobre la asunción de esfericidad asumida.

Tamaños del efecto pequeños, medios y grandes. Dos etas cuadrado

En el anterior ejemplo he especificado que se estimaba un tamaño del efecto medio, que se correspondía con un valor f = 0.25 o un valor de ηp2 = 0.06. Estos valores no los he nombrado al azar, ya que mucha gente se basa en la siguiente recomendación sobre lo que es un tamaño del efecto pequeño, medio y grande en el caso de ANOVAs:

  • Efecto pequeño: f = 0.10 / ηp2 = 0.01
  • Efecto medio: f = 0.25 / ηp2 = 0.06
  • Efecto grande: f = 0.40 / ηp2 = 0.14

Con respecto a los ANOVA, hay distintos tamaños del efecto, me centraré solamente en dos para esta entrada: el coeficiente eta cuadrado (η2) y el coeficiente eta cuadrado parcial (ηp2). El primero se usaría cuando solo tenemos un factor (ej., comparamos 3 grupos con una sola medición, solo habría un factor, el factor grupo). El segundo por su lado, se utiliza cuando tenemos varios factores, como sería en nuestro ejemplo de ensayo aleatorizado, donde disponemos del factor grupo y el factor tiempo (medidas repetidas). De forma simplificada, pueden definirse matemáticamente como:

$$\eta^2 = \frac{SS_{efecto}}{SS_{total}}$$

$$\eta_{p}^2 = \frac{SS_{efecto}}{SS_{efecto} + SS_{error}}$$

En el caso de un ANOVA mixto, tenemos 3 posibles efectos de interés, el efecto principal grupo, el efecto principal tiempo y la interacción tiempo por grupo. De este modo, si nuestro interés es la interacción tiempo-por-grupo, tendríamos (nota: fórmulas simplificadas):

$$\eta^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{grupo} + SS_{tiempo} + SS_{error}}$$

$$\eta_{p}^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{error}}$$

Eta cuadrado parcial y correlación entre medidas repetidas

El coeficiente eta cuadrado parcial (ηp2) se ve influenciado por la correlación entre medidas repetidas. No entraré en detalles, pero esa influencia es en el sentido de que, a mayor correlación entre medidas repetidas, mayor valor de ηp2 y consecuentemente, mayor potencia estadística (es decir, se requerirá menor muestra). Por ejemplo, imaginemos el caso anterior, con una correlación asumida de 0.50 el tamaño muestral resultante era de 30 sujetos. Si elevamos la correlación asumida a 0.70, el tamaño muestral baja a 21 sujetos, y si la elevamos a 0.90, entonces el cálculo nos devuelve tan solo 9 sujetos (3 por grupo).

Sobra decir que manipular dicha correlación para obtener un menor tamaño muestral es engañoso. En ausencia de datos previos, lo ideal sería asumir una correlación de 0.50 como máximo, o ser incluso más conservadores con correlaciones más pequeñas si las mediciones están muy separadas en el tiempo (de 0.40-0.45 por ejemplo) (Walters 2019). Asumir correlaciones por encima de 0.50 debe estar muy justificado.

Distintos tamaños del efecto: EL ERROR
Todas las explicaciones anteriores enlazan con este apartado, que es el verdadero motivo de la entrada, la existencia de distintas especificaciones de tamaño del efecto f y ηp2, que pueden llevar a cometer errores importantes al realizar cálculos de tamaño muestral con G*Power. Tenemos tres métodos:
  • Método que usa G*Power.
  • Método basado en datos extraídos de SPSS.
  • Método basado en Cohen, 1988 (quién dio las recomendaciones de tamaño del efecto mencionadas anteriormente).
La diferencia entre ellos es la utilización de la correlación de medidas repetidas. Utilizando el método que aparece por defecto en G*Power, debemos especificar la correlación para el cálculo del tamaño muestral. Esto se debe a que G*Power no tiene en cuenta dicha correlación para la especificación del tamaño del efecto estimado que le hemos especificado, sino que la utiliza luego directamente en el cálculo. Por otro lado, cuando se calcula en SPSS un coeficiente eta cuadrado parcial (ηp2), se tiene en cuenta ya para su cálculo la correlación entre medidas repetidas. En otras palabras, el coeficiente eta cuadrado parcial en que se basa el cálculo de G*Power, no es el mismo que el que facilita SPSS, sus valores no coinciden, así como tampoco es lo mismo un f = 0.25 según G*Power, que un f = 0.25 según SPSS, tal y como se especifica en el manual de utilización del G*Power. Anteriormente he comentado que a mayor correlación mayor valor de ηp2 y, por tanto, menos muestra necesaria para un determinado estudio, como mostré incrementando la correlación en el cálculo inicial. Por otro lado, como acabo de comentar, el cálculo del coeficiente ηp2 que facilita SPSS al hacer un análisis, ya tiene en cuenta la correlación entre medidas repetidas. Por tanto, si nos basamos en un ηp2 de SPSS, que ya tiene en cuenta dicha correlación y por tanto será más grande, y lo metemos en el G*Power para calcular el tamaño muestral según G*Power, donde tenemos que especificar la correlación, estamos usando dos veces la correlación, una vez que se usó en SPSS para dar el valor de ηp2 y otra ahora en el cálculo del tamaño muestral en G*Power, con la implicación de que sobreestimamos el tamaño del efecto y por consecuente, infraestimamos la muestra necesaria. Existe una opción en el G*Power para especificar al software en que nos estamos basando cuando especificamos un tamaño del efecto para calcular el tamaño muestral basado en un ANOVA con medidas repetidas, abajo del todo en un botón de “Opciones”.
Es imprescindible cambiar en dicho apartado la especificación del tamaño del efecto según en que nos estemos basando. Si nos basamos en datos extraídos de estudios previos, que por lo general utilizan la forma de cálculo de ηp2 del SPSS donde ya se tiene en cuenta la correlación entre medidas repetidas, debemos seleccionar dicho apartado en “Opciones”. Mientras que, si nos basamos en las “recomendaciones de Cohen” de un tamaño pequeño, medio y grande, entonces debemos seleccionar dicha opción. ¿Por qué es tan importante esto? Volviendo al ejemplo inicial, nos salía una muestra de 30 sujetos (10 por grupo), para un supuesto valor f = 0.25, siguiendo las recomendaciones de que ese valor corresponde a un tamaño del efecto medio según Cohen. Si ahora especificamos que el tamaño del efecto es según Cohen en la pestaña “Opciones”, el tamaño muestral resultante es de 222 sujetos (74 sujetos por grupo). Veamos otro ejemplo con valores reales extraídos de un reciente estudio. En este estudio se calcula el tamaño muestral para la interacción tiempo-por-grupo de un ANOVA mixto con las siguientes especificaciones:
  • Número de grupos: 4
  • Número de mediciones: 3
  • Tamaño del efecto: ηp2 = 0.048 (extraído de un estudio piloto previo, calculado con SPSS).
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 90%
  • Nivel alfa de significación: 0.01
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)
De acuerdo con sus especificaciones, el tamaño muestral resultante reportado en el estudio fue de 84 sujetos (21 por grupo). Este sería el tamaño muestral calculado, basándose en un ηp2 de 0.048 extraído de SPSS, pero manteniendo la especificación de tamaño del efecto según G*Power. Al cambiar en la pestaña “Opciones” el tamaño del efecto a “según SPSS”, el tamaño muestral resultante es de 240 sujetos (60 por grupo). Es decir, su estudio con esa muestra no “tenía” una potencia como ellos querían del 90%, sino que realmente tenía una potencia del 28%, por haber especificado mal el tamaño del efecto en G*Power a la hora de realizar su cálculo.
Una nota sobre la esfericidad

No entraré en detalles en esta entrada acerca de la asunción de esfericidad, ya que no es el propósito de esta. Pero si quisiera hacer una anotación de cara a los cálculos de tamaño muestral basados en ANOVA mediante G*Power. De manera resumida, la asunción de esfericidad rara vez (por no decir nunca) podemos asumir que se cumpla en la vida real. Esto implica que no podemos especificar valores de corrección iguales a 1, es decir, sin corrección, asumiendo que dicho asunción se cumplirá a la perfección. La opción correcta es asumir un cierto grado de incumplimiento en dicha asunción, y tener en cuenta este aspecto para calcular el tamaño muestral, introduciendo una ligera corrección. Si no disponemos de datos previos fiables, una opción conservadora es establecer un valor de corrección de esfericidad de 0.75. ¿Por qué es esto importante?

Cuando la asunción de esfericidad se cumple a la perfección (corrección igual a 1) se requiere menos muestra para encontrar un efecto. En otras palabras, si ponemos el valor de 1 en el cálculo, obtendremos menos muestra. Pero como he comentado, esta situación es muy poco plausible en la vida real, de modo que, si hacemos eso, estaríamos infraestimando nuestra muestra.

En los ejemplos anteriormente mencionados, la muestra del primer estudio inventado (especificando bien el tamaño del efecto) pasaría de 222 sin corrección, a 267 sujetos con una corrección de 0.75. En el segundo caso del estudio real, el cambio sería de 240 sin corrección, a 292 sujetos con la corrección de 0.75.

Precisión por encima de potencia

El contenido de esta entrada tiene como objetivo simplemente explicar algunos errores comunes realizados al calcular tamaños del efecto basados en potencia con G*Power. No obstante, nada del contenido de la misma debe ser interpretado como una recomendación a favor de los cálculos de tamaño muestral basados en potencia, que tienden a infraestimar las muestras necesarias en investigación. Mi recomendación es basar siempre los cálculos en la precisión en lugar de la potencia. En el apartado de Repositorio: Guías de Estadística, se recogen distintas fuentes de información para realizar cálculos de tamaño muestral adecuadamente para distintos tipos de análisis.

Conclusiones

Por lo general, dentro del campo de la investigación en Fisioterapia, se utilizan muestras demasiado pequeñas en la mayoría de estudios publicados. Los principales motivos que achaco a este fenómeno son: 1) Cálculos basados en potencia y no precisión; 2) asunción de cumplimiento de distintas asunciones estadísticas que no se cumplen en realidad; 3) utilización errónea de la algunas herramientas disponibles para cálculos de tamaño muestral (como el G*Power); y 4) ausencia de adherencia a las recomendaciones de expertos en la materia.

La investigación en Fisioterapia se vería beneficiada enormemente por una mejora en las estimaciones a priori de tamaños muestrales basados en precisión, con la utilización correcta de las distintas herramientas disponibles, y adhiriéndose a las recomendaciones de expertos en la materia para un determinado tipo de diseño y/o análisis estadístico.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Fiabilidad Repositorio

Fiabilidad Diferencias Repositorio

Repositorio: Fiabilidad de Diferencias

A Comparison of the Reliabilities of Four Types of Difference Scores for Five Cognitive Assessment Batteries | Eur J Psychol Assess

  • En este artículo se discuten distintos aspectos relacionados con la fiabilidad de cuatro tipos de diferencias

On the relation between power and reliability of difference scores | Percept Mot Skills

  • En este artículo se ofrece una breve introducción a la fiabilidad de las diferencias.

The reliability of difference scores: A re-examination (Acceso libre)

  • En este artículo se profundiza en la influencia de distintas asunciones en la fiabilidad de las diferencias.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Inferencias Repositorio

Otros Métodos de Inferencia

Repositorio: Otros métodos de inferencia

Bootstrap resampling methods (Statistics Notes) | BMJ (Acceso libre)

  • En este artículo se ofrece una breve introducción al concepto de «bootstrapping«, otra forma de realizar inferencias estadísticas.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Inferencias Repositorio

Significación Estadística

Repositorio: Significación Estadística

Before p < 0.05 to Beyond p < 0.05: Using History to Contextualize p-Values and Significance Testing | Am Stat (Acceso libre)

  • En este artículo se explica la historia subyacente al actual modelo de contraste de hipótesis y como se llegó al establecimiento del umbral crítico de significación de .05. Es un artículo que facilita una mejor comprensión del concepto de significación estadística, umbral crítico de significación y puede ayudar a evitar múltiples malinterpretaciones con respecto al contraste de hipótesis.

The ASA Statement on p-Values: Context, Process, and Purpose | Am Stat (Acceso libre)

  • En este artículo se recoge al declaración de 2016 de la Asociación Americana de Estadística con respecto a la significación estadística. En ella, se profundiza en errores comunes de interpretación de lo que son los valores-p. Es un artículo de obligada lectura para comprender bien este concepto y no malinterpretar el mismo.

The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant | Am Stat (Acceso libre)

  • En este artículo se profundiza en un error común de interpretación de la significación estadística, explicándose porqué aunque en un grupo haya resultados significativos y en otro grupo no, eso no implica que haya diferencias significativas entre ambos grupos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Modelo Lineal General Repositorio

ANOVA y ANCOVA

Repositorio: Analisis de la varianza y covarianza

Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs | Psychology (frontiersin.org) (Acceso libre)

  • En este artículo se explican distintos tamaños del efecto relacionados con las comparaciones por pares y los ANOVA.

Eta-Squared and Partial Eta-Squared in Fixed Factor Anova Designs | Educ Psychol Meas

  • En este artículo se discuten las diferencias entre los coeficientes eta cuadrado y eta cuadrado parcial.

Misunderstanding analysis of covariance – PubMed (nih.gov)

  • En este artículo se explica la base del Análisis de Covarianza (ANCOVA) y algunos errores de interpretación comunes.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Modelo Lineal General Repositorio

Dicotomización

Repositorio: Dicotomización de variables cuantitativas

Dichotomizing continuous predictors in multiple regression: a bad idea | Stat Med

  • Este artículo es uno de los mejores hasta el momento con respecto a la discusión sobre la dicotomización de variables cuantitativas.

On the practice of dichotomization of quantitative variables | Psychol Methods (Acceso libre)

  • En este artículo se muestran distintos argumentos en contra de la dicotomización de variables continuas y las consecuencias negativas de dicha práctica. Este escrito puede facilitar la interpretación de algunos estudios de investigación en los cuales se está realizando este procedimiento, mejorando la capacidad de análisis crítico de sus resultados.

The Cost of Dichotomization – Jacob Cohen | Applied Psychological Measurement

  • En este artículo se muestran algunos argumentos en contra de la dicotomización de variables continuas, ejemplificándose las consecuencias negativas de esta práctica en el coeficiente de correlación de Pearson.

 

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Modelo Lineal General Repositorio

Regresión Lineal

Repositorio: Regresión lineal

Conditional Process Analysis: Concepts, Computation, and Advances in the Modeling of the Contingencies of Mechanisms | Am Behav Sci (Acceso libre)

  • En este artículo se muestra una introducción al Análisis de Proceso Condicional, explicándose los conceptos de moderación y mediación entre otros.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Fiabilidad Repositorio

Fiabilidad Avanzada Categórica

Repositorio: Fiabilidad Avanzada (Categóricas)

High agreement but low kappa: I. The problems of two paradoxes | J Clin Epidemiol y High agreement but low kappa: II. Resolving the paradoxes | J Clin Epidemiol

  • En estos dos artículos se profundiza en los efectos de la prevalencia y los sesgos sobre el valor del Kappa de Cohen.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Fiabilidad Repositorio

Fiabilidad Avanzada Continua

Repositorio: Fiabilidad avanzada (Continuas)

Intraclass Correlation (Andy P. Field) | Encyclopedia of Statistics in Behavioral Science (Acceso libre)

  • En este artículo se explica el concepto del coeficiente de correlación intraclase desde un punto de vista más avanzado, profundizando en los cálculos matemáticos.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …