Categorías
Tamaño Muestral Temas Avanzados

Tamaño Muestral: Potencia observada

Tamaño Muestral: Potencia Observada

En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los que esta practica esta totalmente desaconsejada.

La potencia de un determinado análisis estadístico, bajo unas circunstancias determinadas asumidas, sería la probabilidad a largo plazo de obtener un resultado estadísticamente significativo (asumiendo un punto de corte preseleccionado de valor-p) con dicho análisis, siempre y cuando se cumplan todos los supuestos de dichas circunstancias asumidas. En otras palabras, si se cumplen todas las asunciones, y un análisis (ej. t-Student) tiene una potencia del 50% con un tamaño muestral de 40 sujetos por grupo, asumiendo como significativo un valor-p < 0.05, eso significa que si repitiéramos infinitas veces dicho experimento, obtendríamos resultados significativos en el 50% de las replicaciones aproximadamente. Como hemos dicho, todo esto asumiendo que nuestras asunciones se cumplen a la perfección, que en un ejemplo inventado podrían ser:

  • La hipótesis nula (H0) es la diferencia igual a cero.
  • La hipótesis alternativa (H1) especificada es cierta.
  • Diferencia media poblacional bajo la H1 igual a 30.
  • Desviación típica poblacional es igual a 12.
  • Homocedasticidad asumida.
  • Distribución normal asumida.
  • Solo influye el muestreo aleatorio en la variabilidad entre las distintas replicaciones del experimento.

Cualquier variación en estas asunciones alteraría la potencia real de dicho análisis para un determinado tamaño muestral dado.

Muchos investigadores basan sus cálculos de tamaño muestral en la potencia “deseada” para un determinado análisis, partiendo de unas asunciones establecidas a priori. Sin embargo, también hay otra práctica muy extendida, que es el cálculo de la potencia del estudio, una vez se ha realizado el mismo, con los datos obtenidos, conocida como potencia post hoc o potencia observada.

Razones por las que se calcula la potencia observada en investigación

Ejemplo número uno:

Un grupo de investigadores realizan un ensayo aleatorizado con 15 sujetos por grupo, porque eran los que tenían disponibles. Tras ello, obtienen un una diferencia media de 5 puntos (p = 0.011). Sin embargo, como tenían poca muestra, no acaban de estar convencidos de que puedan confiar en esos resultados para rechazar la H0 y aceptar la H1, por ello, deciden calcular la potencia observada del estudio, ya que establecen que si dicha potencia es baja, entonces a lo mejor ese resultado aunque sea significativo, no es una prueba grande en contra de la H0, mientras que si se obtiene una potencia observada alta, eso nos indicaría que podemos confiar más en estos resultados, ya que teníamos muestra suficiente para encontrar dicha diferencia, y por tanto debemos tener más confianza en que podemos rechazar la H0. Realizan el cálculo y obtienen una potencia observada del 73%, concluyendo por tanto que efectivamente, tienen pruebas robustas para rechazar la H0.

Ejemplo número dos:

Otro grupo de investigadores realizan otro ensayo aleatorizado con 15 sujetos por grupo, también porque eran los que tenían disponibles. En este caso, los investigadores obtienen una diferencia media de 2 (p = 0.54). Sin embargo, como tenían poca muestra, deciden calcular la potencia observada, ya que puede ser que ese resultado no sea porque la hipótesis nula es cierta, sino simplemente porque tenían poca potencia para detectar la misma, por el escaso tamaño muestral. De modo que establecen que, si la potencia observada es baja, entonces puede ser simplemente un problema del tamaño muestral, y no de que la H0 sea cierta, y si obtienen una potencia alta, entonces sí que es plausible que los resultados obtenidos se deban a que la H0 es cierta. Obtienen una potencia observada del 9%, concluyendo por tanto que sus resultados posiblemente se deban al pequeño tamaño muestral y no a que la H0 tenga que ser cierta.

Ejemplo número tres: Contraintuitivo

Un tercer grupo de investigadores realizan otro ensayo aleatorizado, en este caso, disponen de 300 sujetos por grupo en su hospital. Obtienen una diferencia media de 1.1 (p = 0.24). Sin embargo, realizan el mismo razonamiento anterior y deciden calcular la potencia observada, resultando en un valor del 22%. Concluyen por tanto que, como la potencia observada es baja, los resultados no se deben en verdad a que la H0 tenga que ser cierta, sino que es un problema de que se tenía poca muestra.

Puede ser que los dos primeros ejemplos pareciesen “razonables”, sin embargo, aplicando ese mismo razonamiento, nos hemos topado con un tercer ejemplo en el que se afirma que una muestra de 300 sujetos por grupo, es también pequeña. De hecho, esto sucedería incluso aunque la muestra hubiera sido de 3000 sujetos por grupo, las conclusiones de dichos investigadores habrían sido las mismas, que la muestra era demasiado pequeña y que dicho valor-p no constituía un indicativo de que la H0 fuese más plausible que la H1.

Relación entre la potencia observada y el valor-p observado

Para poder entender mejor el ejemplo contraintuitivo, así como poder realizar una interpretación adecuada de la potencia observada, es necesario entender su relación con el valor-p observado. En la siguiente figura muestro la relación existente entre el valor-p observado y la potencia observada, para una prueba t-Student para dos muestras independientes.

La potencia observada tiene una relación directa con el valor-p observado, en otras palabras, la potencia observada no aporta información adicional al valor-p observado. Los valores-p pequeños siempre tendrán asociados valores altos de potencia observada y viceversa, sin importar si la H0 es cierta o falsa. De hecho, el gráfico anterior está elaborado con simulaciones donde la H0 es cierta.

Este concepto se puede comprender mejor enfrentando las distribuciones de la H0 y la H1. Por ejemplo, en un caso hipotético de 50 sujetos por grupo, para una potencia del 80%, tendríamos la siguiente figura:

En esta figura, el gráfico de densidad rojo hace referencia a la H0 y el gráfico azul a la H1, el valor de la mitad de alfa (contraste a dos colas) es el umbral crítico de significación (en nuestro caso asumiremos p < 0.05), que se muestra en la figura como una línea verde vertical. La potencia es todo el área bajo la curva azul que queda a la derecha de la línea verde vertical de la derecha, en este caso, el 80%, para una diferencia media observada de 2.85 (desviación estándar = 5). Ahora veamos que pasa si el valor de la diferencia media observada es el que coincide con la línea verde vertical, es decir, el umbral crítico de significación (valor-p = 0.05):

En este caso, la potencia observada es del 50%, ya que como se puede apreciar, la mitad de la gráfica azul queda a la izquierda de la línea verde y la otra mitad a la derecha, por lo que, la probabilidad de obtener un resultado significativo (p < 0.05), sería aproximadamente del 50% asumiendo que la H1 es cierta. Si seguimos desplazando esta gráfica azul a la izquierda, la potencia observada iría disminuyendo progresivamente, y como podemos ver, dado que ambas gráficas son curvilíneas, la relación entre el valor-p observado y la potencia observada no es lineal, sino exponencial como se mostraba en la primera figura. Si nos vamos al extremo, superponiendo las gráficas, puede apreciarse como entonces la potencia observada es igual al umbral crítico de significación especificado, en nuestro caso, 5%.

La potencia observada es engañosa: Llamada a la acción para su abolición

Debido a que la potencia observada tiene una relación directa inversa con el valor-p observado, no sirve para lo que se utiliza en la práctica clínica, como los ejemplos anteriormente mencionados. Si utilizamos la potencia observada para “interpretar mejor” los resultados del valor-p, entonces tenderemos a sobrestimar todos los resultados significativos, porque siempre obtendremos potencias observadas elevadas, y de manera inversa siempre podremos concluir que cualquier resultado no significativo se debe a un escaso tamaño muestral, a expensas de la muestra utilizada, y por tanto la H0 nunca será plausible si así lo deseamos.

Las recomendaciones por estadísticos desde hace décadas es no llevar a cabo dicha práctica, ya que solo deriva en errores de interpretación de los resultados de una investigación. La potencia debería siempre ser establecida a priori, a la hora de realizar el cálculo de tamaño muestral, en función de unas asunciones también establecidas a priori en función de literatura previa y conocimiento técnico sobre la materia, y nunca calculada en base a los resultados del propio estudio. No obstante, aún así mi recomendación sigue siendo, al igual que he especificado en otras entradas de esta web, calcular el tamaño muestral basándonos en la precisión y no en la potencia, que es la metodología adecuada que lleva a menos errores a la larga.

Conclusiones

La potencia post hoc o potencia observada no debe calcularse dentro del seno de una investigación. Este valor no aporta ninguna información adicional al valor-p observado y su cálculo y utilización para interpretar los resultados es engañoso, derivando en errores grandes con respecto a las conclusiones que pueden sacarse del propio estudio.

La potencia debe establecerse siempre a priori en base a unas asunciones también establecidas a priori. Sin embargo, el cálculo de tamaño muestral basado en precisión sigue siendo más recomendado.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Avanzado Guía Estadística Tamaño Muestral Temas Avanzados

Tamaño Muestral ANOVA mixto GPower

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power

En esta entrada se recoge una breve explicación de uno de los errores más comunes cometidos dentro del campo de la Fisioterapia, a la hora de calcular tamaños muestrales con el programa G*Power.

El software G*Power es uno de los más utilizados dentro del campo de la Fisioterapia (y otros) para calcular tamaños muestrales a priori durante la fase de planificación de un estudio de investigación. Este software facilita cálculos de tamaño muestral basados en potencia para distintos análisis, como comparaciones de dos medias, correlación de Pearson y lo que es la temática de esta entrada, los Análisis de la Varianza (ANOVA), más concretamente aquellos con medidas repetidas.
Desde aquí y en el resto de la entrada, basaré las explicaciones en un ANOVA mixto con tres grupos de tratamiento (ejercicio, terapia manual, vendaje) y 4 momentos de medición (basal, 3 meses, 6 meses y 12 meses), ya que es el tipo de análisis que suele usarse para calcular tamaños muestrales en ensayos controlados aleatorizados en Fisioterapia. Los cálculos propuestos son para la interacción tiempo-por-grupo.

Comenzaré con un pequeño ejemplo de cómo se suele proceder en G*Power para calcular ese tamaño muestral a priori. Para poder calcularlo se requiere especificar una serie de valores:

  • Número de grupos.
  • Número de mediciones.
  • Tamaño del efecto estimado (f o ηp2).
  • Correlación entre medidas repetidas.
  • Potencia deseada.
  • Nivel alfa de significación.
  • Corrección en caso de no esfericidad.

De estos datos, ya tenemos especificados algunos en base al diseño que he propuesto, y otros los asumiremos según valores típicos utilizados en Fisioterapia:

  • Número de grupos: 3
  • Número de mediciones: 4
  • Tamaño del efecto: Medio (f = 0.25 // ηp2 = 0.06)
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 80%
  • Nivel alfa de significación: 0.05
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)

Con estos datos, el tamaño muestral calculado es de 30 sujetos, es decir, 10 sujetos por grupo. Parece algo pequeño, pero…si el G*Power nos ha dado ese resultado, es que es correcto, ¿o no? A continuación, explicaré con más detalle el punto sobre el que trata la entrada, el tamaño el efecto, y haré un pequeño matiz al final de esta sobre la asunción de esfericidad asumida.

Tamaños del efecto pequeños, medios y grandes. Dos etas cuadrado

En el anterior ejemplo he especificado que se estimaba un tamaño del efecto medio, que se correspondía con un valor f = 0.25 o un valor de ηp2 = 0.06. Estos valores no los he nombrado al azar, ya que mucha gente se basa en la siguiente recomendación sobre lo que es un tamaño del efecto pequeño, medio y grande en el caso de ANOVAs:

  • Efecto pequeño: f = 0.10 / ηp2 = 0.01
  • Efecto medio: f = 0.25 / ηp2 = 0.06
  • Efecto grande: f = 0.40 / ηp2 = 0.14

Con respecto a los ANOVA, hay distintos tamaños del efecto, me centraré solamente en dos para esta entrada: el coeficiente eta cuadrado (η2) y el coeficiente eta cuadrado parcial (ηp2). El primero se usaría cuando solo tenemos un factor (ej., comparamos 3 grupos con una sola medición, solo habría un factor, el factor grupo). El segundo por su lado, se utiliza cuando tenemos varios factores, como sería en nuestro ejemplo de ensayo aleatorizado, donde disponemos del factor grupo y el factor tiempo (medidas repetidas). De forma simplificada, pueden definirse matemáticamente como:

$$\eta^2 = \frac{SS_{efecto}}{SS_{total}}$$

$$\eta_{p}^2 = \frac{SS_{efecto}}{SS_{efecto} + SS_{error}}$$

En el caso de un ANOVA mixto, tenemos 3 posibles efectos de interés, el efecto principal grupo, el efecto principal tiempo y la interacción tiempo por grupo. De este modo, si nuestro interés es la interacción tiempo-por-grupo, tendríamos (nota: fórmulas simplificadas):

$$\eta^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{grupo} + SS_{tiempo} + SS_{error}}$$

$$\eta_{p}^2 = \frac{SS_{interaccion}}{SS_{interaccion} + SS_{error}}$$

Eta cuadrado parcial y correlación entre medidas repetidas

El coeficiente eta cuadrado parcial (ηp2) se ve influenciado por la correlación entre medidas repetidas. No entraré en detalles, pero esa influencia es en el sentido de que, a mayor correlación entre medidas repetidas, mayor valor de ηp2 y consecuentemente, mayor potencia estadística (es decir, se requerirá menor muestra). Por ejemplo, imaginemos el caso anterior, con una correlación asumida de 0.50 el tamaño muestral resultante era de 30 sujetos. Si elevamos la correlación asumida a 0.70, el tamaño muestral baja a 21 sujetos, y si la elevamos a 0.90, entonces el cálculo nos devuelve tan solo 9 sujetos (3 por grupo).

Sobra decir que manipular dicha correlación para obtener un menor tamaño muestral es engañoso. En ausencia de datos previos, lo ideal sería asumir una correlación de 0.50 como máximo, o ser incluso más conservadores con correlaciones más pequeñas si las mediciones están muy separadas en el tiempo (de 0.40-0.45 por ejemplo) (Walters 2019). Asumir correlaciones por encima de 0.50 debe estar muy justificado.

Distintos tamaños del efecto: EL ERROR
Todas las explicaciones anteriores enlazan con este apartado, que es el verdadero motivo de la entrada, la existencia de distintas especificaciones de tamaño del efecto f y ηp2, que pueden llevar a cometer errores importantes al realizar cálculos de tamaño muestral con G*Power. Tenemos tres métodos:
  • Método que usa G*Power.
  • Método basado en datos extraídos de SPSS.
  • Método basado en Cohen, 1988 (quién dio las recomendaciones de tamaño del efecto mencionadas anteriormente).
La diferencia entre ellos es la utilización de la correlación de medidas repetidas. Utilizando el método que aparece por defecto en G*Power, debemos especificar la correlación para el cálculo del tamaño muestral. Esto se debe a que G*Power no tiene en cuenta dicha correlación para la especificación del tamaño del efecto estimado que le hemos especificado, sino que la utiliza luego directamente en el cálculo. Por otro lado, cuando se calcula en SPSS un coeficiente eta cuadrado parcial (ηp2), se tiene en cuenta ya para su cálculo la correlación entre medidas repetidas. En otras palabras, el coeficiente eta cuadrado parcial en que se basa el cálculo de G*Power, no es el mismo que el que facilita SPSS, sus valores no coinciden, así como tampoco es lo mismo un f = 0.25 según G*Power, que un f = 0.25 según SPSS, tal y como se especifica en el manual de utilización del G*Power. Anteriormente he comentado que a mayor correlación mayor valor de ηp2 y, por tanto, menos muestra necesaria para un determinado estudio, como mostré incrementando la correlación en el cálculo inicial. Por otro lado, como acabo de comentar, el cálculo del coeficiente ηp2 que facilita SPSS al hacer un análisis, ya tiene en cuenta la correlación entre medidas repetidas. Por tanto, si nos basamos en un ηp2 de SPSS, que ya tiene en cuenta dicha correlación y por tanto será más grande, y lo metemos en el G*Power para calcular el tamaño muestral según G*Power, donde tenemos que especificar la correlación, estamos usando dos veces la correlación, una vez que se usó en SPSS para dar el valor de ηp2 y otra ahora en el cálculo del tamaño muestral en G*Power, con la implicación de que sobreestimamos el tamaño del efecto y por consecuente, infraestimamos la muestra necesaria. Existe una opción en el G*Power para especificar al software en que nos estamos basando cuando especificamos un tamaño del efecto para calcular el tamaño muestral basado en un ANOVA con medidas repetidas, abajo del todo en un botón de “Opciones”.
Es imprescindible cambiar en dicho apartado la especificación del tamaño del efecto según en que nos estemos basando. Si nos basamos en datos extraídos de estudios previos, que por lo general utilizan la forma de cálculo de ηp2 del SPSS donde ya se tiene en cuenta la correlación entre medidas repetidas, debemos seleccionar dicho apartado en “Opciones”. Mientras que, si nos basamos en las “recomendaciones de Cohen” de un tamaño pequeño, medio y grande, entonces debemos seleccionar dicha opción. ¿Por qué es tan importante esto? Volviendo al ejemplo inicial, nos salía una muestra de 30 sujetos (10 por grupo), para un supuesto valor f = 0.25, siguiendo las recomendaciones de que ese valor corresponde a un tamaño del efecto medio según Cohen. Si ahora especificamos que el tamaño del efecto es según Cohen en la pestaña “Opciones”, el tamaño muestral resultante es de 222 sujetos (74 sujetos por grupo). Veamos otro ejemplo con valores reales extraídos de un reciente estudio. En este estudio se calcula el tamaño muestral para la interacción tiempo-por-grupo de un ANOVA mixto con las siguientes especificaciones:
  • Número de grupos: 4
  • Número de mediciones: 3
  • Tamaño del efecto: ηp2 = 0.048 (extraído de un estudio piloto previo, calculado con SPSS).
  • Correlación entre medidas repetidas: 0.50
  • Potencia deseada: 90%
  • Nivel alfa de significación: 0.01
  • Corrección en caso de no esfericidad: Sin corrección (igual a 1)
De acuerdo con sus especificaciones, el tamaño muestral resultante reportado en el estudio fue de 84 sujetos (21 por grupo). Este sería el tamaño muestral calculado, basándose en un ηp2 de 0.048 extraído de SPSS, pero manteniendo la especificación de tamaño del efecto según G*Power. Al cambiar en la pestaña “Opciones” el tamaño del efecto a “según SPSS”, el tamaño muestral resultante es de 240 sujetos (60 por grupo). Es decir, su estudio con esa muestra no “tenía” una potencia como ellos querían del 90%, sino que realmente tenía una potencia del 28%, por haber especificado mal el tamaño del efecto en G*Power a la hora de realizar su cálculo.
Una nota sobre la esfericidad

No entraré en detalles en esta entrada acerca de la asunción de esfericidad, ya que no es el propósito de esta. Pero si quisiera hacer una anotación de cara a los cálculos de tamaño muestral basados en ANOVA mediante G*Power. De manera resumida, la asunción de esfericidad rara vez (por no decir nunca) podemos asumir que se cumpla en la vida real. Esto implica que no podemos especificar valores de corrección iguales a 1, es decir, sin corrección, asumiendo que dicho asunción se cumplirá a la perfección. La opción correcta es asumir un cierto grado de incumplimiento en dicha asunción, y tener en cuenta este aspecto para calcular el tamaño muestral, introduciendo una ligera corrección. Si no disponemos de datos previos fiables, una opción conservadora es establecer un valor de corrección de esfericidad de 0.75. ¿Por qué es esto importante?

Cuando la asunción de esfericidad se cumple a la perfección (corrección igual a 1) se requiere menos muestra para encontrar un efecto. En otras palabras, si ponemos el valor de 1 en el cálculo, obtendremos menos muestra. Pero como he comentado, esta situación es muy poco plausible en la vida real, de modo que, si hacemos eso, estaríamos infraestimando nuestra muestra.

En los ejemplos anteriormente mencionados, la muestra del primer estudio inventado (especificando bien el tamaño del efecto) pasaría de 222 sin corrección, a 267 sujetos con una corrección de 0.75. En el segundo caso del estudio real, el cambio sería de 240 sin corrección, a 292 sujetos con la corrección de 0.75.

Precisión por encima de potencia

El contenido de esta entrada tiene como objetivo simplemente explicar algunos errores comunes realizados al calcular tamaños del efecto basados en potencia con G*Power. No obstante, nada del contenido de la misma debe ser interpretado como una recomendación a favor de los cálculos de tamaño muestral basados en potencia, que tienden a infraestimar las muestras necesarias en investigación. Mi recomendación es basar siempre los cálculos en la precisión en lugar de la potencia. En el apartado de Repositorio: Guías de Estadística, se recogen distintas fuentes de información para realizar cálculos de tamaño muestral adecuadamente para distintos tipos de análisis.

Conclusiones

Por lo general, dentro del campo de la investigación en Fisioterapia, se utilizan muestras demasiado pequeñas en la mayoría de estudios publicados. Los principales motivos que achaco a este fenómeno son: 1) Cálculos basados en potencia y no precisión; 2) asunción de cumplimiento de distintas asunciones estadísticas que no se cumplen en realidad; 3) utilización errónea de la algunas herramientas disponibles para cálculos de tamaño muestral (como el G*Power); y 4) ausencia de adherencia a las recomendaciones de expertos en la materia.

La investigación en Fisioterapia se vería beneficiada enormemente por una mejora en las estimaciones a priori de tamaños muestrales basados en precisión, con la utilización correcta de las distintas herramientas disponibles, y adhiriéndose a las recomendaciones de expertos en la materia para un determinado tipo de diseño y/o análisis estadístico.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Guía Estadística Repositorio Tamaño Muestral

Tamaño Muestral Modelos Predictivos

repositorio: tamaño muestral modelos predictivos

Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med

  • En este artículo se ofrece una guía de cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos multivariables cuando la variable resultado es continua.

Minimum sample size for developing a multivariable prediction model: PART II – binary and time-to-event outcomes | Stat Med (Acceso libre)

  • En este artículo se ofrece una guía de cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos multivariables cuando la variable resultado es dicotómica o el tiempo de supervivencia.

Minimum sample size calculations for external validation of a clinical prediction model with a time-to-event outcome | Stat Med (Acceso libre)

  • En este artículo se ofrecen recomendaciones de cálculo de tamaño muestral mínimo para la validación externa de un modelo predictivo multivariable cuando la variable resultado es el tiempo de supervivencia.

Minimum sample size for external validation of a clinical prediction model with a binary outcome | Stat Med (Acceso libre)

  • En este artículo se ofrecen recomendaciones de cálculo de tamaño muestral mínimo para la validación externa de un modelo predictivo multivariable cuando la variable resultado es dicotómica.

Calculating the sample size required for developing a clinical prediction model | BMJ (Acceso libre)

  • En este artículo se recogen tres guías de cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos multivariables con variables resultado continuas, dicotómicas y de tiempo de supervivencia, incluyendo ejemplos de los cálculos y recomendaciones de qué hacer cuando no se dispone de algunos datos de investigaciones previas.

A note on estimating the Cox-Snell R2 from a reported C statistic (AUROC) to inform sample size calculations for developing a prediction model with a binary outcome | Stat Med (Acceso libre)

  • En este artículo se ofrece una guía de como estimar el coeficiente R2 de Cox-Snell en función del estadístico C para realizar cálculos de tamaño muestral para la elaboración de modelos predictivos con una variable resultado dicotómica

Paquete de R ‘pmsampsize’

  • En este enlace se recoge la documentación disponible con respecto al paquete de R ‘pmsampsize’ con el que se puede realizar el cálculo de tamaño muestral mínimo para la elaboración de modelos predictivos con variables resultado continuas, dicotómicas y de tiempo de supervivencia. Este paquete implementa los conocimientos de los artículos mencionados anteriormente para dichos cálculos, facilitando la tarea.

Aplicación Web basada en ‘pmsampsize’

  • Esta aplicación hace los mismos cálculos que el paquete de R ‘pmsampsize’, para aquellos que estén familiarizados con el programa. La guía para su utilización se recoge aquí.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Fiabilidad Guía Estadística Repositorio Tamaño Muestral

Tamaño Muestral Fiabilidad

Repositorio: Tamaño Muestral Fiabilidad

Effective number of subjects and number of raters for inter‐rater reliability studies | Statistics in Medicine (Wiley Online Library)

  • En este artículo se muestra una propuesta de cálculo de tamaño muestral basado en intervalos de confianza, para estudios de fiabilidad usando el coeficiente de correlación intraclase bajo la asunción de un modelo mixto de efectos aleatorios.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Guía Estadística Repositorio Tamaño Muestral

Tamaño Muestral Basado en Precisión

Repositorio: Tamaño muestral basado en precisión

En esta entrada intentaré ir recopilando la literatura que encuentre acerca de los cálculos de tamaño muestral basados en precisión (intervalos de confianza), a fin de promover su implementación en la investigación en Fisioterapia.

Debate Potencia vs Precisión:

Planning Study Size Based on Precision Rather Than Power | Epidemiology (Acceso libre)

  • En este artículo se ofrece una discusión acerca del uso de la precisión (que yo particularmente recomiendo) en lugar de la potencia para los cálculos de tamaño muestral.

The tyranny of power: is there a better way to calculate sample size? | BMJ (Acceso libre)

  • En este artículo, John Martin Bland aporta su punto de vista con respecto al debate entre los cálculos de tamaño muestral basados en potencia o en intervalos de confianza, mostrándose a favor de estos últimos siempre que sea posible.

Propuestas para Estudios de Fiabilidad:

Sample size requirements for estimating intraclass correlations with desired precision | Stat Med

  • En este artículo se ofrece una propuesta para el cálculo de tamaño muestral basado en la amplitud del intervalo de confianza para algunos tipos de ICC.

Paquetes R:

RPubs: RubenFMat | SampleSizeADJMeanCI

  • En este enlace se recoge la información sobre una función de R que he creado, basada en simulaciones de MonteCarlo, para el cálculo de tamaño muestral mínimo de un ensayo controlado aleatorizado, basado en la mitad de la amplitud del intervalo de confianza al 95% de una diferencia de medias ajustada (diseño ANCOVA), o la probabilidad de obtener un valor igual o menor al pre-especificado de dicha mitad de amplitud. Este tipo de cálculo de tamaño muestral es el que recomiendo para ECAs, por encima de los basados en potencia de interacciones tiempo-por-grupo de un ANOVA. 
  • También he creado una aplicación para facilitar los cálculos a quienes no están familiarizados con R. Se puede acceder a través del siguiente enlace: Calculo de muestra minima para intervalo de confianza de diferencia de medias ajustada (ECAs) (shinyapps.io)

presize: Precision Based Sample Size Calculation

  • En este paquete se recogen funciones para el cálculo de tamaño muestral basado en precisión de distintos estadísticos.

RPubs: RubenFMat | SampleSizeICC21

  • Aquí recojo una función para R que he creado, basándome en las propuestas de cálculos de Killem L. Gwet, para el cálculo del tamaño muestral de un ICC(2,1) con una sola medición por sujeto y evaluador, en función del valor del ICC esperado, la amplitud del intervalo de confianza y el número de evaluadores.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Guía Estadística Modelo Lineal General Repositorio Tamaño Muestral

Tamaño Muestral ANOVA ANCOVA

Repositorio: Tamaño Muestral (ANOVA & ANCOVA)

A simple sample size formula for analysis of covariance in randomized clinical trials | J Clin Epidemiol

  • En este artículo se recoge una propuesta sencilla para realizar el cálculo de tamaño muestral basado en potencia/precisión para un ensayo aleatorizado, basándose en una corrección de la muestra necesaria para una diferencia de medias entre dos grupos.

DELTA2 guidance on choosing the target difference and undertaking and reporting the sample size calculation for a randomised controlled trial | BMJ (Acceso libre)

  • En este artículo se recogen unas recomendaciones para establecer el tamaño del efecto a utilizar para los cálculos de tamaño muestral en ensayos controlados aleatorizados.

Sample size estimation for randomised controlled trials with repeated assessment of patient-reported outcomes: what correlation between baseline and follow-up outcomes should we assume? | Trials (Acceso libre)

  • En este artículo se explican distintos aspectos relacionados con la superioridad del ANCOVA sobre el ANOVA con respecto a la potencia estadística y se dan recomendaciones basadas en cálculos de múltiples estudios publicados sobre que correlación asumir para el cálculo de tamaños muestrales basados en ANCOVA.
 

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …

Categorías
Guía Estadística Modelo Lineal General Repositorio Tamaño Muestral

Tamaño Muestral Regresiones

Repositorio: Tamaño Muestral Regresiones

A Simple Method of Sample Size Calculation for Linear and Logistic Regression | Stat Med (Acceso libre)

  • En este artículo se ofrece una opción de cálculos necesarios para la estimación de tamaño muestral para análisis de regresión lineal y logística.

Determining Power and Sample Size for Simple and Complex Mediation Models |
Soc Psychol Pers (Acceso libre)
y su aplicación web Monte Carlo Power Analysis for Indirect Effects (shinyapps.io)

  • En este artículo se muestra una propuesta de fórmulas para el cálculo del tamaño muestral basado en la potencia para análisis de mediación con 1 o 2 mediadores (en paralelo o en serie). Los autores además facilitan una aplicación web para poder realizar dichos cálculos.

Sample size determination for mediation analysis of longitudinal data | BMC Medical Research Methodology (Acceso libre)

  • En este artículo se ofrecen cálculos de tamaño muestral para estudios de mediación con mediciones repetidas.

Asunciones: Normalidad En esta entrada se recoge una breve explicación de la tan aclamada asunción de normalidad, haciendo hincapié en a que …

Análisis de la "normalidad": Gráficos QQ y PP En esta entrada se recoge una explicación de los gráficos QQ y PP, útiles …

Interpretación de la relevancia clínica: El mal uso de la mínima diferencia clínicamente relevante (I) En esta entrada se proporciona una breve …

Calculadora Muestral: Ensayos Aleatorizados (diferencia ajustada ancova – precisión) En esta entrada se recoge una breve guía práctica de recomendaciones para calcular …