Categorías
Básico Modelo Lineal General

Regresion Lineal – Interpretacion Coeficientes

Regresión lineal: Interpretación de Coeficientes

En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal simple y múltiple cuando todas las variables independientes son cuantitativas continuas, sin entrar en detalle de supuestos matemáticos subyacentes a dichos análisis.

Los análisis de regresión lineal son de los más utilizados en nuestro campo y se encuentran dentro del modelo lineal general. Este tipo de análisis ofrecen una gran versatilidad para el estudio de múltiples hipótesis de investigación, pudiendo aportar información muy útil. En esta entrada nos centraremos en al interpretación de la regresión lineal cuando todas las variables del modelo son cuantitativas continuas. Vamos a distinguir tres formas de regresión lineal:

  • Regresión lineal simple.
  • Regresión lineal múltiple sin interacción.
  • Regresión lineal múltiple con interacción.

Notación matemática

Este sería el modelo más sencillo de regresión lineal, donde se dispone de una variable dependiente (y) y una sola variable independiente (x), que quedaría definido matemáticamente como:

$$y_i = c + b_1x_i + \epsilon_i$$

Por otro lado, visualmente un modelo de regresión lineal quedaría definido en un gráfico de dispersión como:

Para poder comprender los modelos de regresión lineal múltiples más avanzados, es necesario empezar a entender la notación matemática utilizada en la regresión lineal. A continuación se muestra a que hace referencia cada letra de la anterior fórmula:

  • yi = Esta es la variable dependiente, la que se intenta «predecir» en función de los valores de las variables independientes. El subíndice i hace referencia al sujeto i del que se está intentando predecir el valor de y. 
  • c = Esta es la constante del modelo, el valor en el que la recta de regresión corta el eje de las ordenadas, es decir, el valor de y cuando x = 0.
  • xi = Esta es la variable independiente, la que se utiliza para «predecir» los valores de y. Puede haber más de una, que pueden nombrarse con cualquier otra letra, aunque es habitual usar posteriormente wz. Estas serán las letras a utilizar en los ejemplos de esta entrada.
  • b1 = Este es el coeficiente de regresión sin estandarizar, estos coeficientes se calculan siguiendo el método de los mínimos cuadrados ordinarios. Hay un coeficiente de regresión sin estandarizar por cada variable independiente incluida en el modelo.
  • ϵiEste es el error asociado al sujeto i. Normalmente, este término no se incluye en la notación de la fórmula del modelo de regresión lineal, aunque se tiene en cuenta para los análisis estadísticos. En la gráfica se refleja el error asociado a cada sujeto con una línea vertical anaranjada, que es la distancia del valor observado en el sujeto hasta la recta de regresión, que es el valor que predecimos en función de nuestra variable/s independiente/s.

Una vez conocidos los términos, podemos pasar a comprender como interpretar un análisis de regresión lineal simple y posteriormente múltiple.

Regresión lineal simple

En la fórmula mostrada anteriormente, yi hacía referencia al valor observado para el sujeto i en la variable dependiente, dado que se incluyó el término del error (ϵi) en la fórmula. Cuando dejamos fuera este término, yi hace referencia al valor predicho de la variable dependiente y para el sujeto i (el valor de la recta de regresión). De ahora en adelante, hablaremos siempre del valor predicho, que es lo que realmente se estima con los modelos de regresión lineal. Pero… ¿Qué es el valor predicho?

A lo largo de toda la página web me veréis insistir mucho en entender conceptos básicos como diferenciar estimadores muestrales de estimadores individuales, así como la importancia de comprender adecuadamente el concepto de tendencia central y más en concreto, el de la media. El valor predicho con un modelo de regresión lineal es una media. Si partimos de un valor cualquiera de la variable independiente (x), por ejemplo x = 68kg, el valor predicho de la variable dependiente (y = Fuerza) sería la fuerza media estimada de todos los sujetos que presentan un peso de 68kg. *Nota: Debemos tener en cuenta que puede haber muchas mal-especificaciones en el modelo de regresión, por ejemplo porque no haya una relación lineal y sea de otro tipo, que no hayamos tenido en cuenta todas las variables posibles a incluir en el modelo o que nuestra muestra no sirva para generalizar el modelo a otras (ej. sujetos jóvenes sin generalizar a la tercera edad), pero no entraremos en detalle en estos puntos en esta entrada.

Se ha comentado que b1 es el coeficiente de regresión sin estandarizar. Se le denomina sin estandarizar porque no se han manipulado las unidades de medida a la hora de su cálculo, presenta las mismas unidades que la variable dependiente, en el caso de una regresión lineal simple el coeficiente de regresión estandarizado sería igual al coeficiente de correlación de Pearson. Este coeficiente es el que nos indica la posible presencia o no de una relación lineal entre la variable independiente y la dependiente, su interpretación sería la siguiente:

  • b1 < 0. Relación negativa entre las dos variables.
  • b1 = 0. Ausencia de relación entre las dos variables.
  • b1 > 0. Relación positiva entre las dos variables.

La ausencia de estandarización conlleva un problema, no podemos saber como de grande es o no es la relación lineal con respecto a otros coeficientes de otros modelos de regresión lineal (a diferencia de con el coeficiente de correlación de Pearson, que si podemos), debido a que su valor depende de las unidades de medida de y. Es decir, imaginemos que queremos predecir la fuerza isométrica máxima de rotación externa de hombro en función del índice de masa corporal y por otro lado, en función de la estatura, quedando dos modelos de regresión lineal simple como los siguientes:

$$Fuerza_i = 32.54 + 5.10*IMC_i$$

$$Fuerza_i = -65.93 + 1.27*Estatura_i$$

Como puede apreciarse, en ambos casos existe una relación positiva, ya que el coeficiente de regresión sin estandarizar es mayor que cero (5.10 para la fuerza y 1.27 para la estatura). Sin embargo, aunque el valor del coeficiente de la estatura sea menor que el del IMC, ambas variables presentan la misma relación con la fuerza, un coeficiente de correlación de Pearson de 0.50 en ambos casos. La discrepancia observada en los coeficientes sin estandarizar es debida a que las unidades de medida del IMC y la estatura difieren, siento en este caso simulado:

$$IMC = \{\bar x = 23kg/m^2, \sigma = 3kg/m^2\}$$

$$Estatura = \{\bar x = 170cm, \sigma = 12cm\}$$

Esto mismo sucedería si cambiásemos de variable dependiente, ya que sus unidades también influyen en el valor del coeficiente de regresión sin estandarizar. De aquí en adelante, nos olvidaremos de medir lo «grande» o «pequeña» que es la relación lineal y nos centraremos simplemente en interpretar los modelos de regresión lineal con coeficientes sin estandarizar.

En una regresión lineal simple, el coeficiente b1 hace referencia al cambio estimado en unidades de que se deriva de incrementar una unidad en x. Por ejemplo, en el caso anterior de la estatura, por cada incremento en 1cm de estatura se estima un incremento de 1.27N de fuerza de rotación externa. Retomando la representación gráfica de la regresión lineal simple, el coeficiente b1 haría referencia a la pendiente de la recta de regresión.

Regresión lineal múltiple sin interacción

Ya sabemos a que hace referencia el coeficiente b1 cuando solo hay una variable independiente en el modelo, pero ¿Qué interpretación tienen estos coeficientes cuando tenemos más de una variable independiente? Establezcamos un nuevo modelo, donde se pretenda predecir la fuerza en rotación externa incluyendo la estatura y el peso como variables independientes:

$$y_i = c + b_1 x_i + b_2 w_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i$$

$$Fuerza_i = -251.14 + 3.98*Peso_i + 0.96*Estatura_i$$

Cuando en un modelo de regresión lineal se incluyen dos o más variables dependientes por separado, estamos forzando al modelo a un supuesto, que no existe interacción entre el peso y la estatura a la hora de predecir la fuerza, es decir, que la relación estimada del peso con la fuerza es independiente de la estatura y la relación estimada de la estatura con la fuerza es independiente del peso. La definición por tanto de los coeficientes sin estandarizar sería:

  • b1 = Cambio estimado en unidades de y que se deriva de incrementar 1kg el peso, manteniendo la estatura constante.
  • b2 = Cambio estimado en unidades de y que se deriva de incrementar 1cm la estatura, manteniendo la peso constante.

Es decir, si tenemos dos personas con la misma estatura, por ejemplo 170cm, una que pesa 68kg y otra que pesa 69kg, la diferencia de fuerza que estimamos entre ellas es de 3.98N (b1). Esto se cumpliría para cualquier valor de estatura, siempre que ambos sujetos tengan la misma. Del mismo modo, si tenemos dos personas que pesan lo mismo, una que mide 170cm y otra que mide 171cm, la diferencia de fuerza que estimamos entre ellas es de 0.96N (b2), a expensas del peso que presenten, siempre que sea el mismo.

Expresado desde un punto de vista gráfico (por ejemplo para el peso), la pendiente (b1) de la recta de regresión obtenida de predecir la fuerza en función del peso no varía en función de la estatura:

En esta imagen se reflejan las recta de regresión entre el peso y la fuerza, para cinco valores de estatura (de 162cm a 178cm), calculadas a partir de las fórmulas mostradas anteriormente. Como puede apreciarse, la pendiente de las rectas es idéntica, son rectas paralelas donde lo único que cambia es la constante, ejemplificando visualmente la definición aportada anteriormente.

Hay dos conceptos que suelen nombrarse mucho en relación a los análisis de regresión lineal múltiple, el de factor de confusión y/o covariable. Hay situaciones en las que queremos estimar la relación que tiene una variable con otra, «controlando» para otros posibles factores de confusión, denominados covariables del modelo. Por ejemplo, podríamos querer estimar la relación lineal que hay entre la intensidad del dolor de hombro y la fuerza isométrica en rotación externa, controlando para las covariables edad, estatura y peso.

Regresión lineal múltiple con interacción

Como se ha comentado anteriormente, al incluir solo por separado las dos variables independientes, se fuerza el modelo a asumir que la relación estimada por ejemplo del peso con la fuerza, es independiente del valor de estatura de los sujetos y viceversa, que esto se traducía en que el valor del coeficiente de regresión del peso (b1) no varía en función de la estatura, que la pendiente de dicha recta de regresión es la misma, como se podía apreciar en la última figura. Antes de pasar a explicar que es la interacción, creo que es mejor observar una representación gráfica de la misma con el mismo modelo anterior:

Como se puede apreciar, en este caso, la pendiente de la recta de regresión para el peso si varia en función de la estatura de los sujetos, es decir, el coeficiente de regresión del peso (b1) varía en función de la estatura. Para entender esto, primero debemos conocer como se expresa un modelo de regresión lineal múltiple con interacción y a que hace referencia dicha interacción:

$$y_i = c + b_1 x_i + b_2 w_i + b_3 z_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Interaccion$$

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

Tal y como se refleja en estas fórmulas, un modelo de regresión lineal con interacción es aquel en el que se incluye un tercer término en el modelo (la interacción), con su respectivo coeficiente de regresión (b3). Ese tercer término no es más que una variable que se crea multiplicando los valores de las otras dos incluidas en el modelo, es decir, si un sujeto tiene una estatura de 170cm y un peso de 72kg, su valor en la variable interacción sería de 12240. ¿A qué hace referencia aquí entonces el coeficiente de regresión de la interacción (b3)?

Podemos definir b3 como el cambio estimado del coeficiente de regresión del peso (b1) que se deriva del incremento de una unidad en la estatura (+ 1cm), o viceversa, el cambio estimado del coeficiente de regresión de la estatura (b2) que se deriva del incremento de una unidad en el peso (+ 1kg). Voy a centrarme en el coeficiente de regresión del peso para explicar mejor esta definición, reestructurando un poco la fórmula mostrada anteriormente. Imaginemos que es viable tener una estatura de 0cm e incrementamos en una unidad la estatura, teniendo por tanto un valor de estatura para un sujeto dado de 1cm, entonces sustituyendo en la anterior fórmula tendríamos que:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*1 + b_3*Peso_i*1$$

$$Fuerza_i = (c + b_2) + Peso_i*(b_1 + b_3)$$

He puesto dentro de un mismo paréntesis la constante y el coeficiente b2 puesto que al multiplicarlo por 1 quedaría un valor numérico, que se sumaría a la constante. Por otro lado, al adjudicar el valor 1 a la estatura en el término de la interacción, lo que queda es un coeficiente de regresión multiplicado solo por la variable peso, de modo que se puede unificar dicho coeficiente (b3) con el coeficiente b1 en un mismo paréntesis, quedando ambos multiplicados por el peso. Es aquí donde queda ejemplificada la definición mostrada anteriormente, de que el coeficiente de regresión del peso ha incrementado b3 unidades debido al incremento de una unidad en la estatura, ya que si la estatura tuviera un valor hipotético de cero, entones:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$

$$Fuerza_i = c + b_1*Peso_i + b_2*0 + b_3*Peso_i*0$$

$$Fuerza_i = c + Peso_i*b_1$$

Quedando ejemplificado que el incremento de una unidad de la estatura es lo comentado anteriormente. En términos de visualización gráfica, la pendiente de la recta de regresión entre el peso y la fuerza se incrementaría b3 unidades con el incremento de una unidad en la estatura.

De esta última fórmula se extrae además otra definición nueva. Mientras que en la regresión lineal múltiple sin interacción el coeficiente de regresión del peso (b1) hacia referencia a la relación entre el peso y la fuerza, independiente de la estatura (manteniendo la estatura constante), ahora el coeficiente de regresión del peso (b1) refleja la relación entre el peso y la fuerza cuando la estatura es igual a cero, sucediendo lo mismo pero a la inversa para el coeficiente de la estatura. Es decir, la inclusión del término de interacción cambia el significado de los coeficientes de regresión del peso (b1) y la estatura (b2), esto es importante ya que, si no se conoce este hecho, se pueden malinterpretar gravemente dichos coeficientes al leer un artículo de investigación. Normalmente, cuando se incluye un término de interacción, lo que interesa es el coeficiente de regresión de la interacción, que es lo que se suele estar testando, no esos otros coeficientes.

Puede que te hayas dado cuenta ya de un factor importante sobre la interpretación de dichos coeficientes de regresión al incluir la interacción, ¿Cómo que b1 es la relación entre el peso y la fuerza cuando la estatura es igual a cero? ¿Quién puede medir cero centímetros? No tiene sentido. Es por ello que para mejorar la interpretación de dichos coeficientes, suele realizarse un procedimiento que se denomina «centrar en la media». *Nota: Aunque no es el objetivo de esta entrada y no profundizaré en ello, si quería remarcar que el objetivo de centrar en la media es puramente para hacer que esos coeficientes tengan un sentido de interpretación, nada que ver la «eliminación» de la colinealidad entre variables independientes con el objetivo de mejorar el modelo de regresión, ya que no sirve para tal propósito.

Este procedimiento consiste en restar a cada valor el de la media de la muestra para dicha variable, es decir, si un sujeto tiene un peso de 55kg pero la media muestral es de 60kg, entonces su valor quedaría como -5. Esta actuación no alterará el coeficiente de regresión de la interacción ni la significación estadística del mismo, solo alterará los otros dos coeficientes de las variables implicadas en la interacción, en nuestro caso b1 y b2. En este caso, por ejemplo para el peso, b1 ya no sería la relación entre el peso y la fuerza cuando la estatura es igual a cero, sería la relación entre el peso y la fuerza cuando la estatura es igual a la media de la muestra, y lo mismo sucedería con b2. Por tanto, ahora si tienen un sentido interpretable ambos coeficientes.

En esta entrada no profundizaré más en la interpretación de una interacción, ni en que pasos habría que seguir después de haber evaluado si hay o no una interacción estadísticamente significativa. No obstante, pondré un ejemplo más con 3 variables independientes. Imaginemos ahora el siguiente modelo de regresión lineal múltiple con interacción:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i$$

En este caso tenemos 3 variables independientes incluidas en el modelo, así como un término de interacción, la interacción entre la estatura y el peso. Por ejemplo para el peso, su coeficiente de regresión (asumiendo que hemos centrado en la media), sería la relación entre el peso y la fuerza cuando la estatura tiene el valor de la media de la muestra y se mantiene la edad constante, es decir, si la estatura media de la muestra fuese de 170cm, b1 sería la diferencia de fuerza estimada entre dos sujetos que miden 170cm y tienen la misma edad, se cual sea esta, pero que presentan una diferencia entre ellos de 1kg de peso. Por otro lado, el coeficiente de regresión de la edad (b3) sería la relación entre la edad y la fuerza, manteniendo constantes la estatura y el peso, es decir, la diferencia de fuerza estimada entre dos sujetos que tienen la misma estatura y peso, sean cuales sean estos, pero que difieren en 1 año de edad. En otras palabras, la inclusión de una interacción solo cambia la interpretación de los coeficientes de regresión de las variables involucradas en la misma, no las del resto de variables incluidas en el modelo. Este principio de razonamiento de interpretación se aplicaría en modelos más complejos, con varias interacciones y más variables independientes incluidas. Pondré un último ejemplo:

$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i*Edad_i*$$

En este caso se ha incluido una interacción entre las 3 variables (edad, estatura y peso), de forma que el coeficiente de regresión de la edad (b3) pasaría a ser, asumiendo que hemos centrado en la media, la relación entre la edad y la fuerza cuando la estatura y el peso tienen los valores de la media de la muestra.

Según se van incluyendo más variables e interacciones en el modelo, su interpretación puede volverse algo más tediosa y es por eso que no profundizaré en modelos más avanzados en esta entrada, pues pienso requerirían de demasiado tiempo y una base previa profunda de conocimiento de estadística para no errar en la interpretación de los mismos.

Conclusiones

A pesar de ser métodos de análisis ampliamente extendidos dentro del campo de la Fisioterapia, mi sensación subjetiva es que existe mucho desconocimiento sobre como interpretar los mismos. En esta entrada he querido profundizar solo en la parte de interpretación del sentido de los coeficientes de regresión, algo que a priori podría parecer complejo pero en verdad no lo es tanto. Finalmente, quiero remarcar que la interpretación crítica adecuada de un modelo de regresión lineal múltiple, requiere de tener en cuenta más aspectos que los mencionados en esta entrada, la cual constituye simplemente una base para comenzar a comprender mejor este tipo de análisis estadísticos.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Meta-análisis Metodología Temas Avanzados

Guía Básica de Cribado para Revisiones Sistemáticas

Revisión Sistemática: Guía básica de cribado

En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, para la realización del cribado de estudios a incluir en una revisión sistemática.

La fase de cribado de una revisión sistemática es una de las más importantes de este tipo de estudios. Dependiendo de los resultados de nuestras búsquedas, el cribado puede llevar demasiado tiempo, no obstante, existen algunas estrategias para optimizar el tiempo de realización de dicha fase, así como la calidad metodológica de la misma.  En esta entrada explicaré como suelo proceder a la hora de planificar y realizar dicha fase en una revisión sistemática.

Esquema de realización del cribado

Antes de proceder con la explicación de las distintas fases del cribado de una revisión sistemática, mostraré aquí un esquema (que será el que seguiré) de los pasos a seguir:

  1. Selección de las aplicaciones a utilizar para el cribado.
  2. Importación de las búsquedas.
  3. Detección y eliminación de duplicados.
  4. Criterios de inclusión/exclusión.
  5. Palabras clave para facilitar el cribado.
  6. Pilotaje previo: análisis de concordancia entre revisores.
  7. Cribado de título y resumen.
  8. Resolución de conflictos.
  9. Organización del sistema de criterios de exclusión.
  10. Cribado de texto completo.
  11. Resolución de conflictos.
Aplicaciones para el cribado

Actualmente utilizo dos aplicaciones web que pueden optimizar mucho el tiempo de realización de la fase de cribado, Covidence y Rayyan. En la siguiente tabla muestro una comparativa general de ambas con respecto a varias funciones.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} \\ \hline Gratuito & Pago \ (> 500 \ articulos) \\ \hline Duplicados \ a \ mano & Duplicados \ automatico \\ \hline Multiples \ revisores & Solo \ dos \ revisores \ (gratis) \\ \hline No \ ambos \ cribados & Ambos \ cribados \\ \hline \end{array}$$

A pesar de que el precio por usar Covidence de manera íntegra es elevado, la parte gratuita de la misma es bastante útil en la fase de cribado, como explicaré más adelante. Además de utilizar Covidence y Rayyan, también recomiendo utilizar la aplicación de escritorio de Mendeley  y Microsoft Excel. A continuación muestro un resumen de la finalidad con la que utilizar cada una de dichas aplicaciones:

  • Mendeley:
    • Importación de artículos.
  • Covidence:
    • Detección y eliminación de duplicados.
  • Rayyan:
    • Detección y eliminación de duplicados.
    • Pilotaje.
    • Cribado de título y resumen.
  • Microsoft Excel:
    • Cribado de texto completo.
Importación de búsquedas

Antes de proceder al cribado de los artículos, es necesario importar los archivos extraídos de las distintas bases de datos que contienen nuestras búsquedas. No todas las bases de datos permiten exportar las búsquedas realizadas en los mismos formatos y no todas las aplicaciones permiten importar archivos en los mismos formatos. En la siguiente tabla muestro los tipos de archivos que permiten importar las tres aplicaciones que suelo utilizar en una revisión sistemática.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} & \textbf {Mendeley} \\ \hline EndNote \ (.enw) & EndNote \ XML \ (.xml) &  EndNote \ XML \ (.xml) \\  Refman/RIS \ (.ris) & RIS \ (.ris) & BibTeX \ (.bib) \\ BibTeX  \ (.bib) && RIS \ (.ris) \\ CSV \ (.csv) & & Zotero \ Library \ (zotero.sqlite) \\ Pubmed \ XML \ (.xml) & & \\ Nuevo \ Pubmed \ (.nbib) & & \\ Web \ of \ Science/CIW \ (.ciw) & & \\ \hline \end{array}$$

Como puede apreciarse, Covidence está muy limitado en cuanto al tipo de archivos que permite importar y este es el motivo de que haya añadido Mendeley al listado de aplicaciones a utilizar en la fase de cribado. Todas las bases de datos que suelen consultarse en revisiones sistemáticas en Fisioterapia permiten exportar las búsquedas en alguno de los formatos permitidos por Mendeley. De este modo, si realizamos una búsqueda en una base de datos que no permite exportar en un formato aceptado por Covidence, lo que yo suelo hacer es importar dichas búsquedas a Mendeley, para después exportar esos artículos con formato .ris, una función que Mendeley permite, pudiendo finalmente importar dichas búsquedas en Covidence. Es indispensable poder importar todas las búsquedas en Covidence, ya que esta es la aplicación a utilizar en la primera fase de la detección y eliminación de duplicados.

Detección y eliminación de duplicados

Es importante reportar las herramientas utilizadas para proceder con la detección y eliminación de duplicados, entre otras cosas por un motivo de transparencia y de facilitación de reproducibilidad de la metodología empleada para el cribado, de acuerdo a las recomendaciones de la declaración PRISMA de reporte de las búsquedas en una revisión sistemática.

A pesar de que la aplicación web Covidence es de pago, una de sus funcionalidades gratuitas es de gran ayuda. Como ya he comentado, Covidence solo permite cribar de manera gratuita hasta un máximo de 500 artículos. Sin embargo, aunque no podamos cribar más de 500, si podemos importar más de 500, de hecho, podemos importar el número que necesitemos de artículos y proceder a la detección y eliminación de duplicados con dicha aplicación. Este primer paso es muy relevante, ya que a diferencia de Rayyan, Covidence si elimina los duplicados de manera automática. Una vez realizado este primer paso, procederemos a exportar los artículos restantes de Covidence para importarlos en Rayyan, donde proseguiremos con esta fase.

A pesar de que Covidence detecta y elimina la gran mayoría de duplicados, aun se deja algunos que detectará Rayyan. La desventaja de Rayyan es que, aunque detecta los duplicados de manera automática, no los elimina. Rayyan detectará posibles duplicados de acuerdo al porcentaje de concordancia de palabras en los distintos campos de importación de los artículos y luego tendremos que ir revisando uno a uno los casos de posible duplicado y decidir si existe o no duplicación y eliminar el artículo que no nos interese.

Por mi experiencia con grandes importaciones de artículos (6000 a 9000), el paso de Covidence lo considero indispensable, pues la tarea de eliminación manual de duplicados en Rayyan con cantidades de 1000-2000 duplicados, llevará demasiado tiempo sin existir necesidad para ello. Normalmente, con cantidades altas de resultados en las búsquedas como las referidas al inicio de este párrafo, una vez eliminamos duplicados en Covidence, los que suelen detectarse en Rayyan son pocos, entre 100-300 en las revisiones que he llevado a cabo, un número asequible para resolver manualmente en esta aplicación.

Por último, cabe destacar que, a pesar de usar dos aplicaciones, aún pueden quedar duplicados sin detectar que se deberán eliminar posteriormente en las fases respectivas de cribado de título-resumen o texto completo.

Criterios de inclusión y exclusión

El establecimiento de unos criterios de inclusión y exclusión claros resulta obvio para una buena calidad de la fase de cribado y a nivel general, para una buena calidad de la revisión sistemática.

El establecimiento de los criterios de inclusión y exclusión tiene, a mi modo de ver, dos partes: la parte explícita que se reportará en el manuscrito final y la parte no explícita que no se reportará, pero que es de suma importancia durante el proceso de cribado. Explicaré este punto con un ejemplo práctico de una revisión que estoy actualmente realizando, donde un criterio de inclusión explicito es: “Medir la cinemática escapular durante la elevación/descenso del brazo con sistemas de medición 3D que no sean de superficie”.

Este sería el criterio explícito, tal cual se reportará en el manuscrito de la publicación. Por otro lado, tendríamos la parte no explícita del criterio, que sería en parte la siguiente:

  • Sistemas optoelectrónicos no se incluyen (son de superficie).
  • Sistema VICON no se incluye (es de superficie).
  • Sistemas basados en sensores con cámaras infrarrojos no se incluyen (son de superficie).
  • Sistemas elecromagnéticos pueden ser de superficie o acoplados a pins insertados en hueso. Los primeros no se incluyen y los segundos sí.
  • En caso de que no se reporte el tipo de sistema electromagnético en título/resumen, se incluye el estudio y en la fase de texto completo se evaluará si es de superficie o con pins insertados en hueso para ver si finalmente se incluye el artículo o no.
  • Sistemas de fluoroscopia y radiografía de incluyen (no son de superficie).

Estos son algunos de los puntos no explícitos que acompañan a ese criterio explícito. El problema de no tener claros estos puntos y no detallarlos adecuadamente en las instrucciones para los revisores que realizarán el cribado, es que puede ser que se dejen estudios fuera que podrían haberse incluido o viceversa. En el segundo caso tiene solución ya que los podremos excluir finalmente cuando el IP tenga acceso al listado final de artículos incluidos. Sin embargo, en el primer caso (excluir estudios susceptibles de haber sido incluido), no podremos detectar que esto ha sucedido ni solventarlo.

El investigador encargado del establecimiento de los criterios de inclusión/exclusión debe valorar que los revisores que realizarán el cribado puede que no tengan el mismo conocimiento que él/ella (ej. Puede que los revisores no sepan que un sistema optoelectrónico es de superficie), y que es su obligación detallar al máximo posible los distintos criterios, así como posibles situaciones donde surja duda (como el caso de los sensores electromagnéticos donde no se reporta si son de superficie o no), para que los revisores tenga claro qué decisiones tomar y no se vea afectada la calidad de la fase de cribado.

Mi recomendación es elaborar una lista detallada de los criterios de inclusión/exclusión explícitos y todos sus componentes no explícitos en un Word y, previo comienzo al cribado, organizar una reunión con los distintos revisores que intervendrán en la misma para aclarar cualquier posible duda al respecto de manera previa.

Palabras clave para facilitar el cribado

Una de las utilidades que presenta Rayyan y que mejorará no solo el tiempo de realización del cribado de título y resumen, sino también posiblemente su calidad, es la presencia de palabras clave destacadas.

Cuando importamos un listado de artículos en Rayyan, la aplicación elabora de manera automática un listado de palabras clave destacadas de inclusión y exclusión, las cuales recomiendo encarecidamente eliminar para elaborar nuestra lista propia, ya que el listado facilitado por Rayyan normalmente no se adecua a los objetivos de nuestra revisión.

Las palabras claves de inclusión aparecerán destacadas en verde y las de exclusión en rojo, facilitando visualmente el cribado. Hay veces en las que la presencia de una palabra determinada en el título de un estudio, por ejemplo «systematic review» es motivo suficiente para su exclusión. El disponer de un listado de palabras de exclusión facilita detectar estos artículos de manera rápida visualmente y por tanto optimizar el tiempo necesario para esta fase de cribado.  Del mismo modo, el disponer de palabras resaltadas en el resumen puede facilitar la localización de la información relevante para decidir si se debe incluir o excluir dicho artículo durante esta fase de cribado, siendo de especial utilidad en la detección de las partes no explícitas de los criterios de inclusión y exclusión.

Pilotaje previo: análisis de concordancia entre revisores

La fase de pilotaje previo es una de las más importantes con respecto al cribado en una revisión sistemática, siendo actualmente recomendada por la Colaboración Cochrane. El objetivo de esta fase es evaluar si los revisores que realizarán el cribado han comprendido adecuadamente los criterios de inclusión y exclusión, antes de proceder al cribado de todos los estudios encontrados con la estrategia de búsqueda.

Si los revisores no tienen claros los criterios de inclusión y exclusión, pueden originarse muchas discrepancias entre ellos, que deberán ser resueltas por un tercer revisor. Sin embargo, aunque podríamos pensar que este es el motivo principal de realizar el pilotaje previo, existe otro motivo aún más importante. Del mismo modo que una falta de comprensión de los criterios puede hacer que un revisor incluya un estudio y otro revisor lo excluya, también puede producir que dos revisores excluyan un artículo que fuera susceptible de haber sido incluido en la revisión. En el primer caso, disponemos de otra fase que es la resolución de conflictos, donde podrá solventarse en parte ese problema. Sin embargo, si dos revisores deciden excluir un artículo que debería haberse incluido, habremos perdido ese estudio en esta fase de cribado y no tendremos forma de saber que hemos errado ni de solucionar el problema posteriormente. Este es el motivo principal por el cual es importante hacer el pilotaje previo, para prevenir que esto suceda.

Cuando realizamos la búsqueda en las distintas bases de datos podemos encontrarnos en dos situaciones distintas, según la cual recomiendo proceder de una u otra forma con respecto al pilotaje previo:

  • Número pequeño de artículos encontrados (suelo usar un punto de corte de < 500 estudios tras eliminar duplicados): No realizar pilotaje previo.
  • Número elevado de artículos encontrados: Pilotaje previo con 200-300 artículos.

Número pequeño de artículos

Cuando el número total de artículos a cribar en la fase de título y resumen no es muy elevado (< 500), se puede optar por no realizar un pilotaje previo. El motivo por el cual recomiendo esto es porque, desde mi punto de vista, el número de artículos que podremos seleccionar para realizar el pilotaje será demasiado pequeño y esto puede dar lugar a resultados extremos en el análisis de concordancia, sin que podamos asegurarnos que dicha concordancia se mantenga en el resto del cribado. Es por ello que, en estos casos, considero más útil realizar el cribado directamente y realizar el análisis de concordancia con el total de artículos incluidos. En caso de que dicho análisis no salga óptimo, se llevaría a cabo una reunión de resolución de dudas con respecto a los criterios de inclusión y exclusión para volver a proceder a cribar todos los artículos nuevamente, antes de pasar a la fase de resolución de conflictos.

Número elevado de artículos

En este caso si considero adecuada la realización del pilotaje. La propuesta que muestro de número de artículos a utilizar es debida a que, según mi conocimiento, ese número de estudios parece ser suficiente para asegurar niveles adecuados de precisión en la estimación de distintos coeficientes de fiabilidad de variables categóricas, como el Kappa de Cohen o el AC1 de Gwet, que son las dos propuestas que recomiendo utilizar.

Lo ideal sería poder realizar un muestreo aleatorio de los estudios a utilizar para realizar el cribado, pero esto por experiencia, requiere de demasiado trabajo. El motivo de llevar a cabo ese muestreo ideal sería obtener una muestra representativa de estudios con respecto al total de estudios que posteriormente se cribarán en la fase de título y resumen. A pesar de que considero esta aleatorización, a nivel práctico no viable, si que podemos tener en cuenta alguna consideración para evitar sesgar el pilotaje en cierta medida. Recomiendo encarecidamente evitar:

  • Seleccionar estudios de una sola base de datos (mínimo 2).
  • Seleccionar solo estudios de una franja temporal (ej. solo estudios antiguos entre 1990 y 2000, cuando nuestra muestra de estudios a cribar para la revisión incluye artículos de 1990 hasta el año 2020).

El primer punto puede no meter muchos sesgos, pero el segundo si es importante evitarlo. Por ejemplo, puede ser que estemos realizando una revisión sobre la efectividad de una intervención que antiguamente no se utilizase, de forma que si en el pilotaje incluimos solo estudios muy antiguos, puede ser que apenas salgan estudios de inclusión, de manera que solo podríamos evaluar si hay buena concordancia con los criterios de exclusión, pero no con los de inclusión, de forma que el pilotaje no sería útil.

El pilotaje deberá realizarse igual que se realizará el cribado posterior, es decir, utilizando la misma aplicación y el mismo listado de palabras clave destacadas (si se deciden usar).

Interpretación del análisis de concordancia

La fase de pilotaje presenta una característica a tener en cuenta para la interpretación de los análisis estadísticos de concordancia, el efecto de la elevada prevalencia de los estudios a excluir. Normalmente, la mayor parte de estudios de una revisión sistemática serán excluidos durante el cribado y este desequilibrio entre los SI y los NO tiene repercusiones en estadísticos como el Kappa de Cohen, pudiendo darse el caso de un alto grado de concordancia entre los examinadores con un valor no tan alto del Kappa de Cohen. Existen dos opciones:

  • Interpretar el valor del Kappa de Cohen junto con los índices de prevalencia y sesgos, así como el Kappa ajustado para la prevalencia y sesgos (PABAK).
  • Utilizar el coeficiente AC1 de Gwet, que es más robusto ante ese efecto de la prevalencia.

En cualquiera de los casos, recomiendo valores superiores a 0.70-0.80 del PABAK o AC1 de Gwet para poder asumir una buena concordancia entre los examinadores. No obstante, también debe evaluarse otro aspecto, el número total de estudios incluidos en el cribado (de acuerdo de inclusión). Por ejemplo, imaginemos un caso de un pilotaje de 200 artículos donde existe un 10% de discrepancias (20 artículos con discrepancias), es decir un porcentaje pequeño, en dos escenarios distintos:

$$Escenario \ 1= \begin{bmatrix} & Incluido & Excluido\\Incluido & 2 & 10 \\Excluido & 10 & 178\end{bmatrix}, \ AC1 = 0.89$$

$$Escenario \ 2= \begin{bmatrix} & Incluido & Excluido\\Incluido & 20 & 10 \\Excluido & 10 & 160\end{bmatrix}, \ AC1 = 0.87$$

En ambos casos simulados hay el mismo porcentaje de discrepancias y tenemos un valor similar del coeficiente AC1 de Gwet, sin embargo, las dos situaciones son muy diferentes en cuanto a interpretación. En el primer caso, solamente hay acuerdo de inclusión en dos estudios. Este numero es especialmente pequeño y en estos casos la decisión que suelo tomar es concluir que no ha habido una concordancia suficiente como para poder proceder con el cribado. En el segundo caso, sin embargo, mi actuación sería proceder con el cribado, asumiendo un porcentaje aceptable de concordancia entre los revisores.

Análisis y aclaración de conflictos

Cuando se realiza la fase de pilotaje existen dos posibles resultados, que concluyamos que hay un acuerdo aceptable entre los revisores o que no. En ambos casos se procederá con el análisis y aclaración de los conflictos, sin embargo, si concluimos que no ha habido un acuerdo adecuado, el siguiente paso sería repetir el pilotaje con una muestra nueva de estudios, mientras que si hemos concluido que el acuerdo era aceptable, entonces se procederá con la fase de cribado de título y resumen.

Durante la fase de análisis y aclaración de conflictos, el investigador principal deberá revisar los artículos en los que han habido las discrepancias a fin de dilucidar los posibles malentendidos con los criterios de inclusión y/o exclusión que han llevado a tales discrepancias. Posteriormente, deberá elaborar un documento word con las aclaraciones pertinentes, pero sin nombrar estudios concretos, es decir, no se puede decir «el estudio X debería haberse incluido por este motivo». Simplemente deberán recogerse las aclaraciones con respecto a los criterios de inclusión/exclusión que el investigador principal consideré pertinentes con respecto a las discrepancias observadas.

Cribado de título y resumen

Durante esta fase, como su propio nombre indica, se cribarán los artículos por título y resumen igual que se hizo en la fase de pilotaje, salvo que aquí se cribarán ya todos los estudios susceptibles de ser incluidos en la revisión sistemática.

La totalidad de esta fase recomiendo realizarla en Rayyan, ya que su realización en Excel incluso con un número pequeño de artículos, requerirá de más tiempo del necesario. Un aspecto que merece la pena ser remarcado con respecto a esta fase del cribado es la primacía de la sensibilidad sobre la especificidad.

Durante esta fase, es recomendable que en caso de duda sobre si incluir o no un determinado estudio, por falta de información, se incluya. Supone un mayor problema excluir un estudio que realmente debería haberse incluido en la revisión, que decidir incluir en la fase de titulo y resumen un estudio que no deba incluirse. En el segundo caso, con el posterior cribado de texto completo, donde disponemos de más información, se podrá discernir si realmente el estudio ha de ser incluido o no, por lo que no sería un problema. Sin embargo, como ya he comentado, si ambos revisores excluyen un artículo que debiera incluirse, no tenemos forma de detectar este suceso ni tomar medidas para remediarlo.

Por último, cabe destacar que en esta fase han de incluirse nuevamente también todos los artículos utilizados para el pilotaje previo, es decir, dichos artículos se cribarán nuevamente a pesar de haberse utilizado para la fase de pilotaje.

Resolución de conflictos

La fase de resolución de conflictos de título y resumen puede realizarse en Rayyan, aunque la aplicación no permite como tal “resolver los conflictos”, pero podemos organizar esta fase de manera manual. Rayyan dispone de un botón de enmascaramiento que podemos apagar, de tal manera que al acceder a la revisión se puedan observar las decisiones de ambos revisores y seleccionar un apartado donde solo se incluyen los artículos con discrepancias.

El primer paso para planificar esta fase es desactivar el botón de enmascaramiento, acceder al apartado de discrepancias y exportar dichos estudios. Después deberemos crear una nueva revisión en Rayyan, donde importaremos solo los estudios con discrepancias, para que el tercer evaluador encargado de resolverlas cribe dichos estudios sin conocimiento de las decisiones de los revisores previos.

Tendremos por tanto dos archivos que exportar en formato .csv, uno de la revisión original con los artículos que ambos revisores decidieron incluir y otro de la revisión creada para resolver las discrepancias con los artículos que el tercer revisor decidió incluir. Estos serán los artículos que se cribarán en la fase posterior de texto completo.

Organización del sistema de criterios de exclusión

A diferencia de la fase de cribado de título y resumen, donde no es necesario reportar los motivos de exclusión de acuerdo a las recomendaciones de la Cochrane, en la fase de cribado a texto completo si es necesario hacerlo. Es por ello que, el primer paso para planificar esta fase será la organización de dichos criterios de exclusión.

Debido a que en esta fase han de reportarse los motivos concretos por los que se excluye cada artículo, esto ha de tenerse también en cuenta a la hora de evaluar posteriormente las discrepancias, ya que puede ser que dos revisores decidan excluir un artículo pero por motivos diferentes, constituyendo eso también una discrepancia entre ambos que deberá ser resuelta. Sin una adecuada organización de los criterios de exclusión, es probable que se produzcan muchas discrepancias innecesarias.

Los estudios pueden presentar más de un criterio de exclusión, sin embargo, con la simple presencia de uno de ellos ya deberán ser excluidos, sin necesidad de reportar todos los que presentaban. Esto hace que el orden en que se evalúan dichos criterios de exclusión importe y es el motivo por el cual es necesario organizar los mismos antes de comenzar el cribado a texto completo.

La forma de proceder que considero más óptima para organizar los criterios de exclusión es seguir el orden en que suele presentarse la información en un estudio de investigación, es decir, empezar por los criterios de exclusión sobre el diseño del estudio y terminar por aquellos que tengan que ver con las variables resultado o las intervenciones. El orden en que suele presentarse la información en una investigación en términos generales (siempre hay excepciones) sería:

  1. Diseño del estudio.
  2. Sujetos.
  3. Tamaño muestral.
  4. Intervenciones.
  5. Variables resultado.
  6. Análisis estadístico.

Además del orden, debemos simplificar los criterios de exclusión para la elaboración de dicho listado, de manera que queden redactados tal cual aparecerán posteriormente en el diagrama de flujo de la publicación definitiva. Un ejemplo podría ser el siguiente:

  1. Diseño de estudio inadecuado.
  2. Sujetos con otras patologías.
  3. Tamaño muestral inferior a 60 sujetos.
  4. Ausencia de un grupo con ejercicio terapéutico.
  5. Ausencia de medidas de resultado de discapacidad.

De este modo, primero iremos al apartado de diseño del estudio y si está presente dicho criterio de exclusión, excluiríamos el artículo sin leer el resto del manuscrito, optimizando el tiempo de cribado. Si ambos revisores proceden con el mismo listado, no debería haber discrepancias entre ellos derivadas del orden de evaluación de los criterios de exclusión.

Cribado de texto completo

Esta sería la última fase (incluyendo la resolución de conflictos de texto completo) de la fase de cribado de una revisión sistemática. A diferencia del cribado de título y resumen, en el que Rayyan puede facilitarnos la tarea, el cribado de texto completo personalmente recomiendo realizarlo mediante Microsoft Excel, ya que creo se optimiza más el tiempo.

El primer paso a realizar en la planificación del cribado a texto completo es organizar los resultados obtenidos del cribado de título y resumen. Mediante Rayyan deberemos exportar dos documentos .csv (valores separados por comas), uno que incluirá los artículos incluidos por ambos revisores y otro que incluirá los artículos incluidos por el tercer revisor en la fase de resolución de discrepancias. Estos dos archivos .csv deberemos unificarlos en uno solo. Una vez exportados los artículos, debemos convertir el archivo .csv al formato de Microsoft Excel. Visualmente, los datos exportados de los artículos incluidos en formato .csv quedarían como:

 

Como puede apreciarse, todos los datos están guardados en una misma celda, separándose con comas cada apartado de los datos (número Rayyan, título, año de publicación…). Para convertir los datos a formato Excel y que cada columna se corresponda con un apartado se debe proceder de la siguiente manera:

  1. Seleccionar la primera columna.
  2. Ir a la sección «Datos».
  3. Abrir la herramienta «Texto en columnas».
  4. Seleccionar el tipo de archivo «Delimitados».
  5. Seleccionar el separador «Coma».
  6. Seleccionar el formato de datos «General».
  7. Clicar en «Finalizar» y cuando nos pregunte «Aquí hay datos. ¿Desea reemplazarlos?» clicar en «Aceptar».

De este modo ya dispondremos de los datos de los artículos incluidos separados por columnas. Antes de proseguir con la modificación del Excel, deberán encontrarse los documentos a texto completo de todos los estudios incluidos. Mi recomendación a la hora de guardar dichos archivos, es adjudicarles nombre con la siguiente estructura, «Año de publicación. Título del estudio», por ejemplo, «2009. Motion of the Shoulder Complex During Multiplanar Humeral Elevation». El motivo de nombrar así los documentos es simplemente para facilitar su localización mientras se realiza el cribado en el Excel. Si se orden los documentos alfabéticamente en la carpeta donde los guardemos y se hace lo mismo con las filas en Excel, será mucho más fácil encontrar el PDF asociado a cada artículo a cribar en el Excel.

Los únicos datos que serán necesarios en el Excel (el archivo .csv deberá guardarse finalmente como .xlsx que es el formato de Excel) que se utilizará para el cribado de texto completo son por tanto el año de publicación y el título, el resto de columnas deberán ser eliminadas para facilitar la funcionalidad del Excel. Personalmente recomiendo dejar la primera columna con los años de publicación y la segunda con el título de los estudios, es decir, intercambiar el orden en que aparecen al exportar los datos desde Rayyan.

El siguiente paso es construir el sistema de cribado en Excel mediante la elaboración de listas de datos. Primero debemos crear una nueva hoja en nuestro documento de Excel, donde se encontrarán las distintas opciones de nuestras listas. Mi recomendación es crear dos listas, una para la decisión de incluir o no el estudio y otra con los motivos de exclusión:

El motivo de crear estas listas escritas es porque, cuando creemos las listas desplegables a utilizar para el cribado a texto completo, debemos especificar de que celdas debe coger el desplegable las opciones a enseñar. Estas listas desplegables se crean de la siguiente manera:

  1. Seleccionar todas las celdas en las que vayamos a querer insertar el desplegable.
  2. En la sección «Datos», seleccionar la herramienta de «Validación de datos», justo a la derecha de «Texto en columnas».
  3. En «Criterio de validación» seleccionar «Lista» en la sección de «Permitir».
  4. En esa misma página, seleccionar en la sección «Origen» las celdas donde hemos creado nuestras opciones para dicha lista.
  5. Clicar en «Aceptar».

Una vez realizados estos pasos, ya dispondremos de celdas con un listado desplegable de opciones, facilitando la tarea a los revisores que se encarguen de realizar la fase de cribado a texto completo.

Con todo ello, ya estaría finalizado el Excel para realizar la fase de cribado de texto completo. Para proceder con esta fase, cada revisor cribará los estudios en un Excel independiente. Una vez finalizado el cribado, el investigador principal deberá detectar las discrepancias entre ambos revisores, para lo cual recomiendo unificar las columnas de «Decisiones» de ambos revisores en un mismo Excel. Los estudios en los cuales haya discrepancias deberán enviarse en un nuevo Excel, sin contener ninguna información sobre las decisiones de los revisores previos, a un tercer revisor que será el encargado de resolver las mismas, finalizando de este modo la fase de cribado de la revisión sistemática.

Conclusiones

La fase de cribado es una de las más importantes de una revisión sistemática. Esta fase requiere tener en cuenta algunos aspectos metodológicos importantes para mejorar la calidad de la misma (destacando las partes no explícitas de los criterios de inclusión y exclusión, así como el pilotaje previo) y para optimizar su tiempo de realización (destacando el uso de distintas aplicaciones). Las recomendaciones aquí mencionadas recogen mi forma de trabajar a la hora de planificar y realizar una revisión sistemática, aunque existen otras opciones para ello. Personalmente, animo encarecidamente a todo aquel/aquella que vaya a realizar una revisión sistemática, a estudiar antes detenidamente las consideraciones metodológicas de este tipo de estudios.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Guía Estadística Machine Learning & Inteligencia Artificial Repositorio

Machine Learning e Inteligencia Artificial

Repositorio: Machine Learning e Inteligencia artificial

Machine learning and artificial intelligence research for patient benefit: 20 critical questions on transparency, replicability, ethics, and effectiveness | BMJ (Acceso libre)

  • En este artículo se ofrece un debate acerca de varios aspectos relacionados con el Machine Learning y la inteligencia artificial, así como una propuesta de cuestiones a plantearse cuando se planifica un estudio con este tipo de análisis.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Fiabilidad Modelo Lineal General Temas Avanzados

El mal uso de la MDD en la interpretación de diferencias medias

Interpretación de medias: El mal uso de la Mínima Diferencia Detectable

En esta entrada profundizo en la estadística subyacente a la utilización de la mínima diferencia detectable (MDD) en la interpretación de diferencias medias, que actualmente se sigue haciendo en diversas publicaciones del campo de la Fisioterapia. A lo largo de la entrada, explicaré los motivos por los cuales pienso esta práctica está equivocada y puede llevarnos a fallos cruciales de interpretación de los resultados de una investigación. 

Nota: En esta entrada se utilizan conceptos avanzados de estadística aplicada y puede que, sin una base previa, resulte más complicada su comprensión. No se abordarán múltiples aspectos básicos para no extender demasiado el contenido de la misma, dándose por hecho que el lector presenta esa base de conocimiento.

La mínima diferencia detectable (MDD) es un estadístico comúnmente reportado en los análisis de fiabilidad con variables continuas. Este estadístico constituye un limite de un intervalo de confianza (IC), normalmente del intervalo al 90% o 95% de confianza (utilizaré este último para todas las explicaciones y simulaciones a lo largo de la entrada). Su interpretación simplista sería la siguiente.

Imaginemos que tenemos un sujeto al que hemos medido la fuerza isométrica máxima de rotación externa de hombro, con un dinamómetro manual. En la primera medición antes de comenzar el tratamiento, el sujeto muestra una fuerza de 130N, mientras que en la segunda medición tras la aplicación del tratamiento, el sujeto muestra un valor de fuerza de 135N. Sabemos que la fiabilidad del dinamómetro no es perfecta, es decir, que al utilizar este instrumento dentro del procedimiento empleado, cometemos errores en la medición. Entonces, ¿Cómo podríamos saber si la diferencia observada en el post-tratamiento no se ha debido a un error de medición? Aquí es donde entra en juego el concepto de MDD.

La mínima diferencia detectable al 95% de confianza (MDD95%), es un valor que, partiendo de que se cumplen distintas asunciones y que lo único que ha influido en la diferencia observada es el error de medición (es decir, que no hay ningún otro factor, ni la intervención, que hayan influido), por encima del mismo solo se encontrarían un 5% de las posibles diferencias absolutas obtenibles debidas al error de medición. De forma que se asume que, si obtenemos una diferencia superior a dicho valor, como es «poco plausible» obtener esa diferencia bajo la hipótesis de que dicha diferencia se haya obtenido solo por un error de medición, entonces rechazamos dicha hipótesis.*

*Nota: Debemos tomar está definición como muy simplista y «con pinzas», ya que realmente no es tan sencilla su interpretación en términos de probabilidad, pero no entraré en ese detalle en esta entrada, pues no es su propósito.

En términos más formales, si medimos a un sujeto infinitas veces y asumimos que lo único que influye en las diferencias observadas entre las distintas mediciones es el error proveniente del procedimiento de medición empleado y calculamos diferencias de parejas de mediciones de manera aleatoria, el intervalo de confianza al 95% de esa distribución de datos (de esas diferencias entre dos mediciones seleccionadas de manera aleatoria), es decir, más o menos los valores que se alejan 1.96 desviaciones estándar (DEd) asumiendo algunas cosas, eso sería el valor de la MDD95%. La fórmula que suele utilizarse para el cálculo de la MDD95% es la siguiente:

$$MDD95\% = 1.96*DE_d = 1.96*EEM*\sqrt 2$$

En esta fórmula el EEM es el error estándar de la media, que es una estimación de la desviación estándar resultante de medir a un sujeto infinitas veces influyendo solo el error de medición. Como en la MDD95% tenemos dos mediciones y no solo una, se multiplica el EEM por la raíz cuadrada de dos, debido a que:

$$EEM = \frac{DE_d}{\sqrt 2}$$

$$DE_d = EEM*\sqrt 2$$

Después de esta introducción, vamos a focalizarnos en el tema concreto de esta entrada. Como he comentado, la MDD95%es un estadístico orientado a interpretar la diferencia entre dos mediciones realizadas a un mismo sujeto. Sin embargo, la MDD95% se utiliza a veces también para interpretar diferencias de medias muestrales y para cálculos de tamaño muestral, dos procedimientos a mi parecer erróneos por los motivos que expondré a continuación.

Mínima diferencia detectable en la interpretación de diferencias medias

Mostraré primero las consecuencias de utilizar la MDD95% en la interpretación de la diferencia media entre dos grupos. Voy a simular un estudio en el que queremos comparar la fuerza isométrica máxima de rotación externa de hombro, medida con dinamometría, entre sujetos con y sin tendinopatía del manguito rotador. Asumiremos los siguientes valores poblacionales reales y los siguientes valores de error de medición (mismo error de medición en ambas poblaciones):

$$Tendinopatía = \{\mu_t = 140, \sigma_t = 10\}$$

$$Sanos = \{\mu_s = 145, \sigma_s = 10\}$$

$$Error \ de \ medicion = \{EEM = 3.61, MDC95\% = 10\}$$

Partiendo de estos datos, si asumimos un umbral crítico de significación de p < .05, necesitaríamos 64 sujetos de cada grupo para conseguir una potencia estadística del 80%, asumiendo que no se cometen errores en el proceso de medición. Si asumimos el error de medición mencionado anteriormente la potencia disminuye y si, además de eso, utilizamos el punto de corte de la MDD95% para decidir cuando hay diferencias entre los grupos y cuando no, la potencia disminuye aun más, quedando las tres definidas para esa misma muestra como:

  • Sin error de medición: 80%.
  • Con error de medición: 75%.
  • Con error de medición + MDC95%: 0.40% (aproximada). *Esta potencia se ha calculado asumiendo que hay diferencias reales si y solo si el resultado obtenido es estadísticamente significativo y además, superior a 10N, el valor de la MDC95%.

Como puede apreciarse, al utilizar la MDD95% como punto de corte para decidir si «hay diferencias reales o no» entre estas dos poblaciones, la potencia estadística disminuye notoriamente. Además, debemos tener en cuenta otro factor, una paradoja que se da debido a la relación entre el tamaño muestral y la distribución de las diferencias medias.

Según incrementamos el tamaño muestral, la estimación de la diferencia media es más precisa, es decir, los valores de diferencias medias observados se aproximarán cada vez más al valor real, en este caso de 5N. No obstante, aunque se incremente el tamaño muestral, el valor de la MDD95% no varía, es fijo. Por tanto, aunque de manera habitual incrementar el tamaño muestral incrementa la potencia, en este caso sucede lo contrario. Al aproximarse cada vez más los valores a 5N, habrá menos cantidad de muestras en las que la diferencia observada sea superior a 10, de manera que la potencia disminuye. Por ejemplo, para los siguientes tamaños muestrales, la potencia aproximada sería:

  • 75 sujetos por grupo = 0.25%
  • 80 sujetos por grupo = 0.18%
  • 90 sujetos por grupo = 0.07%
  • 100 sujetos por grupo = 0.04%

Es decir, no podríamos mejorar la potencia estadística incrementando el tamaño muestral, si no que tendríamos que disminuirlo, algo que carece de sentido. Este efecto dependerá del efecto real bajo estudio (la diferencia de medias real) y la fiabilidad del procedimiento de medición. A medida que la fiabilidad se aproxime a una fiabilidad perfecta (es decir, la MDD95% tienda a cero), el efecto negativo de usar la MDD95% será menor. Sin embargo, puede observarse como en casos como el presente, con una fiabilidad muy buena con un EEM de tan solo 3.61, el efecto del uso de la MDD95% es devastador.

Mínima diferencia detectable en el cálculo del tamaño muestral

Otra práctica que he podido observar algunas veces en la investigación en Fisioterapia, es la utilización de la MDD95% para los cálculos de tamaño muestral, donde se produce también otra situación paradójica similar a la descrita anteriormente.

Como ya he comentado, según incrementa el error de medición disminuye la potencia estadística, por ejemplo para el caso anterior con 64 sujetos por grupo, la potencia estimada para los siguientes errores estándar de la media sería:

  • EEM de 5 = 71%.
  • EEM de 7 = 63%.
  • EEM de 10 = 51%.
  • EEM de 15 = 34%.

Esto hace que, según aumente el error de medición, debamos incrementar el tamaño muestral si queremos mantener una potencia estadística deseada (por ejemplo, del 80%). Asumiendo los valores anteriores de EEM, la muestra necesaria para alcanzar un 80% de potencia sería:

  • EEM de 0 = 64 sujetos por grupo.
  • EEM de 5 = 80 sujetos por grupo.
  • EEM de 7 = 95 sujetos por grupo.
  • EEM de 10 = 127 sujetos por grupo.
  • EEM de 15 = 205 sujetos por grupo.

Ahora procedamos como he visto hacer a algún/a investigador/a de nuestro campo, utilizando el valor de la MDD95% como la diferencia de medias real estimada a detectar en nuestro estudio. Vamos a asumir que la dispersión de la diferencia está fija en 10 (aunque luego explicaré que esto no es así), de manera que para distintos valores de MDD95% usados como estimadores de la «diferencia de medias real», el tamaño muestral para un 80% de potencia sería:

  • MDD95% de 3 = 176 sujetos por grupo.
  • MDD95% de 5 = 64 sujetos por grupo.
  • MDD95% de 7 = 33 sujetos por grupo.
  • MDD 95% de 10 = 17 sujetos por grupo.

Es decir, según incrementamos la diferencia de medias real estimada, el número de sujetos necesario para alcanzar un 80% de potencia (manteniendo el resto constante) disminuye. Es aquí donde se da la paradoja. Al inicio he comentado que, a menor fiabilidad hay más variabilidad de error y por tanto, la potencia estadística disminuye y necesitamos más muestra para alcanzar la potencia deseada. A menor fiabilidad, mayor es el valor de la MDD95%. Por tanto, ¿Cómo vamos a usar la MDD95% para calcular el tamaño muestral si su utilización disminuye aún más la muestra necesaria calculada? En efecto, carece de sentido. En los últimos cálculos asumí que la dispersión de las diferencias estaba fijada en 10, sin embargo, esto no es realista, ya que según disminuye la fiabilidad dicha dispersión aumenta.

Asumiendo una dispersión real (sin errores de medición) de 10 en cada muestra, con una diferencia de medias real de 5N y un tamaño muestral de 64 sujetos por grupo, teníamos un 80% de potencia. Ahora mostraré que sucede en la potencia real estimada de un estudio, cuando se incrementa el error de medición (EEM) y se utiliza además para el cálculo del tamaño muestral la MDD95% asociada a ese error de medición:

$$\begin{array} {| ccc |} \hline EEM & Potencia \ real & Muestra \ 80\% & MDD95\% & Muestra \ MDD95\% & Potencia \ real \ MDD95\% \\ \hline 2.53 & 78\% & 68 & 7 & 33 & 49\% \\ \hline 3.61 & 75\% & 72 & 10 & 17 & 26\% \\ \hline 4.33 & 73\% & 76 & 12 & 12 & 19\% \\ \hline \end{array}$$

Como puede apreciarse, el uso de la MDD95% para estimar el tamaño muestral se traduce en una mayor y considerable pérdida de potencia estadística real de nuestro estudio, al disminuir el tamaño muestral cuando en realidad, al haber menos fiabilidad, deberíamos incrementarlo tal y como se muestra en la tercera columna. 

Mínima diferencia media detectable

Como he comentado anteriormente, el uso de la MDD95% está orientado a diferencias entre dos mediciones realizadas a un mismo individuo, es decir, es un estadístico orientado a individuos y no a muestras.

Una pregunta que podríamos hacernos es, si podemos calcular la MDD95% para diferencias individuales, ¿podemos también calcularla para diferencias medias? La respuesta es sí, a este valor le llamaré mínima diferencia media detectable al 95% de confianza (MDMD95%). Ahora supongo que, a lo mejor, te estas planeando la siguiente pregunta obvia, ¿podemos usar la MDMD95% para interpretar diferencias medias? Y la respuesta quizás no te resulte tan obvia y no te guste tanto: no.

Si retomamos las fórmulas anteriores:

$$DE_d = EEM*\sqrt 2$$

$$MDD95\% = EEM*\sqrt 2*1.96 = DE_d*1.96$$

La DEd es la desviación estándar de las diferencias individuales entre las dos muestras. Sin embargo, nosotros estamos interesados en la dispersión de la media, no de los valores individuales, de modo que tenemos que usar un estadístico que recoja dicha dispersión de la media, que es el error estándar de la media:

$$EE_{media} = \frac{DE_d}{\sqrt n}$$

Con este error estándar, podemos reescribir la fórmula de la MDD95% para obtener la fórmula de la MDMD95%:

$$MDMD95\% = \frac{MDD95\%}{\sqrt n} = \frac{EEM*\sqrt 2*1.96}{\sqrt n}$$

Siendo n igual al tamaño muestral total entre dos (asumiendo que ambos grupos tienen el mismo tamaño muestral). De este modo, la MDMD95%, a diferencia de la MDD95%, si varía en función del tamaño de la muestra, a mayor tamaño muestral empleado, menor MDMD95%.

Sin embargo, no tiene sentido utilizar la MDMD95% para interpretar diferencias medias, ya que no aporta información útil si ya usamos el punto de corte del umbral crítico de significación (p < .05). La explicación a este fenómeno recae en las varianzas involucradas en sus respectivos cálculos.

Cuando calculamos la MDMD95% solamente estamos teniendo en cuenta el error atribuible a la ausencia de fiabilidad perfecta del procedimiento de medición, es decir, si tenemos dos muestras a comparar, entonces:

$$\sigma^2_{sanos} = \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{error_{tendinopatia}}$$

$$MDMD95\% = \frac{\sqrt {\sigma^2_{error_{sanos}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Sin embargo, si pensamos ahora en un experimento real, cuando calculamos un valor-p o un intervalo de confianza para una diferencia media entre dos muestras, ahí ya no solo tenemos el error de medición, sino que también tenemos otro error, el proveniente de la variabilidad real de dicha variable en cada una de las muestras (es decir, que los sujetos son distintos entre sí no solo por errores de medición, sino porque efectivamente tienen distinta fuerza), que arriba se ignora en los cálculos:

$$\sigma^2_{sanos} = \sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}$$

Con estos datos podemos calcular el intervalo de confianza asociado a una diferencia media entre dos grupos de igual tamaño muestral (no es exactamente la misma que para una t-Student pero sirve igual para ejemplificar este punto de la entrada):

$$IC95\%= \bar x_{dif} \pm \frac{\sqrt {\sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}} + \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Como se aprecia, en el segundo caso hay más variabilidad, más error en el cálculo. Esto produce la siguiente situación y es que, si una diferencia media es estadísticamente significativa al evaluarla con una prueba t-Student (fórmula similar a la última), entonces dicha diferencia media estará siempre por encima del valor de la MDMD95%, es decir, es imposible obtener una diferencia de medias estadísticamente significativa que sea inferior a la MDMD95% y es por ello que, como comenté al inicio de este apartado, la MDMD95% no aporta más información útil para interpretar la diferencia de medias y por tanto, carece de sentido su utilización.

En la figura anterior se reflejan 100 estudios simulados, con 30 sujetos por grupo en cada uno, asumiendo una diferencia media real de 5N, con una desviación estándar en cada grupo de 10 y un EEM de 3.61. En el gráfico se muestra la diferencia media de cada simulación con su respectivo intervalo de confianza al 95% basado en una prueba t-Student. La línea horizontal morada continua marca el cero, de modo que las simulaciones cuyo limite inferior del intervalo de confianza (color tomate) no sobrepasa el cero, son significativas para p < .05. La línea horizontal azul entrecortada marca el valor de la MDMD95% para ese EEM y ese tamaño muestral, que es de 1.83. Como puede apreciarse, ninguno de los resultados significativos (color tomate) presenta una diferencia media por debajo de la MDMD95%, ejemplificando lo comentado anteriormente acerca de que la MDMD95% no aporta información útil adicional.

Conclusiones

La mínima diferencia detectable es un estadístico orientado a interpretar diferencias individuales, pero no muestrales. La utilización de este valor para interpretar diferencias de medias muestrales y/o realizar cálculos de tamaño muestral tiene consecuencias nefastas en la potencia estadística y la adecuada interpretación de los resultados de una investigación. Por su parte, la mínima diferencia media detectable, tampoco debería utilizarse para interpretar las diferencias medias de una investigación, ya que no aporta más información útil que la aportada por el intervalo de confianza calculado para dicha diferencia media.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Modelo Lineal General Temas Básicos

Covarianza

Asociación: Covarianza

En esta entrada se ofrece una breve explicación del concepto de covarianza, que tiene especial relevancia dentro del modelo lineal general. El entendimiento de la covarianza supone el primer paso a la comprensión del concepto de asociación estadística entre dos variables cuantitativas.

La covarianza (Cov) es el primer concepto a entender para poder adentrarse en el mundo de las asociaciones entre variables cuantitativas. Hay dos preguntas que toda persona que quiera comprender este concepto de asociación tiene que hacerse, ¿Qué implica decir que dos variables presentan asociación? ¿Cómo podemos medir dicha asociación? En esta entrada, mediante el entendimiento de la covarianza y algún otro concepto, podrás entender mejor la primera pregunta y dar una respuesta parcial a la segunda.

Cuando decimos que dos variables presentan una asociación, que están correlacionadas, estamos diciendo que, en cierto grado, varían conjuntamente. Es decir, que cuando el valor de una incrementa o disminuye, el de la otra tiende también a incrementar o disminuir en un sujeto dado. Ahora veamos como se puede reflejar en números esa variación conjunta.

Vamos a partir de un escenario simulado, en el que hemos medido a 10 sujetos la intensidad del dolor de hombro (cm) y la fuerza en rotación externa (N):

$$\begin{array} {| ccc |} \hline Sujeto & Dolor & Fuerza \\ \hline 1 & 1 & 180 \\ \hline 2 & 2 & 160 \\ \hline 3 & 3 & 190 \\ \hline 4 & 4 & 120 \\ \hline 5 & 5 & 150 \\ \hline 6 & 6 & 140 \\ \hline 7 & 7 & 130 \\ \hline 8 & 8 & 170 \\ \hline 9 & 9 & 100 \\ \hline 10 & 10 & 110 \\ \hline \end{array}$$

Como hemos comentado, queremos obtener un estadístico que nos sirva para medir el grado en que dos variables varían de manera conjunta, de modo que resulta obvio, que dicho estadístico se tendrá que calcular utilizando los valores de ambas variables. Podríamos calcular el producto de los valores de cada una de las variables, es decir:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 180 & 180 \\ \hline 2 & 2 & 160 & 320 \\ \hline 3 & 3 & 190 & 570 \\ \hline 4 & 4 & 120 & 480 \\ \hline 5 & 5 & 150 & 750 \\ \hline 6 & 6 & 140 & 840 \\ \hline 7 & 7 & 130 & 910 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 100 & 900 \\ \hline 10 & 10 & 110 & 1100 \\ \hline \end{array}$$

Si sumamos dichos productos de la última columna, obtenemos un valor que en nuestro caso simulado es igual a 7410.  Pero, ¿Por qué nos interesa ese valor? Si multiplicamos dos valores grandes, se obtiene como resultado un valor «grande», si multiplicamos dos pequeños, se obtiene como resultado un valor «pequeño» y si multiplicamos uno grande por uno pequeño, obtenemos un valor «medio». Si imaginamos que queremos maximizar la relación entre estas dos variables, existiendo una correlación positiva perfecta, es decir, que a mayor valor de una, mayor valor de la otra, entonces ocurriría que el sujeto con el mayor valor de dolor (10 cm), tendría el mayor valor de fuerza (190 N). Podemos simular ese supuesto caso, obteniéndose la siguiente tabla:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 100 & 100 \\ \hline 2 & 2 & 110 & 120 \\ \hline 3 & 3 & 120 & 360 \\ \hline 4 & 4 & 130 & 520 \\ \hline 5 & 5 & 140 & 700 \\ \hline 6 & 6 & 150 & 900 \\ \hline 7 & 7 & 160 & 1120 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 180 & 1620 \\ \hline 10 & 10 & 190 & 1900 \\ \hline \end{array}$$

En este nuevo caso simulado, la suma de productos es de 8800. Como puede apreciarse, es un valor superior al anterior, el orden de los valores (mayor a menor) coincide en ambas variables, a cada valor máximo le corresponde el máximo que podría del conjunto, esto hace que se maximice la suma de productos, es decir, que obtenga su máximo valor posible con estos datos. Podríamos hacer lo mismo pero a la inversa, es decir, al valor máximo de dolor asociarle el valor mínimo de fuerza, es decir, estando en el caso simulado con una relación negativa perfecta entre las dos variables, en cuyo caso obtendríamos el mínimo valor posible de la suma de productos, siendo de 7150. Por tanto, tenemos dos extremos, el de la máxima correlación positiva posible (8800) y el de la máxima correlación negativa posible (7150). Si realizásemos el proceso anterior de asignación de los valores de fuerza y dolor de forma aleatoria, habrá algún valor que obtengamos de suma de productos que reflejará la mínima correlación posible, que se encontrará entre 7150 y 8800. Como podemos observar, el valor de suma de productos inicial (7410) está próximo al valor de la correlación perfecta negativa (7150), esto nos indicaría a priori que parece haber una correlación negativa en nuestra muestra original (primera tabla) entre ambas variables.

No obstante, esta suma de productos no es lo que se suele utilizar como posible estimador de la correlación entre dos variables. Es aquí donde entra en juego el concepto de covarianza. En lugar de multiplicar directamente los valores como hemos hecho en el caso anterior, lo que se hace es multiplicar la diferencia de dichos valores con respecto a la media muestral, de forma que con los datos iniciales, tendríamos la siguiente tabla:

$$\begin{array} {| ccccccc | } \hline Sujeto & Dolor & Fuerza & D*F & d_i – \bar d & f_i – \bar f & (d_i – \bar d) * (f_i – \bar f) \\ \hline 1 & 1 & 180 & 180 & -4.5 & 35 & -157.5 \\ \hline 2 & 2 & 160 & 320 & -3.5 & 15 & -52.5 \\ \hline 3 & 3 & 190 & 570 & -2.5 & 45 & -112.5 \\ \hline 4 & 4 & 120 & 480 & -1.5 & -25 & 37.5 \\ \hline 5 & 5 & 150 & 750 & -0.5 & 5 & -2.5 \\ \hline 6 & 6 & 140 & 840 & 0.5 & -5 & -2.5 \\ \hline 7 & 7 & 130 & 910 & 1.5 & -15 & -22.5 \\ \hline 8 & 8 & 170 & 1360 & 2.5 & 25 & 62.5 \\ \hline 9 & 9 & 100 & 900 & 3.5 & -45 & 157.5 \\ \hline 10 & 10 & 110 & 1100 & 4.5 & -35 & -157.5 \\ \hline \end{array}$$

En este caso las tres últimas columnas son las importantes, la primera refleja las diferencias del valor de dolor de cada sujeto con respecto a la media del grupo, la segunda lo mismo pero para la fuerza y la tercera es el producto de estas dos columnas anteriores. Si sumamos los valores de la última columna, obtenemos lo que se conoce como producto cruzado, que en este caso tiene un valor de -565. La diferencia de este valor, con respecto a la primera multiplicación que hacíamos con los datos originales, es que está centrado en el cero, es decir, mientras que en el anterior caso si las variables tenían cero correlación, obteníamos un valor de productos distinto de cero, en este caso cuando hay cero correlación el valor del producto cruzado es de cero. ¿Y qué es entonces la covarianza? Dado que el valor del producto cruzado depende del número de sujetos de la muestra, lo que se hace es dividir entre dicho valor (o entre los grados de libertad si es una estimación poblacional a partir de una muestra), para controlar este factor, de manera que puedan compararse distintas muestras. Este valor es la covarianza, cuya fórmula sería:

$$ Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(y_i – \bar y)}{n-1}$$

En nuestro caso, el valor de la covarianza entre el dolor y la fuerza es de -62.78 (el signo negativo indica que la correlación es negativa, a menos dolor más fuerza). Si la correlación entre dos variables es de cero, entonces su covarianza también. La fórmula anterior puede resultar familiar, eso es por su similitud con la fórmula de la varianza de una variable:

$$\sigma^2_x = \frac{\sum_{i=1}^{n}(x_i – \bar x)^2}{n-1} = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(x_i – \bar x)}{n-1}$$

Es importante darse cuenta de esta similitud, ya que sirve pare entender el concepto de «variabilidad conjunta». Mientras que para una sola variable, al estimar su variabilidad, multiplicábamos el mismo término por si mismo (elevábamos al cuadrado), ahora lo que se hace es, como tenemos dos variables, multiplicamos un término por el otro, para obtener un estimador de esa variabilidad conjunta de ambas variables, la covarianza. Entender esta similitud servirá posteriormente para comprender otro concepto, el coeficiente de correlación de Pearson. Este coeficiente es el que se utiliza en última instancia para evaluar la correlación entre dos variables cuantitativas que cumplan una serie de asunciones. No obstante, ya se ha podido conocer en esta entrada un estadístico que permite evaluar la relación entre dos variables, la covarianza, que es de suma importancia para múltiples análisis estadísticos.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Avanzado Fiabilidad Repositorio

Fiabilidad Diferencias Repositorio

Repositorio: Fiabilidad de Diferencias

A Comparison of the Reliabilities of Four Types of Difference Scores for Five Cognitive Assessment Batteries | Eur J Psychol Assess

  • En este artículo se discuten distintos aspectos relacionados con la fiabilidad de cuatro tipos de diferencias

On the relation between power and reliability of difference scores | Percept Mot Skills

  • En este artículo se ofrece una breve introducción a la fiabilidad de las diferencias.

The reliability of difference scores: A re-examination (Acceso libre)

  • En este artículo se profundiza en la influencia de distintas asunciones en la fiabilidad de las diferencias.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Fiabilidad Temas Avanzados

Fiabilidad de Diferencias (I)

Fiabilidad: Diferencia entre dos mediciones (I)

En esta entrada se ofrece una breve explicación de un factor a tener en cuenta con respecto a la fiabilidad de las mediciones y de su diferencia. Es un punto importante para la planificación, análisis e interpretación especialmente de los ensayos clínicos aleatorizados.

Existen situaciones en investigación en las cuales se mide una misma variable múltiples veces a lo largo del tiempo. En estos casos, una opción de análisis que suele realizarse, es calcular las diferencias entre los pares de mediciones y utilizar esta nueva variable calculada para los análisis estadísticos. Sin embargo, no siempre quienes toman tales decisiones son conscientes de algunas de las implicaciones de las mismas para con respecto a tu investigación. A continuación explico un aspecto (pero no el único) a tener en cuenta en estos casos, en relación con el campo de la fiabilidad.

Vamos a partir de la asunción de que queremos realizar un ensayo clínico aleatorizado (ECA), donde comparamos dos tratamientos (ejercicio de fuerza y ejercicio aeróbico) en sujetos «hombro congelado», para la mejoría del rango de movimiento de rotación externa, con tan solo dos mediciones, una basal antes del tratamiento (B) y otra al finalizar el programa de tratamiento a los 3 meses (P). Decidimos calcular la diferencia entre dichas dos mediciones (P – B) y utilizar esa nueva variable para comparar los tratamientos y evaluar si alguno es más efectivo.

Antes de comenzar, es necesario recordar la definición matemática de la fiabilidad (ρ) relativa, que sería igual a la división de la variabilidad real (σ2r) entre la variabilidad real más la variabilidad del error de medición (σ2e), es decir, entre la variabilidad total (σ2t):

$$\rho= \frac{\sigma^2_r}{\sigma^2_r + \sigma^2_e}$$

Partiré de esta fórmula para desarrollar toda la explicación. Vamos a sumir que existe independencia entre los errores de medición, es decir, que no existe una correlación entre el error de medición cometido en la situación basal y el cometido a los 3 meses para un determinado sujeto dado, así como que no hay una correlación entre el error de medición cometido y el valor real del sujeto, es decir, que estamos ante un caso de homocedasticidad. Finalmente, también asumiremos que la correlación existente entre la medición basal (B) y la post-tratamiento (P) es positiva (Walters 2019).

Asumiendo todo esto, podemos definir la varianza de las cada una de las dos variables (B y P) con su respectivo error de medición (e) como:

$$\sigma^2_B = \sigma^2_{rb} + \sigma^2_{eb}$$

$$\sigma^2_P = \sigma^2_{rp} + \sigma^2_{ep}$$

Ahora retomaremos las propiedades de la varianza, en concreto la tercera, con la que podemos estimar la variabilidad real de la diferencia entre P y B, excluyendo los términos de error de medición:

$$\sigma^2_{r(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)$$

Mientras que, en función de las asunciones de arriba de independencia de errores y homocedasticidad, la variabilidad total de P menos B quedaría definida como:

$$\sigma^2_{t(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}$$

El término importante de dichas fórmulas es la covarianza, el -2Cov(P,B). Cuando dos variables no presentan correlación (r = 0), el valor de la covariable es cero, mientras que cuando estamos en un caso de correlación positiva perfecta (r = 1), el valor de la covarianza es máximo. Si retomamos la fórmula de fiabilidad, podemos expresar la fiabilidad de la diferencia P-B como:

$$\rho_{p-b} = \frac{\sigma^2_{r(p-b)}}{\sigma^2_{r(p-b)} + \sigma^2_{e(p-b)}} = \frac{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)}{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}}$$

Como se puede apreciar, según incremente la correlación entre P y B, la covarianza se incrementará también y por tanto, el componente del numerador, que es la variabilidad real, disminuirá, produciendo por tanto una disminución en la fiabilidad de la diferencia P-B en comparación a las fiabilidades individuales de la medición basal (B) y post-tratamiento (P). Este hecho puede apreciarse más fácilmente si observamos la fórmula estimada para la fiabilidad de las diferencias en función de la fiabilidad de cada medición y la correlación entre ellas, que quedaría definida como (Chiou 1996):

$$\rho_{p-b} = \frac{\sigma^2_b\rho_b + \sigma^2_p\rho_p – 2r_{bp}\sigma_b\sigma_p}{\sigma^2_b + \sigma^2_p – 2r_{bp}\sigma_b\sigma_p}$$

Realizaré una asunción más para simplificar esta fórmula. Asumiendo que las varianzas de la medición basal y la post-tratamiento son iguales, entonces:

$$\rho_{p-b} = \frac{\rho_b + \rho_p – 2r_{bp}}{2(1-r_{bp})}$$

En esta última fórmula se puede apreciar mejor como cuando aumenta la correlación entre B y P (rbp), disminuye la fiabilidad de la diferencia.

Conclusiones

Estos aspectos de cambios en la fiabilidad en las diferencias con respecto a las mediciones deben tenerse en consideración a la hora de decidir que análisis utilizar en una investigación, existiendo otras opciones como el Análisis de la Covarianza (ANCOVA) o la regresión lineal múltiple que pueden ser más adecuadas. Sin embargo, los ejemplos aquí mostrados se basan en que se dan una serie de asunciones, que no siempre tienen porqué darse y que pueden alterar las conclusiones aquí extraídas de pérdida de fiabilidad, pudiendo darse situaciones donde el uso de las diferencias no esté tan desaconsejado. Mi posición al respecto, con respecto al campo de los ensayos clínicos aleatorizados en Fisioterapia, es que se prime la utilización de ANCOVA y/o regresión lineal múltiple por encima de las diferencias y análisis como el Análisis de la Varianza (ANOVA). En caso de que se decidiera usar estas diferencias, debería valorarse y tenerse en cuenta la posible pérdida de fiabilidad a la hora de realizar los cálculos de tamaño muestral.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Descriptivos Temas Básicos

Suma Cuadrados Desviación Estándar y Varianza

Dispersión: Suma de cuadrados, Desviación estándar y varianza

En esta entrada se ofrece una explicación básica de tres conceptos relacionados, la suma de cuadrados, la desviación estándar, y la varianza, medidas de dispersión comúnmente reportadas en investigación.

Mientras que los términos de varianza y desviación estándar son más conocidos incluso entre aquellos que se están iniciando en el mundo de la estadística aplicada, el concepto de suma de cuadrados (SS, del inglés «sum of squares») y el de cuadrado medio (MS, del inglés «mean square»), no lo son tanto y es por ello que comenzaré explicando estos dos conceptos y su relación con los otros dos primeros. Es importante conocer el significado de estos últimos ya que en múltiples análisis dentro del campo de los mínimos cuadrados ordinarios se hará referencia a ellos.

Vamos a partir de la siguiente muestra simulada de 10 sujetos, a los cuales se les ha medido el peso en kg:

$$Muestra = \{70, 72, 65, 60, 81, 77, 66, 63, 78, 58\}$$

$$\bar x = 69 kg$$

Si queremos saber como de dispersos están nuestros datos, cual es su «variabilidad», una opción es, a cada valor, restarle la media del conjunto. Sin embargo, si queremos obtener un estimador de la dispersión de nuestra muestra usando esas diferencias con respecto a la media y sumamos todos los valores, el valor resultante es cero:

$$Diferencias = \{1, 3, -4, -9, 12, 8, -3, -6, 9, -11\}$$

$$\sum_{i = 1}^{n} (x_i – \bar x) = 0$$

Para solventar este problema, lo que suele hacerse es elevar al cuadrado cada diferencia antes de proceder a su suma, como puede intuirse, este valor obtenido es al que denominados suma de cuadrados, ya que se están sumando los cuadrados de las diferencias:

$$SS = \sum_{i = 1}^{n} (x_i – \bar x)^2$$

$$SS = 1 + 9 + 16 + 81 + 144 + 64 + 9 + 36 + 81 + 121 = 562$$

No obstante, la suma de cuadrados también presenta un problema, es dependiente del número de valores del que disponemos, es decir, a mayor muestra mayor SS. Esto dificulta la utilización de la SS como un estimador de la dispersión de los datos a la hora de comparar distintas muestras. Es por ello que este valor se divide entre el número total de sujetos de la muestra, dando lugar a lo que se conoce como cuadrado medio:

$$MS = \frac{SS}{n} = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

$$MS = \frac{562}{10} = 56.2$$

Esta fórmula puede que resulte familiar ya que, en efecto, es la misma fórmula que la de la varianza muestral (σ²), es decir, la varianza muestral y el cuadrado medio son lo mismo, pero con distinto nombre:

$$MS = \sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

Finalmente, existe otra cuestión que debemos tener en cuenta y es que la varianza no se encuentra en las mismas unidades que los valores originales, pues se ha obtenido sumando los cuadrados. Para solventar este problema disponemos de otro estadístico, la desviación estándar muestral (σ), que se calcula como la raíz cuadrada de la varianza:

$$\sigma = \sqrt{\sigma^2} = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}} = \sqrt{56.2} = 7.50 kg$$

Las dos fórmulas descritas anteriormente para la varianza y desviación estándar, son para su cálculo para la muestra bajo análisis. Si lo que queremos es estimar los valores poblacionales a partir de una muestra, la fórmula varía ligeramente debido a que cambian los grados de libertad:

$$\sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}$$

$$\sigma = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}}$$

Estos estadísticos se suelen emplear como descriptores de dispersión en el caso de variables cuantitativas que presenten una distribución aproximadamente normal, así como para distintos cálculos bajo el modelo de mínimos cuadrados ordinarios.

Propiedades de la varianza

La varianza presenta algunas propiedades que es necesario conocer, para facilitar la comprensión posterior de algunos conceptos:

  • El valor de la varianza es siempre igual o superior a cero.

$$\sigma^2 \geq 0$$

  • La varianza de una constante es cero. Como su propio nombre indica, una constante no varía, no tiene variabilidad, «sus datos no varían». Como curiosidad, existe un error de denominación de las «constantes vitales», que no son realmente constantes.

$$\sigma^2(c) = 0$$

  • Si multiplicamos todos los valores de una variable X por una constante entonces:

$$\sigma^2(X*c) = c^2*\sigma^2(X)$$

  • La varianza de la suma o resta de dos variables (X e Y), con covarianza (Cov(X,Y)), es igual a:

$$\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y) + 2Cov(X,Y)$$

$$\sigma^2(X-Y) = \sigma^2(X) + \sigma^2(Y) – 2Cov(X,Y)$$

Esta última propiedad tiene especial importancia con respecto a la fiabilidad de las diferencias entre dos mediciones consecutivas en el tiempo, como son por ejemplo las diferencias post-tratamiento menos la medición basal, habitualmente utilizadas en los análisis de los ensayos clínicos aleatorizados del campo de la Fisioterapia.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Modelo Lineal General Temas Básicos

Modelo Lineal General Explicación

Modelo Lineal General: Explicación básica

En esta entrada se ofrece una explicación del concepto de Modelo Lineal General, ejemplificándose como una regresión lineal simple y una prueba t-Student son el mismo análisis con distinto nombre.

El Modelo Lineal General engloba un conjunto de análisis paramétricos que se basan en intentar predecir una variable continua en función de una o más variables, asumiendo que la relación entre ellas es de tipo lineal, usando el método de mínimos cuadrados ordinarios. Bajo este modelo se incluyen análisis como la prueba t-Student, la regresión lineal simple y múltiple, el Análisis de la Varianza y el Análisis de la Covarianza. A pesar de existir tantos nombres distintos, todos ellos son en realidad el mismo tipo de análisis, una regresión lineal con una o más variables predictoras. En esta entrada voy a ejemplificar esta afirmación equiparando la prueba t-Student a una regresión lineal simple.

Vamos a partir de un estudio transversal en el que queremos evaluar si existen diferencias en la fuerza de rotación externa entre personas con y sin tendinopatía del manguito rotador. Para ello, asumiremos los siguientes valores poblacionales de fuerza de rotación externa:

$$Sanos \rightarrow \mu_{sanos} = 150N \ y \ \sigma_{sanos} = 40N$$

$$Dolor \rightarrow \mu_{dolor} = 140N \ y \ \sigma_{dolor} = 40N$$

Partiendo de estos datos poblacionales, simulamos un estudio en el que seleccionamos mediante un muestreo probabilístico 320 sujetos sanos y 320 con tendinopatía del manguito, obteniendo los siguientes datos muestrales:

$$Sanos \rightarrow \bar x_{sanos} = 152.07N \ y \ s_{sanos} = 41.32N$$

$$Dolor \rightarrow \bar x_{dolor} = 140.75N \ y \ s_{dolor} = 39.35N$$

En este estudio tenemos por tanto dos variables, la variable Dolor (0 = no, 1 = si), que sería la variable independiente (categórica binomial) y la variable fuerza (medida en Newtons), que sería la variable dependiente (cuantitativa continua). Con ellas, podemos crear el siguiente modelo de regresión lineal simple, donde queremos predecir la fuerza en función de la presencia de dolor:

$$Fuerza_i = C + b*Dolor_i$$

En esta fórmula, C es la constante y b es el coeficiente de regresión sin estandarizar. Imaginemos ahora que queremos predecir el valor fuerza de un sujeto i perteneciente al grupo de los participantes sanos. En este caso, el valor de dicho sujeto en la variable Dolor es cero, de modo que la anterior fórmula quedaría como:

$$Fuerza_i = C + b*0$$

$$Fuerza_i = C$$

Es decir, el valor predicho para dicho sujeto es igual a la constante de la fórmula de regresión lineal. Pero, ¿Qué valor tiene dicha constante? Recordando la entrada de mínimos cuadrados ordinarios, el mejor valor que podemos utilizar para predecir la puntuación de un sujeto de una muestra, es la media de dicha muestra, por tanto:

$$Fuerza_i = C = \bar x_{sanos} = 152.07$$

Es decir, la constante de la fórmula de regresión es la media del grupo de los participantes sanos. Ahora solo nos quedaría por conocer cual es el valor del coeficiente de regresión sin estandarizar (b) para poder completar la fórmula. Imaginemos que queremos predecir el valor de un sujeto i perteneciente al grupo de participantes con tendinopatía del manguito rotador. En este caso, el valor de la variable Dolor para dicho sujeto es de uno, de manera que:

$$Fuerza_i = 152.07 + b*1$$

$$Fuerza_i = 152.07 + b$$

Si partimos de la misma asunción realizada anteriormente basándonos en el método de mínimos cuadrados ordinarios, que es en el que se basa el modelo lineal general, el mejor valor que podemos utilizar para predecir la fuerza de un sujeto del grupo de participantes con tendinopatía del manguito rotador es la media de dicho grupo, de manera que la fórmula quedaría como:

$$140.75 = 152.07 + b$$

Si despejamos b de dicha fórmula, obtenemos que:

$$b = 140.74 – 152.07 = -11.32$$

Es decir, el coeficiente de regresión sin estandarizar (b) es igual a la diferencia media entre el grupo de participantes sanos y el grupo de sujetos con tendinopatía del manguito rotador. Por tanto, lo que estamos evaluando con este modelo de regresión lineal es si la diferencia media entre los grupos es estadísticamente significativa, que es lo mismo que evaluamos cuando utilizamos la prueba t-Student. A continuación muestro los resultados utilizando ambos análisis, de forma que se pueda observar que se obtiene el mismo resultado con ambos análisis, ya que son matemáticamente equivalentes, aunque les pongamos distinto nombre:

Prueba t-Student:

$$t = 3.55, gl = 636.49, p = .000416$$

$$ \bar x_{dolor – sano} = -11.32, Intervalo \ de \ Confianza \ 95\% = 5.06 \ a \ 17.58$$

Regresión lineal simple:

$$Constante = 152.07, error \ estandar = 2.26, t = 67.246 p < .0001$$

$$b = -11.32, error \ estandar = 3.19, t = 3.55, p = .000416, Intervalo \ de \ Confianza \ 95 \% = 5.06 \ a \ 17.58$$

Por tanto, queda demostrado que la prueba t-Student y una regresión lineal simple son el mismo análisis estadístico. Esta misma demostración puede realizarse con otros análisis como un Análisis de la Varianza, aunque de una manera no tan visual como en el presente caso, pero con la misma conclusión, el Análisis de la Varianza no es más que un análisis de regresión lineal, bajo el modelo lineal general, todo son regresiones lineales.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Categorías
Inferencias Temas Básicos

Grados de Libertad

Grados de libertad: Definición simple

En los distintos análisis estadísticos que se nombran en la presente página y los estudios de investigación, aparece un concepto asociado a los mismos, el de los grados de libertad. En esta entrada se ofrece una explicación sencilla de dicho concepto para facilitar la comprensión del mismo en análisis más complejos.

La manera más sencilla de comprender el concepto de grados de libertad es utilizando como ejemplo la estimación de la desviación estándar poblacional a partir de una muestra. Como su propio nombre indica, los grados de libertad de un determinado estadístico son el número de valores utilizados para su cálculo que pueden variar libremente, antes de que el resto de valores se vean forzados a unos concretos sin disponer de dicha libertad de variación. Estos grados de libertad se utilizan, entre otras cosas, en los cálculos de los famosos valores-p y por ello se reportan en los resultados de múltiples análisis estadísticos en investigación, para facilitar la reproducibilidad de los mismos y con una finalidad de transparencia, para que el lector pueda corroborar que efectivamente, el valor-p asociado a ese determinado valor del estadístico en ese estudio, con ese tamaño muestral y esas características del análisis, ese el reportado por sus autores.

La fórmula de la desviación estándar de una muestra es la siguiente:

$$s = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n}}$$

Sin embargo, cuando lo que queremos es estimar la desviación estándar poblacional a partir de una muestra, la fórmula a utilizar es la siguiente:

$$\sigma = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n-1}}$$

En ambos casos, el denominador serían los grados de libertad, aunque donde tiene más sentido utilizar este término es en la segunda fórmula de estimación del valor poblacional a partir de una muestra. En el primer caso, como estamos calculando simplemente el valor de la muestra, los grados de libertad son iguales al número de sujetos, ya que cada sujeto puede tomar un valor libremente de la variable bajo estudio. Sin embargo, en el segundo caso, donde estamos estimando el valor poblacional, esto ya no se cumple.

Para entender el motivo de ese n-1 de la segunda formula, debemos primero conocer que, la media muestral, es un estimador directo de la media poblacional, es decir, asumimos que:

$$\bar x = \mu$$

Imaginemos que tenemos una población con una estatura media de 170cm. Ahora, seleccionamos una muestra de 10 sujetos mediante la que vamos a estimar la desviación estándar poblacional. Medimos a los primeros 9 sujetos, que pueden tomar valores que varían libremente, pudiendo ser:

$$Muestra = \{171, 174, 166, 178, 169, 158, 165, 164, 181, X_{10}\}$$

Para el cálculo de la desviación estándar poblacional se utiliza la media, tal y como se muestra en la fórmula anteriormente mencionada. Como hemos asumido que la media muestral es un estimador directo de la media poblacional, entonces la media muestral debería tener un valor de 170. De esta asunción se llega a la conclusión de que, como la media ya la hemos fijado antes del cálculo de la estimación de la desviación estándar, el valor de estatura del sujeto número 10 no puede variar libremente, ya que como la media ha de ser 170, el valor de este sujeto esta condicionado por los valores de los otros 9 sujetos que si varían libremente, es decir, adjudicados nueve valores libremente y queriendo obtener una media de 170, el último sujeto solo puede tener un valor:

$$X_{10} = n*\bar x – X_1 – X_2 – … – X_9$$

$$X_{10} = 10*170 – 171 – 174 – 166 – 178 – 169 – 158 – 165 – 164 – 181 = 174$$

Por tanto, la estimación de la desviación estándar poblacional a partir de esta muestra de 10 sujetos tendría 9 grados de libertad, que es igual al número total de sujetos de la muestra (n) menos el número de estadísticos que están restringidos (1, la media) y se usan para el cálculo de la desviación estándar. Aunque el cálculo de los grados de libertad para otros estadísticos es algo más complejo y difícil de comprender, el concepto subyacente es el mismo al reflejado en esta entrada.

Ensayos aleatorizados: Cambio intra- & entre-grupos En esta entrada se recoge una breve explicación de los cambios intra-grupos y entre-grupos dentro del …

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …