Categorías
Meta-análisis Metodología Temas Avanzados

Guía Básica de Cribado para Revisiones Sistemáticas

Revisión Sistemática: Guía básica de cribado

En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, para la realización del cribado de estudios a incluir en una revisión sistemática.

La fase de cribado de una revisión sistemática es una de las más importantes de este tipo de estudios. Dependiendo de los resultados de nuestras búsquedas, el cribado puede llevar demasiado tiempo, no obstante, existen algunas estrategias para optimizar el tiempo de realización de dicha fase, así como la calidad metodológica de la misma.  En esta entrada explicaré como suelo proceder a la hora de planificar y realizar dicha fase en una revisión sistemática.

Esquema de realización del cribado

Antes de proceder con la explicación de las distintas fases del cribado de una revisión sistemática, mostraré aquí un esquema (que será el que seguiré) de los pasos a seguir:

  1. Selección de las aplicaciones a utilizar para el cribado.
  2. Importación de las búsquedas.
  3. Detección y eliminación de duplicados.
  4. Criterios de inclusión/exclusión.
  5. Palabras clave para facilitar el cribado.
  6. Pilotaje previo: análisis de concordancia entre revisores.
  7. Cribado de título y resumen.
  8. Resolución de conflictos.
  9. Organización del sistema de criterios de exclusión.
  10. Cribado de texto completo.
  11. Resolución de conflictos.
Aplicaciones para el cribado

Actualmente utilizo dos aplicaciones web que pueden optimizar mucho el tiempo de realización de la fase de cribado, Covidence y Rayyan. En la siguiente tabla muestro una comparativa general de ambas con respecto a varias funciones.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} \\ \hline Gratuito & Pago \ (> 500 \ articulos) \\ \hline Duplicados \ a \ mano & Duplicados \ automatico \\ \hline Multiples \ revisores & Solo \ dos \ revisores \ (gratis) \\ \hline No \ ambos \ cribados & Ambos \ cribados \\ \hline \end{array}$$

A pesar de que el precio por usar Covidence de manera íntegra es elevado, la parte gratuita de la misma es bastante útil en la fase de cribado, como explicaré más adelante. Además de utilizar Covidence y Rayyan, también recomiendo utilizar la aplicación de escritorio de Mendeley  y Microsoft Excel. A continuación muestro un resumen de la finalidad con la que utilizar cada una de dichas aplicaciones:

  • Mendeley:
    • Importación de artículos.
  • Covidence:
    • Detección y eliminación de duplicados.
  • Rayyan:
    • Detección y eliminación de duplicados.
    • Pilotaje.
    • Cribado de título y resumen.
  • Microsoft Excel:
    • Cribado de texto completo.
Importación de búsquedas

Antes de proceder al cribado de los artículos, es necesario importar los archivos extraídos de las distintas bases de datos que contienen nuestras búsquedas. No todas las bases de datos permiten exportar las búsquedas realizadas en los mismos formatos y no todas las aplicaciones permiten importar archivos en los mismos formatos. En la siguiente tabla muestro los tipos de archivos que permiten importar las tres aplicaciones que suelo utilizar en una revisión sistemática.

$$\begin{array} {| ccc |} \hline \textbf {Rayyan} & \textbf {Covidence} & \textbf {Mendeley} \\ \hline EndNote \ (.enw) & EndNote \ XML \ (.xml) &  EndNote \ XML \ (.xml) \\  Refman/RIS \ (.ris) & Nuevo \ Pubmed \ (.nbib) & BibTeX \ (.bib) \\ BibTeX  \ (.bib) & RIS \ (.ris) & RIS \ (.ris) \\ CSV \ (.csv) & & Zotero \ Library \ (zotero.sqlite) \\ Pubmed \ XML \ (.xml) & & \\ Nuevo \ Pubmed \ (.nbib) & & \\ Web \ of \ Science/CIW \ (.ciw) & & \\ \hline \end{array}$$

Como puede apreciarse, Covidence está muy limitado en cuanto al tipo de archivos que permite importar y este es el motivo de que haya añadido Mendeley al listado de aplicaciones a utilizar en la fase de cribado. Todas las bases de datos que suelen consultarse en revisiones sistemáticas en Fisioterapia permiten exportar las búsquedas en alguno de los formatos permitidos por Mendeley. De este modo, si realizamos una búsqueda en una base de datos que no permite exportar en un formato aceptado por Covidence, lo que yo suelo hacer es importar dichas búsquedas a Mendeley, para después exportar esos artículos con formato .ris, una función que Mendeley permite, pudiendo finalmente importar dichas búsquedas en Covidence. Es indispensable poder importar todas las búsquedas en Covidence, ya que esta es la aplicación a utilizar en la primera fase de la detección y eliminación de duplicados.

Detección y eliminación de duplicados

Es importante reportar las herramientas utilizadas para proceder con la detección y eliminación de duplicados, entre otras cosas por un motivo de transparencia y de facilitación de reproducibilidad de la metodología empleada para el cribado, de acuerdo a las recomendaciones de la declaración PRISMA de reporte de las búsquedas en una revisión sistemática.

A pesar de que la aplicación web Covidence es de pago, una de sus funcionalidades gratuitas es de gran ayuda. Como ya he comentado, Covidence solo permite cribar de manera gratuita hasta un máximo de 500 artículos. Sin embargo, aunque no podamos cribar más de 500, si podemos importar más de 500, de hecho, podemos importar el número que necesitemos de artículos y proceder a la detección y eliminación de duplicados con dicha aplicación. Este primer paso es muy relevante, ya que a diferencia de Rayyan, Covidence si elimina los duplicados de manera automática. Una vez realizado este primer paso, procederemos a exportar los artículos restantes de Covidence para importarlos en Rayyan, donde proseguiremos con esta fase.

A pesar de que Covidence detecta y elimina la gran mayoría de duplicados, aun se deja algunos que detectará Rayyan. La desventaja de Rayyan es que, aunque detecta los duplicados de manera automática, no los elimina. Rayyan detectará posibles duplicados de acuerdo al porcentaje de concordancia de palabras en los distintos campos de importación de los artículos y luego tendremos que ir revisando uno a uno los casos de posible duplicado y decidir si existe o no duplicación y eliminar el artículo que no nos interese.

Por mi experiencia con grandes importaciones de artículos (6000 a 9000), el paso de Covidence lo considero indispensable, pues la tarea de eliminación manual de duplicados en Rayyan con cantidades de 1000-2000 duplicados, llevará demasiado tiempo sin existir necesidad para ello. Normalmente, con cantidades altas de resultados en las búsquedas como las referidas al inicio de este párrafo, una vez eliminamos duplicados en Covidence, los que suelen detectarse en Rayyan son pocos, entre 100-300 en las revisiones que he llevado a cabo, un número asequible para resolver manualmente en esta aplicación.

Por último, cabe destacar que, a pesar de usar dos aplicaciones, aún pueden quedar duplicados sin detectar que se deberán eliminar posteriormente en las fases respectivas de cribado de título-resumen o texto completo.

Criterios de inclusión y exclusión

El establecimiento de unos criterios de inclusión y exclusión claros resulta obvio para una buena calidad de la fase de cribado y a nivel general, para una buena calidad de la revisión sistemática.

El establecimiento de los criterios de inclusión y exclusión tiene, a mi modo de ver, dos partes: la parte explícita que se reportará en el manuscrito final y la parte no explícita que no se reportará, pero que es de suma importancia durante el proceso de cribado. Explicaré este punto con un ejemplo práctico de una revisión que estoy actualmente realizando, donde un criterio de inclusión explicito es: “Medir la cinemática escapular durante la elevación/descenso del brazo con sistemas de medición 3D que no sean de superficie”.

Este sería el criterio explícito, tal cual se reportará en el manuscrito de la publicación. Por otro lado, tendríamos la parte no explícita del criterio, que sería en parte la siguiente:

  • Sistemas optoelectrónicos no se incluyen (son de superficie).
  • Sistema VICON no se incluye (es de superficie).
  • Sistemas basados en sensores con cámaras infrarrojos no se incluyen (son de superficie).
  • Sistemas elecromagnéticos pueden ser de superficie o acoplados a pins insertados en hueso. Los primeros no se incluyen y los segundos sí.
  • En caso de que no se reporte el tipo de sistema electromagnético en título/resumen, se incluye el estudio y en la fase de texto completo se evaluará si es de superficie o con pins insertados en hueso para ver si finalmente se incluye el artículo o no.
  • Sistemas de fluoroscopia y radiografía de incluyen (no son de superficie).

Estos son algunos de los puntos no explícitos que acompañan a ese criterio explícito. El problema de no tener claros estos puntos y no detallarlos adecuadamente en las instrucciones para los revisores que realizarán el cribado, es que puede ser que se dejen estudios fuera que podrían haberse incluido o viceversa. En el segundo caso tiene solución ya que los podremos excluir finalmente cuando el IP tenga acceso al listado final de artículos incluidos. Sin embargo, en el primer caso (excluir estudios susceptibles de haber sido incluido), no podremos detectar que esto ha sucedido ni solventarlo.

El investigador encargado del establecimiento de los criterios de inclusión/exclusión debe valorar que los revisores que realizarán el cribado puede que no tengan el mismo conocimiento que él/ella (ej. Puede que los revisores no sepan que un sistema optoelectrónico es de superficie), y que es su obligación detallar al máximo posible los distintos criterios, así como posibles situaciones donde surja duda (como el caso de los sensores electromagnéticos donde no se reporta si son de superficie o no), para que los revisores tenga claro qué decisiones tomar y no se vea afectada la calidad de la fase de cribado.

Mi recomendación es elaborar una lista detallada de los criterios de inclusión/exclusión explícitos y todos sus componentes no explícitos en un Word y, previo comienzo al cribado, organizar una reunión con los distintos revisores que intervendrán en la misma para aclarar cualquier posible duda al respecto de manera previa.

Palabras clave para facilitar el cribado

Una de las utilidades que presenta Rayyan y que mejorará no solo el tiempo de realización del cribado de título y resumen, sino también posiblemente su calidad, es la presencia de palabras clave destacadas.

Cuando importamos un listado de artículos en Rayyan, la aplicación elabora de manera automática un listado de palabras clave destacadas de inclusión y exclusión, las cuales recomiendo encarecidamente eliminar para elaborar nuestra lista propia, ya que el listado facilitado por Rayyan normalmente no se adecua a los objetivos de nuestra revisión.

Las palabras claves de inclusión aparecerán destacadas en verde y las de exclusión en rojo, facilitando visualmente el cribado. Hay veces en las que la presencia de una palabra determinada en el título de un estudio, por ejemplo «systematic review» es motivo suficiente para su exclusión. El disponer de un listado de palabras de exclusión facilita detectar estos artículos de manera rápida visualmente y por tanto optimizar el tiempo necesario para esta fase de cribado.  Del mismo modo, el disponer de palabras resaltadas en el resumen puede facilitar la localización de la información relevante para decidir si se debe incluir o excluir dicho artículo durante esta fase de cribado, siendo de especial utilidad en la detección de las partes no explícitas de los criterios de inclusión y exclusión.

Pilotaje previo: análisis de concordancia entre revisores

La fase de pilotaje previo es una de las más importantes con respecto al cribado en una revisión sistemática, siendo actualmente recomendada por la Colaboración Cochrane. El objetivo de esta fase es evaluar si los revisores que realizarán el cribado han comprendido adecuadamente los criterios de inclusión y exclusión, antes de proceder al cribado de todos los estudios encontrados con la estrategia de búsqueda.

Si los revisores no tienen claros los criterios de inclusión y exclusión, pueden originarse muchas discrepancias entre ellos, que deberán ser resueltas por un tercer revisor. Sin embargo, aunque podríamos pensar que este es el motivo principal de realizar el pilotaje previo, existe otro motivo aún más importante. Del mismo modo que una falta de comprensión de los criterios puede hacer que un revisor incluya un estudio y otro revisor lo excluya, también puede producir que dos revisores excluyan un artículo que fuera susceptible de haber sido incluido en la revisión. En el primer caso, disponemos de otra fase que es la resolución de conflictos, donde podrá solventarse en parte ese problema. Sin embargo, si dos revisores deciden excluir un artículo que debería haberse incluido, habremos perdido ese estudio en esta fase de cribado y no tendremos forma de saber que hemos errado ni de solucionar el problema posteriormente. Este es el motivo principal por el cual es importante hacer el pilotaje previo, para prevenir que esto suceda.

Cuando realizamos la búsqueda en las distintas bases de datos podemos encontrarnos en dos situaciones distintas, según la cual recomiendo proceder de una u otra forma con respecto al pilotaje previo:

  • Número pequeño de artículos encontrados (suelo usar un punto de corte de < 500 estudios tras eliminar duplicados): No realizar pilotaje previo.
  • Número elevado de artículos encontrados: Pilotaje previo con 200-300 artículos.

Número pequeño de artículos

Cuando el número total de artículos a cribar en la fase de título y resumen no es muy elevado (< 500), se puede optar por no realizar un pilotaje previo. El motivo por el cual recomiendo esto es porque, desde mi punto de vista, el número de artículos que podremos seleccionar para realizar el pilotaje será demasiado pequeño y esto puede dar lugar a resultados extremos en el análisis de concordancia, sin que podamos asegurarnos que dicha concordancia se mantenga en el resto del cribado. Es por ello que, en estos casos, considero más útil realizar el cribado directamente y realizar el análisis de concordancia con el total de artículos incluidos. En caso de que dicho análisis no salga óptimo, se llevaría a cabo una reunión de resolución de dudas con respecto a los criterios de inclusión y exclusión para volver a proceder a cribar todos los artículos nuevamente, antes de pasar a la fase de resolución de conflictos.

Número elevado de artículos

En este caso si considero adecuada la realización del pilotaje. La propuesta que muestro de número de artículos a utilizar es debida a que, según mi conocimiento, ese número de estudios parece ser suficiente para asegurar niveles adecuados de precisión en la estimación de distintos coeficientes de fiabilidad de variables categóricas, como el Kappa de Cohen o el AC1 de Gwet, que son las dos propuestas que recomiendo utilizar.

Lo ideal sería poder realizar un muestreo aleatorio de los estudios a utilizar para realizar el cribado, pero esto por experiencia, requiere de demasiado trabajo. El motivo de llevar a cabo ese muestreo ideal sería obtener una muestra representativa de estudios con respecto al total de estudios que posteriormente se cribarán en la fase de título y resumen. A pesar de que considero esta aleatorización, a nivel práctico no viable, si que podemos tener en cuenta alguna consideración para evitar sesgar el pilotaje en cierta medida. Recomiendo encarecidamente evitar:

  • Seleccionar estudios de una sola base de datos (mínimo 2).
  • Seleccionar solo estudios de una franja temporal (ej. solo estudios antiguos entre 1990 y 2000, cuando nuestra muestra de estudios a cribar para la revisión incluye artículos de 1990 hasta el año 2020).

El primer punto puede no meter muchos sesgos, pero el segundo si es importante evitarlo. Por ejemplo, puede ser que estemos realizando una revisión sobre la efectividad de una intervención que antiguamente no se utilizase, de forma que si en el pilotaje incluimos solo estudios muy antiguos, puede ser que apenas salgan estudios de inclusión, de manera que solo podríamos evaluar si hay buena concordancia con los criterios de exclusión, pero no con los de inclusión, de forma que el pilotaje no sería útil.

El pilotaje deberá realizarse igual que se realizará el cribado posterior, es decir, utilizando la misma aplicación y el mismo listado de palabras clave destacadas (si se deciden usar).

Interpretación del análisis de concordancia

La fase de pilotaje presenta una característica a tener en cuenta para la interpretación de los análisis estadísticos de concordancia, el efecto de la elevada prevalencia de los estudios a excluir. Normalmente, la mayor parte de estudios de una revisión sistemática serán excluidos durante el cribado y este desequilibrio entre los SI y los NO tiene repercusiones en estadísticos como el Kappa de Cohen, pudiendo darse el caso de un alto grado de concordancia entre los examinadores con un valor no tan alto del Kappa de Cohen. Existen dos opciones:

  • Interpretar el valor del Kappa de Cohen junto con los índices de prevalencia y sesgos, así como el Kappa ajustado para la prevalencia y sesgos (PABAK).
  • Utilizar el coeficiente AC1 de Gwet, que es más robusto ante ese efecto de la prevalencia.

En cualquiera de los casos, recomiendo valores superiores a 0.70-0.80 del PABAK o AC1 de Gwet para poder asumir una buena concordancia entre los examinadores. No obstante, también debe evaluarse otro aspecto, el número total de estudios incluidos en el cribado (de acuerdo de inclusión). Por ejemplo, imaginemos un caso de un pilotaje de 200 artículos donde existe un 10% de discrepancias (20 artículos con discrepancias), es decir un porcentaje pequeño, en dos escenarios distintos:

$$Escenario \ 1= \begin{bmatrix} & Incluido & Excluido\\Incluido & 2 & 10 \\Excluido & 10 & 178\end{bmatrix}, \ AC1 = 0.89$$

$$Escenario \ 2= \begin{bmatrix} & Incluido & Excluido\\Incluido & 20 & 10 \\Excluido & 10 & 160\end{bmatrix}, \ AC1 = 0.87$$

En ambos casos simulados hay el mismo porcentaje de discrepancias y tenemos un valor similar del coeficiente AC1 de Gwet, sin embargo, las dos situaciones son muy diferentes en cuanto a interpretación. En el primer caso, solamente hay acuerdo de inclusión en dos estudios. Este numero es especialmente pequeño y en estos casos la decisión que suelo tomar es concluir que no ha habido una concordancia suficiente como para poder proceder con el cribado. En el segundo caso, sin embargo, mi actuación sería proceder con el cribado, asumiendo un porcentaje aceptable de concordancia entre los revisores.

Análisis y aclaración de conflictos

Cuando se realiza la fase de pilotaje existen dos posibles resultados, que concluyamos que hay un acuerdo aceptable entre los revisores o que no. En ambos casos se procederá con el análisis y aclaración de los conflictos, sin embargo, si concluimos que no ha habido un acuerdo adecuado, el siguiente paso sería repetir el pilotaje con una muestra nueva de estudios, mientras que si hemos concluido que el acuerdo era aceptable, entonces se procederá con la fase de cribado de título y resumen.

Durante la fase de análisis y aclaración de conflictos, el investigador principal deberá revisar los artículos en los que han habido las discrepancias a fin de dilucidar los posibles malentendidos con los criterios de inclusión y/o exclusión que han llevado a tales discrepancias. Posteriormente, deberá elaborar un documento word con las aclaraciones pertinentes, pero sin nombrar estudios concretos, es decir, no se puede decir «el estudio X debería haberse incluido por este motivo». Simplemente deberán recogerse las aclaraciones con respecto a los criterios de inclusión/exclusión que el investigador principal consideré pertinentes con respecto a las discrepancias observadas.

Cribado de título y resumen

Durante esta fase, como su propio nombre indica, se cribarán los artículos por título y resumen igual que se hizo en la fase de pilotaje, salvo que aquí se cribarán ya todos los estudios susceptibles de ser incluidos en la revisión sistemática.

La totalidad de esta fase recomiendo realizarla en Rayyan, ya que su realización en Excel incluso con un número pequeño de artículos, requerirá de más tiempo del necesario. Un aspecto que merece la pena ser remarcado con respecto a esta fase del cribado es la primacía de la sensibilidad sobre la especificidad.

Durante esta fase, es recomendable que en caso de duda sobre si incluir o no un determinado estudio, por falta de información, se incluya. Supone un mayor problema excluir un estudio que realmente debería haberse incluido en la revisión, que decidir incluir en la fase de titulo y resumen un estudio que no deba incluirse. En el segundo caso, con el posterior cribado de texto completo, donde disponemos de más información, se podrá discernir si realmente el estudio ha de ser incluido o no, por lo que no sería un problema. Sin embargo, como ya he comentado, si ambos revisores excluyen un artículo que debiera incluirse, no tenemos forma de detectar este suceso ni tomar medidas para remediarlo.

Por último, cabe destacar que en esta fase han de incluirse nuevamente también todos los artículos utilizados para el pilotaje previo, es decir, dichos artículos se cribarán nuevamente a pesar de haberse utilizado para la fase de pilotaje.

Resolución de conflictos

La fase de resolución de conflictos de título y resumen puede realizarse en Rayyan, aunque la aplicación no permite como tal “resolver los conflictos”, pero podemos organizar esta fase de manera manual. Rayyan dispone de un botón de enmascaramiento que podemos apagar, de tal manera que al acceder a la revisión se puedan observar las decisiones de ambos revisores y seleccionar un apartado donde solo se incluyen los artículos con discrepancias.

El primer paso para planificar esta fase es desactivar el botón de enmascaramiento, acceder al apartado de discrepancias y exportar dichos estudios. Después deberemos crear una nueva revisión en Rayyan, donde importaremos solo los estudios con discrepancias, para que el tercer evaluador encargado de resolverlas cribe dichos estudios sin conocimiento de las decisiones de los revisores previos.

Tendremos por tanto dos archivos que exportar en formato .csv, uno de la revisión original con los artículos que ambos revisores decidieron incluir y otro de la revisión creada para resolver las discrepancias con los artículos que el tercer revisor decidió incluir. Estos serán los artículos que se cribarán en la fase posterior de texto completo.

Organización del sistema de criterios de exclusión

A diferencia de la fase de cribado de título y resumen, donde no es necesario reportar los motivos de exclusión de acuerdo a las recomendaciones de la Cochrane, en la fase de cribado a texto completo si es necesario hacerlo. Es por ello que, el primer paso para planificar esta fase será la organización de dichos criterios de exclusión.

Debido a que en esta fase han de reportarse los motivos concretos por los que se excluye cada artículo, esto ha de tenerse también en cuenta a la hora de evaluar posteriormente las discrepancias, ya que puede ser que dos revisores decidan excluir un artículo pero por motivos diferentes, constituyendo eso también una discrepancia entre ambos que deberá ser resuelta. Sin una adecuada organización de los criterios de exclusión, es probable que se produzcan muchas discrepancias innecesarias.

Los estudios pueden presentar más de un criterio de exclusión, sin embargo, con la simple presencia de uno de ellos ya deberán ser excluidos, sin necesidad de reportar todos los que presentaban. Esto hace que el orden en que se evalúan dichos criterios de exclusión importe y es el motivo por el cual es necesario organizar los mismos antes de comenzar el cribado a texto completo.

La forma de proceder que considero más óptima para organizar los criterios de exclusión es seguir el orden en que suele presentarse la información en un estudio de investigación, es decir, empezar por los criterios de exclusión sobre el diseño del estudio y terminar por aquellos que tengan que ver con las variables resultado o las intervenciones. El orden en que suele presentarse la información en una investigación en términos generales (siempre hay excepciones) sería:

  1. Diseño del estudio.
  2. Sujetos.
  3. Tamaño muestral.
  4. Intervenciones.
  5. Variables resultado.
  6. Análisis estadístico.

Además del orden, debemos simplificar los criterios de exclusión para la elaboración de dicho listado, de manera que queden redactados tal cual aparecerán posteriormente en el diagrama de flujo de la publicación definitiva. Un ejemplo podría ser el siguiente:

  1. Diseño de estudio inadecuado.
  2. Sujetos con otras patologías.
  3. Tamaño muestral inferior a 60 sujetos.
  4. Ausencia de un grupo con ejercicio terapéutico.
  5. Ausencia de medidas de resultado de discapacidad.

De este modo, primero iremos al apartado de diseño del estudio y si está presente dicho criterio de exclusión, excluiríamos el artículo sin leer el resto del manuscrito, optimizando el tiempo de cribado. Si ambos revisores proceden con el mismo listado, no debería haber discrepancias entre ellos derivadas del orden de evaluación de los criterios de exclusión.

Cribado de texto completo

Esta sería la última fase (incluyendo la resolución de conflictos de texto completo) de la fase de cribado de una revisión sistemática. A diferencia del cribado de título y resumen, en el que Rayyan puede facilitarnos la tarea, el cribado de texto completo personalmente recomiendo realizarlo mediante Microsoft Excel, ya que creo se optimiza más el tiempo.

El primer paso a realizar en la planificación del cribado a texto completo es organizar los resultados obtenidos del cribado de título y resumen. Mediante Rayyan deberemos exportar dos documentos .csv (valores separados por comas), uno que incluirá los artículos incluidos por ambos revisores y otro que incluirá los artículos incluidos por el tercer revisor en la fase de resolución de discrepancias. Estos dos archivos .csv deberemos unificarlos en uno solo. Una vez exportados los artículos, debemos convertir el archivo .csv al formato de Microsoft Excel. Visualmente, los datos exportados de los artículos incluidos en formato .csv quedarían como:

 

Como puede apreciarse, todos los datos están guardados en una misma celda, separándose con comas cada apartado de los datos (número Rayyan, título, año de publicación…). Para convertir los datos a formato Excel y que cada columna se corresponda con un apartado se debe proceder de la siguiente manera:

  1. Seleccionar la primera columna.
  2. Ir a la sección «Datos».
  3. Abrir la herramienta «Texto en columnas».
  4. Seleccionar el tipo de archivo «Delimitados».
  5. Seleccionar el separador «Coma».
  6. Seleccionar el formato de datos «General».
  7. Clicar en «Finalizar» y cuando nos pregunte «Aquí hay datos. ¿Desea reemplazarlos?» clicar en «Aceptar».

De este modo ya dispondremos de los datos de los artículos incluidos separados por columnas. Antes de proseguir con la modificación del Excel, deberán encontrarse los documentos a texto completo de todos los estudios incluidos. Mi recomendación a la hora de guardar dichos archivos, es adjudicarles nombre con la siguiente estructura, «Año de publicación. Título del estudio», por ejemplo, «2009. Motion of the Shoulder Complex During Multiplanar Humeral Elevation». El motivo de nombrar así los documentos es simplemente para facilitar su localización mientras se realiza el cribado en el Excel. Si se orden los documentos alfabéticamente en la carpeta donde los guardemos y se hace lo mismo con las filas en Excel, será mucho más fácil encontrar el PDF asociado a cada artículo a cribar en el Excel.

Los únicos datos que serán necesarios en el Excel (el archivo .csv deberá guardarse finalmente como .xlsx que es el formato de Excel) que se utilizará para el cribado de texto completo son por tanto el año de publicación y el título, el resto de columnas deberán ser eliminadas para facilitar la funcionalidad del Excel. Personalmente recomiendo dejar la primera columna con los años de publicación y la segunda con el título de los estudios, es decir, intercambiar el orden en que aparecen al exportar los datos desde Rayyan.

El siguiente paso es construir el sistema de cribado en Excel mediante la elaboración de listas de datos. Primero debemos crear una nueva hoja en nuestro documento de Excel, donde se encontrarán las distintas opciones de nuestras listas. Mi recomendación es crear dos listas, una para la decisión de incluir o no el estudio y otra con los motivos de exclusión:

El motivo de crear estas listas escritas es porque, cuando creemos las listas desplegables a utilizar para el cribado a texto completo, debemos especificar de que celdas debe coger el desplegable las opciones a enseñar. Estas listas desplegables se crean de la siguiente manera:

  1. Seleccionar todas las celdas en las que vayamos a querer insertar el desplegable.
  2. En la sección «Datos», seleccionar la herramienta de «Validación de datos», justo a la derecha de «Texto en columnas».
  3. En «Criterio de validación» seleccionar «Lista» en la sección de «Permitir».
  4. En esa misma página, seleccionar en la sección «Origen» las celdas donde hemos creado nuestras opciones para dicha lista.
  5. Clicar en «Aceptar».

Una vez realizados estos pasos, ya dispondremos de celdas con un listado desplegable de opciones, facilitando la tarea a los revisores que se encarguen de realizar la fase de cribado a texto completo.

Con todo ello, ya estaría finalizado el Excel para realizar la fase de cribado de texto completo. Para proceder con esta fase, cada revisor cribará los estudios en un Excel independiente. Una vez finalizado el cribado, el investigador principal deberá detectar las discrepancias entre ambos revisores, para lo cual recomiendo unificar las columnas de «Decisiones» de ambos revisores en un mismo Excel. Los estudios en los cuales haya discrepancias deberán enviarse en un nuevo Excel, sin contener ninguna información sobre las decisiones de los revisores previos, a un tercer revisor que será el encargado de resolver las mismas, finalizando de este modo la fase de cribado de la revisión sistemática.

Conclusiones

La fase de cribado es una de las más importantes de una revisión sistemática. Esta fase requiere tener en cuenta algunos aspectos metodológicos importantes para mejorar la calidad de la misma (destacando las partes no explícitas de los criterios de inclusión y exclusión, así como el pilotaje previo) y para optimizar su tiempo de realización (destacando el uso de distintas aplicaciones). Las recomendaciones aquí mencionadas recogen mi forma de trabajar a la hora de planificar y realizar una revisión sistemática, aunque existen otras opciones para ello. Personalmente, animo encarecidamente a todo aquel/aquella que vaya a realizar una revisión sistemática, a estudiar antes detenidamente las consideraciones metodológicas de este tipo de estudios.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Fiabilidad Modelo Lineal General Temas Avanzados

El mal uso de la MDD en la interpretación de diferencias medias

Interpretación de medias: El mal uso de la Mínima Diferencia Detectable

En esta entrada profundizo en la estadística subyacente a la utilización de la mínima diferencia detectable (MDD) en la interpretación de diferencias medias, que actualmente se sigue haciendo en diversas publicaciones del campo de la Fisioterapia. A lo largo de la entrada, explicaré los motivos por los cuales pienso esta práctica está equivocada y puede llevarnos a fallos cruciales de interpretación de los resultados de una investigación. 

Nota: En esta entrada se utilizan conceptos avanzados de estadística aplicada y puede que, sin una base previa, resulte más complicada su comprensión. No se abordarán múltiples aspectos básicos para no extender demasiado el contenido de la misma, dándose por hecho que el lector presenta esa base de conocimiento.

La mínima diferencia detectable (MDD) es un estadístico comúnmente reportado en los análisis de fiabilidad con variables continuas. Este estadístico constituye un limite de un intervalo de confianza (IC), normalmente del intervalo al 90% o 95% de confianza (utilizaré este último para todas las explicaciones y simulaciones a lo largo de la entrada). Su interpretación simplista sería la siguiente.

Imaginemos que tenemos un sujeto al que hemos medido la fuerza isométrica máxima de rotación externa de hombro, con un dinamómetro manual. En la primera medición antes de comenzar el tratamiento, el sujeto muestra una fuerza de 130N, mientras que en la segunda medición tras la aplicación del tratamiento, el sujeto muestra un valor de fuerza de 135N. Sabemos que la fiabilidad del dinamómetro no es perfecta, es decir, que al utilizar este instrumento dentro del procedimiento empleado, cometemos errores en la medición. Entonces, ¿Cómo podríamos saber si la diferencia observada en el post-tratamiento no se ha debido a un error de medición? Aquí es donde entra en juego el concepto de MDD.

La mínima diferencia detectable al 95% de confianza (MDD95%), es un valor que, partiendo de que se cumplen distintas asunciones y que lo único que ha influido en la diferencia observada es el error de medición (es decir, que no hay ningún otro factor, ni la intervención, que hayan influido), por encima del mismo solo se encontrarían un 5% de las posibles diferencias absolutas obtenibles debidas al error de medición. De forma que se asume que, si obtenemos una diferencia superior a dicho valor, como es «poco plausible» obtener esa diferencia bajo la hipótesis de que dicha diferencia se haya obtenido solo por un error de medición, entonces rechazamos dicha hipótesis.*

*Nota: Debemos tomar está definición como muy simplista y «con pinzas», ya que realmente no es tan sencilla su interpretación en términos de probabilidad, pero no entraré en ese detalle en esta entrada, pues no es su propósito.

En términos más formales, si medimos a un sujeto infinitas veces y asumimos que lo único que influye en las diferencias observadas entre las distintas mediciones es el error proveniente del procedimiento de medición empleado y calculamos diferencias de parejas de mediciones de manera aleatoria, el intervalo de confianza al 95% de esa distribución de datos (de esas diferencias entre dos mediciones seleccionadas de manera aleatoria), es decir, más o menos los valores que se alejan 1.96 desviaciones estándar (DEd) asumiendo algunas cosas, eso sería el valor de la MDD95%. La fórmula que suele utilizarse para el cálculo de la MDD95% es la siguiente:

$$MDD95\% = 1.96*DE_d = 1.96*EEM*\sqrt 2$$

En esta fórmula el EEM es el error estándar de la media, que es una estimación de la desviación estándar resultante de medir a un sujeto infinitas veces influyendo solo el error de medición. Como en la MDD95% tenemos dos mediciones y no solo una, se multiplica el EEM por la raíz cuadrada de dos, debido a que:

$$EEM = \frac{DE_d}{\sqrt 2}$$

$$DE_d = EEM*\sqrt 2$$

Después de esta introducción, vamos a focalizarnos en el tema concreto de esta entrada. Como he comentado, la MDD95%es un estadístico orientado a interpretar la diferencia entre dos mediciones realizadas a un mismo sujeto. Sin embargo, la MDD95% se utiliza a veces también para interpretar diferencias de medias muestrales y para cálculos de tamaño muestral, dos procedimientos a mi parecer erróneos por los motivos que expondré a continuación.

Mínima diferencia detectable en la interpretación de diferencias medias

Mostraré primero las consecuencias de utilizar la MDD95% en la interpretación de la diferencia media entre dos grupos. Voy a simular un estudio en el que queremos comparar la fuerza isométrica máxima de rotación externa de hombro, medida con dinamometría, entre sujetos con y sin tendinopatía del manguito rotador. Asumiremos los siguientes valores poblacionales reales y los siguientes valores de error de medición (mismo error de medición en ambas poblaciones):

$$Tendinopatía = \{\mu_t = 140, \sigma_t = 10\}$$

$$Sanos = \{\mu_s = 145, \sigma_s = 10\}$$

$$Error \ de \ medicion = \{EEM = 3.61, MDC95\% = 10\}$$

Partiendo de estos datos, si asumimos un umbral crítico de significación de p < .05, necesitaríamos 64 sujetos de cada grupo para conseguir una potencia estadística del 80%, asumiendo que no se cometen errores en el proceso de medición. Si asumimos el error de medición mencionado anteriormente la potencia disminuye y si, además de eso, utilizamos el punto de corte de la MDD95% para decidir cuando hay diferencias entre los grupos y cuando no, la potencia disminuye aun más, quedando las tres definidas para esa misma muestra como:

  • Sin error de medición: 80%.
  • Con error de medición: 75%.
  • Con error de medición + MDC95%: 0.40% (aproximada). *Esta potencia se ha calculado asumiendo que hay diferencias reales si y solo si el resultado obtenido es estadísticamente significativo y además, superior a 10N, el valor de la MDC95%.

Como puede apreciarse, al utilizar la MDD95% como punto de corte para decidir si «hay diferencias reales o no» entre estas dos poblaciones, la potencia estadística disminuye notoriamente. Además, debemos tener en cuenta otro factor, una paradoja que se da debido a la relación entre el tamaño muestral y la distribución de las diferencias medias.

Según incrementamos el tamaño muestral, la estimación de la diferencia media es más precisa, es decir, los valores de diferencias medias observados se aproximarán cada vez más al valor real, en este caso de 5N. No obstante, aunque se incremente el tamaño muestral, el valor de la MDD95% no varía, es fijo. Por tanto, aunque de manera habitual incrementar el tamaño muestral incrementa la potencia, en este caso sucede lo contrario. Al aproximarse cada vez más los valores a 5N, habrá menos cantidad de muestras en las que la diferencia observada sea superior a 10, de manera que la potencia disminuye. Por ejemplo, para los siguientes tamaños muestrales, la potencia aproximada sería:

  • 75 sujetos por grupo = 0.25%
  • 80 sujetos por grupo = 0.18%
  • 90 sujetos por grupo = 0.07%
  • 100 sujetos por grupo = 0.04%

Es decir, no podríamos mejorar la potencia estadística incrementando el tamaño muestral, si no que tendríamos que disminuirlo, algo que carece de sentido. Este efecto dependerá del efecto real bajo estudio (la diferencia de medias real) y la fiabilidad del procedimiento de medición. A medida que la fiabilidad se aproxime a una fiabilidad perfecta (es decir, la MDD95% tienda a cero), el efecto negativo de usar la MDD95% será menor. Sin embargo, puede observarse como en casos como el presente, con una fiabilidad muy buena con un EEM de tan solo 3.61, el efecto del uso de la MDD95% es devastador.

Mínima diferencia detectable en el cálculo del tamaño muestral

Otra práctica que he podido observar algunas veces en la investigación en Fisioterapia, es la utilización de la MDD95% para los cálculos de tamaño muestral, donde se produce también otra situación paradójica similar a la descrita anteriormente.

Como ya he comentado, según incrementa el error de medición disminuye la potencia estadística, por ejemplo para el caso anterior con 64 sujetos por grupo, la potencia estimada para los siguientes errores estándar de la media sería:

  • EEM de 5 = 71%.
  • EEM de 7 = 63%.
  • EEM de 10 = 51%.
  • EEM de 15 = 34%.

Esto hace que, según aumente el error de medición, debamos incrementar el tamaño muestral si queremos mantener una potencia estadística deseada (por ejemplo, del 80%). Asumiendo los valores anteriores de EEM, la muestra necesaria para alcanzar un 80% de potencia sería:

  • EEM de 0 = 64 sujetos por grupo.
  • EEM de 5 = 80 sujetos por grupo.
  • EEM de 7 = 95 sujetos por grupo.
  • EEM de 10 = 127 sujetos por grupo.
  • EEM de 15 = 205 sujetos por grupo.

Ahora procedamos como he visto hacer a algún/a investigador/a de nuestro campo, utilizando el valor de la MDD95% como la diferencia de medias real estimada a detectar en nuestro estudio. Vamos a asumir que la dispersión de la diferencia está fija en 10 (aunque luego explicaré que esto no es así), de manera que para distintos valores de MDD95% usados como estimadores de la «diferencia de medias real», el tamaño muestral para un 80% de potencia sería:

  • MDD95% de 3 = 176 sujetos por grupo.
  • MDD95% de 5 = 64 sujetos por grupo.
  • MDD95% de 7 = 33 sujetos por grupo.
  • MDD 95% de 10 = 17 sujetos por grupo.

Es decir, según incrementamos la diferencia de medias real estimada, el número de sujetos necesario para alcanzar un 80% de potencia (manteniendo el resto constante) disminuye. Es aquí donde se da la paradoja. Al inicio he comentado que, a menor fiabilidad hay más variabilidad de error y por tanto, la potencia estadística disminuye y necesitamos más muestra para alcanzar la potencia deseada. A menor fiabilidad, mayor es el valor de la MDD95%. Por tanto, ¿Cómo vamos a usar la MDD95% para calcular el tamaño muestral si su utilización disminuye aún más la muestra necesaria calculada? En efecto, carece de sentido. En los últimos cálculos asumí que la dispersión de las diferencias estaba fijada en 10, sin embargo, esto no es realista, ya que según disminuye la fiabilidad dicha dispersión aumenta.

Asumiendo una dispersión real (sin errores de medición) de 10 en cada muestra, con una diferencia de medias real de 5N y un tamaño muestral de 64 sujetos por grupo, teníamos un 80% de potencia. Ahora mostraré que sucede en la potencia real estimada de un estudio, cuando se incrementa el error de medición (EEM) y se utiliza además para el cálculo del tamaño muestral la MDD95% asociada a ese error de medición:

$$\begin{array} {| ccc |} \hline EEM & Potencia \ real & Muestra \ 80\% & MDD95\% & Muestra \ MDD95\% & Potencia \ real \ MDD95\% \\ \hline 2.53 & 78\% & 68 & 7 & 33 & 49\% \\ \hline 3.61 & 75\% & 72 & 10 & 17 & 26\% \\ \hline 4.33 & 73\% & 76 & 12 & 12 & 19\% \\ \hline \end{array}$$

Como puede apreciarse, el uso de la MDD95% para estimar el tamaño muestral se traduce en una mayor y considerable pérdida de potencia estadística real de nuestro estudio, al disminuir el tamaño muestral cuando en realidad, al haber menos fiabilidad, deberíamos incrementarlo tal y como se muestra en la tercera columna. 

Mínima diferencia media detectable

Como he comentado anteriormente, el uso de la MDD95% está orientado a diferencias entre dos mediciones realizadas a un mismo individuo, es decir, es un estadístico orientado a individuos y no a muestras.

Una pregunta que podríamos hacernos es, si podemos calcular la MDD95% para diferencias individuales, ¿podemos también calcularla para diferencias medias? La respuesta es sí, a este valor le llamaré mínima diferencia media detectable al 95% de confianza (MDMD95%). Ahora supongo que, a lo mejor, te estas planeando la siguiente pregunta obvia, ¿podemos usar la MDMD95% para interpretar diferencias medias? Y la respuesta quizás no te resulte tan obvia y no te guste tanto: no.

Si retomamos las fórmulas anteriores:

$$DE_d = EEM*\sqrt 2$$

$$MDD95\% = EEM*\sqrt 2*1.96 = DE_d*1.96$$

La DEd es la desviación estándar de las diferencias individuales entre las dos muestras. Sin embargo, nosotros estamos interesados en la dispersión de la media, no de los valores individuales, de modo que tenemos que usar un estadístico que recoja dicha dispersión de la media, que es el error estándar de la media:

$$EE_{media} = \frac{DE_d}{\sqrt n}$$

Con este error estándar, podemos reescribir la fórmula de la MDD95% para obtener la fórmula de la MDMD95%:

$$MDMD95\% = \frac{MDD95\%}{\sqrt n} = \frac{EEM*\sqrt 2*1.96}{\sqrt n}$$

Siendo n igual al tamaño muestral total entre dos (asumiendo que ambos grupos tienen el mismo tamaño muestral). De este modo, la MDMD95%, a diferencia de la MDD95%, si varía en función del tamaño de la muestra, a mayor tamaño muestral empleado, menor MDMD95%.

Sin embargo, no tiene sentido utilizar la MDMD95% para interpretar diferencias medias, ya que no aporta información útil si ya usamos el punto de corte del umbral crítico de significación (p < .05). La explicación a este fenómeno recae en las varianzas involucradas en sus respectivos cálculos.

Cuando calculamos la MDMD95% solamente estamos teniendo en cuenta el error atribuible a la ausencia de fiabilidad perfecta del procedimiento de medición, es decir, si tenemos dos muestras a comparar, entonces:

$$\sigma^2_{sanos} = \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{error_{tendinopatia}}$$

$$MDMD95\% = \frac{\sqrt {\sigma^2_{error_{sanos}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Sin embargo, si pensamos ahora en un experimento real, cuando calculamos un valor-p o un intervalo de confianza para una diferencia media entre dos muestras, ahí ya no solo tenemos el error de medición, sino que también tenemos otro error, el proveniente de la variabilidad real de dicha variable en cada una de las muestras (es decir, que los sujetos son distintos entre sí no solo por errores de medición, sino porque efectivamente tienen distinta fuerza), que arriba se ignora en los cálculos:

$$\sigma^2_{sanos} = \sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}}$$

$$\sigma^2_{tendinopatia} = \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}$$

Con estos datos podemos calcular el intervalo de confianza asociado a una diferencia media entre dos grupos de igual tamaño muestral (no es exactamente la misma que para una t-Student pero sirve igual para ejemplificar este punto de la entrada):

$$IC95\%= \bar x_{dif} \pm \frac{\sqrt {\sigma^2_{real_{sanos}} + \sigma^2_{error_{sanos}} + \sigma^2_{real_{tendinopatia}} + \sigma^2_{error_{tendinopatia}}}*1.96}{\sqrt n}$$

Como se aprecia, en el segundo caso hay más variabilidad, más error en el cálculo. Esto produce la siguiente situación y es que, si una diferencia media es estadísticamente significativa al evaluarla con una prueba t-Student (fórmula similar a la última), entonces dicha diferencia media estará siempre por encima del valor de la MDMD95%, es decir, es imposible obtener una diferencia de medias estadísticamente significativa que sea inferior a la MDMD95% y es por ello que, como comenté al inicio de este apartado, la MDMD95% no aporta más información útil para interpretar la diferencia de medias y por tanto, carece de sentido su utilización.

En la figura anterior se reflejan 100 estudios simulados, con 30 sujetos por grupo en cada uno, asumiendo una diferencia media real de 5N, con una desviación estándar en cada grupo de 10 y un EEM de 3.61. En el gráfico se muestra la diferencia media de cada simulación con su respectivo intervalo de confianza al 95% basado en una prueba t-Student. La línea horizontal morada continua marca el cero, de modo que las simulaciones cuyo limite inferior del intervalo de confianza (color tomate) no sobrepasa el cero, son significativas para p < .05. La línea horizontal azul entrecortada marca el valor de la MDMD95% para ese EEM y ese tamaño muestral, que es de 1.83. Como puede apreciarse, ninguno de los resultados significativos (color tomate) presenta una diferencia media por debajo de la MDMD95%, ejemplificando lo comentado anteriormente acerca de que la MDMD95% no aporta información útil adicional.

Conclusiones

La mínima diferencia detectable es un estadístico orientado a interpretar diferencias individuales, pero no muestrales. La utilización de este valor para interpretar diferencias de medias muestrales y/o realizar cálculos de tamaño muestral tiene consecuencias nefastas en la potencia estadística y la adecuada interpretación de los resultados de una investigación. Por su parte, la mínima diferencia media detectable, tampoco debería utilizarse para interpretar las diferencias medias de una investigación, ya que no aporta más información útil que la aportada por el intervalo de confianza calculado para dicha diferencia media.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …

Categorías
Fiabilidad Temas Avanzados

Fiabilidad de Diferencias (I)

Fiabilidad: Diferencia entre dos mediciones (I)

En esta entrada se ofrece una breve explicación de un factor a tener en cuenta con respecto a la fiabilidad de las mediciones y de su diferencia. Es un punto importante para la planificación, análisis e interpretación especialmente de los ensayos clínicos aleatorizados.

Existen situaciones en investigación en las cuales se mide una misma variable múltiples veces a lo largo del tiempo. En estos casos, una opción de análisis que suele realizarse, es calcular las diferencias entre los pares de mediciones y utilizar esta nueva variable calculada para los análisis estadísticos. Sin embargo, no siempre quienes toman tales decisiones son conscientes de algunas de las implicaciones de las mismas para con respecto a tu investigación. A continuación explico un aspecto (pero no el único) a tener en cuenta en estos casos, en relación con el campo de la fiabilidad.

Vamos a partir de la asunción de que queremos realizar un ensayo clínico aleatorizado (ECA), donde comparamos dos tratamientos (ejercicio de fuerza y ejercicio aeróbico) en sujetos «hombro congelado», para la mejoría del rango de movimiento de rotación externa, con tan solo dos mediciones, una basal antes del tratamiento (B) y otra al finalizar el programa de tratamiento a los 3 meses (P). Decidimos calcular la diferencia entre dichas dos mediciones (P – B) y utilizar esa nueva variable para comparar los tratamientos y evaluar si alguno es más efectivo.

Antes de comenzar, es necesario recordar la definición matemática de la fiabilidad (ρ) relativa, que sería igual a la división de la variabilidad real (σ2r) entre la variabilidad real más la variabilidad del error de medición (σ2e), es decir, entre la variabilidad total (σ2t):

$$\rho= \frac{\sigma^2_r}{\sigma^2_r + \sigma^2_e}$$

Partiré de esta fórmula para desarrollar toda la explicación. Vamos a sumir que existe independencia entre los errores de medición, es decir, que no existe una correlación entre el error de medición cometido en la situación basal y el cometido a los 3 meses para un determinado sujeto dado, así como que no hay una correlación entre el error de medición cometido y el valor real del sujeto, es decir, que estamos ante un caso de homocedasticidad. Finalmente, también asumiremos que la correlación existente entre la medición basal (B) y la post-tratamiento (P) es positiva (Walters 2019).

Asumiendo todo esto, podemos definir la varianza de las cada una de las dos variables (B y P) con su respectivo error de medición (e) como:

$$\sigma^2_B = \sigma^2_{rb} + \sigma^2_{eb}$$

$$\sigma^2_P = \sigma^2_{rp} + \sigma^2_{ep}$$

Ahora retomaremos las propiedades de la varianza, en concreto la tercera, con la que podemos estimar la variabilidad real de la diferencia entre P y B, excluyendo los términos de error de medición:

$$\sigma^2_{r(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)$$

Mientras que, en función de las asunciones de arriba de independencia de errores y homocedasticidad, la variabilidad total de P menos B quedaría definida como:

$$\sigma^2_{t(p-b)} = \sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}$$

El término importante de dichas fórmulas es la covarianza, el -2Cov(P,B). Cuando dos variables no presentan correlación (r = 0), el valor de la covariable es cero, mientras que cuando estamos en un caso de correlación positiva perfecta (r = 1), el valor de la covarianza es máximo. Si retomamos la fórmula de fiabilidad, podemos expresar la fiabilidad de la diferencia P-B como:

$$\rho_{p-b} = \frac{\sigma^2_{r(p-b)}}{\sigma^2_{r(p-b)} + \sigma^2_{e(p-b)}} = \frac{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B)}{\sigma^2_{rb} + \sigma^2_{rp} – 2Cov(P,B) + \sigma^2_{eb} + \sigma^2_{ep}}$$

Como se puede apreciar, según incremente la correlación entre P y B, la covarianza se incrementará también y por tanto, el componente del numerador, que es la variabilidad real, disminuirá, produciendo por tanto una disminución en la fiabilidad de la diferencia P-B en comparación a las fiabilidades individuales de la medición basal (B) y post-tratamiento (P). Este hecho puede apreciarse más fácilmente si observamos la fórmula estimada para la fiabilidad de las diferencias en función de la fiabilidad de cada medición y la correlación entre ellas, que quedaría definida como (Chiou 1996):

$$\rho_{p-b} = \frac{\sigma^2_b\rho_b + \sigma^2_p\rho_p – 2r_{bp}\sigma_b\sigma_p}{\sigma^2_b + \sigma^2_p – 2r_{bp}\sigma_b\sigma_p}$$

Realizaré una asunción más para simplificar esta fórmula. Asumiendo que las varianzas de la medición basal y la post-tratamiento son iguales, entonces:

$$\rho_{p-b} = \frac{\rho_b + \rho_p – 2r_{bp}}{2(1-r_{bp})}$$

En esta última fórmula se puede apreciar mejor como cuando aumenta la correlación entre B y P (rbp), disminuye la fiabilidad de la diferencia.

Conclusiones

Estos aspectos de cambios en la fiabilidad en las diferencias con respecto a las mediciones deben tenerse en consideración a la hora de decidir que análisis utilizar en una investigación, existiendo otras opciones como el Análisis de la Covarianza (ANCOVA) o la regresión lineal múltiple que pueden ser más adecuadas. Sin embargo, los ejemplos aquí mostrados se basan en que se dan una serie de asunciones, que no siempre tienen porqué darse y que pueden alterar las conclusiones aquí extraídas de pérdida de fiabilidad, pudiendo darse situaciones donde el uso de las diferencias no esté tan desaconsejado. Mi posición al respecto, con respecto al campo de los ensayos clínicos aleatorizados en Fisioterapia, es que se prime la utilización de ANCOVA y/o regresión lineal múltiple por encima de las diferencias y análisis como el Análisis de la Varianza (ANOVA). En caso de que se decidiera usar estas diferencias, debería valorarse y tenerse en cuenta la posible pérdida de fiabilidad a la hora de realizar los cálculos de tamaño muestral.

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Correlación: Transitividad En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele …

Regresión lineal: Interpretación de Coeficientes En esta entrada se recoge una explicación simple para facilitar la interpretación de modelos de regresión lineal …

Revisión Sistemática: Guía básica de cribado En esta entrada recojo una guía básica de recomendaciones, en base a mi conocimiento y experiencia, …