Categorías
Modelo Lineal General Temas Básicos

Transitividad de Correlaciones

Correlación: Transitividad

En esta entrada se explica la transitividad del coeficiente de correlación de Pearson, así como la malinterpretación común que suele hacerse sobre dicha propiedad, pudiendo llevar a conclusiones erróneas.

Antes de comenzar la lectura de esta entrada, me gustaría pedirte que realizases el siguiente test, que se repetirá de manera similar al final de la entrada, con el objetivo de que puedas darte cuenta las creencias erróneas que tienes actualmente y de si has adquirido conocimientos nuevos tras la lectura de la entrada.

35
Creado en Por Admin

Transitividad Correlaciones (Test Inicial)

1 / 9

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

2 / 9

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

3 / 9

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

4 / 9

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

5 / 9

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

6 / 9

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

7 / 9

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

8 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

9 / 9

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

Tu puntación es

The average score is 66%

0%

Imaginemos que sabemos que existe una relación entre la fuerza de prensión manual máxima (X) y la fuerza en rotación externa isométrica máxima de hombro (Y), y que existe una relación entre dicha rotación externa isométrica máxima (Y) y la discapacidad del hombro (Z). En base a ello, decidimos empezar a usar la fuerza de prensión manual como estimador de la discapacidad del hombro. En este razonamiento estaríamos haciendo uso de la transitividad, como X se relaciona con Y, y Y se relaciona con Z, entonces X se relaciona con Z, es decir, hay una «transmisión de la correlación».

Para poder entender la transitividad aplicada a las correlaciones, debemos conocer antes el concepto del coeficiente de determinación (R2) y el porcentaje de variabilidad explicada. A modo resumen simple, en función del valor del coeficiente de correlación de Pearson (r):

  • r = 0, no hay correlación.
  • r = 1, correlación perfecta positiva.
  • r = -1, correlación perfecta negativa.

Si elevamos dicho coeficiente de correlación al cuadrado, obtenemos el coeficiente de determinación (R2), que indica el porcentaje de variabilidad que podemos explicar de una variable a través de otra, por ejemplo si tenemos un coeficiente de Pearson de 0.50, el coeficiente de determinación sería R2 = 0.25, es decir, un 25% de variabilidad explicada. Este concepto puede representarse gráficamente con diagramas de Venn, que facilitarán entender el concepto de transitividad de las correlaciones. Si el área de ambos rectángulos es de 1, un R2 de 0.25 implica que hay un solapamiento del 25% del área los rectángulos.

Imaginemos ahora que tenemos tres variables en lugar de dos, con los siguientes valores de R2 entre ellas:

  • X-Y: 0.25
  • Y-Z: 0.25

Una posible representación mediante diagramas de Venn de estos valores de R2 sería la siguiente:

Cómo se puede apreciar en dicho diagrama, a pesar de que hay una correlación (r = 0.50) entre X e Y y Z e Y, los rectángulos de X y Z no se solapan, indicando una ausencia de correlación entre ellas. En otras palabras, que dos variables (X y Z) se relacionen con una misma variable (Y), no implica que esas dos tengan que presentar una correlación. Este es el principal error de interpretación que se comete con respecto a la transitividad de las correlaciones. Volviendo al ejemplo inicial sobre la prensión manual, la información facilitada en dicho enunciado impide saber si realmente la prensión manual se relaciona con la discapacidad del hombro, se requieren más datos. Pero… ¿Qué datos?

Tenemos dos opciones, una buena y adecuada y otra mala que solo utilizaré para ejemplificar la propiedad de transitividad aplicada a las correlaciones. La opción buena es la obvia, si se quiere estimar la correlación entre dos variables, lo adecuado es medir ambas y analizar directamente dicha correlación, no hacer estimaciones indirectas basadas en la transitividad.

Como ya he comentado, no tiene porque haber transitividad de una correlación de Pearson. Sabemos que la correlación entre X y Z se encuentra dentro del siguiente intervalo basado en las correlaciones entre X e Y y Z e Y:

$$r_{xy}r_{yz} – \sqrt{(1- R^2_{xy})(1-R^2_{yz})} \leq r_{xz} \leq r_{xy}r_{yz} + \sqrt{(1- R^2_{xy})(1-R^2_{yz})}$$

De esta fórmula podemos extraer varias conclusiones. Una primera es que, si y solo si rxy = ryz = 0, entonces rxz puede tomar todo el rango de valores posibles, es decir, de -1 a +1.

Otra conclusión sería que, si y solo si rxy = ryz (sin tener en cuenta el signo de la correlación, es decir, su valor absoluto), entonces puede existir una correlación perfecta entre X y Z, es decir rxz = 1 o rxz = -1, cuyo signo dependerá de los de las otras dos relaciones. Si nos imaginamos esta situación con los diagramas de Venn, tiene más sentido, pues que haya una relación perfecta (positiva o negativa) entre X y Z, implica que ambos rectángulos estarían superpuestos de manera perfecta y por tanto, el solapamiento de ambos con la variable Y sería el mismo, es decir, R2xy = R2yz.

Por otro lado y aunque no tan fácilmente reconocible como esa primera conclusión, de dicha fórmula también podemos concluir que, si rxy > 0, y ryz > 0, entonces rxz > 0 si y solo si:

$$R^2{xy} + R^2{yz} > 1$$

Es decir, habría transitividad de la correlación positiva solo cuando se cumpla esa situación. De forma más generalista, solo cuando la anterior situación se cumpla, la correlación entre X y Z no podrá ser igual a cero, en el resto de casos, puede existir una correlación igual a cero entre ambas variables. Nuevamente, si pensamos en los diagramas de Venn, podemos apreciar esa condición más fácilmente. El área del rectángulo de Y es igual a 1, de manera que si la suma de las áreas solapadas de X y Z con Y son superiores a 1, eso implica que los rectángulos de X y Z han de estar solapados también. A continuación muestro un ejemplo de diagrama de Venn donde casi hay solapamiento entre X y Z, con solo un 5% de la variabilidad de Y sin explicar. Si X y Z explicasen más porcentaje de la variabilidad de Y, es decir, si juntásemos más dichos rectángulos, acabarían por solaparse.

Este punto es importante, pues incluso con correlaciones altas  entre X e Y y Z e Y, puede darse una correlación de cero entre X y Z. Por ejemplo, asumiendo que rxy = ryz, entonces la correlación máxima que permitiría la posibilidad de que existiera una correlación de cero entre X y Z sería:

$$r_{xy} = r_{yz} = \sqrt 50 = 0. 7071$$

Es decir, podemos tener hasta una correlación entre X e Y y entre Z e Y de 0.7071 y ello no tendría que implicar que hubiera una correlación entre X y Z. Con la fórmula inicial de los intervalos del coeficiente de correlación entre X y Z en función de rxy y ryz, podemos calcular la correlación mínima que podríamos esperar entre X y Z, así como también evaluar en que situaciones es plausible una ausencia de correlación entre ambas variables.

Implicaciones de la malinterpretación de la transitividad de las correlaciones

¿Por qué es importante conocer como se comportan las correlaciones con respecto a la transitividad? Para no cometer errores grandes y, en mi experiencia por lo que he podido apreciar, encadenados, de interpretaciones y asunciones. Un ejemplo de malinterpretación común sería el siguiente:

«Estamos buscando artículos y nos encontramos con uno que ha visto que hay una correlación de 0.7 entre la fuerza máxima prensil y la fuerza isométrica máxima de rotación externa de hombro, nos acordamos que hace unos meses leímos otro estudio que había encontrado una correlación de 0.67 entre la fuerza isométrica máxima de rotación externa y la discapacidad del hombro, y en base a ambos estudios, decidimos empezar a evaluar y tratar la fuerza prensil en clínica en sujetos con patología dolorosa del hombro.»

Otra opción sería que, en función de esos dos estudios, decidiéramos hacer un ensayo clínico orientado a trabajar la fuerza prensil para mejorar la discapacidad en sujetos con dolor relacionado con el manguito rotador, o que decidiéramos no evaluar en un transversal la fuerza de rotación externa porque requiere de un dinamómetro que es más caro y midiéramos en su lugar la fuerza prensil, asumiendo que también se relaciona con la discapacidad. Todas estas decisiones son erróneas y pueden llevar a errores muy grandes, tanto en la práctica clínica como en investigación. Cuando he comentado que en mi experiencia, son errores encadenados, es porque muchas veces he observado que, en lugar de molestarnos en evaluar directamente las correlaciones, las asumimos presentes por transitividad, una tras otra, aceptando algunas como verdades ya comprobadas, y guiando líneas de investigación durante años y años, en base a un error conceptual de estadística.

Por último, otro ejemplo donde también aprecio se malinterpreta notoriamente la transitividad es en las pruebas de valoración. Tendemos a buscar métodos más baratos para evaluar determinados parámetros en nuestros sujetos en investigación, porque se supone tendrán mayor aplicabilidad clínica. Si bien esto es lo deseable, no siempre es posible. En esta búsqueda de métodos más baratos, pecamos de la falacia de la transitividad. Cuando se realiza un estudio de estas características, se suele comparar el nuevo método con uno considerado «gold standard» para evaluar su validez, calculándose la correlación entre las mediciones tomadas con ambos métodos. Mucha gente asume que por ejemplo, un valor de correlación de Pearson de 0.70, sería indicativo de buena validez, y concluyen que por tanto, el nuevo método podría implementarse en la práctica clínica e investigación, ahorrando costes. El motivo subyacente en la gran mayoría de casos, sea consciente o no quien realiza el mismo, es la aceptación de la transitividad, mejor dicho, la malinterpretación de la misma.

Si aceptamos una correlación de 0.70 entre ambos métodos de medición, necesitaríamos que se diera una correlación de 0.72 entre el gold standard y otra variable de interés, para que empezase a haber transitividad de dicha correlación hacia el nuevo método de medición. Por ejemplo, si asumimos que el gold standard presenta una correlación de 0.85 con otra variable, la correlación estimada del nuevo método de medición con dicha variable, por transitividad, sería de 0.219. ¿Podemos por tanto usar indistintamente el nuevo método de medición? La respuesta es, en función de solo esta información, no. Pues ya hemos visto que la transitividad no justificaría dejar de usar el gold standard, pues perderíamos casi toda la correlación con la otra variable de interés. Esto no implica que no pudiera darse una relación más alta entre el nuevo método y dicha variable, simplemente que, por transitividad, no pasaría y por tanto un razonamiento basado en la misma, no se sostiene.

A continuación te dejo un segundo test, con el fin de que puedas evaluar el conocimiento que has adquirido con la presente entrada y si ha mejorado tu capacidad de interpretación de literatura científica:

7
Creado en Por Admin

Transitividad Correlación (Test Final)

1 / 15

Si una variable X presenta una correlación de 0.90 con otra variable Y, y dicha variable Y presenta una correlación de 0.40 con otra variable Z, la correlación entre X y Z será positiva y mayor de 0.40.

2 / 15

Solo cuando la correlación entre X e Y y la correlación entre Z e Y tienen signos opuestos, puede ser cero la correlación entre X y Z.

3 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.50 y la correlación entre Z e Y es de 0.49, ¿Puede la correlación entre X y Z llegar a ser perfecta (sin importar el signo)?

4 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta a su vez una correlación positiva con otra variable Z, entonces la correlación entre X y Z será también positiva.

5 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.80, ¿Cuál es la correlación mínima que tendría que haber entre Z e Y para que hubiera transitividad hacia la correlación entre X y Z?

6 / 15

Si la correlación entre la fuerza prensil y la fuerza en rotación externa de hombro es de 0.60, y la correlación entre la fuerza en rotación externa y la discapacidad es de 0.50, ¿Cuáles serían los límites de posibles valores de la correlación entre la prensión manual y la discapacidad?

7 / 15

Si la correlación entre dos variables X e Y es de -0.40, y la correlación entre Z e Y es de 0.40, entonces si o si la correlación entre X y Z será igual a cero.

8 / 15

Si la correlación entre dos variables X e Y es de r-1, y la correlación entre Z e Y es de r-2, entonces la correlación entre X y Z estará comprendida entre [r-1, r-2].

9 / 15

Dadas tres variables (X, Y, Z), sabiendo que la correlación entre X e Y es de 0.60 y la correlación entre Z e Y es de 0.70. ¿Podría haber una correlación entre X y Z igual a cero?

10 / 15

Si una variable X presenta una correlación negativa con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será positiva.

11 / 15

Si la correlación entre la fuerza en rotación externa máxima de hombro y el grado de discapacidad es de 0.60, y la correlación entre dicha fuerza en rotación externa y la fuerza prensil es de 0.90, ¿Cuál es la correlación estimada por transitividad entre la fuerza prensil y la discapacidad de hombro?

12 / 15

Dadas tres variables (X, Y, Z), si la correlación entre X e Y es de 0.40 y la correlación entre Z e Y es de 0.80, ¿Puede ser negativa la correlación entre X y Z?

13 / 15

Podemos tener dos variables X e Y que presenten un coeficiente de correlación de Pearson de 0.70, y otras dos variables Z e Y que presenten también una correlación de Pearson de 0.70, siendo la correlación entre X y Z igual a cero.

14 / 15

Si una variable X se correlaciona (positiva o negativamente) con una variable Y, y dicha variable Y se correlaciona (positiva o negativamente) con otra variable Z, entonces si o si, deberá existir una correlación (positiva o negativa) entre X y Z.

15 / 15

Si una variable X presenta una correlación positiva con otra variable Y, y dicha variable Y presenta una correlación negativa con otra variable Z, entonces la correlación entre X y Z será negativa.

Tu puntación es

The average score is 65%

0%

Conclusiones

Las correlaciones no son transitivas, la posibilidad de presencia o no de transitividad depende de la magnitud y dirección de las correlaciones. No debemos caer en el error de inferir asociaciones por transitividad, sin haberlas evaluado de manera directa, pues puede llevarnos a cometer errores cruciales tanto en investigación, como en la práctica clínica.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Modelo Lineal General Temas Básicos

Covarianza

Asociación: Covarianza

En esta entrada se ofrece una breve explicación del concepto de covarianza, que tiene especial relevancia dentro del modelo lineal general. El entendimiento de la covarianza supone el primer paso a la comprensión del concepto de asociación estadística entre dos variables cuantitativas.

La covarianza (Cov) es el primer concepto a entender para poder adentrarse en el mundo de las asociaciones entre variables cuantitativas. Hay dos preguntas que toda persona que quiera comprender este concepto de asociación tiene que hacerse, ¿Qué implica decir que dos variables presentan asociación? ¿Cómo podemos medir dicha asociación? En esta entrada, mediante el entendimiento de la covarianza y algún otro concepto, podrás entender mejor la primera pregunta y dar una respuesta parcial a la segunda.

Cuando decimos que dos variables presentan una asociación, que están correlacionadas, estamos diciendo que, en cierto grado, varían conjuntamente. Es decir, que cuando el valor de una incrementa o disminuye, el de la otra tiende también a incrementar o disminuir en un sujeto dado. Ahora veamos como se puede reflejar en números esa variación conjunta.

Vamos a partir de un escenario simulado, en el que hemos medido a 10 sujetos la intensidad del dolor de hombro (cm) y la fuerza en rotación externa (N):

$$\begin{array} {| ccc |} \hline Sujeto & Dolor & Fuerza \\ \hline 1 & 1 & 180 \\ \hline 2 & 2 & 160 \\ \hline 3 & 3 & 190 \\ \hline 4 & 4 & 120 \\ \hline 5 & 5 & 150 \\ \hline 6 & 6 & 140 \\ \hline 7 & 7 & 130 \\ \hline 8 & 8 & 170 \\ \hline 9 & 9 & 100 \\ \hline 10 & 10 & 110 \\ \hline \end{array}$$

Como hemos comentado, queremos obtener un estadístico que nos sirva para medir el grado en que dos variables varían de manera conjunta, de modo que resulta obvio, que dicho estadístico se tendrá que calcular utilizando los valores de ambas variables. Podríamos calcular el producto de los valores de cada una de las variables, es decir:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 180 & 180 \\ \hline 2 & 2 & 160 & 320 \\ \hline 3 & 3 & 190 & 570 \\ \hline 4 & 4 & 120 & 480 \\ \hline 5 & 5 & 150 & 750 \\ \hline 6 & 6 & 140 & 840 \\ \hline 7 & 7 & 130 & 910 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 100 & 900 \\ \hline 10 & 10 & 110 & 1100 \\ \hline \end{array}$$

Si sumamos dichos productos de la última columna, obtenemos un valor que en nuestro caso simulado es igual a 7410.  Pero, ¿Por qué nos interesa ese valor? Si multiplicamos dos valores grandes, se obtiene como resultado un valor «grande», si multiplicamos dos pequeños, se obtiene como resultado un valor «pequeño» y si multiplicamos uno grande por uno pequeño, obtenemos un valor «medio». Si imaginamos que queremos maximizar la relación entre estas dos variables, existiendo una correlación positiva perfecta, es decir, que a mayor valor de una, mayor valor de la otra, entonces ocurriría que el sujeto con el mayor valor de dolor (10 cm), tendría el mayor valor de fuerza (190 N). Podemos simular ese supuesto caso, obteniéndose la siguiente tabla:

$$\begin{array} {| cccc |} \hline Sujeto & Dolor & Fuerza & D*F \\ \hline 1 & 1 & 100 & 100 \\ \hline 2 & 2 & 110 & 120 \\ \hline 3 & 3 & 120 & 360 \\ \hline 4 & 4 & 130 & 520 \\ \hline 5 & 5 & 140 & 700 \\ \hline 6 & 6 & 150 & 900 \\ \hline 7 & 7 & 160 & 1120 \\ \hline 8 & 8 & 170 & 1360 \\ \hline 9 & 9 & 180 & 1620 \\ \hline 10 & 10 & 190 & 1900 \\ \hline \end{array}$$

En este nuevo caso simulado, la suma de productos es de 8800. Como puede apreciarse, es un valor superior al anterior, el orden de los valores (mayor a menor) coincide en ambas variables, a cada valor máximo le corresponde el máximo que podría del conjunto, esto hace que se maximice la suma de productos, es decir, que obtenga su máximo valor posible con estos datos. Podríamos hacer lo mismo pero a la inversa, es decir, al valor máximo de dolor asociarle el valor mínimo de fuerza, es decir, estando en el caso simulado con una relación negativa perfecta entre las dos variables, en cuyo caso obtendríamos el mínimo valor posible de la suma de productos, siendo de 7150. Por tanto, tenemos dos extremos, el de la máxima correlación positiva posible (8800) y el de la máxima correlación negativa posible (7150). Si realizásemos el proceso anterior de asignación de los valores de fuerza y dolor de forma aleatoria, habrá algún valor que obtengamos de suma de productos que reflejará la mínima correlación posible, que se encontrará entre 7150 y 8800. Como podemos observar, el valor de suma de productos inicial (7410) está próximo al valor de la correlación perfecta negativa (7150), esto nos indicaría a priori que parece haber una correlación negativa en nuestra muestra original (primera tabla) entre ambas variables.

No obstante, esta suma de productos no es lo que se suele utilizar como posible estimador de la correlación entre dos variables. Es aquí donde entra en juego el concepto de covarianza. En lugar de multiplicar directamente los valores como hemos hecho en el caso anterior, lo que se hace es multiplicar la diferencia de dichos valores con respecto a la media muestral, de forma que con los datos iniciales, tendríamos la siguiente tabla:

$$\begin{array} {| ccccccc | } \hline Sujeto & Dolor & Fuerza & D*F & d_i – \bar d & f_i – \bar f & (d_i – \bar d) * (f_i – \bar f) \\ \hline 1 & 1 & 180 & 180 & -4.5 & 35 & -157.5 \\ \hline 2 & 2 & 160 & 320 & -3.5 & 15 & -52.5 \\ \hline 3 & 3 & 190 & 570 & -2.5 & 45 & -112.5 \\ \hline 4 & 4 & 120 & 480 & -1.5 & -25 & 37.5 \\ \hline 5 & 5 & 150 & 750 & -0.5 & 5 & -2.5 \\ \hline 6 & 6 & 140 & 840 & 0.5 & -5 & -2.5 \\ \hline 7 & 7 & 130 & 910 & 1.5 & -15 & -22.5 \\ \hline 8 & 8 & 170 & 1360 & 2.5 & 25 & 62.5 \\ \hline 9 & 9 & 100 & 900 & 3.5 & -45 & 157.5 \\ \hline 10 & 10 & 110 & 1100 & 4.5 & -35 & -157.5 \\ \hline \end{array}$$

En este caso las tres últimas columnas son las importantes, la primera refleja las diferencias del valor de dolor de cada sujeto con respecto a la media del grupo, la segunda lo mismo pero para la fuerza y la tercera es el producto de estas dos columnas anteriores. Si sumamos los valores de la última columna, obtenemos lo que se conoce como producto cruzado, que en este caso tiene un valor de -565. La diferencia de este valor, con respecto a la primera multiplicación que hacíamos con los datos originales, es que está centrado en el cero, es decir, mientras que en el anterior caso si las variables tenían cero correlación, obteníamos un valor de productos distinto de cero, en este caso cuando hay cero correlación el valor del producto cruzado es de cero. ¿Y qué es entonces la covarianza? Dado que el valor del producto cruzado depende del número de sujetos de la muestra, lo que se hace es dividir entre dicho valor (o entre los grados de libertad si es una estimación poblacional a partir de una muestra), para controlar este factor, de manera que puedan compararse distintas muestras. Este valor es la covarianza, cuya fórmula sería:

$$ Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(y_i – \bar y)}{n-1}$$

En nuestro caso, el valor de la covarianza entre el dolor y la fuerza es de -62.78 (el signo negativo indica que la correlación es negativa, a menos dolor más fuerza). Si la correlación entre dos variables es de cero, entonces su covarianza también. La fórmula anterior puede resultar familiar, eso es por su similitud con la fórmula de la varianza de una variable:

$$\sigma^2_x = \frac{\sum_{i=1}^{n}(x_i – \bar x)^2}{n-1} = \frac{\sum_{i=1}^{n}(x_i – \bar x)*(x_i – \bar x)}{n-1}$$

Es importante darse cuenta de esta similitud, ya que sirve pare entender el concepto de «variabilidad conjunta». Mientras que para una sola variable, al estimar su variabilidad, multiplicábamos el mismo término por si mismo (elevábamos al cuadrado), ahora lo que se hace es, como tenemos dos variables, multiplicamos un término por el otro, para obtener un estimador de esa variabilidad conjunta de ambas variables, la covarianza. Entender esta similitud servirá posteriormente para comprender otro concepto, el coeficiente de correlación de Pearson. Este coeficiente es el que se utiliza en última instancia para evaluar la correlación entre dos variables cuantitativas que cumplan una serie de asunciones. No obstante, ya se ha podido conocer en esta entrada un estadístico que permite evaluar la relación entre dos variables, la covarianza, que es de suma importancia para múltiples análisis estadísticos.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Descriptivos Temas Básicos

Suma Cuadrados Desviación Estándar y Varianza

Dispersión: Suma de cuadrados, Desviación estándar y varianza

En esta entrada se ofrece una explicación básica de tres conceptos relacionados, la suma de cuadrados, la desviación estándar, y la varianza, medidas de dispersión comúnmente reportadas en investigación.

Mientras que los términos de varianza y desviación estándar son más conocidos incluso entre aquellos que se están iniciando en el mundo de la estadística aplicada, el concepto de suma de cuadrados (SS, del inglés «sum of squares») y el de cuadrado medio (MS, del inglés «mean square»), no lo son tanto y es por ello que comenzaré explicando estos dos conceptos y su relación con los otros dos primeros. Es importante conocer el significado de estos últimos ya que en múltiples análisis dentro del campo de los mínimos cuadrados ordinarios se hará referencia a ellos.

Vamos a partir de la siguiente muestra simulada de 10 sujetos, a los cuales se les ha medido el peso en kg:

$$Muestra = \{70, 72, 65, 60, 81, 77, 66, 63, 78, 58\}$$

$$\bar x = 69 kg$$

Si queremos saber como de dispersos están nuestros datos, cual es su «variabilidad», una opción es, a cada valor, restarle la media del conjunto. Sin embargo, si queremos obtener un estimador de la dispersión de nuestra muestra usando esas diferencias con respecto a la media y sumamos todos los valores, el valor resultante es cero:

$$Diferencias = \{1, 3, -4, -9, 12, 8, -3, -6, 9, -11\}$$

$$\sum_{i = 1}^{n} (x_i – \bar x) = 0$$

Para solventar este problema, lo que suele hacerse es elevar al cuadrado cada diferencia antes de proceder a su suma, como puede intuirse, este valor obtenido es al que denominados suma de cuadrados, ya que se están sumando los cuadrados de las diferencias:

$$SS = \sum_{i = 1}^{n} (x_i – \bar x)^2$$

$$SS = 1 + 9 + 16 + 81 + 144 + 64 + 9 + 36 + 81 + 121 = 562$$

No obstante, la suma de cuadrados también presenta un problema, es dependiente del número de valores del que disponemos, es decir, a mayor muestra mayor SS. Esto dificulta la utilización de la SS como un estimador de la dispersión de los datos a la hora de comparar distintas muestras. Es por ello que este valor se divide entre el número total de sujetos de la muestra, dando lugar a lo que se conoce como cuadrado medio:

$$MS = \frac{SS}{n} = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

$$MS = \frac{562}{10} = 56.2$$

Esta fórmula puede que resulte familiar ya que, en efecto, es la misma fórmula que la de la varianza muestral (σ²), es decir, la varianza muestral y el cuadrado medio son lo mismo, pero con distinto nombre:

$$MS = \sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}$$

Finalmente, existe otra cuestión que debemos tener en cuenta y es que la varianza no se encuentra en las mismas unidades que los valores originales, pues se ha obtenido sumando los cuadrados. Para solventar este problema disponemos de otro estadístico, la desviación estándar muestral (σ), que se calcula como la raíz cuadrada de la varianza:

$$\sigma = \sqrt{\sigma^2} = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n}} = \sqrt{56.2} = 7.50 kg$$

Las dos fórmulas descritas anteriormente para la varianza y desviación estándar, son para su cálculo para la muestra bajo análisis. Si lo que queremos es estimar los valores poblacionales a partir de una muestra, la fórmula varía ligeramente debido a que cambian los grados de libertad:

$$\sigma^2 = \sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}$$

$$\sigma = \sqrt{\sum_{i = 1}^{n} \frac{(x_i – \bar x)^2}{n-1}}$$

Estos estadísticos se suelen emplear como descriptores de dispersión en el caso de variables cuantitativas que presenten una distribución aproximadamente normal, así como para distintos cálculos bajo el modelo de mínimos cuadrados ordinarios.

Propiedades de la varianza

La varianza presenta algunas propiedades que es necesario conocer, para facilitar la comprensión posterior de algunos conceptos:

  • El valor de la varianza es siempre igual o superior a cero.

$$\sigma^2 \geq 0$$

  • La varianza de una constante es cero. Como su propio nombre indica, una constante no varía, no tiene variabilidad, «sus datos no varían». Como curiosidad, existe un error de denominación de las «constantes vitales», que no son realmente constantes.

$$\sigma^2(c) = 0$$

  • Si multiplicamos todos los valores de una variable X por una constante entonces:

$$\sigma^2(X*c) = c^2*\sigma^2(X)$$

  • La varianza de la suma o resta de dos variables (X e Y), con covarianza (Cov(X,Y)), es igual a:

$$\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y) + 2Cov(X,Y)$$

$$\sigma^2(X-Y) = \sigma^2(X) + \sigma^2(Y) – 2Cov(X,Y)$$

Esta última propiedad tiene especial importancia con respecto a la fiabilidad de las diferencias entre dos mediciones consecutivas en el tiempo, como son por ejemplo las diferencias post-tratamiento menos la medición basal, habitualmente utilizadas en los análisis de los ensayos clínicos aleatorizados del campo de la Fisioterapia.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Modelo Lineal General Temas Básicos

Modelo Lineal General Explicación

Modelo Lineal General: Explicación básica

En esta entrada se ofrece una explicación del concepto de Modelo Lineal General, ejemplificándose como una regresión lineal simple y una prueba t-Student son el mismo análisis con distinto nombre.

El Modelo Lineal General engloba un conjunto de análisis paramétricos que se basan en intentar predecir una variable continua en función de una o más variables, asumiendo que la relación entre ellas es de tipo lineal, usando el método de mínimos cuadrados ordinarios. Bajo este modelo se incluyen análisis como la prueba t-Student, la regresión lineal simple y múltiple, el Análisis de la Varianza y el Análisis de la Covarianza. A pesar de existir tantos nombres distintos, todos ellos son en realidad el mismo tipo de análisis, una regresión lineal con una o más variables predictoras. En esta entrada voy a ejemplificar esta afirmación equiparando la prueba t-Student a una regresión lineal simple.

Vamos a partir de un estudio transversal en el que queremos evaluar si existen diferencias en la fuerza de rotación externa entre personas con y sin tendinopatía del manguito rotador. Para ello, asumiremos los siguientes valores poblacionales de fuerza de rotación externa:

$$Sanos \rightarrow \mu_{sanos} = 150N \ y \ \sigma_{sanos} = 40N$$

$$Dolor \rightarrow \mu_{dolor} = 140N \ y \ \sigma_{dolor} = 40N$$

Partiendo de estos datos poblacionales, simulamos un estudio en el que seleccionamos mediante un muestreo probabilístico 320 sujetos sanos y 320 con tendinopatía del manguito, obteniendo los siguientes datos muestrales:

$$Sanos \rightarrow \bar x_{sanos} = 152.07N \ y \ s_{sanos} = 41.32N$$

$$Dolor \rightarrow \bar x_{dolor} = 140.75N \ y \ s_{dolor} = 39.35N$$

En este estudio tenemos por tanto dos variables, la variable Dolor (0 = no, 1 = si), que sería la variable independiente (categórica binomial) y la variable fuerza (medida en Newtons), que sería la variable dependiente (cuantitativa continua). Con ellas, podemos crear el siguiente modelo de regresión lineal simple, donde queremos predecir la fuerza en función de la presencia de dolor:

$$Fuerza_i = C + b*Dolor_i$$

En esta fórmula, C es la constante y b es el coeficiente de regresión sin estandarizar. Imaginemos ahora que queremos predecir el valor fuerza de un sujeto i perteneciente al grupo de los participantes sanos. En este caso, el valor de dicho sujeto en la variable Dolor es cero, de modo que la anterior fórmula quedaría como:

$$Fuerza_i = C + b*0$$

$$Fuerza_i = C$$

Es decir, el valor predicho para dicho sujeto es igual a la constante de la fórmula de regresión lineal. Pero, ¿Qué valor tiene dicha constante? Recordando la entrada de mínimos cuadrados ordinarios, el mejor valor que podemos utilizar para predecir la puntuación de un sujeto de una muestra, es la media de dicha muestra, por tanto:

$$Fuerza_i = C = \bar x_{sanos} = 152.07$$

Es decir, la constante de la fórmula de regresión es la media del grupo de los participantes sanos. Ahora solo nos quedaría por conocer cual es el valor del coeficiente de regresión sin estandarizar (b) para poder completar la fórmula. Imaginemos que queremos predecir el valor de un sujeto i perteneciente al grupo de participantes con tendinopatía del manguito rotador. En este caso, el valor de la variable Dolor para dicho sujeto es de uno, de manera que:

$$Fuerza_i = 152.07 + b*1$$

$$Fuerza_i = 152.07 + b$$

Si partimos de la misma asunción realizada anteriormente basándonos en el método de mínimos cuadrados ordinarios, que es en el que se basa el modelo lineal general, el mejor valor que podemos utilizar para predecir la fuerza de un sujeto del grupo de participantes con tendinopatía del manguito rotador es la media de dicho grupo, de manera que la fórmula quedaría como:

$$140.75 = 152.07 + b$$

Si despejamos b de dicha fórmula, obtenemos que:

$$b = 140.74 – 152.07 = -11.32$$

Es decir, el coeficiente de regresión sin estandarizar (b) es igual a la diferencia media entre el grupo de participantes sanos y el grupo de sujetos con tendinopatía del manguito rotador. Por tanto, lo que estamos evaluando con este modelo de regresión lineal es si la diferencia media entre los grupos es estadísticamente significativa, que es lo mismo que evaluamos cuando utilizamos la prueba t-Student. A continuación muestro los resultados utilizando ambos análisis, de forma que se pueda observar que se obtiene el mismo resultado con ambos análisis, ya que son matemáticamente equivalentes, aunque les pongamos distinto nombre:

Prueba t-Student:

$$t = 3.55, gl = 636.49, p = .000416$$

$$ \bar x_{dolor – sano} = -11.32, Intervalo \ de \ Confianza \ 95\% = 5.06 \ a \ 17.58$$

Regresión lineal simple:

$$Constante = 152.07, error \ estandar = 2.26, t = 67.246 p < .0001$$

$$b = -11.32, error \ estandar = 3.19, t = 3.55, p = .000416, Intervalo \ de \ Confianza \ 95 \% = 5.06 \ a \ 17.58$$

Por tanto, queda demostrado que la prueba t-Student y una regresión lineal simple son el mismo análisis estadístico. Esta misma demostración puede realizarse con otros análisis como un Análisis de la Varianza, aunque de una manera no tan visual como en el presente caso, pero con la misma conclusión, el Análisis de la Varianza no es más que un análisis de regresión lineal, bajo el modelo lineal general, todo son regresiones lineales.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Inferencias Temas Básicos

Grados de Libertad

Grados de libertad: Definición simple

En los distintos análisis estadísticos que se nombran en la presente página y los estudios de investigación, aparece un concepto asociado a los mismos, el de los grados de libertad. En esta entrada se ofrece una explicación sencilla de dicho concepto para facilitar la comprensión del mismo en análisis más complejos.

La manera más sencilla de comprender el concepto de grados de libertad es utilizando como ejemplo la estimación de la desviación estándar poblacional a partir de una muestra. Como su propio nombre indica, los grados de libertad de un determinado estadístico son el número de valores utilizados para su cálculo que pueden variar libremente, antes de que el resto de valores se vean forzados a unos concretos sin disponer de dicha libertad de variación. Estos grados de libertad se utilizan, entre otras cosas, en los cálculos de los famosos valores-p y por ello se reportan en los resultados de múltiples análisis estadísticos en investigación, para facilitar la reproducibilidad de los mismos y con una finalidad de transparencia, para que el lector pueda corroborar que efectivamente, el valor-p asociado a ese determinado valor del estadístico en ese estudio, con ese tamaño muestral y esas características del análisis, ese el reportado por sus autores.

La fórmula de la desviación estándar de una muestra es la siguiente:

$$s = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n}}$$

Sin embargo, cuando lo que queremos es estimar la desviación estándar poblacional a partir de una muestra, la fórmula a utilizar es la siguiente:

$$\sigma = \sqrt{\frac {\sum_{i=1}^{n} (\bar x – x_i)}{n-1}}$$

En ambos casos, el denominador serían los grados de libertad, aunque donde tiene más sentido utilizar este término es en la segunda fórmula de estimación del valor poblacional a partir de una muestra. En el primer caso, como estamos calculando simplemente el valor de la muestra, los grados de libertad son iguales al número de sujetos, ya que cada sujeto puede tomar un valor libremente de la variable bajo estudio. Sin embargo, en el segundo caso, donde estamos estimando el valor poblacional, esto ya no se cumple.

Para entender el motivo de ese n-1 de la segunda formula, debemos primero conocer que, la media muestral, es un estimador directo de la media poblacional, es decir, asumimos que:

$$\bar x = \mu$$

Imaginemos que tenemos una población con una estatura media de 170cm. Ahora, seleccionamos una muestra de 10 sujetos mediante la que vamos a estimar la desviación estándar poblacional. Medimos a los primeros 9 sujetos, que pueden tomar valores que varían libremente, pudiendo ser:

$$Muestra = \{171, 174, 166, 178, 169, 158, 165, 164, 181, X_{10}\}$$

Para el cálculo de la desviación estándar poblacional se utiliza la media, tal y como se muestra en la fórmula anteriormente mencionada. Como hemos asumido que la media muestral es un estimador directo de la media poblacional, entonces la media muestral debería tener un valor de 170. De esta asunción se llega a la conclusión de que, como la media ya la hemos fijado antes del cálculo de la estimación de la desviación estándar, el valor de estatura del sujeto número 10 no puede variar libremente, ya que como la media ha de ser 170, el valor de este sujeto esta condicionado por los valores de los otros 9 sujetos que si varían libremente, es decir, adjudicados nueve valores libremente y queriendo obtener una media de 170, el último sujeto solo puede tener un valor:

$$X_{10} = n*\bar x – X_1 – X_2 – … – X_9$$

$$X_{10} = 10*170 – 171 – 174 – 166 – 178 – 169 – 158 – 165 – 164 – 181 = 174$$

Por tanto, la estimación de la desviación estándar poblacional a partir de esta muestra de 10 sujetos tendría 9 grados de libertad, que es igual al número total de sujetos de la muestra (n) menos el número de estadísticos que están restringidos (1, la media) y se usan para el cálculo de la desviación estándar. Aunque el cálculo de los grados de libertad para otros estadísticos es algo más complejo y difícil de comprender, el concepto subyacente es el mismo al reflejado en esta entrada.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Inferencias Temas Básicos

Mínimos Cuadrados Ordinarios

mínimos cuadrados ordinarios: definición simple

Los mínimos cuadrados ordinarios es un método de estimación de parámetros poblacionales mediante el modelo lineal, que se basa en minimizar el error cuadrático medio.

El método de mínimos cuadrados ordinarios es en el que se basan todos los análisis englobados dentro del modelo lineal general (t-Student, regresión lineal simple y múltiple, Análisis de la Varianza…). Este método consiste en minimizar la suma de cuadrados del error de predicción del modelo, que tiene sentido cuando se cumplen una serie de asunciones, que son las necesarias para poder realizar ese tipo de análisis. Dado que el concepto de media como estimador se basa también en este método, lo explicaré con ella, pues facilita la comprensión del mismo.

Imaginemos que tenemos la siguiente muestra de 9 sujetos, a los cuales medimos el peso:

$$ x = \{64, 65, 66, 67, 68, 69, 70, 71, 72\}$$

Ahora, queremos usar algún valor comprendido entre 64 y 72 como predictor de todos los sujetos. Al hacerlo, cometeremos errores, ya que habrá una diferencia entre el valor real de cada sujeto y el valor que hemos utilizado como predictor, de modo que podemos calcular la suma de cuadrados (SS) como estimador del error de predicción para distintos valores, que vamos a suponer como si fuesen «medias», cuyo valor seleccionamos nosotros a nuestro antojo y no con la fórmula descrita para la media, por ejemplo:

$$\bar x = 64 \rightarrow SS = 204$$

$$\bar x = 71 \rightarrow SS = 141$$

$$\bar x = 62 \rightarrow SS = 384$$

$$\bar x = 70 \rightarrow SS = 96$$

Podemos hacer esto para el conjunto de valores entre el mínimo (64) y el máximo (72) de la muestra, obteniendo el siguiente gráfico:

Como se puede apreciar, la representación gráfica de la suma de cuadrados (eje y) y el valor usado de la media (eje x) para calcular dicha suma de cuadrados, da lugar a una parábola. El vértice de la misma es el punto donde la suma de cuadrados es mínima y coincide con el valor de la media calculada con la fórmula mostrada en su respectiva entrada (marcada en el gráfico con una línea roja discontinua vertical). Queda por tanto demostrado que el uso de la media calculada con la fórmula descrita, para predecir los valores de una muestra, disminuye la suma de cuadrados de error, que es en lo que se basa el método de mínimos cuadrados ordinarios. En el resto de análisis, aunque de una manera quizás algo menos visual y más complicada de entender, se lleva a cabo el mismo procedimiento, por ejemplo, en una regresión lineal, se estiman los coeficientes de regresión para que dicha suma de cuadrados sea mínima.

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …

Categorías
Descriptivos Temas Básicos

Tendencia Central: Media

Tendencia central: la media

La media es uno de los estadísticos descriptivos de tendencia central más utilizados y cuyo entendimiento es crucial para la interpretación de una gran cantidad de análisis estadísticos.

En lenguaje común, cuando hablamos de «la media» estamos haciendo normalmente referencia a la medía aritmética. Sin embargo, existen otros tipos de medias, como la geométrica o la armónica, que no se verán en esta entrada. De ahora en adelante, en el resto de entradas, se asumirá que cuando se haga referencia a «la media» se está hablando siempre de la media aritmética.

Dentro del abanico de medidas de tendencia central, la media aritmética es una de las más utilizadas. Múltiples análisis estadísticos como la prueba t-Student, una regresión lineal o los Análisis de la Varianza (ANOVA), se basan en el uso de la media como estimador de tendencia central. Es por ello que es necesaria una buena comprensión de este concepto para poder interpretar adecuadamente dichos análisis. La fórmula de la media aritmética de una muestra sería la siguiente:

$$\bar x = \frac{\sum_{i=1}^{n} x_i}{n}$$

Sería por tanto, el sumatorio de todos los valores de una muestra entre el número total de valores presentes en la misma. Por su parte, la fórmula de la media aritmética de una población, estimada a partir de una muestra, se expresaría como:

$$\mu = \frac{\sum_{i=1}^{n} x_i}{n}$$

Es decir, la media aritmética muestral es un estimador directo de la media aritmética poblacional, a diferencia de la desviación estándar, donde la fórmula difiere ligeramente en el caso de la muestra y el de la estimación poblacional.

Asunciones para el uso de la media

La media aritmética se basa en el método de mínimos cuadrados ordinarioses decir, el uso de la media como estimador del valor de cualquier sujeto de la muestra, disminuye al mínimo la suma de cuadrados. Estas condiciones serían las siguientes:

  • La distribución de los datos es continua.
  • La distribución de los datos es simétrica.

La media es especialmente sensible a la presencia de valores atípicos, Por ejemplo, si tenemos una muestra A, simétrica y sin valores atípicos, la presencia de 1 solo valor atípico que produzca una asimetría (muestra B), induce cambios considerables en el valor de la media aritmética:

$$A = \{2,2,3,4,5,6,7,8,8\}$$

$$\bar x_A = 5$$

$$B = \{2,2,3,4,5,6,7,8,31\}$$

$$\bar x_B = 7.56$$

Es por ello que debemos evaluar cuidadosamente si la media es una buena medida de tendencia central para nuestros datos, pues la utilización de la misma en casos en que no esté indicado, puede llevar a errores notorios de interpretación. En una investigación, esta presencia de valores atípicos suele evaluarse previa realización de los análisis estadísticos, para tomar las decisiones más acertadas con respecto a como tratar los mismos para evitar tales malinterpretaciones.

Propiedades de la media

Algunas propiedades básicas de la media son:

  • No tiene porqué corresponderse con ningún valor de la muestra.

Este es un punto muy relevante, pues es un error frecuente atribuir el resultado de una diferencia de medias entre dos intervenciones en un ensayo clínico, a los sujetos individuales vistos en la práctica clínica. Las medias sirven para reflejar la tendencia central de una muestra, pero no deben ser utilizadas para interpretar valores individuales, es decir, no podemos extrapolar una diferencia media a un paciente que vemos el lunes en la consulta. Lo sencillo es «predecir» comportamientos muestrales o poblacionales, pero realizar predicciones (por ejemplo de mejoría con una intervención) a sujetos individuales, es una tarea ardua. 

  • No tiene porqué ser un número entero, aunque todos los valores de la muestra si lo sean.
  • No tiene porqué dividir la muestra en dos mitades iguales, es decir, en la mayoría de casos, es falso afirmar que por encima de la media se encuentran la mitad de los valores.
  • La media presenta las mismas unidades que los valores utilizados para su cálculo. Es decir, si usamos valores de peso (kg) para calcular la media, la media estará en kilogramos también.

Otras dos propiedades útiles a conocer serían:

  • Si sumamos una constante a todos los valores de una muestra, la media resultante es igual a la media original más dicha constante:

$$\bar x_{i+k} = \frac{\sum_{i=1}^{n} (x_i + k)}{n} = \frac{\sum_{i=1}^{n} x_i }{n} + k$$

  • La media de la suma o resta de dos muestras con las mismas unidades, es igual a la suma o resta de sus respectivas medias:

$$\bar x_{a \pm b} = \bar x_a \pm \bar x_b$$

Finalmente, también debemos tener en cuenta que las proporciones son medias. Imaginemos que tenemos una muestra de 10 sujetos, que pueden o no presentar dolor de hombro. En este caso, 5 sujetos presentan dolor de hombro, de modo que la frecuencia (prevalencia) es de 0.50. Si adjudicamos el valor 1 a los sujetos con dolor de hombro y el valor 0 a los que no tienen dolor, tendríamos la siguiente representación de dicha muestra:

$$ Muestra = \{1,0,1,1,0,1,0,0,0,1\}$$

Si aplicamos la fórmula de la media mencionada al inicio, entonces tenemos que la media de dicha muestra sería:

$$\bar x = \frac{1+0+1+1+0+1+0+0+0+1}{10}= \frac{5}{10}= 0.50$$

Tamaño Muestral: Potencia Observada En esta entrada se recoge una breve explicación del concepto de potencia observada y los motivos por los …

Tamaño muestral: NOTA SOBRE TAMAÑOS DEL EFECTO EN ANOVAS DE MEDIDAS REPETIDAS con G*Power En esta entrada se recoge una breve explicación …

repositorio: tamaño muestral modelos predictivos Minimum sample size for developing a multivariable prediction model: Part I – Continuous outcomes | Stat Med …

Prediction equation of hip external rotators maximum torque in healthy adults and older adults using the measure of hip extensors maximum torque: …