Como se puede apreciar, en este caso, la pendiente de la recta de regresión para el peso si varia en función de la estatura de los sujetos, es decir, el coeficiente de regresión del peso (b1) varÃa en función de la estatura. Para entender esto, primero debemos conocer como se expresa un modelo de regresión lineal múltiple con interacción y a que hace referencia dicha interacción:
$$y_i = c + b_1 x_i + b_2 w_i + b_3 z_i$$
$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Interaccion$$
$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$
Tal y como se refleja en estas fórmulas, un modelo de regresión lineal con interacción es aquel en el que se incluye un tercer término en el modelo (la interacción), con su respectivo coeficiente de regresión (b3). Ese tercer término no es más que una variable que se crea multiplicando los valores de las otras dos incluidas en el modelo, es decir, si un sujeto tiene una estatura de 170cm y un peso de 72kg, su valor en la variable interacción serÃa de 12240. ¿A qué hace referencia aquà entonces el coeficiente de regresión de la interacción (b3)?
Podemos definir b3 como el cambio estimado del coeficiente de regresión del peso (b1) que se deriva del incremento de una unidad en la estatura (+ 1cm), o viceversa, el cambio estimado del coeficiente de regresión de la estatura (b2) que se deriva del incremento de una unidad en el peso (+ 1kg). Voy a centrarme en el coeficiente de regresión del peso para explicar mejor esta definición, reestructurando un poco la fórmula mostrada anteriormente. Imaginemos que es viable tener una estatura de 0cm e incrementamos en una unidad la estatura, teniendo por tanto un valor de estatura para un sujeto dado de 1cm, entonces sustituyendo en la anterior fórmula tendrÃamos que:
$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$
$$Fuerza_i = c + b_1*Peso_i + b_2*1 + b_3*Peso_i*1$$
$$Fuerza_i = (c + b_2) + Peso_i*(b_1 + b_3)$$
He puesto dentro de un mismo paréntesis la constante y el coeficiente b2 puesto que al multiplicarlo por 1 quedarÃa un valor numérico, que se sumarÃa a la constante. Por otro lado, al adjudicar el valor 1 a la estatura en el término de la interacción, lo que queda es un coeficiente de regresión multiplicado solo por la variable peso, de modo que se puede unificar dicho coeficiente (b3) con el coeficiente b1 en un mismo paréntesis, quedando ambos multiplicados por el peso. Es aquà donde queda ejemplificada la definición mostrada anteriormente, de que el coeficiente de regresión del peso ha incrementado b3 unidades debido al incremento de una unidad en la estatura, ya que si la estatura tuviera un valor hipotético de cero, entones:
$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Peso_i*Estatura_i$$
$$Fuerza_i = c + b_1*Peso_i + b_2*0 + b_3*Peso_i*0$$
$$Fuerza_i = c + Peso_i*b_1$$
Quedando ejemplificado que el incremento de una unidad de la estatura es lo comentado anteriormente. En términos de visualización gráfica, la pendiente de la recta de regresión entre el peso y la fuerza se incrementarÃa b3 unidades con el incremento de una unidad en la estatura.
De esta última fórmula se extrae además otra definición nueva. Mientras que en la regresión lineal múltiple sin interacción el coeficiente de regresión del peso (b1) hacia referencia a la relación entre el peso y la fuerza, independiente de la estatura (manteniendo la estatura constante), ahora el coeficiente de regresión del peso (b1) refleja la relación entre el peso y la fuerza cuando la estatura es igual a cero, sucediendo lo mismo pero a la inversa para el coeficiente de la estatura. Es decir, la inclusión del término de interacción cambia el significado de los coeficientes de regresión del peso (b1) y la estatura (b2), esto es importante ya que, si no se conoce este hecho, se pueden malinterpretar gravemente dichos coeficientes al leer un artÃculo de investigación. Normalmente, cuando se incluye un término de interacción, lo que interesa es el coeficiente de regresión de la interacción, que es lo que se suele estar testando, no esos otros coeficientes.
Puede que te hayas dado cuenta ya de un factor importante sobre la interpretación de dichos coeficientes de regresión al incluir la interacción, ¿Cómo que b1 es la relación entre el peso y la fuerza cuando la estatura es igual a cero? ¿Quién puede medir cero centÃmetros? No tiene sentido. Es por ello que para mejorar la interpretación de dichos coeficientes, suele realizarse un procedimiento que se denomina «centrar en la media». *Nota: Aunque no es el objetivo de esta entrada y no profundizaré en ello, si querÃa remarcar que el objetivo de centrar en la media es puramente para hacer que esos coeficientes tengan un sentido de interpretación, nada que ver la «eliminación» de la colinealidad entre variables independientes con el objetivo de mejorar el modelo de regresión, ya que no sirve para tal propósito.
Este procedimiento consiste en restar a cada valor el de la media de la muestra para dicha variable, es decir, si un sujeto tiene un peso de 55kg pero la media muestral es de 60kg, entonces su valor quedarÃa como -5. Esta actuación no alterará el coeficiente de regresión de la interacción ni la significación estadÃstica del mismo, solo alterará los otros dos coeficientes de las variables implicadas en la interacción, en nuestro caso b1 y b2. En este caso, por ejemplo para el peso, b1 ya no serÃa la relación entre el peso y la fuerza cuando la estatura es igual a cero, serÃa la relación entre el peso y la fuerza cuando la estatura es igual a la media de la muestra, y lo mismo sucederÃa con b2. Por tanto, ahora si tienen un sentido interpretable ambos coeficientes.
En esta entrada no profundizaré más en la interpretación de una interacción, ni en que pasos habrÃa que seguir después de haber evaluado si hay o no una interacción estadÃsticamente significativa. No obstante, pondré un ejemplo más con 3 variables independientes. Imaginemos ahora el siguiente modelo de regresión lineal múltiple con interacción:
$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i$$
En este caso tenemos 3 variables independientes incluidas en el modelo, asà como un término de interacción, la interacción entre la estatura y el peso. Por ejemplo para el peso, su coeficiente de regresión (asumiendo que hemos centrado en la media), serÃa la relación entre el peso y la fuerza cuando la estatura tiene el valor de la media de la muestra y se mantiene la edad constante, es decir, si la estatura media de la muestra fuese de 170cm, b1 serÃa la diferencia de fuerza estimada entre dos sujetos que miden 170cm y tienen la misma edad, se cual sea esta, pero que presentan una diferencia entre ellos de 1kg de peso. Por otro lado, el coeficiente de regresión de la edad (b3) serÃa la relación entre la edad y la fuerza, manteniendo constantes la estatura y el peso, es decir, la diferencia de fuerza estimada entre dos sujetos que tienen la misma estatura y peso, sean cuales sean estos, pero que difieren en 1 año de edad. En otras palabras, la inclusión de una interacción solo cambia la interpretación de los coeficientes de regresión de las variables involucradas en la misma, no las del resto de variables incluidas en el modelo. Este principio de razonamiento de interpretación se aplicarÃa en modelos más complejos, con varias interacciones y más variables independientes incluidas. Pondré un último ejemplo:
$$Fuerza_i = c + b_1*Peso_i + b_2*Estatura_i + b_3*Edad_i + b_4*Peso_i*Estatura_i*Edad_i*$$
En este caso se ha incluido una interacción entre las 3 variables (edad, estatura y peso), de forma que el coeficiente de regresión de la edad (b3) pasarÃa a ser, asumiendo que hemos centrado en la media, la relación entre la edad y la fuerza cuando la estatura y el peso tienen los valores de la media de la muestra.
Según se van incluyendo más variables e interacciones en el modelo, su interpretación puede volverse algo más tediosa y es por eso que no profundizaré en modelos más avanzados en esta entrada, pues pienso requerirÃan de demasiado tiempo y una base previa profunda de conocimiento de estadÃstica para no errar en la interpretación de los mismos.
Conclusiones
A pesar de ser métodos de análisis ampliamente extendidos dentro del campo de la Fisioterapia, mi sensación subjetiva es que existe mucho desconocimiento sobre como interpretar los mismos. En esta entrada he querido profundizar solo en la parte de interpretación del sentido de los coeficientes de regresión, algo que a priori podrÃa parecer complejo pero en verdad no lo es tanto. Finalmente, quiero remarcar que la interpretación crÃtica adecuada de un modelo de regresión lineal múltiple, requiere de tener en cuenta más aspectos que los mencionados en esta entrada, la cual constituye simplemente una base para comenzar a comprender mejor este tipo de análisis estadÃsticos.