Correlación y Regresión lineal simple

Cátedra Bioestadística, Escuela Ciencias Biológicas, UNA

2024-05-02

PARTE 1

CORRELACIÓN DE PEARSON AND SPEARMAN

INTRODUCCIÓN

En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias. Las relaciones o asociaciones de este tipo entre variables se denominan correlaciones; y están medidas en escalas ordinales o de intervalos. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables.

Cuando el aumento de una de las variables viene acompañado del aumento de la otra, se trata de una correlación positiva o directa. La superficie de un bosque y el número de nidos en él están correlacionados positivamente. Si el aumento de una variable viene acompañado de una disminución en la otra, la correlación es negativa o inversa.

El hecho de que dos variables estén correlacionadas no quiere decir que una sea la causante de la otra dos variables pueden estar independientemente relacionadas con una tercera (quizás no identificada).

Es importante notar que la existencia de correlación entre variables no implica causalidad.

Una correlación perfecta se dá cuando todos los puntos de un diagrama de dispersión forman una linea recta perfecta. Estas correlaciones perfectas (positivas o negativas) prácticamente no existen en biología; suelen ser privilegio exclusivo de los físicos.

En lenguaje llano, la palabra “correlación” describe cualquier tipo de relación entre objetos y hechos. No obstante, en estadística tiene un significado más preciso: se refiere a la relación cuantitativa entre dos variables medidas en escalas ordinales o de intervalos.

Los coeficientes de correlación se pueden calcular mediante métodos paramétricos y no paramétricos. Un coeficiente paramétrico es el Coeficiente de Correlación de Pearson, que se usa para observaciones obtenidas sobre una escala de intervalos y esta sujeto a condiciones más restrictivas que las alternativas no paramétricas. De estas, una de las más ampliamente utilizadas es el Coeficiente de Correlación por Rangos de Spearman.

Si no hay correlación de ningún tipo entre dos variable, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 solo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. Mientras mas cercano a cero la correlación es mas débil.

En ocasiones, una correlación fuerte puede ser considerada como sistemáticamente no significativa, mientras que una débil puede ser sistemáticamente significativa, por lo que debemos resolver esta aparente paradoja (revisar, supuestos, tamaños de muestras, diseño estadístico y poder de la prueba, entre otras).

COEFICIENTE DE CORRELACION DE PEARSON

El Coeficiente de Correlación de Pearson es un estadístico paramétrico cuya aplicación es adecuada cuando las observaciones, de unidades maestreadas aleatoriamente, están medidas en escalas de intervalos. Se asume que ambas variables tienen una distribución aproximadamente normal, o sea, distribución normal bivariante. Esto puede comprobarse mediante un diagrama de dispersión de los datos, puesto que un diagrama de este tipo para datos normales bivariantes presenta un contorno aproximadamente circular o elíptico. El circulo se acerca más a una elipse en tanto r aumenta su valor.

Otra forma de hacerlo de una forma elegante es a través del paquete PerformanceAnalytics

Cálculo de la correlación:

Antes de continuar, para saber que tipo correlación aplicar es importante revisar los supuestos de las pruebas.

Ambas variables presentan una distribución normal, por lo que Pearson es la prueba adecuada para nuestros datos.

COEFICIENTE DE DETERMINACION R2

Una pregunta importante que se plantea en el análisis de regresión es la siguiente: Que porcentaje de la variación total en Y se debe a la variación en X? En otras palabras, cual es la proporción de la variación total en Y que puede ser explicada por la variación en X?

El cuadrado del coeficiente de correlación de Pearson es, en si mismo, un estadístico de gran utilidad denominado coeficiente de determinación. Es una medida de la proporción de la variabilidad en una variable, atribuible a la variabilidad de la otra. En una correlación perfecta donde r = +1 o -1, la variación de variable se corresponde con una variación exacta en el valor de la otra. Esta situación no se suele dar en biología, puesto que son muchos los factores que, por lo general, regulan las relaciones entre variables entre organismos.

En el ejemplo anterior el coeficiente de determinación es 0.6075721 = 0,60.75 o 60.75%, de lo que se deduce que aproximadamente el 40% del peso de las aves no esta relacionado con la longitud del pico.

COEFICIENTE DE CORRELACION POR RANGOS DE SPEARMAN

Cuando exista alguna duda acerca de si se cumplen las relativamente rigurosas premisas para la aplicación del coeficiente de correlación de Pearson, entonces debemos considerar el uso de alguna alternativa no paramétrica.

Esta prueba estadística permite medir la correlación o asociación de dos variables y es aplicable cuando las mediciones se realizan en una escala ordinal, aprovechando la clasificación por rangos.

El coeficiente de correlación de Spearman se rige por las reglas de la correlación simple de Pearson, y las mediciones de este indice corresponden de + 1 a - 1, pasando por el cero, donde este ultimo significa no correlación entre las variables estudiadas, mientras que los dos primeros denotan la correlación máxima.

Una de las dos variables es asimétrica, por lo que tendremos que utilizar una correlación no paramétrica de Spearman

revise los argumentos de esas pruebas , ?cor.test.

Utilice la base de datos “women”. Que tipo de correlacion debe aplicar para mostrar si existe una asociacion entre la altura (height) y el peso (weight)

Se recomienda dar un vista al paquete “corrplot”, dado que permite ejecutar gráficas y correlaciones muy elegantes para ser usadas en publicación o presentaciones de sus trabajos. Además de que permite al lector hacer una lectura rápida del comportamiento de las variables en cuanto a su asociación.

FUNCIONES GRÁFICAS USANDO “corrplot

Aplicación gráfica

PARTE 2

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

INTRODUCCIÓN

El Análisis de Regresión se usa cuando el investigador sabe que existe una relación entre las variables porque hay una teoría o investigaciones previas que la han descubierto. Por ejemplo, la relación entre espacio y tiempo ya se sabe que es la velocidad, o como la relación entre voltaje e intensidad de corriente eléctrica. En estos casos, el investigador suele estar interesado en verificar experimentalmente tal relación y el objeto de la regresión es encontrar la curva que mejor ajuste a sus datos experimentales.

Utilizando un diagrama de dispersión de puntos podemos resaltar las características de dos variables relacionadas, la linea que se genera denomina linea de mejor ajuste.

SUPUESTOS DEL MODELO DE REGRESION LINEAL

EJEMPLO

Observar que el anova es significativo. Muy importante tener este resultado en las pruebas de la regresión, dado que esto se ajusta a lo que buscamos en la hipótesis de la regresión.

Ho = pendientes es igual a cero

H1 = pendientes es diferente a cero

VERIFICACIÓN DE SUPUESTOS

FUNCIONES GRÁFICAS USANDO “visreg” AND “ggplot2

Exploraremos el uso de dos paquetes visreg y ggplot2 para traficar. Usted decide cual es su preferido.

Los valores que debemos interpretar del summary son:

La ecuación de predicción obtenida por la regresión sería:

peso = -67.4679 + 0.8007 * altura

INTEPRETACIÓN DE RESULTADOS

En promedio, cada incremento en una unidad de la altura, corresponde a un incremento del peso de 0.80 kg, asi mismo que una persona cuyo peso sea de cero (origen de y), tenga una altura de -67.46, esto obviamente no parece posible. Dado que la regresion estima como logramos ver, estimaciones mas alla de los valores observados.

PRUEBA SOBRE LOS RESIDUOS

Revisar el vídeo tutorial de Regresión Lineal Simple (Dar clip)

PARTE 3

ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

INTRODUCCIÓN

En ocasiones tenemos una variable respuesta “dependiente” (Y) de un múltiples variables predictorias o independiente (X1, X2, X3, …,Xi). En esta circustancia, un analisis de regresión lineal múltiple podría determinar un modelo de la relación de las variable respuesta con las variable regresoras. En este tipo de modelos es importante probar la normalidad de residuos, heterocedasticidad y multicolinealidad.

A continuación de desarrolla un ejemplo de regresión múltiple:

Usaremos los datos de Prestige desde la library (car)

Generamos un modelo de regresion multiple (variables independientes)

Revisamos el modelo

Verificamos los supuestos gráficamente

Distribucion de los residuos

Gráfico con el paquete visreg

Gráfico con el paquete ggplot2

¿Cuál modelos es el mejor?

Buscamos las variables influyentes en el modelo. El siguiente script nos premite ver las variables que afectan el modelo de regresion.

Revisar el vídeo tutorial ¿Como eliminar datos de un data.frame (matriz de datos) en R?(Dar clip)

Outlier dentro del modelo de regresión lineal

Supuesto de heretocesdasticidad

Supuesto de multicolineariedad

Ejemplo de regresiones lineales múltiples

Utilizaremos la base de datos “trees”. Observe que la base de datos es interactiva, para visualizar la cantidad de datos que usted requiera.

Recomiendo hacer inspección básica, por ejemplo, revisar el supuesto de que las variables se ajustan a un modelo de regresión lineal.

Note que Volume y Height pareciera no ajustarse de manera lineal

Modelo de regresión

Revisamos los supuestos

Parece haber ciertos problemas en el cumplimiento de los supuestos!

El primer gráfico enfrenta los errores residuales frente a sus valores ajustados. Los residuos deben estar distribuidos al azar alrededor de la línea horizontal que representa un error residual de cero; es decir, no debe haber una tendencia clara en la distribución de puntos. Una tendencia en la variabilidad de los residuos sugiere que la varianza está relacionada con la media, violando el supuesto de varianza constante. Si el gráfico tiene forma de embudo, es decir, si los puntos parecen estar más o menos extendidos a lo largo del gráfico, entonces lo más probable es que exista heterocedastididad en los datos Así mismo, si se presentan agrupados los residuos, es posible que la aleatoriedad no se cumpla.

El segundo gráfico:residuos tipificados se trazan contra los cuantiles de una distribución normal estándar. Si los residuos se distribuyen normalmente los datos se deben situarse a lo largo de la línea.

El tercer gráfico:escala-ubicación en el que los residuos están estandarizados por sus desviaciones estándar estimadas. Esta gráfica se utiliza para detectar si la difusión de los residuos es constante en el rango de valores ajustados. Por lo tanto una variación de la tendencia, es que existen valores altos muestran una gran variación, y se puede traducir como el no cumplimiento de la homogeneidad de las varianzas

El cuarto gráfico:muestra el valor leverage de cada punto, que se relaciona con la medida de su importancia en la determinación del modelo de regresión. Están representados los datos que ejercen mayor influencia.

A veces es bueno correr algunas pruebas alrternativas para identificar esos valores influyentes de la regresión: Ejm

Observe que los valores son la posición dentro de los datos

De momento nos queda primeramente solucionar el cumplimeinto de los supuestos.

Por lo que ejecutaremos una transformación de los datos.

Note como mejoran los supuestos

Forma la parte gráfica intereactiva en ggplot (se requieren de ciertos paquetes)

Buscando valores influyentes

Identificamos valores extremos

Extraemos el valor extremos y probamos un nuevo modelo

Nota: no se recomienda hacer más de una extracción al modelo

Comparación de los modelos

Revisión de Supuestos con cálculos estadísticos

Normalidad

Homogeneidad de las varianzas

Explicación

Observemos el Adjusted R-squared:0.98, que mide la variabilidad de los datos explicada por el modelo. En nuestro caso decir que el 98% de la variabilidad de los datos fue recogida por el modelo, en otras palabras el modelo es bueno, además de ser significativo.

Así mismo la ecuación de la regresión múltiple quedaría escrita de la siguiente manera:

log(Volumen)= -6.63162 + (log(Height) * (1.11712)) + (log(Girth) * (1.98265))

Por lo que si quisieramos hacer una predicción, sustituimos los valores en la ecuación.

Vamos a predecir por ejemplo, cuando la atura de un árbol es de 65 y el “girth” de 10.

Por lo que el valor esperado del volumen sería “2.596892”. Note que este valor está basado en la transformación logaritmica, y para transformarlo a su escala original, invertimos el logaritmo aplicando “exp” (función exponencial)

Por lo que 13.421 sería el valor en las unidades originales en las que se encuentran los datos.

La forma correcta de aplicar la predicción en R es utilizando la función “predict.lm” y como nuestro modelo es bueno para predecir, aplicamos para un un conjunto los valores los siguiente.

Ahora utilizaremos la base de datos “mtcars

a) Genere un modelo de regresión utilizando únicamente las filas 1:15

b) Genere su modelo de regresión utilizando como variable dependiente a “mpg” y como varibles independientes a “hp+wt”.

Con esto, vamos a explicar el consumo (mpg) en función de la potencia (hp) y del peso (wt):

Esto se interpreta: Cuanto más potente es el coche, menos millas recorre (de ahí el signo negativo de su coeficiente), y cuanto más pesa, menos millas recorre.

El R-squared es del 87.5% , lo que quiere decir que esas dos variables explican bastante bien el consumo.

c) Predecir, las millas recorridas por galón de un coche que tiene 150 caballos y pesa 2.5 (x 1000 lbs)

Interacción

En este caso no hubo un interación significativa, lo que se interpreta que ninguna de las variables independientes se comporta de manera diferente con respecto a las variable dependiente.