Introducción

A principios del siglo XX, los astrónomos E. Hertzsprung y H.N. Russell, observaron una cierta relación entre el tipo espectral de las estrellas y su luminosidad, de tal forma que las estrellas azules parecían ser las más brillantes.

Como el color de las estrellas es una expresión de su temperatura superficial —las estrellas azules son las más calientes y las rojas las más frías— pensaron en la existencia de una relación entre la temperatura de una estrella y su luminosidad.

Con objeto de estudiar esta posible relación, representaron en un diagrama de dispersión la temperatura superficial en el eje de abscisas y la luminosidad en el de ordenadas. En él se observa que, en efecto, parece existir una relación entre luminosidad y temperatura. Además se puede deducir la forma de esta relación: lineal creciente para un gran número de estrellas, las incluidas en lo que se denominó “secuencia principal”, y lineal, casi constante, para el grupo superior de estrellas rojas.

El propósito del análisis de regresión y correlación es el estudio de la relación existente entre dos variables aleatorias, una denominada independiente o covariable, bajo el control del experimentador, habitualmente representada por X y con valores en el eje de abscisas, y otra denominada dependiente, habitualmente representada por Y y con valores en el eje de ordenadas. En el ejemplo anterior, la Luminosidad sería la variable dependiente y la Temperatura Superficial la covariable independiente.

El análisis de Regresión se ocupa de estudiar la forma de la relación existente entre dos o mas variables aleatorias, mientras que, el Análisis de correlación investiga el grado o fuerza de dicha relación.

Esta relación lineal existente entre dos variables aleatorias regresión lineal simple, mientras que, cuando se consideran mas de dos covariables se hablará de regresión lineal Múltiple.

Ejemplos.

Regresión lineal

Se midio el contenido de oxígeno, variable Y, a diversas profundidades, variable X, en el lago Worther de Australia, obteniendose los siguientes datos:

x<-c(15,20,30,40,50,60,70)
y<-c(6.5, 5.6, 5.4, 6,4.6,1.4,0.1)

modelo<-lm(y~x)
summary(modelo)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##        1        2        3        4        5        6        7 
## -0.50907 -0.86841  0.01289  1.69419  1.37550 -0.74320 -0.96190 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.63102    1.07747   8.010  0.00049 ***
## x           -0.10813    0.02399  -4.508  0.00635 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.204 on 5 degrees of freedom
## Multiple R-squared:  0.8025, Adjusted R-squared:  0.7631 
## F-statistic: 20.32 on 1 and 5 DF,  p-value: 0.006352
# Graficar puntos y línea de regresión
plot(x, y, pch=16, col="blue", xlab="X", ylab="Y", main="Regresión lineal simple")
abline(modelo, col="red", lwd=2)

Correlación

Las calificaciones obtenidas, en dos asignaturas por 17 alumnos de un centro escolar fueron las siguientes:

X<-c(3,4,6,7,5,8,7,3,5,4,8,5,5,8,8,8,5)
Y<-c(5,5,8,7,7,9,10,4,7,4,10,5,7,9,10,5,7)

¿Qué se puede decir acerca del coeficiente de correlación poblacional entre ambas variables?

cor(X,Y)
## [1] 0.7590159

Regresión lineal múltiple

Se consideró que el Número de admisiones previas del paciente X1 y su Edad, X2, podrían servir para predecir la estancia en días Y, que pasaban en un determinado hospital ciertos enfermos crónicos.

Con dicho propósito, se tomó una muestra aletoria simple de 15 pacientes la cual suministró los siguientes datos:

x1<-c(0,0,0,1,1,1,1,2,2,2,3,3,4,4,5)
x2<-c(21,18,22,24,25,25,26,34,25,38,44,51,39,54,55)
Ym<-c(15,15,21,28,30,35,40,35,30,45,50,60,45,60,50)

Se quiere analizar si alguna o ambas variables independientes x1 y x2, pueden servir para explicar a la variable dependiente Y, estimado previamente los coeficientes de regresión de las variables significativas.

modelo_multiple<-lm(Ym~x1+x2)
summary(modelo_multiple)
## 
## Call:
## lm(formula = Ym ~ x1 + x2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.122  -3.543   1.542   2.317  10.557 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  2.08572    6.73931   0.309  0.76226   
## x1           0.05699    2.61310   0.022  0.98296   
## x2           1.05002    0.32621   3.219  0.00737 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.059 on 12 degrees of freedom
## Multiple R-squared:  0.8503, Adjusted R-squared:  0.8254 
## F-statistic: 34.08 on 2 and 12 DF,  p-value: 1.125e-05

Contrastes de regresión lineal

modelo_multiple2<-lm(Ym~x2)
summary(modelo_multiple2)
## 
## Call:
## lm(formula = Ym ~ x2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.088  -3.561   1.534   2.345  10.552 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.977      4.373   0.452    0.659    
## x2             1.057      0.123   8.593 1.01e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.821 on 13 degrees of freedom
## Multiple R-squared:  0.8503, Adjusted R-squared:  0.8388 
## F-statistic: 73.84 on 1 and 13 DF,  p-value: 1.014e-06
modelo_multiple1<-lm(Ym~ x1)
summary(modelo_multiple1)
## 
## Call:
## lm(formula = Ym ~ x1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.168  -7.199  -1.198   5.817  14.420 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   22.198      3.312   6.703 1.46e-05 ***
## x1             7.794      1.344   5.797 6.21e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.947 on 13 degrees of freedom
## Multiple R-squared:  0.7211, Adjusted R-squared:  0.6996 
## F-statistic:  33.6 on 1 and 13 DF,  p-value: 6.207e-05

Análisis Comparativo de Modelos de Regresión

Se evaluaron tres estructuras lineales para determinar la capacidad predictiva de las variables \(x_1\) y \(x_2\) sobre la variable respuesta \(Y_m\).

Métrica / Parámetro modelo_multiple1 (\(x_1\)) modelo_multiple2 (\(x_2\)) modelo_multiple (\(x_1 + x_2\))
Variable(s) Explicativa(s) \(x_1\) \(x_2\) \(x_1, x_2\)
\(R^2\) Múltiple 0.7211 0.8503 0.8503
\(R^2\) Ajustado 0.6996 0.8388 0.8254
Error Estándar (RSE) 7.947 5.821 6.059
Estadístico F 33.60 73.84 34.08
p-value Global 6.207e-05 1.014e-06 1.125e-05
Significancia \(x_1\) \(***\) N/A ns (\(p = 0.9829\))
Significancia \(x_2\) N/A \(***\) \(**\)

Conclusión Estadística y Selección

  1. Modelo Óptimo: El modelo_multiple2 es el que presenta mejor ajuste.
  2. Justificación: A pesar de que el modelo con ambas variables tiene el mismo \(R^2\) (0.8503), el \(R^2\) Ajustado del modelo_multiple2 es superior. Esto demuestra que la adición de \(x_1\) al modelo que ya contiene a \(x_2\) no aporta información estadísticamente significativa y penaliza la precisión global.
  3. Recomendación: Se sugiere descartar modelo_multiple en favor de la parsimonia de modelo_multiple2, dado que este último minimiza el error de predicción (RSE = 5.821).

Ejercicios

  1. Se cree que existe una relación de tipo lineal entre el nivel de ingresos de una familia y la cantidad de basura producida por ésta. Con objeto de averiguar si puede confirmarse tal hipótesis, se eligieron al azar seis comunidades de vecinos para las que se anotó su renta R y el peso de la basura producida P. Los resultados obtenidos fueron los siguientes:

R | 18 | 20 | 16 | 19 | 9 | 15
P | 2 | 3 | 1.2 | 0.7 | 0.5 | 1.8

Determinar la recta de regresión y analizar si es significativa.

  1. Se cree que existe una relación de tipo lineal entre el punto de ebullición del agua y la presión atmosférica del lugar en el que ésta se pone a hervir. Para analizar esta hipótesis, se obtuvieron seis mediciones en los Alpes a seis alturas diferentes en la que se observó una determinada presión atmosférica (en pulgadas de mercurio) PA, anotándose la temperatura T a la que comenzaba a hervir el agua (en grados Fahrenheit) en cada una de esas seis alturas. Los resultados obtenidos fueron los siguientes:

PA | 20.79 | 22.40 | 23.89 | 24.02 | 25.14 | 29.04
T | 194.5 | 197.9 | 200.9 | 201.4 | 203.6 | 210.7

Determinar la recta de regresión y analizar si es significativa.

  1. Se cree que el tamaño T de los asentamientos prehistóricos puede servir para predecir el tamaño de la población P del lugar donde aquellos se produjeron. Por ello se quiere determinar la recta de regresión basándose en datos actuales y, con ella, hacer estimaciones de tiempos pasados. Con este propósito se obtuvieron los siguientes datos de Tamaño de Asentamientos en hectáreas, X y Número de habitantes, Y, de los pueblos actuales del área en estudio:

X | 0.6 | 0.7 | 1.0 | 1.2 | 1.6 | 1.9 | 2.3 | 3.0 | 3.3 | 3.7 | 4.0 | 4.5 | 5.4 | 5.9 | 6.1| 6.4 | 8.9 | 10 | 12
Y | 20 | 70 | 100 | 130 | 120 | 170 | 195 | 190 | 210 | 360 | 300 | 250 | 450 | 510 | 630 | 650 | 780 | 730 | 850

Determinar la recta de regresión y analizar si es significativa.

  1. La Obsidiana es un mineral de origen volcánico al que los pobladores de Mesoamérica, en la época prehispánica, atribuían propiedades mitológicas (a causa de la leyenda del guerrero Obsid) y era muy utilizado en la fabricación de elementos de caza y defensa (tales como puntas de flecha, de lanza, raspadores, cuchillos) así como objetos rituales. En Arqueología se cree que los dos factores que influyen en la Densidad en gramos, Y, de hallazgos de este mineral en los yacimientos arqueológicos son, la Distancia en kilómetros, X1, a la cual se hallaba la fuente de donde se extraía el mineral y el Tamaño en hectáreas, X2, del asentamiento. Examinados cinco asentamientos, se obtuvieron los siguientes datos:

Y | 40 | 35 | 30 | 20 |25

x1| 100 | 90 | 80 | 75 | 70

x2| 35 | 32 | 28 | 20 | 30

Realizar un análisis de regresión lineal múltiple.

  1. En un estudio de restos de fauna en varias cuevas del Pleistoceno, se cree que el número de fragmentos de huesos de lobo, X1, y de huesos de bóvido, X2, son significativos para predecir el total de fragmentos de la cueva, Y. Los datos de que se dispone son los siguientes:

x1| 1 | 111 | 278 | 63 | 81 | 16 | 24 | 0 | 9 | 5 |18

x2 | 31| 0 | 1622 | 150 | 13 | 3 | 33 | 58 | 107 | 25 | 5

Y| 1211 | 618 | 4260 | 187 | 137 | 249 | 296 | 128 | 505 | 998 | 250

Realizar un análisis de regresión lineal múltiple.