A principios del siglo XX, los astrónomos E. Hertzsprung y H.N. Russell, observaron una cierta relación entre el tipo espectral de las estrellas y su luminosidad, de tal forma que las estrellas azules parecían ser las más brillantes.
Como el color de las estrellas es una expresión de su temperatura superficial —las estrellas azules son las más calientes y las rojas las más frías— pensaron en la existencia de una relación entre la temperatura de una estrella y su luminosidad.
Con objeto de estudiar esta posible relación, representaron en un diagrama de dispersión la temperatura superficial en el eje de abscisas y la luminosidad en el de ordenadas. En él se observa que, en efecto, parece existir una relación entre luminosidad y temperatura. Además se puede deducir la forma de esta relación: lineal creciente para un gran número de estrellas, las incluidas en lo que se denominó “secuencia principal”, y lineal, casi constante, para el grupo superior de estrellas rojas.
El propósito del análisis de regresión y correlación es el estudio de la relación existente entre dos variables aleatorias, una denominada independiente o covariable, bajo el control del experimentador, habitualmente representada por X y con valores en el eje de abscisas, y otra denominada dependiente, habitualmente representada por Y y con valores en el eje de ordenadas. En el ejemplo anterior, la Luminosidad sería la variable dependiente y la Temperatura Superficial la covariable independiente.
El análisis de Regresión se ocupa de estudiar la forma de la relación existente entre dos o mas variables aleatorias, mientras que, el Análisis de correlación investiga el grado o fuerza de dicha relación.
Esta relación lineal existente entre dos variables aleatorias regresión lineal simple, mientras que, cuando se consideran mas de dos covariables se hablará de regresión lineal Múltiple.
Se midio el contenido de oxígeno, variable Y, a diversas profundidades, variable X, en el lago Worther de Australia, obteniendose los siguientes datos:
x<-c(15,20,30,40,50,60,70)
y<-c(6.5, 5.6, 5.4, 6,4.6,1.4,0.1)
modelo<-lm(y~x)
summary(modelo)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## 1 2 3 4 5 6 7
## -0.50907 -0.86841 0.01289 1.69419 1.37550 -0.74320 -0.96190
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.63102 1.07747 8.010 0.00049 ***
## x -0.10813 0.02399 -4.508 0.00635 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.204 on 5 degrees of freedom
## Multiple R-squared: 0.8025, Adjusted R-squared: 0.7631
## F-statistic: 20.32 on 1 and 5 DF, p-value: 0.006352
# Graficar puntos y línea de regresión
plot(x, y, pch=16, col="blue", xlab="X", ylab="Y", main="Regresión lineal simple")
abline(modelo, col="red", lwd=2)
Las calificaciones obtenidas, en dos asignaturas por 17 alumnos de un centro escolar fueron las siguientes:
X<-c(3,4,6,7,5,8,7,3,5,4,8,5,5,8,8,8,5)
Y<-c(5,5,8,7,7,9,10,4,7,4,10,5,7,9,10,5,7)
¿Qué se puede decir acerca del coeficiente de correlación poblacional entre ambas variables?
cor(X,Y)
## [1] 0.7590159
Se consideró que el Número de admisiones previas del paciente X1 y su Edad, X2, podrían servir para predecir la estancia en días Y, que pasaban en un determinado hospital ciertos enfermos crónicos.
Con dicho propósito, se tomó una muestra aletoria simple de 15 pacientes la cual suministró los siguientes datos:
x1<-c(0,0,0,1,1,1,1,2,2,2,3,3,4,4,5)
x2<-c(21,18,22,24,25,25,26,34,25,38,44,51,39,54,55)
Ym<-c(15,15,21,28,30,35,40,35,30,45,50,60,45,60,50)
Se quiere analizar si alguna o ambas variables independientes x1 y x2, pueden servir para explicar a la variable dependiente Y, estimado previamente los coeficientes de regresión de las variables significativas.
modelo_multiple<-lm(Ym~x1+x2)
summary(modelo_multiple)
##
## Call:
## lm(formula = Ym ~ x1 + x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.122 -3.543 1.542 2.317 10.557
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.08572 6.73931 0.309 0.76226
## x1 0.05699 2.61310 0.022 0.98296
## x2 1.05002 0.32621 3.219 0.00737 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.059 on 12 degrees of freedom
## Multiple R-squared: 0.8503, Adjusted R-squared: 0.8254
## F-statistic: 34.08 on 2 and 12 DF, p-value: 1.125e-05
modelo_multiple2<-lm(Ym~x2)
summary(modelo_multiple2)
##
## Call:
## lm(formula = Ym ~ x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.088 -3.561 1.534 2.345 10.552
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.977 4.373 0.452 0.659
## x2 1.057 0.123 8.593 1.01e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.821 on 13 degrees of freedom
## Multiple R-squared: 0.8503, Adjusted R-squared: 0.8388
## F-statistic: 73.84 on 1 and 13 DF, p-value: 1.014e-06
modelo_multiple1<-lm(Ym~ x1)
summary(modelo_multiple1)
##
## Call:
## lm(formula = Ym ~ x1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.168 -7.199 -1.198 5.817 14.420
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.198 3.312 6.703 1.46e-05 ***
## x1 7.794 1.344 5.797 6.21e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.947 on 13 degrees of freedom
## Multiple R-squared: 0.7211, Adjusted R-squared: 0.6996
## F-statistic: 33.6 on 1 and 13 DF, p-value: 6.207e-05
Se evaluaron tres estructuras lineales para determinar la capacidad predictiva de las variables \(x_1\) y \(x_2\) sobre la variable respuesta \(Y_m\).
| Métrica / Parámetro | modelo_multiple1 (\(x_1\)) |
modelo_multiple2 (\(x_2\)) |
modelo_multiple (\(x_1 + x_2\)) |
|---|---|---|---|
| Variable(s) Explicativa(s) | \(x_1\) | \(x_2\) | \(x_1, x_2\) |
| \(R^2\) Múltiple | 0.7211 | 0.8503 | 0.8503 |
| \(R^2\) Ajustado | 0.6996 | 0.8388 | 0.8254 |
| Error Estándar (RSE) | 7.947 | 5.821 | 6.059 |
| Estadístico F | 33.60 | 73.84 | 34.08 |
| p-value Global | 6.207e-05 | 1.014e-06 | 1.125e-05 |
| Significancia \(x_1\) | \(***\) | N/A | ns (\(p = 0.9829\)) |
| Significancia \(x_2\) | N/A | \(***\) | \(**\) |
modelo_multiple2 es
el que presenta mejor ajuste.modelo_multiple2 es superior. Esto demuestra que la adición
de \(x_1\) al modelo que ya contiene a
\(x_2\) no aporta información
estadísticamente significativa y penaliza la precisión global.modelo_multiple en favor de la parsimonia de
modelo_multiple2, dado que este último minimiza el error de
predicción (RSE = 5.821).R | 18 | 20 | 16 | 19 | 9 | 15
P | 2 | 3 | 1.2 | 0.7 | 0.5 | 1.8
Determinar la recta de regresión y analizar si es significativa.
PA | 20.79 | 22.40 | 23.89 | 24.02 | 25.14 | 29.04
T | 194.5 | 197.9 | 200.9 | 201.4 | 203.6 | 210.7
Determinar la recta de regresión y analizar si es significativa.
X | 0.6 | 0.7 | 1.0 | 1.2 | 1.6 | 1.9 | 2.3 | 3.0 | 3.3 | 3.7 | 4.0 |
4.5 | 5.4 | 5.9 | 6.1| 6.4 | 8.9 | 10 | 12
Y | 20 | 70 | 100 | 130 | 120 | 170 | 195 | 190 | 210 | 360 | 300 | 250
| 450 | 510 | 630 | 650 | 780 | 730 | 850
Determinar la recta de regresión y analizar si es significativa.
Y | 40 | 35 | 30 | 20 |25
x1| 100 | 90 | 80 | 75 | 70
x2| 35 | 32 | 28 | 20 | 30
Realizar un análisis de regresión lineal múltiple.
x1| 1 | 111 | 278 | 63 | 81 | 16 | 24 | 0 | 9 | 5 |18
x2 | 31| 0 | 1622 | 150 | 13 | 3 | 33 | 58 | 107 | 25 | 5
Y| 1211 | 618 | 4260 | 187 | 137 | 249 | 296 | 128 | 505 | 998 | 250
Realizar un análisis de regresión lineal múltiple.