Importar datos

require(faraway)
require(ggplot2)
require(plotly)
data("cornnit")
cornnit
##    yield nitrogen
## 1    115        0
## 2    128       75
## 3    136      150
## 4    135      300
## 5     97        0
## 6    150       75
## 7    154      150
## 8    156      300
## 9     95        0
## 10   121       75
## 11   120      150
## 12   134      300
## 13    91        0
## 14   124       75
## 15   145      150
## 16   135      300
## 17   105        0
## 18   140       50
## 19   138      100
## 20   139      200
## 21    47        0
## 22   140       50
## 23   132      100
## 24   151      200
## 25    66        0
## 26   109       50
## 27   136      100
## 28   144      200
## 29    86        0
## 30   135       50
## 31   139      100
## 32   150      200
## 33   100        0
## 34   146       50
## 35   148      100
## 36   168      200
## 37    68        0
## 38   116       50
## 39   146      100
## 40   122      200
## 41   104        0
## 42   142       50
## 43   140      100
## 44   141      200

Se observa en la tabla que tenemos la relación entre las variables yield y nitrogen, siendo yield la variable dependiente y nitrogen la variable independiente.

EXPLORACIÓN DE LOS DATOS

g1=ggplot(data=cornnit, aes(x=nitrogen,y=yield))+geom_point()+theme_bw()
g1

g2=ggplot(data=cornnit, aes(x=nitrogen,y=yield))+geom_point()+theme_bw()+geom_smooth()
g2
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

g3=ggplot(data=cornnit, aes(x=nitrogen,y=yield))+geom_point()+theme_bw()+geom_smooth(method="lm")
g3
## `geom_smooth()` using formula 'y ~ x'

cor(cornnit)
##              yield  nitrogen
## yield    1.0000000 0.6294562
## nitrogen 0.6294562 1.0000000

Se observa una relación directa entre la aplicación de nitrógeno y el rendimiento. Sin embargo, la relación mas apropiada no es lineal. El coeficiente de correlación de Pierson nos indica una relación media-fuerte (0.63)

ESTIMACIÓN DEL MODELO LINEAL SIMPLE

mod=lm(yield~nitrogen, data=cornnit)
summary(mod)
## 
## Call:
## lm(formula = yield ~ nitrogen, data = cornnit)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -60.439 -10.939   1.534  14.082  29.697 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 107.43864    4.66622   23.02  < 2e-16 ***
## nitrogen      0.17730    0.03377    5.25 4.71e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.53 on 42 degrees of freedom
## Multiple R-squared:  0.3962, Adjusted R-squared:  0.3818 
## F-statistic: 27.56 on 1 and 42 DF,  p-value: 4.713e-06

Ecuación general: \(y_i= \beta_0 +\beta_1 *x_i + e_i\)

Para este ejercicio: \(y_i= 107.43 +0.17730 *nitrogen_i + e_i\)

El \(\beta_1=0.17730\) nos indica que por cada aplicación adicional de nitrogeno, el rendimiento se incrementa en 0.17730.

El \(\beta_0=107.43\) nos indica que cuando no se aplica nitrógeno el rendimiento esperado es de 107.43

Como se observa en los valores P, los coeficientes del modelo \(\beta_0 y \beta_1\) son significativos, es decir, la variable nitrógeno es una variable significativa para explicar el rendimiento.

R-CUADRADO MULTIPLE: Nos permite medir el ajuste del modelo. En este caso es 0.3962, es decir que la variabilidad del rendimiento se explica en un 40% aproximadamente por el modelo.

PREDECIR CON EL MODELO:

Ahora bien, de acuerdo con el modelo, qué pasa si al maíz le aplicamos 210 de nitrogeno?

predict(mod,list(nitrogen=210))
##        1 
## 144.6709
predict(mod,list(nitrogen=210),interval = "confidence", level= 0.95)
##        fit      lwr      upr
## 1 144.6709 135.0908 154.2511

Se espera que el rendimiento promedia sea de 144.67. El intervalo de confianza nos indica que este valor promedio puede estar ebtre 135 y 154.2 de rendimiento con una 95% de confianza.

VALIDACIÓN DE SUPUESTOS: Transformación del modelo.