alt text

Tarea 2

Metodos estadísticos

Alejandro Guzmán Rodriguez

Problema 1

Los datos:

temp <- c(24.9, 35, 44.9, 55.1, 65.2, 75.2, 85.2, 95.2)
mpa <- c(1.133, 0.9772, 0.8532, 0.755, 0.6723, 0.6021, 0.542, 0.5074)

a) Escriba un modelo de regresion lineal y supuestos

\[ y=\beta_0+\beta_1x+\varepsilon \]

Donde:

\( y= \) viscosidad (mPa's)

\( \beta_0= \) Intercepto,ordenada al origen

\( \beta_1= \) Coeficiente correspondiente a la temperatura (pendiente de la recta)

\( x= \) Temperatura (C°)

\( \varepsilon= \) Error aleatorio

En cuanto a los supuestos:

\( \varepsilon\; iid \sim N(0,\sigma) \)

b) Ajuste un modelo de regresión lineal e interprete sus coeficientes

mod1 <- lm(mpa ~ temp)
mod1$coefficients
## (Intercept)        temp 
##    1.281511   -0.008758

El modelo de regresión indica que el intercepto es en 1.28 mPa's, es decir que cuando la temperatura sea de 0C°, si bien dados los datos con los cuales se creo el modelo no es prudente realizar predicciones a esas temperaturas.

La mejor manera de interpretar los coeficientes es decir que se espera un decremento promedio de la viscosidad de 0.008758 mPa's por cada C° que aumente la temperatura.

c) Pruebe la hipótesis \( \beta_1=0 \;\alpha=0.05 \)

el documento original dice \( \alpha=0.5 \) pero asumimos que es un error de escritura

summary(mod1)$coefficients[2, ]
##   Estimate Std. Error    t value   Pr(>|t|) 
## -8.758e-03  7.284e-04 -1.202e+01  2.007e-05

Dado \( H_0:\beta_1=0\;\;,\;\;H_1:\beta_1\neq 0 \)

Al obtener una t como estadístico de prueba cuyo p-valor<\( \alpha_{0.05} \) rechazamos \( H_0 \) con un 95% de confianza. Es decir que concluimos que la temperatura impacta, de manera inversamente proporcional, a la viscosidad.

Obtenga \( R^2 \)

summary(mod1)$r.squared
## [1] 0.9602

Que se puede interpretar como que el modelo explica el 96.0153488732283 % de la variabilidad de la viscosidad. Lo cual estaria bien padre para cualquier cosa que hiciera yo, pero supongo que para un físico no es la gran cosa.

Realice un pronóstico para 40C°

Aquí hay al menos dos formas de hacerlo, primero como una multiplicación de matrices, y la segunda utilizando la funcion 'predict'

c(1, 40) %*% as.matrix(mod1$coefficients)  #Primera forma 
##        [,1]
## [1,] 0.9312

predict(mod1, data.frame(temp = 40))  #segunda forma
##      1 
## 0.9312

Pero quizá es más heurístico y hasta divertido, verlo gráficamente:

plot(temp, mpa, main = "Modelo 1", ylim = c(0.35, 1.2))
abline(mod1, col = "blue")
points(40, c(1, 40) %*% as.matrix(mod1$coefficients), pch = 15, col = 2)
lines(temp, predict(mod1, interval = "prediction")[, 2], lty = 2, col = 3)
## Warning: Predictions on current data refer to _future_ responses
lines(temp, predict(mod1, interval = "prediction")[, 3], lty = 2, col = 3)
## Warning: Predictions on current data refer to _future_ responses
legend("topright", pch = 15, col = c("red", "white"), bty = "n", legend = c("temp=40", 
    ""))
legend("topright", lty = 2, col = c("white", "green"), bty = "n", legend = c("", 
    "bandas de predicción (95%)"))

plot of chunk unnamed-chunk-6

Veamos además la combrobación de supuestos, a mi me gusta el método gráfico

par(mfrow = c(2, 1))
plot(mpa, mod1$residual, ylab = "residuales")
abline(h = 0, lty = 2)
qqnorm(mod1$residual)
qqline(mod1$residual, lty = 2)

plot of chunk unnamed-chunk-7

Concluimos que hay un patrón en en los residuales, que tienden a tener mayor variabilidad en la parte baja y alta de la escala, en cuanto a la normalidad nos parece que no hay demasiados problemas.


Problema 2

Decidimos utilizar un OCR para leer la tabla, para que sea accesible rapidamente

dta2 <- read.csv("Tarea 2 e 2.csv")
names(dta2) <- c("t_ac", "c_ac", "t_ag", "c_su", "c_bl", "y")

a) Escriba un modelo de regresión lineal y supuestos

\[ y=\beta_0+\left(\sum_{i=1}^5\beta_i x_i\right)+\varepsilon \]

\( y= \) medida adecuada de la blancura del rayón

\( \beta_i= \) Coefficiente correspondiente a la variable independiente \( x_i \)

\( x_1= \) temperatura del baño ácido

\( x_2= \) concentración del ácido de cascada

\( x_3= \) temperatura del agua

\( x_4= \) concentración de sulfuro

\( x_5= \) cantidad de blanqueador de cloro

\( \varepsilon= \) Error aleatorio

En cuanto a los supuestos:

\( \varepsilon \; iid \;\wedge \varepsilon\sim N(0,\sigma) \)

b) Ajuste un modelo de regresión lineal e interprete coeficientes

Ajustamos un modelo sin interacciones.

mod2 <- lm(y ~ t_ac + c_ac + t_ag + c_su + c_bl, dta2)
mod2$coefficients
## (Intercept)        t_ac        c_ac        t_ag        c_su        c_bl 
##    -35.2626      0.7454     20.2292      0.7931     25.5833     17.2083

\( \beta_1 \), cuando la temperatura del baño ácido aumenta en un grado la blancura del rayón aumenta 0.7454 unidades siempre y cuando el resto de las variables se mantenga.
\( \beta_2 \), cuando la concentración del ácido de cascada aumenta en una unidad (no se como se mide esto) el grado la blancura del rayón aumenta 20.2292 unidades siempre y cuando el resto de las variables se mantenga.
\( \beta_3 \), cuando la temperatura del agua aumenta en un C° el grado la blancura del rayón aumenta 0.7931 unidades siempre y cuando el resto de las variables se mantenga.
\( \beta_4 \), cuando la concentracion de sulfuro aumenta una unidad el grado la blancura del rayón aumenta 25.5833 unidades siempre y cuando el resto de las variables se mantenga.
\( \beta_5 \), cuando la cantidad de blanqueador de cloro aumenta en una unidad el grado la blancura del rayón aumenta 17.2083 unidades siempre y cuando el resto de las variables se mantenga.

c) Pruebe la hipótesis todos los betas son cero (use alfa=0.5)

Nuevamente consideramos \( \alpha=0.05 \)

Sea \[ H_0:\forall \beta_i=0\;\;,\;\; H_1:\exists \beta_i\neq 0 \]

Donde el estadístico de prueba sigue una distribución F.Para esto es conveniendo una prueba de análisis de varianza:

summary(mod2)$fstatistic
##  value  numdf  dendf 
##  3.724  5.000 20.000

Es decir que nuestro estadístico de prueba \( F= \) 3.7243 con un p-valor correspondiente a 0.0152 \( <\alpha_{0.05} \), por lo cual rechazamos \( H_0 \) con un 95% de confianza. Es decir que existe al menos un coeficiente del modelo que es diferente de cero.

d) Obtenga R2 ajustado

Es este:

summary(mod2)$adj.r.squared
## [1] 0.3527