Estudie las propiedades de la función R lm usando datos simulados como en:
x = rnorm (20)
y = 3 * x + 5 + rnorm (20, sd = 0.3)
reslm = lm (y ~ x)
summary (reslm)
Los aspectos de simulación relacionados con la distribución normal (y con estas otras distribuciones estándar) se discutirán en detalle en el Capítulo 2.
solucion:
x = rnorm (20)
y = 3 * x + 5 + rnorm (20, sd = 0.3)
reslm = lm (y ~ x)
summary (reslm)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.71116 -0.20155 0.00144 0.23213 0.56041
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.99681 0.07150 69.88 <2e-16 ***
## x 2.96278 0.06448 45.95 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3147 on 18 degrees of freedom
## Multiple R-squared: 0.9915, Adjusted R-squared: 0.9911
## F-statistic: 2112 on 1 and 18 DF, p-value: < 2.2e-16
Como podemos ver, el comando lm nos muestra lo siguiente: los residuales, los que contienen el valor minimo, valor maximo, primero, segundo y tercer cuartil ademas de la mediana. Luego encontramos la estimacion del alfa y beta, a parte de la estimacion tambien vemos el error estandar, valor t y el valor P. observamos que seguido al valor P hay unos asteriscos, a los cuales hacen referencia el nivel de significancia por el cual se rechaza la hipotesis nula, en este caso, es un nivel de significancia del 0.001.
Para los datos asociados con la Figura 1.8:
a. Arranque los datos y obtenga una cifra similar basada en 1000 réplicas de arranque. Si la inferencia es aproximadamente el 95% de la distribución de y, q: 95 (y), dar una estimación de arranque de esta cantidad, q^: 95 (y).
b. Construya un experimento de arranque que proporcione un intervalo de confianza del 95% en q^.95 (y). (Sugerencia: debe usar dos niveles de arranque para lograr este objetivo.)
solucion a:
y = c(4.313, 4.513, 5.489, 4.265, 3.641, 5.106, 8.006, 5.087)
Boot=1000
B=array(0,dim=c(Boot, 1))
for (i in 1:Boot){
ystar=sample(y,replace=T)
B[i]=mean(ystar)
}
sort(B)[0.95*Boot]
## [1] 5.838875
quantile(B,0.95)
## 95%
## 5.839212
Solución b:+
Boot1=1000
Boot2=1000
B1=array(0,dim=c(Boot1, 1))
B2=array(0,dim=c(Boot2, 1))
for (i in 1:Boot1){
ystar=sample(y,replace=T)
for (j in 1:Boot2)
B2[j]=mean(sample(ystar,replace=T))
B1[i]=sort(B2)[0.95*Boot2]
}
un intervalo de confianza del 90% es dado por
c(sort(B1)[0.05*Boot1], sort(B1)[0.95*Boot1])
## [1] 4.719000 6.818125
la otra manera de tener intervalos de confianza seria de la siguiente forma:
quantile(B1,c(0.05, 0.95))
## 5% 95%
## 4.722325 6.818125
Para un conjunto de datos simulado como en el Ejemplo 1.1, compare el arranque de los intervalos de confianza en ambos coeficientes a los habituales basados en la distribución t. Comente las diferencias.
solucion:
x=seq(-3,3,le=5) y=2+4*x+rnorm(5) lm(yx) fit=lm(yx) Rdata=fit\(residuals nBoot=1000 B=array(0,dim=c(nBoot, 2)) for(i in 1:nBoot) {ystar=y+sample(Rdata,replace=T) Bfit=lm(ystar~x) B[i,]=Bfit\)coefficients}
quantile(B,c(0.05,0.95))
Usando el conjunto de datos de Orange que monitorea el crecimiento de los árboles contra la edad de 5 árboles de naranja, representan el conjunto de datos usando el comando xyplot. Entonces ajuste un modelo lineal explicando la circunferencia por la edad a través de lm. Intente usar el índice del árbol como covariable extra.
Llamamos la libreria lattice para poder utilizar la funcion xyplot
library (lattice)
xyplot(age ~ circumference, data=Orange) barchart(age ~ circumference, data=Orange) bwplot(age ~ circumference, data=Orange) dotplot(age ~ circumference, data=Orange)
Aquí vemos algunas aplicaciones adicionales del arranque. a. Arranque las autocorrelaciones de la Figura 1.7 y compare el arranque de los intervalos de confianza a las líneas punteadas dadas en los gráficos. (Aquí se toma la muestra de arranque volviendo a muestrear los datos con reemplazo). b. Inicie la ranura de ajuste que se muestra en la Figura 1.6 y use los resultados para adjuntar una medida de incertidumbre a la ranura de ajuste. (Aquí arrancamos volviendo a muestrear los residuos, como en el ejemplo 1.1. Sin embargo, en lugar de mostrar histogramas de los coeficientes, debe presentar el rango de curvas ajustados en un gráfico).
.