Cuando los datos son asimétricos con sesgo positivo el intervalo de predicción que se utiliza es: (Más detalles en pág. 81 de libro).
Considere el problema visto en clase del arsénico.
Si se toma una muestra más de agua, ¿cuál será su concentración de arsénico?
Los datos del arsénico son asimétricos con sesgo positivo. Como puede ver:
a <- c(1.3,8,1.5,9.5,100,580,110,1.8, 2.6, 2.8, 3.5,12, 14, 19, 23,120, 190, 240, 250,4.0,41,300,4.8,80,340)
hist(a, col = '#F5D0A9', xlab = 'Concentración', main = 'Concentracion de Arsérnico')
En R, el intervalo se puede calcular así:
# Tamaño de la muestra
n <- length(a)
# 1. Transformar a logaritmo
y=log(a)
# 2. Mediana de los Logaritmos
m <- mean(y)
# 3. Desviacion Estándar de los logaritmos
s <- sd(y)
# 4. Valor de Distribución t al 95%, recuerde que el tamaño de la muestra es 25 y en la formula dice n-1
t <- abs(qt(0.025,n-1))
# Finalmente los límites de los intervalos
li <- exp(m-t*sqrt(s^2+s^2/n))
ls <- exp(m+t*sqrt(s^2+s^2/n))
li
[1] 0.386043
ls
[1] 1476.073
Finalmente podremos decir que la concentración de arsénico se encontrará entre 0.39 ppb y 1476.1 ppb.
flujos <- c(0.69,2.90,4.40,0.80,3.00,4.80,9.70, 9.80,1.30,3.10,4.90,10.00,1.40,3.30,5.70,11.00,1.50, 1.50, 1.80, 1.80, 2.10, 2.50,3.70 ,3.80, 3.80, 4.00, 4.10, 4.20,5.80, 5.90, 6.00, 6.10, 7.90, 8.00,11.00 ,12.00, 13.00, 16.00, 20.00, 23.00,2.8,4.2,8)
# Histograma
hist(flujos, col = '#819FF7', xlab = 'Flujos', main = 'Flujos Mínimos Anuales')
Construya e interprete el intervalo de predicción de una nueva observación al 90% de confianza.
# Tamaño de la muestra
fn <- length(flujos)
# Transformar a logaritmo
flog <- log(flujos)
# Media de los logaritmos
fm <- mean(flog)
# Ahora desviacion estádar
fs <- sd(flog)
# Valor de distribucion t, n = 43, Intervalo de Confianza = 90%
ft <- abs(qt(0.05,fn-1))
# Limites
fli <- exp(fm-ft*sqrt(fs^2+fs^2/fn))
fli
[1] 1.088402
fls <- exp(fm+ft*sqrt(fs^2+fs^2/fn))
fls
[1] 18.16335
Conclusión Ejercicio 1: Con un 90% de Confianza, se puede predecir que los siguientes flujos mínimos anuales tendrán un valor de entre 1.1 hasta 18.
x <- c(194, 199, 121, 102, 215, 214, 197,
204, 139, 102, 230, 123, 194, 109,
158, 161, 123, 174, 110, 156, 156,
156, 158, 161, 188, 139, 147, 116,110,155,130,120,100,125)
hist(x, col = '#ADC688', xlab = 'No. Colonias', main = 'Bacterias Tróficas en el Agua')
¿Cuál será el número de colonias que tendrá una nueva muestra de agua? Use 99% de confianza.
# Tamaño de la muestra
xn <- length(x)
#Transformar a Log
xlog <- log(x)
# Media del logaritmo
xm <- mean(xlog)
# Desviación Estándar
xs <- sd(xlog)
# Valor de distribucion t, con 99% de confianza
xt <- abs(qt(0.005,xn-1))
# Finalmente los límites de los intervalos
xli <- exp(xm-xt*sqrt(xs^2+(xs^2)/xn))
xls <- exp(xm+xt*sqrt(xs^2+xs^2/xn))
xli
[1] 75.2325
xls
[1] 291.8401
Conclusión Ejercicio 2: Con una confianza del 99%, se puede predecir que en la siguiente muestra de agua el número de colonias que tendrá la muestra se encuentran entre 75 y 292 colonias de bacterias tróficas.
………. Melanie Icedo Félix ……….