a <- c(1.3, 8, 1.5, 9.5, 100, 580, 110, 1.8, 2.6, 2.8, 3.5, 12, 14, 19, 23,120, 190, 240, 250, 4.0, 41, 300, 4.8, 80, 340)
hist(a, col = "grey")
Si se calcula el logaritmo natural de los datos y se realiza la prueba de shapiro puede verse que al 90% de confianza los logaritmos son normales.
#log() calcula el logaritmo natural de un número.
y=log(a)
y
shapiro.test(y)
En estas situaciones puede construirse un intervalo de confianza para la mediana de la siguiente manera:
En R, el intervalo se puede calcular asi:
a <- c(1.3,8,1.5,9.5,100,580,110,1.8, 2.6, 2.8, 3.5,12, 14, 19, 23,120, 190, 240, 250,4.0,41,300,4.8,80,340)
# transformar a logaritmo
y=log(a)
#media de los logaritmos
em <- mean(y)
em
# desviación estándar de los logaritmos
es <- sd(y)
es
#valor de la distribución t al 95%, recuerde que el tamaño de muestra es 25 y en la formula dice n-1
et <- abs(qt(.025,24))
et
#Finalmente los límites de los intervalos
eli <- exp(em-et*sqrt(es^2/25))
els <- exp(em+et*sqrt(es^2/25))
eli
els
Finalmente podremos decir que la concentración mediana de arsénico se encuentra entre 10.63 ppb y 53.6 ppb.
flujos <- c(0.69,2.90,4.40,0.80,3.00,4.80,9.70, 9.80,1.30,3.10,4.90,10.00,1.40,3.30,5.70,11.00,1.50, 1.50, 1.80, 1.80, 2.10, 2.50,3.70 ,3.80, 3.80, 4.00, 4.10, 4.20,5.80, 5.90, 6.00, 6.10, 7.90, 8.00,11.00 ,12.00, 13.00, 16.00, 20.00, 23.00,2.8,4.2,8)
#Ordenar los Datos
f <- sort(flujos)
hist(f, col = "#E3F6CE", main = "Flujos", xlab = "Flujos")
Los datos al igual que en el ejemplo son asimétricos y presentan un sesgo positivo.
log <- log(f)
hist(log, col = "#F6E3CE", main = "Logaritmo de Flujos", xlab = "Flujos")
En este histograma los datos no mustran el sesgo positivo como en el caso anterior, estos datos siguen una forma mas cercana a la de una campana, puesto que, el logaritmo trata de hacer a los datos normales
shapiro.test(log)
Shapiro-Wilk normality test
data: log
W = 0.98696, p-value = 0.9001
En la prueba de Shapiro-Wilk el valor de p es mayor a 0.05 siendo este valor p = 0.9001 por lo que los datos ya son normales
#A los datos ya se les aplico el logaritmo
m <- mean(log)
s <- sd(log)
n <- length(log)
#Valor de Distribucion t
t <- abs(qt(0.025,df=42))
t
[1] 2.018082
#Limites de los intervalos
#Inferior
li <- exp(m-t*sqrt(s^2/43))
li
[1] 3.446958
#Superior
ls <- exp(m+t*sqrt(s^2/43))
ls
[1] 5.735207
#El uso del exponencial deja ya indicado los valores que se buscan
El valor de la mediana de los flujos en este lugar se encuentran entre los valores 3.45 y 5.73.
.