Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.
para cumplir con la solicitud usaremos la función: rbinom(numero de repeticiones, size = n ,prob=0.5) donde se realizara una unica vez el experimento con n = 1000 y probabilidad de 50%
numero_enfermas_rep1<-rbinom(1, size=1000,prob=0.5)
numero_enfermas_rep1
## [1] 513
Obteniendo como resultado que si tomamos 1000 plantas enfermas con la probabilidad descrita anteriormente tendremos el número de plantas enfermas mostrado anteriormente.
Genere una función que permita: 1.Obtener una muestra aleatoria de la población 2.Calcule el estimador de la proporción muestral pˆpara un tamaño de muestra dado n
Para obtener una muestra aleatoria de la población de plantas enfermas de tamaño n con probabilidad una probabilidad del 50% lo podríamos generar con la siguiente función:
Funcion_plantas_enfermas <-rbinom(numero de repeticiones, size = n ,prob=0.5) con n para este caso, este experimento lo repetiremos un valor considerable (100 veces) para obtener una muestra significativa. realizaremos un ejercicio con los siguientes datos, número de repeticiones 100, muestras de tamaño 1000 con probabilidad de 0.5 de encontrar plantas enfermas, esta función trabaja de la siguiente manera:
numero_enfermas_rep100<-rbinom(100, size=1000,prob=0.5)
numero_enfermas_rep100
## [1] 505 491 506 482 495 497 489 525 508 521 497 490 492 487 511 507 500 515
## [19] 521 537 497 496 483 514 504 541 465 496 493 486 510 513 527 493 502 524
## [37] 522 470 504 496 515 492 525 479 493 451 495 535 486 491 522 519 488 515
## [55] 502 507 494 510 492 518 519 518 475 512 484 490 476 529 512 507 509 490
## [73] 514 516 493 484 490 479 498 523 491 499 512 493 487 470 481 508 509 506
## [91] 495 485 533 518 498 520 503 528 487 502
la función que calcula el estimador muestral seria: Estimador_muestral <-(Funcion_plantas_enfermas)/(size =n).
para el ejemplo propuesto el estimador de la proporción muestral tendriamos los resultados mostrados a continuación.
pestimado_numero_enfermas_rep100<-numero_enfermas_rep100/(1000)
pestimado_numero_enfermas_rep100
## [1] 0.505 0.491 0.506 0.482 0.495 0.497 0.489 0.525 0.508 0.521 0.497 0.490
## [13] 0.492 0.487 0.511 0.507 0.500 0.515 0.521 0.537 0.497 0.496 0.483 0.514
## [25] 0.504 0.541 0.465 0.496 0.493 0.486 0.510 0.513 0.527 0.493 0.502 0.524
## [37] 0.522 0.470 0.504 0.496 0.515 0.492 0.525 0.479 0.493 0.451 0.495 0.535
## [49] 0.486 0.491 0.522 0.519 0.488 0.515 0.502 0.507 0.494 0.510 0.492 0.518
## [61] 0.519 0.518 0.475 0.512 0.484 0.490 0.476 0.529 0.512 0.507 0.509 0.490
## [73] 0.514 0.516 0.493 0.484 0.490 0.479 0.498 0.523 0.491 0.499 0.512 0.493
## [85] 0.487 0.470 0.481 0.508 0.509 0.506 0.495 0.485 0.533 0.518 0.498 0.520
## [97] 0.503 0.528 0.487 0.502
Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad? Realice en su informe un comentario sobre los resultados obtenidos.
A continuación Utilizaremos un n=500 y probabilidad= 50% para generar una muestra aleatoria y la proporción muestral de dicha muestra.
n_c <-500
rep <-100
s_c <-rbinom(rep, n_c, prob=0.5)
pestimado_c <-s_c/n_c
obtenemos la siguiente muestra aleatoria:
s_c
## [1] 248 255 247 245 247 244 243 264 271 262 267 264 228 247 263 242 240 222
## [19] 257 266 278 260 231 246 267 245 254 240 254 252 245 246 246 246 239 253
## [37] 266 248 240 239 252 235 249 267 229 247 235 240 257 233 256 264 283 246
## [55] 250 228 245 238 269 250 244 247 252 261 251 248 243 269 254 259 249 265
## [73] 252 254 254 240 260 253 241 259 255 270 228 259 222 262 226 255 262 246
## [91] 239 249 238 258 244 243 255 233 248 249
de igual forma se tiene la siguiente proporción muestral
pestimado_c
## [1] 0.496 0.510 0.494 0.490 0.494 0.488 0.486 0.528 0.542 0.524 0.534 0.528
## [13] 0.456 0.494 0.526 0.484 0.480 0.444 0.514 0.532 0.556 0.520 0.462 0.492
## [25] 0.534 0.490 0.508 0.480 0.508 0.504 0.490 0.492 0.492 0.492 0.478 0.506
## [37] 0.532 0.496 0.480 0.478 0.504 0.470 0.498 0.534 0.458 0.494 0.470 0.480
## [49] 0.514 0.466 0.512 0.528 0.566 0.492 0.500 0.456 0.490 0.476 0.538 0.500
## [61] 0.488 0.494 0.504 0.522 0.502 0.496 0.486 0.538 0.508 0.518 0.498 0.530
## [73] 0.504 0.508 0.508 0.480 0.520 0.506 0.482 0.518 0.510 0.540 0.456 0.518
## [85] 0.444 0.524 0.452 0.510 0.524 0.492 0.478 0.498 0.476 0.516 0.488 0.486
## [97] 0.510 0.466 0.496 0.498
Para verificar si la muestra generada es representativa con respecto a la población y que no existan sesgos en la recolección de los datos, procedemos a comparar la media muestral obtenida de la muestra con la esperanza media teórica de la muestra.
Esperanza Teórica E(X) = n.p =500*0.5= 250
Media muestral Obtenida
mean(s_c)
## [1] 249.86
Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores
test_media_muestral_0.5 <- t.test(s_c, mu = 250)
test_media_muestral_0.5
##
## One Sample t-test
##
## data: s_c
## t = -0.11591, df = 99, p-value = 0.908
## alternative hypothesis: true mean is not equal to 250
## 95 percent confidence interval:
## 247.4635 252.2565
## sample estimates:
## mean of x
## 249.86
el resultado de la prueba nos indica que la media muestral no es significativamente diferente de la media teórica, adicionalmente podemos ver el valor obtenido se encuentra dentro del intervalo de confianza del 95% de la esperanza, esto indica bajo sesgo en la muestra obtenida y por lo tanto pueden representar a la población.
Para verificar si la muestra generada con respecto a la población refleja adecuadamente la variabilidad de la población, procedemos a comparar la Varianza Muestral con la Varianza Teórica.
Varianza Teórica Var(X) = n.p. (1-p)= 500 * 0.5 * (0.5) = 125
Varianza Obtenida
Var_c <-var(s_c)
Var_c
## [1] 145.8792
Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores
t_c <-length(s_c)
chi_cuadrado <- (t_c - 1) * Var_c / 125
p_valor <- pchisq(chi_cuadrado, df = t_c - 1, lower.tail = FALSE)
cat("Estadística Chi-cuadrado:", chi_cuadrado, "\n")
## Estadística Chi-cuadrado: 115.5363
cat("p-valor:", p_valor, "\n")
## p-valor: 0.1225678
el valor p obtenido es mayor al alpha de la prueba lo que nos indica que no puedo rechazar la ho de que estos parámetros sean iguales por lo tanto la variza muestral no es significativamente diferente de la varianza teórica, esto refleja baja variabilidad en la muestra obtenida y por lo tanto pueden representar a la población.
hist(pestimado_c,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
boxplot(pestimado_c, main = "Diagrama de Cajas", ylab = "Valores", col = "lightgreen")
Repita los puntos b y c para tamaños de muestra n=5,10,15,20,30,50,60,100,200,500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.
MUESTRAS Y PROPORCIONES MUESTRALES A continuación generaremos las muestras y las proporciones muestrales para los tamaños n requeridos.
n3 <-5
s3 <-rbinom(n=100, n3, prob=0.5)
pestimado3 <-s3/n3
n4 <-10
s4 <-rbinom(n=100, n4, prob=0.5)
pestimado4 <-s4/n4
n5 <-15
s5 <-rbinom(n=100, n5, prob=0.5)
pestimado5 <-s5/n5
n6 <-20
s6 <-rbinom(n=100, n6, prob=0.5)
pestimado6 <-s6/n6
n7 <-30
s7 <-rbinom(n=100, n7, prob=0.5)
pestimado7 <-s7/n7
n8 <-50
s8 <-rbinom(n=100, n8, prob=0.5)
pestimado8 <-s8/n8
n9 <-60
s9 <-rbinom(n=100, n9, prob=0.5)
pestimado9 <-s9/n9
n10 <-100
s10 <-rbinom(n=100, n10, prob=0.5)
pestimado10 <-s10/n10
n11 <-200
s11 <-rbinom(n=100, n11, prob=0.5)
pestimado11 <-s11/n11
HISTOGRAMAS
par(mar = c(4, 4, 2, 1) + 0.1)
h3_0.5 <-hist(pestimado3, xlab = "5 Proporciones estimadas", ylab="Número de muestras",main="")
abline(v=0.5,col="red")
h4_0.5 <-hist(pestimado4,xlab = "10 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h5_0.5 <-hist(pestimado5,xlab = "15 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h6_0.5 <-hist(pestimado6,xlab = "20 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h7_0.5 <-hist(pestimado7,xlab = "30 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h8_0.5 <-hist(pestimado8,xlab = "50 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h9_0.5 <-hist(pestimado9,xlab = "60 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h10_0.5 <-hist(pestimado10,xlab = "100 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
h11_0.5 <-hist(pestimado11,xlab = "200 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
hc_0.5 <-hist(pestimado_c,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")
BOOXPLOT
puntod <- data.frame(pestimado3,pestimado4, pestimado5, pestimado6, pestimado7, pestimado8, pestimado9, pestimado10, pestimado11,pestimado_c)
boxplot(puntod, las=1, main="Comparación estimadores muestras 5,10,15,20,30,50,60, 100, 200 y 500")
abline(h=10, col="red")
PRUEBAS DE NORMALIDAD
shapiro_test3<- shapiro.test(pestimado3)
shapiro_test4<- shapiro.test(pestimado4)
shapiro_test5<- shapiro.test(pestimado5)
shapiro_test6<- shapiro.test(pestimado6)
shapiro_test7<- shapiro.test(pestimado7)
shapiro_test8<- shapiro.test(pestimado8)
shapiro_test9<- shapiro.test(pestimado9)
shapiro_test10<- shapiro.test(pestimado10)
shapiro_test11<- shapiro.test(pestimado11)
shapiro_testc<- shapiro.test(pestimado_c)
shapiro_test3
##
## Shapiro-Wilk normality test
##
## data: pestimado3
## W = 0.92549, p-value = 2.787e-05
shapiro_test4
##
## Shapiro-Wilk normality test
##
## data: pestimado4
## W = 0.94145, p-value = 0.0002367
shapiro_test5
##
## Shapiro-Wilk normality test
##
## data: pestimado5
## W = 0.96402, p-value = 0.007865
shapiro_test6
##
## Shapiro-Wilk normality test
##
## data: pestimado6
## W = 0.9651, p-value = 0.009443
shapiro_test7
##
## Shapiro-Wilk normality test
##
## data: pestimado7
## W = 0.97036, p-value = 0.02356
shapiro_test8
##
## Shapiro-Wilk normality test
##
## data: pestimado8
## W = 0.98277, p-value = 0.2173
shapiro_test9
##
## Shapiro-Wilk normality test
##
## data: pestimado9
## W = 0.98563, p-value = 0.3524
shapiro_test10
##
## Shapiro-Wilk normality test
##
## data: pestimado10
## W = 0.98815, p-value = 0.5191
shapiro_test11
##
## Shapiro-Wilk normality test
##
## data: pestimado11
## W = 0.98609, p-value = 0.3797
shapiro_testc
##
## Shapiro-Wilk normality test
##
## data: pestimado_c
## W = 0.99152, p-value = 0.7858
GRAFICOS Q-Q
qqnorm(pestimado3, main="Gráfico Q-Q para pestimado3")
qqline(pestimado3, col = "red")
qqnorm(pestimado4, main="Gráfico Q-Q para pestimado4")
qqline(pestimado4, col = "red")
qqnorm(pestimado5, main="Gráfico Q-Q para pestimado5")
qqline(pestimado5, col = "red")
qqnorm(pestimado6, main="Gráfico Q-Q para pestimado6")
qqline(pestimado6, col = "red")
qqnorm(pestimado7, main="Gráfico Q-Q para pestimado7")
qqline(pestimado7, col = "red")
qqnorm(pestimado8, main="Gráfico Q-Q para pestimado8")
qqline(pestimado8, col = "red")
qqnorm(pestimado9, main="Gráfico Q-Q para pestimado9")
qqline(pestimado9, col = "red")
qqnorm(pestimado10, main="Gráfico Q-Q para pestimado10")
qqline(pestimado10, col = "red")
qqnorm(pestimado11, main="Gráfico Q-Q para pestimado11")
qqline(pestimado11, col = "red")
qqnorm(pestimado_c, main="Gráfico Q-Q para pestimado2")
qqline(pestimado_c, col = "red")
Según los datos obtenidos de estas pruebas de normalidad y las graficas
adjuntas podemos vemos que las distribuciones que tienen un n=5,10 y 15
no siguen una distribución normal, en cambio las distribuciones de las
muestras n=20,30,50,60,100,200 y 500 a medida que aumenta el tamaño el
valor p se hace mas grande sugiriendo que es mas improbable que no sigan
una distribución normal. En el fondo sabemos que este comportamiento de
los datos corresponden a soportar el teorema del limite central que nos
dice que sin importar el tipo de distribución de una muestra a mayor
cantidad de estas veremos que los datos tenderan a comportarse como una
distribución normal.
Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los
numero_enfermas_rep1_0.1<-rbinom(1, size=1000,prob=0.1)
numero_enfermas_rep1_0.1
## [1] 98
muestra_100_0.1<-rbinom(100, size=1000,prob=0.1)
muestra_100_0.1
## [1] 95 105 101 89 121 119 101 97 89 98 107 94 90 97 113 97 108 95
## [19] 112 104 124 97 82 107 104 98 88 91 97 89 105 108 110 97 86 112
## [37] 98 109 104 94 107 114 103 101 98 81 94 102 96 111 114 109 100 107
## [55] 102 98 103 93 105 98 94 103 114 107 106 99 121 100 107 110 93 111
## [73] 80 105 94 84 109 105 90 98 102 97 119 92 98 95 91 109 110 89
## [91] 86 92 100 91 97 94 84 98 103 117
pestimado_muestra_100_0.1<-muestra_100_0.1/(1000)
pestimado_muestra_100_0.1
## [1] 0.095 0.105 0.101 0.089 0.121 0.119 0.101 0.097 0.089 0.098 0.107 0.094
## [13] 0.090 0.097 0.113 0.097 0.108 0.095 0.112 0.104 0.124 0.097 0.082 0.107
## [25] 0.104 0.098 0.088 0.091 0.097 0.089 0.105 0.108 0.110 0.097 0.086 0.112
## [37] 0.098 0.109 0.104 0.094 0.107 0.114 0.103 0.101 0.098 0.081 0.094 0.102
## [49] 0.096 0.111 0.114 0.109 0.100 0.107 0.102 0.098 0.103 0.093 0.105 0.098
## [61] 0.094 0.103 0.114 0.107 0.106 0.099 0.121 0.100 0.107 0.110 0.093 0.111
## [73] 0.080 0.105 0.094 0.084 0.109 0.105 0.090 0.098 0.102 0.097 0.119 0.092
## [85] 0.098 0.095 0.091 0.109 0.110 0.089 0.086 0.092 0.100 0.091 0.097 0.094
## [97] 0.084 0.098 0.103 0.117
n_c_0.1 <-500
rep <-100
s_c_0.1 <-rbinom(rep, n_c_0.1, prob=0.1)
pestimado_c_0.1 <-s_c_0.1/n_c_0.1
PRUEBA ESPERANZA TEORICA VS MEDIA MUESTRAL OBTENIDA
Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores
test_media_muestral_c_0.1 <- t.test(s_c_0.1, mu = 50)
test_media_muestral_c_0.1
##
## One Sample t-test
##
## data: s_c_0.1
## t = -0.44664, df = 99, p-value = 0.6561
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
## 48.2584 51.1016
## sample estimates:
## mean of x
## 49.68
el resultado de la prueba nos indica que la media muestral no es significativamente diferente de la media teórica, adicionalmente podemos ver el valor obtenido se encuentra dentro del intervalo de confianza del 95% de la esperanza, esto indica bajo sesgo en la muestra obtenida y por lo tanto pueden representar a la población.
PRUEBA VARIANZA TEORICA VS VARIANZA MUESTRAL Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores
t_c_0.1 <-length(s_c_0.1)
Var_c_0.1 <-var(s_c_0.1)
chi_cuadrado_0.1 <- (t_c_0.1 - 1) * Var_c_0.1 / 45
p_valor_0.1 <- pchisq(chi_cuadrado_0.1, df = t_c_0.1 - 1, lower.tail = FALSE)
cat("Estadística Chi-cuadrado:", chi_cuadrado_0.1, "\n")
## Estadística Chi-cuadrado: 112.928
cat("p-valor:", p_valor_0.1, "\n")
## p-valor: 0.1601739
el resultado de la prueba nos indica que la variza muestral no es significativamente diferente de la varianza teórica, esto refleja baja variabilidad en la muestra obtenida y por lo tanto pueden representar a la población.
MUESTRAS Y PROPORCIONES MUESTRALES A continuación generaremos las muestras y las proporciones muestrales para los tamaños n requeridos.
n3_0.1 <-5
s3_0.1 <-rbinom(100, n3_0.1, prob=0.1)
pestimado3_0.1 <-s3_0.1/n3_0.1
n4_0.1 <-10
s4_0.1 <-rbinom(100, n4_0.1, prob=0.1)
pestimado4_0.1 <-s4_0.1/n4_0.1
n5_0.1 <-15
s5_0.1 <-rbinom(100, n5_0.1, prob=0.1)
pestimado5_0.1 <-s5_0.1/n5_0.1
n6_0.1 <-20
s6_0.1 <-rbinom(100, n6_0.1, prob=0.1)
pestimado6_0.1 <-s6_0.1/n6_0.1
n7_0.1 <-30
s7_0.1 <-rbinom(100, n7_0.1, prob=0.1)
pestimado7_0.1 <-s7_0.1/n7_0.1
n8_0.1 <-50
s8_0.1 <-rbinom(100, n8_0.1, prob=0.1)
pestimado8_0.1 <-s8_0.1/n8_0.1
n9_0.1 <-60
s9_0.1 <-rbinom(100, n9_0.1, prob=0.1)
pestimado9_0.1 <-s9_0.1/n9_0.1
n10_0.1 <-100
s10_0.1 <-rbinom(100, n10_0.1, prob=0.1)
pestimado10_0.1 <-s10_0.1/n10_0.1
n11_0.1 <-200
s11_0.1 <-rbinom(100, n11_0.1, prob=0.1)
pestimado11_0.1 <-s11_0.1/n11_0.1
HISTOGRAMAS
par(mar = c(4, 4, 2, 1) + 0.1)
h3_0.1 <-hist(pestimado3_0.1, xlab = "5 P. estimadas", ylab="Número de muestras",main="")
abline(v=0.1,col="red")
h4_0.1 <-hist(pestimado4_0.1,xlab = "10 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h5_0.1 <-hist(pestimado5_0.1,xlab = "15 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h6_0.1 <-hist(pestimado6_0.1,xlab = "20 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h7_0.1 <-hist(pestimado7_0.1,xlab = "30 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h8_0.1 <-hist(pestimado8_0.1,xlab = "50 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h9_0.1 <-hist(pestimado9_0.1,xlab = "60 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h10_0.1 <-hist(pestimado10_0.1,xlab = "100 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
h11_0.1 <-hist(pestimado11_0.1,xlab = "200 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
hc_0.1 <-hist(pestimado_c_0.1,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")
BOOXPLOT
puntod_0.1 <- data.frame(pestimado3_0.1,pestimado4_0.1, pestimado5_0.1, pestimado6_0.1, pestimado7_0.1, pestimado8_0.1, pestimado9_0.1, pestimado10_0.1, pestimado11_0.1,pestimado_c_0.1)
boxplot(puntod_0.1, las=1, main="Comparación estimadores prob=0.1 y muestras 5,10,15,20,30,50,60, 100, 200 y 500")
abline(h=10, col="red")
PRUEBAS DE NORMALIDAD
shapiro_test3_0.1<- shapiro.test(pestimado3_0.1)
shapiro_test4_0.1<- shapiro.test(pestimado4_0.1)
shapiro_test5_0.1<- shapiro.test(pestimado5_0.1)
shapiro_test6_0.1<- shapiro.test(pestimado6_0.1)
shapiro_test7_0.1<- shapiro.test(pestimado7_0.1)
shapiro_test8_0.1<- shapiro.test(pestimado8_0.1)
shapiro_test9_0.1<- shapiro.test(pestimado9_0.1)
shapiro_test10_0.1<- shapiro.test(pestimado10_0.1)
shapiro_test11_0.1<- shapiro.test(pestimado11_0.1)
shapiro_testc_0.1<- shapiro.test(pestimado_c_0.1)
shapiro_test3_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado3_0.1
## W = 0.73998, p-value = 5.129e-12
shapiro_test4_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado4_0.1
## W = 0.86377, p-value = 3.963e-08
shapiro_test5_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado5_0.1
## W = 0.87094, p-value = 7.652e-08
shapiro_test6_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado6_0.1
## W = 0.92163, p-value = 1.72e-05
shapiro_test7_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado7_0.1
## W = 0.94928, p-value = 0.0007443
shapiro_test8_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado8_0.1
## W = 0.97269, p-value = 0.03564
shapiro_test9_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado9_0.1
## W = 0.9545, p-value = 0.001663
shapiro_test10_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado10_0.1
## W = 0.95571, p-value = 0.002013
shapiro_test11_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado11_0.1
## W = 0.96783, p-value = 0.01511
shapiro_testc_0.1
##
## Shapiro-Wilk normality test
##
## data: pestimado_c_0.1
## W = 0.99377, p-value = 0.9297
GRAFICOS Q-Q
qqnorm(pestimado3_0.1, main="Gráfico Q-Q para pestimado3")
qqline(pestimado3_0.1, col = "red")
qqnorm(pestimado4_0.1, main="Gráfico Q-Q para pestimado4")
qqline(pestimado4_0.1, col = "red")
qqnorm(pestimado5_0.1, main="Gráfico Q-Q para pestimado5")
qqline(pestimado5_0.1, col = "red")
qqnorm(pestimado6_0.1, main="Gráfico Q-Q para pestimado6")
qqline(pestimado6_0.1, col = "red")
qqnorm(pestimado7_0.1, main="Gráfico Q-Q para pestimado7")
qqline(pestimado7_0.1, col = "red")
qqnorm(pestimado8_0.1, main="Gráfico Q-Q para pestimado8")
qqline(pestimado8_0.1, col = "red")
qqnorm(pestimado9_0.1, main="Gráfico Q-Q para pestimado9")
qqline(pestimado9_0.1, col = "red")
qqnorm(pestimado10_0.1, main="Gráfico Q-Q para pestimado10")
qqline(pestimado10_0.1, col = "red")
qqnorm(pestimado11_0.1, main="Gráfico Q-Q para pestimado11")
qqline(pestimado11_0.1, col = "red")
qqnorm(pestimado_c_0.1, main="Gráfico Q-Q para pestimado2")
qqline(pestimado_c_0.1, col = "red")
numero_enfermas_rep1_0.9<-rbinom(1, size=1000,prob=0.9)
numero_enfermas_rep1_0.9
## [1] 891
muestra_100_0.9<-rbinom(100, size=1000,prob=0.9)
muestra_100_0.9
## [1] 910 899 903 901 879 925 896 887 885 900 894 880 885 894 903 900 910 907
## [19] 896 908 886 911 900 897 912 895 905 899 896 897 891 888 894 899 892 906
## [37] 887 901 897 902 887 909 905 894 901 890 904 901 909 920 889 900 901 892
## [55] 896 900 894 896 899 899 894 893 912 897 920 915 905 897 903 887 901 897
## [73] 889 874 923 902 912 896 901 897 887 897 891 915 906 919 907 898 889 897
## [91] 913 914 904 896 904 904 911 911 922 912
pestimado_muestra_100_0.9<-muestra_100_0.9/(1000)
pestimado_muestra_100_0.9
## [1] 0.910 0.899 0.903 0.901 0.879 0.925 0.896 0.887 0.885 0.900 0.894 0.880
## [13] 0.885 0.894 0.903 0.900 0.910 0.907 0.896 0.908 0.886 0.911 0.900 0.897
## [25] 0.912 0.895 0.905 0.899 0.896 0.897 0.891 0.888 0.894 0.899 0.892 0.906
## [37] 0.887 0.901 0.897 0.902 0.887 0.909 0.905 0.894 0.901 0.890 0.904 0.901
## [49] 0.909 0.920 0.889 0.900 0.901 0.892 0.896 0.900 0.894 0.896 0.899 0.899
## [61] 0.894 0.893 0.912 0.897 0.920 0.915 0.905 0.897 0.903 0.887 0.901 0.897
## [73] 0.889 0.874 0.923 0.902 0.912 0.896 0.901 0.897 0.887 0.897 0.891 0.915
## [85] 0.906 0.919 0.907 0.898 0.889 0.897 0.913 0.914 0.904 0.896 0.904 0.904
## [97] 0.911 0.911 0.922 0.912
n_c_0.9 <-500
rep <-100
s_c_0.9 <-rbinom(rep, n_c_0.9, prob=0.9)
pestimado_c_0.9 <-s_c_0.9/n_c_0.9
PRUEBA ESPERANZA TEORICA VS MEDIA MUESTRAL OBTENIDA
Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores
test_media_muestral_c_0.9 <- t.test(s_c_0.9, mu = 450)
test_media_muestral_c_0.9
##
## One Sample t-test
##
## data: s_c_0.9
## t = -0.57, df = 99, p-value = 0.57
## alternative hypothesis: true mean is not equal to 450
## 95 percent confidence interval:
## 448.3868 450.8932
## sample estimates:
## mean of x
## 449.64
el resultado de la prueba nos indica que la media muestral no es significativamente diferente de la media teórica, adicionalmente podemos ver el valor obtenido se encuentra dentro del intervalo de confianza del 95% de la esperanza, esto indica bajo sesgo en la muestra obtenida y por lo tanto pueden representar a la población.
PRUEBA VARIANZA TEORICA VS VARIANZA MUESTRAL Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores
t_c_0.9 <-length(s_c_0.9)
Var_c_0.9 <-var(s_c_0.9)
chi_cuadrado_0.9 <- (t_c_0.9 - 1) * Var_c_0.9 / 45
p_valor_0.9 <- pchisq(chi_cuadrado_0.9, df = t_c_0.9 - 1, lower.tail = FALSE)
cat("Estadística Chi-cuadrado:", chi_cuadrado_0.9, "\n")
## Estadística Chi-cuadrado: 87.75644
cat("p-valor:", p_valor_0.9, "\n")
## p-valor: 0.7833645
el resultado de la prueba nos indica que la variza muestral no es significativamente diferente de la varianza teórica, esto refleja baja variabilidad en la muestra obtenida y por lo tanto pueden representar a la población.
MUESTRAS Y PROPORCIONES MUESTRALES A continuación generaremos las muestras y las proporciones muestrales para los tamaños n requeridos.
n3_0.9 <-5
s3_0.9 <-rbinom(100, n3_0.9, prob=0.9)
pestimado3_0.9 <-s3_0.9/n3_0.9
n4_0.9 <-10
s4_0.9 <-rbinom(100, n4_0.9, prob=0.9)
pestimado4_0.9 <-s4_0.9/n4_0.9
n5_0.9 <-15
s5_0.9 <-rbinom(100, n5_0.9, prob=0.9)
pestimado5_0.9 <-s5_0.9/n5_0.9
n6_0.9 <-20
s6_0.9 <-rbinom(100, n6_0.9, prob=0.9)
pestimado6_0.9 <-s6_0.9/n6_0.9
n7_0.9 <-30
s7_0.9 <-rbinom(100, n7_0.9, prob=0.9)
pestimado7_0.9 <-s7_0.9/n7_0.9
n8_0.9 <-50
s8_0.9 <-rbinom(100, n8_0.9, prob=0.9)
pestimado8_0.9 <-s8_0.9/n8_0.9
n9_0.9 <-60
s9_0.9 <-rbinom(100, n9_0.9, prob=0.9)
pestimado9_0.9 <-s9_0.9/n9_0.9
n10_0.9 <-100
s10_0.9 <-rbinom(100, n10_0.9, prob=0.9)
pestimado10_0.9 <-s10_0.9/n10_0.9
n11_0.9 <-200
s11_0.9 <-rbinom(100, n11_0.9, prob=0.9)
pestimado11_0.9 <-s11_0.9/n11_0.9
HISTOGRAMAS
par(mar = c(4, 4, 2, 1) + 0.1)
h3_0.9 <-hist(pestimado3_0.9, xlab = "5 P. estimadas", ylab="Número de muestras",main="")
abline(v=0.9,col="red")
h4_0.9 <-hist(pestimado4_0.9,xlab = "10 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h5_0.9 <-hist(pestimado5_0.9,xlab = "15 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h6_0.9 <-hist(pestimado6_0.9,xlab = "20 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h7_0.9 <-hist(pestimado7_0.9,xlab = "30 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h8_0.9 <-hist(pestimado8_0.9,xlab = "50 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h9_0.9 <-hist(pestimado9_0.9,xlab = "60 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h10_0.9 <-hist(pestimado10_0.9,xlab = "100 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
h11_0.9 <-hist(pestimado11_0.9,xlab = "200 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
hc_0.9 <-hist(pestimado_c_0.9,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")
BOOXPLOT
puntod_0.9 <- data.frame(pestimado3_0.9,pestimado4_0.9, pestimado5_0.9, pestimado6_0.9, pestimado7_0.9, pestimado8_0.9, pestimado9_0.9, pestimado10_0.9, pestimado11_0.9,pestimado_c_0.9)
boxplot(puntod_0.9, las=1, main="Comparación estimadores prob=0.9 y muestras 5,10,15,20,30,50,60, 100, 200 y 500")
abline(h=10, col="red")
PRUEBAS DE NORMALIDAD
shapiro_test3_0.9<- shapiro.test(pestimado3_0.9)
shapiro_test4_0.9<- shapiro.test(pestimado4_0.9)
shapiro_test5_0.9<- shapiro.test(pestimado5_0.9)
shapiro_test6_0.9<- shapiro.test(pestimado6_0.9)
shapiro_test7_0.9<- shapiro.test(pestimado7_0.9)
shapiro_test8_0.9<- shapiro.test(pestimado8_0.9)
shapiro_test9_0.9<- shapiro.test(pestimado9_0.9)
shapiro_test10_0.9<- shapiro.test(pestimado10_0.9)
shapiro_test11_0.9<- shapiro.test(pestimado11_0.9)
shapiro_testc_0.9<- shapiro.test(pestimado_c_0.9)
shapiro_test3_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado3_0.9
## W = 0.65516, p-value = 5.467e-14
shapiro_test4_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado4_0.9
## W = 0.8321, p-value = 2.729e-09
shapiro_test5_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado5_0.9
## W = 0.91038, p-value = 4.502e-06
shapiro_test6_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado6_0.9
## W = 0.9211, p-value = 1.612e-05
shapiro_test7_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado7_0.9
## W = 0.94462, p-value = 0.0003729
shapiro_test8_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado8_0.9
## W = 0.97533, p-value = 0.05727
shapiro_test9_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado9_0.9
## W = 0.94646, p-value = 0.0004885
shapiro_test10_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado10_0.9
## W = 0.9739, p-value = 0.04426
shapiro_test11_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado11_0.9
## W = 0.98595, p-value = 0.3711
shapiro_testc_0.9
##
## Shapiro-Wilk normality test
##
## data: pestimado_c_0.9
## W = 0.98518, p-value = 0.3271
GRAFICOS Q-Q
qqnorm(pestimado3_0.9, main="Gráfico Q-Q para pestimado3")
qqline(pestimado3_0.9, col = "red")
qqnorm(pestimado4_0.9, main="Gráfico Q-Q para pestimado4")
qqline(pestimado4_0.9, col = "red")
qqnorm(pestimado5_0.9, main="Gráfico Q-Q para pestimado5")
qqline(pestimado5_0.9, col = "red")
qqnorm(pestimado6_0.9, main="Gráfico Q-Q para pestimado6")
qqline(pestimado6_0.9, col = "red")
qqnorm(pestimado7_0.9, main="Gráfico Q-Q para pestimado7")
qqline(pestimado7_0.9, col = "red")
qqnorm(pestimado8_0.9, main="Gráfico Q-Q para pestimado8")
qqline(pestimado8_0.9, col = "red")
qqnorm(pestimado9_0.9, main="Gráfico Q-Q para pestimado9")
qqline(pestimado9_0.9, col = "red")
qqnorm(pestimado10_0.9, main="Gráfico Q-Q para pestimado10")
qqline(pestimado10_0.9, col = "red")
qqnorm(pestimado11_0.9, main="Gráfico Q-Q para pestimado11")
qqline(pestimado11_0.9, col = "red")
qqnorm(pestimado_c_0.9, main="Gráfico Q-Q para pestimado2")
qqline(pestimado_c_0.9, col = "red")
El teorema del limite central nos permite utilizar una distribución que tal vez no sea normal pero que con una cantidad de muestras significativas se acopla a la distribución normal sin sesgo y con baja variabilidad, la aplicación de este teorema nos facilita realizar pruebas y estudios en la realidad.
De igual forma podemos apreciar que a mayor tamaño de muestras las caracteristicas de sesgo y variabilidad disminuyen y la distribución se asemeja mas a una distribución normal.
Por último, al modificar los probabilidad de exito de la cantidad de plantas enfermas encontradas en la muestra tenemos un hallazgo interesante y es que mientras la probabilidad de exito sea mas polarizada (para el caso de 10% y 90%) se necesitara un tamaño de muestra mas grande para que la distribución presente las caracteristicas de la distribución normal por que la distribución de los datos es asimetrica. mientras que para el caso con el 50% tenia una distribución más centrada, por lo tanto más semejante a la normal lo que permite que con un tamaño de muestra menor se evidencien las caracteristicas normales sobre la distribución.