Punto A

Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

Desarrollo del Ejercicio

para cumplir con la solicitud usaremos la función: rbinom(numero de repeticiones, size = n ,prob=0.5) donde se realizara una unica vez el experimento con n = 1000 y probabilidad de 50%

numero_enfermas_rep1<-rbinom(1, size=1000,prob=0.5)
numero_enfermas_rep1
## [1] 513

Obteniendo como resultado que si tomamos 1000 plantas enfermas con la probabilidad descrita anteriormente tendremos el número de plantas enfermas mostrado anteriormente.

Punto B

Genere una función que permita: 1.Obtener una muestra aleatoria de la población 2.Calcule el estimador de la proporción muestral pˆpara un tamaño de muestra dado n

Desarrollo del Ejercicio

Para obtener una muestra aleatoria de la población de plantas enfermas de tamaño n con probabilidad una probabilidad del 50% lo podríamos generar con la siguiente función:

Funcion_plantas_enfermas <-rbinom(numero de repeticiones, size = n ,prob=0.5) con n para este caso, este experimento lo repetiremos un valor considerable (100 veces) para obtener una muestra significativa. realizaremos un ejercicio con los siguientes datos, número de repeticiones 100, muestras de tamaño 1000 con probabilidad de 0.5 de encontrar plantas enfermas, esta función trabaja de la siguiente manera:

numero_enfermas_rep100<-rbinom(100, size=1000,prob=0.5)
numero_enfermas_rep100
##   [1] 505 491 506 482 495 497 489 525 508 521 497 490 492 487 511 507 500 515
##  [19] 521 537 497 496 483 514 504 541 465 496 493 486 510 513 527 493 502 524
##  [37] 522 470 504 496 515 492 525 479 493 451 495 535 486 491 522 519 488 515
##  [55] 502 507 494 510 492 518 519 518 475 512 484 490 476 529 512 507 509 490
##  [73] 514 516 493 484 490 479 498 523 491 499 512 493 487 470 481 508 509 506
##  [91] 495 485 533 518 498 520 503 528 487 502

la función que calcula el estimador muestral seria: Estimador_muestral <-(Funcion_plantas_enfermas)/(size =n).

para el ejemplo propuesto el estimador de la proporción muestral tendriamos los resultados mostrados a continuación.

pestimado_numero_enfermas_rep100<-numero_enfermas_rep100/(1000)
pestimado_numero_enfermas_rep100
##   [1] 0.505 0.491 0.506 0.482 0.495 0.497 0.489 0.525 0.508 0.521 0.497 0.490
##  [13] 0.492 0.487 0.511 0.507 0.500 0.515 0.521 0.537 0.497 0.496 0.483 0.514
##  [25] 0.504 0.541 0.465 0.496 0.493 0.486 0.510 0.513 0.527 0.493 0.502 0.524
##  [37] 0.522 0.470 0.504 0.496 0.515 0.492 0.525 0.479 0.493 0.451 0.495 0.535
##  [49] 0.486 0.491 0.522 0.519 0.488 0.515 0.502 0.507 0.494 0.510 0.492 0.518
##  [61] 0.519 0.518 0.475 0.512 0.484 0.490 0.476 0.529 0.512 0.507 0.509 0.490
##  [73] 0.514 0.516 0.493 0.484 0.490 0.479 0.498 0.523 0.491 0.499 0.512 0.493
##  [85] 0.487 0.470 0.481 0.508 0.509 0.506 0.495 0.485 0.533 0.518 0.498 0.520
##  [97] 0.503 0.528 0.487 0.502

Punto C

Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿qué se puede observar en cuanto a la variabilidad? Realice en su informe un comentario sobre los resultados obtenidos.

Desarrollo del Ejercicio

A continuación Utilizaremos un n=500 y probabilidad= 50% para generar una muestra aleatoria y la proporción muestral de dicha muestra.

n_c <-500
rep <-100
s_c <-rbinom(rep, n_c, prob=0.5)
pestimado_c <-s_c/n_c

obtenemos la siguiente muestra aleatoria:

s_c
##   [1] 248 255 247 245 247 244 243 264 271 262 267 264 228 247 263 242 240 222
##  [19] 257 266 278 260 231 246 267 245 254 240 254 252 245 246 246 246 239 253
##  [37] 266 248 240 239 252 235 249 267 229 247 235 240 257 233 256 264 283 246
##  [55] 250 228 245 238 269 250 244 247 252 261 251 248 243 269 254 259 249 265
##  [73] 252 254 254 240 260 253 241 259 255 270 228 259 222 262 226 255 262 246
##  [91] 239 249 238 258 244 243 255 233 248 249

de igual forma se tiene la siguiente proporción muestral

pestimado_c
##   [1] 0.496 0.510 0.494 0.490 0.494 0.488 0.486 0.528 0.542 0.524 0.534 0.528
##  [13] 0.456 0.494 0.526 0.484 0.480 0.444 0.514 0.532 0.556 0.520 0.462 0.492
##  [25] 0.534 0.490 0.508 0.480 0.508 0.504 0.490 0.492 0.492 0.492 0.478 0.506
##  [37] 0.532 0.496 0.480 0.478 0.504 0.470 0.498 0.534 0.458 0.494 0.470 0.480
##  [49] 0.514 0.466 0.512 0.528 0.566 0.492 0.500 0.456 0.490 0.476 0.538 0.500
##  [61] 0.488 0.494 0.504 0.522 0.502 0.496 0.486 0.538 0.508 0.518 0.498 0.530
##  [73] 0.504 0.508 0.508 0.480 0.520 0.506 0.482 0.518 0.510 0.540 0.456 0.518
##  [85] 0.444 0.524 0.452 0.510 0.524 0.492 0.478 0.498 0.476 0.516 0.488 0.486
##  [97] 0.510 0.466 0.496 0.498

Para verificar si la muestra generada es representativa con respecto a la población y que no existan sesgos en la recolección de los datos, procedemos a comparar la media muestral obtenida de la muestra con la esperanza media teórica de la muestra.

Esperanza Teórica E(X) = n.p =500*0.5= 250

Media muestral Obtenida

mean(s_c)
## [1] 249.86

Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores

test_media_muestral_0.5 <- t.test(s_c, mu = 250)
test_media_muestral_0.5
## 
##  One Sample t-test
## 
## data:  s_c
## t = -0.11591, df = 99, p-value = 0.908
## alternative hypothesis: true mean is not equal to 250
## 95 percent confidence interval:
##  247.4635 252.2565
## sample estimates:
## mean of x 
##    249.86

el resultado de la prueba nos indica que la media muestral no es significativamente diferente de la media teórica, adicionalmente podemos ver el valor obtenido se encuentra dentro del intervalo de confianza del 95% de la esperanza, esto indica bajo sesgo en la muestra obtenida y por lo tanto pueden representar a la población.

Para verificar si la muestra generada con respecto a la población refleja adecuadamente la variabilidad de la población, procedemos a comparar la Varianza Muestral con la Varianza Teórica.

Varianza Teórica Var(X) = n.p. (1-p)= 500 * 0.5 * (0.5) = 125

Varianza Obtenida

Var_c <-var(s_c)
Var_c
## [1] 145.8792

Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores

t_c <-length(s_c)

chi_cuadrado <- (t_c - 1) * Var_c / 125
p_valor <- pchisq(chi_cuadrado, df = t_c - 1, lower.tail = FALSE)

cat("Estadística Chi-cuadrado:", chi_cuadrado, "\n")
## Estadística Chi-cuadrado: 115.5363
cat("p-valor:", p_valor, "\n")
## p-valor: 0.1225678

el valor p obtenido es mayor al alpha de la prueba lo que nos indica que no puedo rechazar la ho de que estos parámetros sean iguales por lo tanto la variza muestral no es significativamente diferente de la varianza teórica, esto refleja baja variabilidad en la muestra obtenida y por lo tanto pueden representar a la población.

hist(pestimado_c,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

boxplot(pestimado_c, main = "Diagrama de Cajas", ylab = "Valores", col = "lightgreen")

Punto D

Repita los puntos b y c para tamaños de muestra n=5,10,15,20,30,50,60,100,200,500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.

Desarrollo del Ejercicio

MUESTRAS Y PROPORCIONES MUESTRALES A continuación generaremos las muestras y las proporciones muestrales para los tamaños n requeridos.

n3 <-5
s3 <-rbinom(n=100, n3, prob=0.5)
pestimado3 <-s3/n3

n4 <-10
s4 <-rbinom(n=100, n4, prob=0.5)
pestimado4 <-s4/n4


n5 <-15
s5 <-rbinom(n=100, n5, prob=0.5)
pestimado5 <-s5/n5

n6 <-20
s6 <-rbinom(n=100, n6, prob=0.5)
pestimado6 <-s6/n6

n7 <-30
s7 <-rbinom(n=100, n7, prob=0.5)
pestimado7 <-s7/n7

n8 <-50
s8 <-rbinom(n=100, n8, prob=0.5)
pestimado8 <-s8/n8

n9 <-60
s9 <-rbinom(n=100, n9, prob=0.5)
pestimado9 <-s9/n9

n10 <-100
s10 <-rbinom(n=100, n10, prob=0.5)
pestimado10 <-s10/n10

n11 <-200
s11 <-rbinom(n=100, n11, prob=0.5)
pestimado11 <-s11/n11

HISTOGRAMAS

par(mar = c(4, 4, 2, 1) + 0.1)
    
h3_0.5 <-hist(pestimado3, xlab = "5 Proporciones estimadas", ylab="Número de muestras",main="")
abline(v=0.5,col="red")

h4_0.5 <-hist(pestimado4,xlab = "10 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h5_0.5 <-hist(pestimado5,xlab = "15 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h6_0.5 <-hist(pestimado6,xlab = "20 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h7_0.5 <-hist(pestimado7,xlab = "30 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h8_0.5 <-hist(pestimado8,xlab = "50 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h9_0.5 <-hist(pestimado9,xlab = "60 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h10_0.5 <-hist(pestimado10,xlab = "100 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

h11_0.5 <-hist(pestimado11,xlab = "200 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

hc_0.5 <-hist(pestimado_c,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.5, col="red")

BOOXPLOT

puntod <- data.frame(pestimado3,pestimado4, pestimado5, pestimado6, pestimado7, pestimado8, pestimado9, pestimado10, pestimado11,pestimado_c)
boxplot(puntod, las=1, main="Comparación estimadores muestras 5,10,15,20,30,50,60, 100, 200 y 500")   
abline(h=10,  col="red")

PRUEBAS DE NORMALIDAD

shapiro_test3<- shapiro.test(pestimado3)
shapiro_test4<- shapiro.test(pestimado4)
shapiro_test5<- shapiro.test(pestimado5)
shapiro_test6<- shapiro.test(pestimado6)
shapiro_test7<- shapiro.test(pestimado7)
shapiro_test8<- shapiro.test(pestimado8)
shapiro_test9<- shapiro.test(pestimado9)
shapiro_test10<- shapiro.test(pestimado10)
shapiro_test11<- shapiro.test(pestimado11)
shapiro_testc<- shapiro.test(pestimado_c)

shapiro_test3
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado3
## W = 0.92549, p-value = 2.787e-05
shapiro_test4
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado4
## W = 0.94145, p-value = 0.0002367
shapiro_test5
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado5
## W = 0.96402, p-value = 0.007865
shapiro_test6
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado6
## W = 0.9651, p-value = 0.009443
shapiro_test7
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado7
## W = 0.97036, p-value = 0.02356
shapiro_test8
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado8
## W = 0.98277, p-value = 0.2173
shapiro_test9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado9
## W = 0.98563, p-value = 0.3524
shapiro_test10
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado10
## W = 0.98815, p-value = 0.5191
shapiro_test11
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado11
## W = 0.98609, p-value = 0.3797
shapiro_testc
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado_c
## W = 0.99152, p-value = 0.7858

GRAFICOS Q-Q

qqnorm(pestimado3, main="Gráfico Q-Q para pestimado3")
qqline(pestimado3, col = "red")

qqnorm(pestimado4, main="Gráfico Q-Q para pestimado4")
qqline(pestimado4, col = "red")

qqnorm(pestimado5, main="Gráfico Q-Q para pestimado5")
qqline(pestimado5, col = "red")

qqnorm(pestimado6, main="Gráfico Q-Q para pestimado6")
qqline(pestimado6, col = "red")

qqnorm(pestimado7, main="Gráfico Q-Q para pestimado7")
qqline(pestimado7, col = "red")

qqnorm(pestimado8, main="Gráfico Q-Q para pestimado8")
qqline(pestimado8, col = "red")

qqnorm(pestimado9, main="Gráfico Q-Q para pestimado9")
qqline(pestimado9, col = "red")

qqnorm(pestimado10, main="Gráfico Q-Q para pestimado10")
qqline(pestimado10, col = "red")

qqnorm(pestimado11, main="Gráfico Q-Q para pestimado11")
qqline(pestimado11, col = "red")

qqnorm(pestimado_c, main="Gráfico Q-Q para pestimado2")
qqline(pestimado_c, col = "red")

Según los datos obtenidos de estas pruebas de normalidad y las graficas adjuntas podemos vemos que las distribuciones que tienen un n=5,10 y 15 no siguen una distribución normal, en cambio las distribuciones de las muestras n=20,30,50,60,100,200 y 500 a medida que aumenta el tamaño el valor p se hace mas grande sugiriendo que es mas improbable que no sigan una distribución normal. En el fondo sabemos que este comportamiento de los datos corresponden a soportar el teorema del limite central que nos dice que sin importar el tipo de distribución de una muestra a mayor cantidad de estas veremos que los datos tenderan a comportarse como una distribución normal.

Punto E

Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los

Desarrollo del Ejercicio:

Probabilidad de 10% de Plantas Enfermas

Punto A
numero_enfermas_rep1_0.1<-rbinom(1, size=1000,prob=0.1)
numero_enfermas_rep1_0.1
## [1] 98
Punto B
muestra_100_0.1<-rbinom(100, size=1000,prob=0.1)
muestra_100_0.1
##   [1]  95 105 101  89 121 119 101  97  89  98 107  94  90  97 113  97 108  95
##  [19] 112 104 124  97  82 107 104  98  88  91  97  89 105 108 110  97  86 112
##  [37]  98 109 104  94 107 114 103 101  98  81  94 102  96 111 114 109 100 107
##  [55] 102  98 103  93 105  98  94 103 114 107 106  99 121 100 107 110  93 111
##  [73]  80 105  94  84 109 105  90  98 102  97 119  92  98  95  91 109 110  89
##  [91]  86  92 100  91  97  94  84  98 103 117
pestimado_muestra_100_0.1<-muestra_100_0.1/(1000)
pestimado_muestra_100_0.1
##   [1] 0.095 0.105 0.101 0.089 0.121 0.119 0.101 0.097 0.089 0.098 0.107 0.094
##  [13] 0.090 0.097 0.113 0.097 0.108 0.095 0.112 0.104 0.124 0.097 0.082 0.107
##  [25] 0.104 0.098 0.088 0.091 0.097 0.089 0.105 0.108 0.110 0.097 0.086 0.112
##  [37] 0.098 0.109 0.104 0.094 0.107 0.114 0.103 0.101 0.098 0.081 0.094 0.102
##  [49] 0.096 0.111 0.114 0.109 0.100 0.107 0.102 0.098 0.103 0.093 0.105 0.098
##  [61] 0.094 0.103 0.114 0.107 0.106 0.099 0.121 0.100 0.107 0.110 0.093 0.111
##  [73] 0.080 0.105 0.094 0.084 0.109 0.105 0.090 0.098 0.102 0.097 0.119 0.092
##  [85] 0.098 0.095 0.091 0.109 0.110 0.089 0.086 0.092 0.100 0.091 0.097 0.094
##  [97] 0.084 0.098 0.103 0.117
Punto C
n_c_0.1 <-500
rep <-100
s_c_0.1 <-rbinom(rep, n_c_0.1, prob=0.1)
pestimado_c_0.1 <-s_c_0.1/n_c_0.1

PRUEBA ESPERANZA TEORICA VS MEDIA MUESTRAL OBTENIDA

Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores

test_media_muestral_c_0.1 <- t.test(s_c_0.1, mu = 50)
test_media_muestral_c_0.1
## 
##  One Sample t-test
## 
## data:  s_c_0.1
## t = -0.44664, df = 99, p-value = 0.6561
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
##  48.2584 51.1016
## sample estimates:
## mean of x 
##     49.68

el resultado de la prueba nos indica que la media muestral no es significativamente diferente de la media teórica, adicionalmente podemos ver el valor obtenido se encuentra dentro del intervalo de confianza del 95% de la esperanza, esto indica bajo sesgo en la muestra obtenida y por lo tanto pueden representar a la población.

PRUEBA VARIANZA TEORICA VS VARIANZA MUESTRAL Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores

t_c_0.1 <-length(s_c_0.1)
Var_c_0.1 <-var(s_c_0.1)

chi_cuadrado_0.1 <- (t_c_0.1 - 1) * Var_c_0.1 / 45
p_valor_0.1 <- pchisq(chi_cuadrado_0.1, df = t_c_0.1 - 1, lower.tail = FALSE)

cat("Estadística Chi-cuadrado:", chi_cuadrado_0.1, "\n")
## Estadística Chi-cuadrado: 112.928
cat("p-valor:", p_valor_0.1, "\n")
## p-valor: 0.1601739

el resultado de la prueba nos indica que la variza muestral no es significativamente diferente de la varianza teórica, esto refleja baja variabilidad en la muestra obtenida y por lo tanto pueden representar a la población.

Punto D

MUESTRAS Y PROPORCIONES MUESTRALES A continuación generaremos las muestras y las proporciones muestrales para los tamaños n requeridos.

n3_0.1 <-5
s3_0.1 <-rbinom(100, n3_0.1, prob=0.1)
pestimado3_0.1 <-s3_0.1/n3_0.1

n4_0.1 <-10
s4_0.1 <-rbinom(100, n4_0.1, prob=0.1)
pestimado4_0.1 <-s4_0.1/n4_0.1


n5_0.1 <-15
s5_0.1 <-rbinom(100, n5_0.1, prob=0.1)
pestimado5_0.1 <-s5_0.1/n5_0.1

n6_0.1 <-20
s6_0.1 <-rbinom(100, n6_0.1, prob=0.1)
pestimado6_0.1 <-s6_0.1/n6_0.1

n7_0.1 <-30
s7_0.1 <-rbinom(100, n7_0.1, prob=0.1)
pestimado7_0.1 <-s7_0.1/n7_0.1

n8_0.1 <-50
s8_0.1 <-rbinom(100, n8_0.1, prob=0.1)
pestimado8_0.1 <-s8_0.1/n8_0.1

n9_0.1 <-60
s9_0.1 <-rbinom(100, n9_0.1, prob=0.1)
pestimado9_0.1 <-s9_0.1/n9_0.1

n10_0.1 <-100
s10_0.1 <-rbinom(100, n10_0.1, prob=0.1)
pestimado10_0.1 <-s10_0.1/n10_0.1

n11_0.1 <-200
s11_0.1 <-rbinom(100, n11_0.1, prob=0.1)
pestimado11_0.1 <-s11_0.1/n11_0.1

HISTOGRAMAS

par(mar = c(4, 4, 2, 1) + 0.1)
    
h3_0.1 <-hist(pestimado3_0.1, xlab = "5 P. estimadas", ylab="Número de muestras",main="")
abline(v=0.1,col="red")

h4_0.1 <-hist(pestimado4_0.1,xlab = "10 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h5_0.1 <-hist(pestimado5_0.1,xlab = "15 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h6_0.1 <-hist(pestimado6_0.1,xlab = "20 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h7_0.1 <-hist(pestimado7_0.1,xlab = "30 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h8_0.1 <-hist(pestimado8_0.1,xlab = "50 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h9_0.1 <-hist(pestimado9_0.1,xlab = "60 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h10_0.1 <-hist(pestimado10_0.1,xlab = "100 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

h11_0.1 <-hist(pestimado11_0.1,xlab = "200 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

hc_0.1 <-hist(pestimado_c_0.1,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.1, col="red")

BOOXPLOT

puntod_0.1 <- data.frame(pestimado3_0.1,pestimado4_0.1, pestimado5_0.1, pestimado6_0.1, pestimado7_0.1, pestimado8_0.1, pestimado9_0.1, pestimado10_0.1, pestimado11_0.1,pestimado_c_0.1)
boxplot(puntod_0.1, las=1, main="Comparación estimadores prob=0.1 y muestras 5,10,15,20,30,50,60, 100, 200 y 500")   
abline(h=10,  col="red")

PRUEBAS DE NORMALIDAD

shapiro_test3_0.1<- shapiro.test(pestimado3_0.1)
shapiro_test4_0.1<- shapiro.test(pestimado4_0.1)
shapiro_test5_0.1<- shapiro.test(pestimado5_0.1)
shapiro_test6_0.1<- shapiro.test(pestimado6_0.1)
shapiro_test7_0.1<- shapiro.test(pestimado7_0.1)
shapiro_test8_0.1<- shapiro.test(pestimado8_0.1)
shapiro_test9_0.1<- shapiro.test(pestimado9_0.1)
shapiro_test10_0.1<- shapiro.test(pestimado10_0.1)
shapiro_test11_0.1<- shapiro.test(pestimado11_0.1)
shapiro_testc_0.1<- shapiro.test(pestimado_c_0.1)

shapiro_test3_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado3_0.1
## W = 0.73998, p-value = 5.129e-12
shapiro_test4_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado4_0.1
## W = 0.86377, p-value = 3.963e-08
shapiro_test5_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado5_0.1
## W = 0.87094, p-value = 7.652e-08
shapiro_test6_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado6_0.1
## W = 0.92163, p-value = 1.72e-05
shapiro_test7_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado7_0.1
## W = 0.94928, p-value = 0.0007443
shapiro_test8_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado8_0.1
## W = 0.97269, p-value = 0.03564
shapiro_test9_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado9_0.1
## W = 0.9545, p-value = 0.001663
shapiro_test10_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado10_0.1
## W = 0.95571, p-value = 0.002013
shapiro_test11_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado11_0.1
## W = 0.96783, p-value = 0.01511
shapiro_testc_0.1
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado_c_0.1
## W = 0.99377, p-value = 0.9297

GRAFICOS Q-Q

qqnorm(pestimado3_0.1, main="Gráfico Q-Q para pestimado3")
qqline(pestimado3_0.1, col = "red")

qqnorm(pestimado4_0.1, main="Gráfico Q-Q para pestimado4")
qqline(pestimado4_0.1, col = "red")

qqnorm(pestimado5_0.1, main="Gráfico Q-Q para pestimado5")
qqline(pestimado5_0.1, col = "red")

qqnorm(pestimado6_0.1, main="Gráfico Q-Q para pestimado6")
qqline(pestimado6_0.1, col = "red")

qqnorm(pestimado7_0.1, main="Gráfico Q-Q para pestimado7")
qqline(pestimado7_0.1, col = "red")

qqnorm(pestimado8_0.1, main="Gráfico Q-Q para pestimado8")
qqline(pestimado8_0.1, col = "red")

qqnorm(pestimado9_0.1, main="Gráfico Q-Q para pestimado9")
qqline(pestimado9_0.1, col = "red")

qqnorm(pestimado10_0.1, main="Gráfico Q-Q para pestimado10")
qqline(pestimado10_0.1, col = "red")

qqnorm(pestimado11_0.1, main="Gráfico Q-Q para pestimado11")
qqline(pestimado11_0.1, col = "red")

qqnorm(pestimado_c_0.1, main="Gráfico Q-Q para pestimado2")
qqline(pestimado_c_0.1, col = "red")

Probabilidad de 90% de Plantas Enfermas

Punto A
numero_enfermas_rep1_0.9<-rbinom(1, size=1000,prob=0.9)
numero_enfermas_rep1_0.9
## [1] 891
Punto B
muestra_100_0.9<-rbinom(100, size=1000,prob=0.9)
muestra_100_0.9
##   [1] 910 899 903 901 879 925 896 887 885 900 894 880 885 894 903 900 910 907
##  [19] 896 908 886 911 900 897 912 895 905 899 896 897 891 888 894 899 892 906
##  [37] 887 901 897 902 887 909 905 894 901 890 904 901 909 920 889 900 901 892
##  [55] 896 900 894 896 899 899 894 893 912 897 920 915 905 897 903 887 901 897
##  [73] 889 874 923 902 912 896 901 897 887 897 891 915 906 919 907 898 889 897
##  [91] 913 914 904 896 904 904 911 911 922 912
pestimado_muestra_100_0.9<-muestra_100_0.9/(1000)
pestimado_muestra_100_0.9
##   [1] 0.910 0.899 0.903 0.901 0.879 0.925 0.896 0.887 0.885 0.900 0.894 0.880
##  [13] 0.885 0.894 0.903 0.900 0.910 0.907 0.896 0.908 0.886 0.911 0.900 0.897
##  [25] 0.912 0.895 0.905 0.899 0.896 0.897 0.891 0.888 0.894 0.899 0.892 0.906
##  [37] 0.887 0.901 0.897 0.902 0.887 0.909 0.905 0.894 0.901 0.890 0.904 0.901
##  [49] 0.909 0.920 0.889 0.900 0.901 0.892 0.896 0.900 0.894 0.896 0.899 0.899
##  [61] 0.894 0.893 0.912 0.897 0.920 0.915 0.905 0.897 0.903 0.887 0.901 0.897
##  [73] 0.889 0.874 0.923 0.902 0.912 0.896 0.901 0.897 0.887 0.897 0.891 0.915
##  [85] 0.906 0.919 0.907 0.898 0.889 0.897 0.913 0.914 0.904 0.896 0.904 0.904
##  [97] 0.911 0.911 0.922 0.912
Punto C
n_c_0.9 <-500
rep <-100
s_c_0.9 <-rbinom(rep, n_c_0.9, prob=0.9)
pestimado_c_0.9 <-s_c_0.9/n_c_0.9

PRUEBA ESPERANZA TEORICA VS MEDIA MUESTRAL OBTENIDA

Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores

test_media_muestral_c_0.9 <- t.test(s_c_0.9, mu = 450)
test_media_muestral_c_0.9
## 
##  One Sample t-test
## 
## data:  s_c_0.9
## t = -0.57, df = 99, p-value = 0.57
## alternative hypothesis: true mean is not equal to 450
## 95 percent confidence interval:
##  448.3868 450.8932
## sample estimates:
## mean of x 
##    449.64

el resultado de la prueba nos indica que la media muestral no es significativamente diferente de la media teórica, adicionalmente podemos ver el valor obtenido se encuentra dentro del intervalo de confianza del 95% de la esperanza, esto indica bajo sesgo en la muestra obtenida y por lo tanto pueden representar a la población.

PRUEBA VARIANZA TEORICA VS VARIANZA MUESTRAL Realizaremos una prueba para verificar si estadisticamente si no existe diferencia entre estos valores

t_c_0.9 <-length(s_c_0.9)
Var_c_0.9 <-var(s_c_0.9)

chi_cuadrado_0.9 <- (t_c_0.9 - 1) * Var_c_0.9 / 45
p_valor_0.9 <- pchisq(chi_cuadrado_0.9, df = t_c_0.9 - 1, lower.tail = FALSE)

cat("Estadística Chi-cuadrado:", chi_cuadrado_0.9, "\n")
## Estadística Chi-cuadrado: 87.75644
cat("p-valor:", p_valor_0.9, "\n")
## p-valor: 0.7833645

el resultado de la prueba nos indica que la variza muestral no es significativamente diferente de la varianza teórica, esto refleja baja variabilidad en la muestra obtenida y por lo tanto pueden representar a la población.

Punto D

MUESTRAS Y PROPORCIONES MUESTRALES A continuación generaremos las muestras y las proporciones muestrales para los tamaños n requeridos.

n3_0.9 <-5
s3_0.9 <-rbinom(100, n3_0.9, prob=0.9)
pestimado3_0.9 <-s3_0.9/n3_0.9

n4_0.9 <-10
s4_0.9 <-rbinom(100, n4_0.9, prob=0.9)
pestimado4_0.9 <-s4_0.9/n4_0.9


n5_0.9 <-15
s5_0.9 <-rbinom(100, n5_0.9, prob=0.9)
pestimado5_0.9 <-s5_0.9/n5_0.9

n6_0.9 <-20
s6_0.9 <-rbinom(100, n6_0.9, prob=0.9)
pestimado6_0.9 <-s6_0.9/n6_0.9

n7_0.9 <-30
s7_0.9 <-rbinom(100, n7_0.9, prob=0.9)
pestimado7_0.9 <-s7_0.9/n7_0.9

n8_0.9 <-50
s8_0.9 <-rbinom(100, n8_0.9, prob=0.9)
pestimado8_0.9 <-s8_0.9/n8_0.9

n9_0.9 <-60
s9_0.9 <-rbinom(100, n9_0.9, prob=0.9)
pestimado9_0.9 <-s9_0.9/n9_0.9

n10_0.9 <-100
s10_0.9 <-rbinom(100, n10_0.9, prob=0.9)
pestimado10_0.9 <-s10_0.9/n10_0.9

n11_0.9 <-200
s11_0.9 <-rbinom(100, n11_0.9, prob=0.9)
pestimado11_0.9 <-s11_0.9/n11_0.9

HISTOGRAMAS

par(mar = c(4, 4, 2, 1) + 0.1)
    
h3_0.9 <-hist(pestimado3_0.9, xlab = "5 P. estimadas", ylab="Número de muestras",main="")
abline(v=0.9,col="red")

h4_0.9 <-hist(pestimado4_0.9,xlab = "10 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h5_0.9 <-hist(pestimado5_0.9,xlab = "15 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h6_0.9 <-hist(pestimado6_0.9,xlab = "20 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h7_0.9 <-hist(pestimado7_0.9,xlab = "30 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h8_0.9 <-hist(pestimado8_0.9,xlab = "50 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h9_0.9 <-hist(pestimado9_0.9,xlab = "60 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h10_0.9 <-hist(pestimado10_0.9,xlab = "100 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

h11_0.9 <-hist(pestimado11_0.9,xlab = "200 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

hc_0.9 <-hist(pestimado_c_0.9,xlab = "500 Proporciones estimadas",ylab="Número de muestras",main="")
abline(v=0.9, col="red")

BOOXPLOT

puntod_0.9 <- data.frame(pestimado3_0.9,pestimado4_0.9, pestimado5_0.9, pestimado6_0.9, pestimado7_0.9, pestimado8_0.9, pestimado9_0.9, pestimado10_0.9, pestimado11_0.9,pestimado_c_0.9)
boxplot(puntod_0.9, las=1, main="Comparación estimadores prob=0.9 y muestras 5,10,15,20,30,50,60, 100, 200 y 500")   
abline(h=10,  col="red")

PRUEBAS DE NORMALIDAD

shapiro_test3_0.9<- shapiro.test(pestimado3_0.9)
shapiro_test4_0.9<- shapiro.test(pestimado4_0.9)
shapiro_test5_0.9<- shapiro.test(pestimado5_0.9)
shapiro_test6_0.9<- shapiro.test(pestimado6_0.9)
shapiro_test7_0.9<- shapiro.test(pestimado7_0.9)
shapiro_test8_0.9<- shapiro.test(pestimado8_0.9)
shapiro_test9_0.9<- shapiro.test(pestimado9_0.9)
shapiro_test10_0.9<- shapiro.test(pestimado10_0.9)
shapiro_test11_0.9<- shapiro.test(pestimado11_0.9)
shapiro_testc_0.9<- shapiro.test(pestimado_c_0.9)

shapiro_test3_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado3_0.9
## W = 0.65516, p-value = 5.467e-14
shapiro_test4_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado4_0.9
## W = 0.8321, p-value = 2.729e-09
shapiro_test5_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado5_0.9
## W = 0.91038, p-value = 4.502e-06
shapiro_test6_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado6_0.9
## W = 0.9211, p-value = 1.612e-05
shapiro_test7_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado7_0.9
## W = 0.94462, p-value = 0.0003729
shapiro_test8_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado8_0.9
## W = 0.97533, p-value = 0.05727
shapiro_test9_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado9_0.9
## W = 0.94646, p-value = 0.0004885
shapiro_test10_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado10_0.9
## W = 0.9739, p-value = 0.04426
shapiro_test11_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado11_0.9
## W = 0.98595, p-value = 0.3711
shapiro_testc_0.9
## 
##  Shapiro-Wilk normality test
## 
## data:  pestimado_c_0.9
## W = 0.98518, p-value = 0.3271

GRAFICOS Q-Q

qqnorm(pestimado3_0.9, main="Gráfico Q-Q para pestimado3")
qqline(pestimado3_0.9, col = "red")

qqnorm(pestimado4_0.9, main="Gráfico Q-Q para pestimado4")
qqline(pestimado4_0.9, col = "red")

qqnorm(pestimado5_0.9, main="Gráfico Q-Q para pestimado5")
qqline(pestimado5_0.9, col = "red")

qqnorm(pestimado6_0.9, main="Gráfico Q-Q para pestimado6")
qqline(pestimado6_0.9, col = "red")

qqnorm(pestimado7_0.9, main="Gráfico Q-Q para pestimado7")
qqline(pestimado7_0.9, col = "red")

qqnorm(pestimado8_0.9, main="Gráfico Q-Q para pestimado8")
qqline(pestimado8_0.9, col = "red")

qqnorm(pestimado9_0.9, main="Gráfico Q-Q para pestimado9")
qqline(pestimado9_0.9, col = "red")

qqnorm(pestimado10_0.9, main="Gráfico Q-Q para pestimado10")
qqline(pestimado10_0.9, col = "red")

qqnorm(pestimado11_0.9, main="Gráfico Q-Q para pestimado11")
qqline(pestimado11_0.9, col = "red")

qqnorm(pestimado_c_0.9, main="Gráfico Q-Q para pestimado2")
qqline(pestimado_c_0.9, col = "red")

CONCLUSIONES FINALES

El teorema del limite central nos permite utilizar una distribución que tal vez no sea normal pero que con una cantidad de muestras significativas se acopla a la distribución normal sin sesgo y con baja variabilidad, la aplicación de este teorema nos facilita realizar pruebas y estudios en la realidad.

De igual forma podemos apreciar que a mayor tamaño de muestras las caracteristicas de sesgo y variabilidad disminuyen y la distribución se asemeja mas a una distribución normal.

Por último, al modificar los probabilidad de exito de la cantidad de plantas enfermas encontradas en la muestra tenemos un hallazgo interesante y es que mientras la probabilidad de exito sea mas polarizada (para el caso de 10% y 90%) se necesitara un tamaño de muestra mas grande para que la distribución presente las caracteristicas de la distribución normal por que la distribución de los datos es asimetrica. mientras que para el caso con el 50% tenia una distribución más centrada, por lo tanto más semejante a la normal lo que permite que con un tamaño de muestra menor se evidencien las caracteristicas normales sobre la distribución.