Probelma 3

A continuación se describen los siguientes pasos para su verificación:

a. Realice una simulación en la cual genere una población de n=1000 (Lote), donde el porcentaje de individuos (supongamos plantas) enfermas sea del 50%.

N = 1000
P = 0.5 # Procentaje de individuos (plantas) enfermos

set.seed(1234)
enfermos = rbinom(N,1,P)

b. Genere una función que permita:

- Obtener una muestra aleatoria de la población y

- Calcule el estimador de la proporción muestral pˆ para un tamaño de muestra dado n.

A continuación construimos la función solicitada.

estimar_proporcion = function(tamano,muestra_total) {
  muestra = sample(muestra_total, size = tamano) # Obtener una muestra aleatoria de tamaño n
  p_muestral = mean(muestra) # Calcular el estimador de la proporción muestral
  return(p_muestral)
}

c. Repita el escenario anterior (b) n=500 veces y analice los resultados en cuanto al comportamiento de los 500 resultados del estimador pˆ. ¿Qué tan simétricos o sesgados son los resultados obtenidos? y ¿Qué se puede observar en cuanto a la variabilidad?. Realice en su informe un comentario sobre los resultados obtenidos.

Ahora bien, para solucionar este punto creamos un ciclo que iterara 500 veces la función previamente creada con un tamaño de muestra 100, esto con el objetivo de realizar el analisis solicitado.

tamano_muestra = 100
P_500 = rep(NA, 500)

for (i in 1:500) {
  pro1_500=estimar_proporcion(tamano_muestra,enfermos)
  P_500[i] = pro1_500
}
cat("Resultados para n =", 100, "\n")

## Resultados para n = 100

print(summary(P_500))

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3800  0.4900  0.5200  0.5203  0.5600  0.6400

cat("\nDesviación estándar: ", sd(P_500), "\n")

## 
## Desviación estándar:  0.04863759

cat("\nVarianza: ", var(P_500), "\n")

## 
## Varianza:  0.002365616

hist(P_500, main = "Histograma de los resultados", xlab = "Proporción muestral")

cat("\n\n")

boxplot(P_500)

Luego de analizar los resultados del proceso, podremos responder las preguntas realizadas para este Item, que son:

¿Qué tan simétricos o sesgados son los resultados obtenidos?

Los resultados son simetricos ya que la media y la mediana son cercanas con valores de 0,5151 y 0,5200 respectivamente, por tanto el sesgo es muy pequeño, adicional la grafica del histograma se ve en forma de campana y el diagrama de bigotes tambien confirma esta simetria.

¿Qué se puede observar en cuanto a la variabilidad?

La Variabilidad de los datos es muy pequeña y lo podemos evidenciar con los valores resultados que arrojan la desviación estandar y la varianza, pero esto lo podemos confirmar calculando el coeficiente de variación, que lo haremos a continuación:

cat("\nCoeficiente de Variación: ", (sd(P_500)/mean(P_500))*100,"%","\n")

## 
## Coeficiente de Variación:  9.347272 %

Al ser un coeficiente de variación inferior al 25% podemos confirmar con plena seguridad esto.

En general, estos hallazgos indican que los datos muestran una distribución simétrica con poca variabilidad. La comparación de la media y la mediana, junto con las medidas de dispersión, proporciona una imagen completa de la distribución de los datos. El coeficiente de variación nos confirma que los datos para esta muestra generados manera aleatoria tienen bastante uniformidad.

d. Repita los puntos b y c para tamaños de muestra n=5, 10, 15, 20, 30, 50, 60, 100, 200, 500. Compare los resultados obtenidos para los diferentes tamaños de muestra en cuanto a la normalidad. Utilice pruebas de bondad y ajuste (shapiro wilks :shspiro.test()) y métodos gráficos (gráfico de normalidad: qqnorm()). Comente en su informe los resultados obtenidos.

Teninendo en cuenta la cantidad de iteraciónes que hay que realizar para este ejercicio, hemos decidido crear una función que genere los calculos para cada una de las muestras solicitadas y al final realizaremos los comentarios respecto a lo evidenciado.

Creamos la funcion:

analisis_muestras = function(n,enfermosf1) {
  probfr=estimar_proporcion(n,enfermosf1)

  estimadoresfr = rep(NA, 500)
  
  for (i in 1:500) {
    probfr=estimar_proporcion(n,enfermosf1)
    estimadoresfr[i] = probfr
  }
  cat("Resumen Muestras con repetición para n =", n, "\n")
  print(summary(estimadoresfr))
  
  cat("\nDesviación estándar: ", sd(estimadoresfr), "\n")
  cat("\nVarianza: ", var(estimadoresfr), "\n")
  cat("\nCoeficiente de Variación: ", (sd(estimadoresfr)/mean(estimadoresfr))*100,"%","\n")
  print(shapiro.test(estimadoresfr))  
  cat("\n\n")
  hist(estimadoresfr, main = paste("Histograma de los resultados",n), xlab = paste("Proporción muestral",n))
  cat("\n\n")
  #boxplot(estimadoresfr, main = paste("Diagrama de caja de estimadores para ",n))
  #cat("\n\n")
  qqnorm(estimadoresfr) ; qqline(estimadoresfr, col="red")
  cat("\n\n")
}

Luego de creada la función creamos un ciclo de ejcución de cara a obtener los resultados para cada muestra, y el resultado es el siguiente:

tamanos_estimadores= c(5,10,15,20,30,50,60,100,200,500)
for(i in tamanos_estimadores){
  analisis_muestras(i,enfermos)
}

## Resumen Muestras con repetición para n = 5 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.4000  0.6000  0.5228  0.6500  1.0000 
## 
## Desviación estándar:  0.2290526 
## 
## Varianza:  0.05246509 
## 
## Coeficiente de Variación:  43.81266 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.92386, p-value = 3.196e-15

## 
## 
## Resumen Muestras con repetición para n = 10 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1000  0.4000  0.5000  0.5186  0.6000  1.0000 
## 
## Desviación estándar:  0.1629944 
## 
## Varianza:  0.02656717 
## 
## Coeficiente de Variación:  31.4297 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.96696, p-value = 3.543e-09

## 
## 
## Resumen Muestras con repetición para n = 15 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.06667 0.40000 0.53333 0.51013 0.60000 0.80000 
## 
## Desviación estándar:  0.1333817 
## 
## Varianza:  0.01779067 
## 
## Coeficiente de Variación:  26.14644 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.97449, p-value = 1.188e-07

## 
## 
## Resumen Muestras con repetición para n = 20 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.15    0.45    0.50    0.51    0.60    0.85 
## 
## Desviación estándar:  0.1113319 
## 
## Varianza:  0.01239479 
## 
## Coeficiente de Variación:  21.82978 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.98128, p-value = 4.854e-06

## 
## 
## Resumen Muestras con repetición para n = 30 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3000  0.4667  0.5333  0.5209  0.5667  0.8000 
## 
## Desviación estándar:  0.08861748 
## 
## Varianza:  0.007853057 
## 
## Coeficiente de Variación:  17.01129 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.9823, p-value = 9.004e-06

## 
## 
## Resumen Muestras con repetición para n = 50 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2800  0.4600  0.5100  0.5148  0.5600  0.7400 
## 
## Desviación estándar:  0.06883327 
## 
## Varianza:  0.004738018 
## 
## Coeficiente de Variación:  13.37191 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.99056, p-value = 0.002732

## 
## 
## Resumen Muestras con repetición para n = 60 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3500  0.4833  0.5167  0.5189  0.5667  0.7167 
## 
## Desviación estándar:  0.06321541 
## 
## Varianza:  0.003996188 
## 
## Coeficiente de Variación:  12.1818 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.99242, p-value = 0.01219

## 
## 
## Resumen Muestras con repetición para n = 100 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.320   0.490   0.520   0.519   0.550   0.650 
## 
## Desviación estándar:  0.04683617 
## 
## Varianza:  0.002193627 
## 
## Coeficiente de Variación:  9.023963 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.98972, p-value = 0.001432

## 
## 
## Resumen Muestras con repetición para n = 200 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4250  0.4950  0.5150  0.5168  0.5350  0.6250 
## 
## Desviación estándar:  0.03233717 
## 
## Varianza:  0.001045692 
## 
## Coeficiente de Variación:  6.256829 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.99442, p-value = 0.06504

## 
## 
## Resumen Muestras con repetición para n = 500 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.470   0.506   0.518   0.517   0.528   0.560 
## 
## Desviación estándar:  0.01660939 
## 
## Varianza:  0.0002758717 
## 
## Coeficiente de Variación:  3.212697 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.99416, p-value = 0.05234

Luego de revisar los datos obtenidos con las diferentes muestras podemos concluir que, para las frecuencias mas bajas la simetria es muy poca con el valor de 5 sobre todo, pero a medido que vamos tomando mas muestras ya podemos visualizar mucha mas simetria, ahora bien en tanto a variabilidad de los datos, es un comprotamiento similar, el coeficiente de variación inicia a ser aceptable luego de la muestra 20, ahora analizando la Normalidad de las diferentes muestras en base al resultado de la función Saphiro podemos concluir que teniendo en cuenta el nivel de significancia superior a 0,05 encontramos que las frecuencias que tienen una distribución Normal son las de 200 y 500, al final estos resultados comprueban el Teorema del Limite Central.

e. Repita toda la simulación (puntos a – d), pero ahora para lotes con 10% de plantas enfermas y de nuevo para lotes con un 90% de plantas enfermas. Concluya sobre los resultados del ejercicio.

Para lotes con el 10% de plantas enfermas.

Lo primero que realizamos es la simulación con un 10% de plantas enfermas.

N = 1000
P = 0.1 # Procentaje de individuos (plantas) enfermos

set.seed(1234)
enfermos = rbinom(N,1,P)

Ahora ejecutamos de nuevo el ciclo pero con el 10% de plantas enfermas:

tamanos_estimadores= c(5,10,15,20,30,50,60,100,200,500)
for(i in tamanos_estimadores){
  analisis_muestras(i,enfermos)
}

## Resumen Muestras con repetición para n = 5 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.1248  0.2000  0.6000 
## 
## Desviación estándar:  0.1447303 
## 
## Varianza:  0.02094685 
## 
## Coeficiente de Variación:  115.9698 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.75989, p-value < 2.2e-16

## 
## 
## Resumen Muestras con repetición para n = 10 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1178  0.2000  0.5000 
## 
## Desviación estándar:  0.1062343 
## 
## Varianza:  0.01128573 
## 
## Coeficiente de Variación:  90.18194 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.86489, p-value < 2.2e-16

## 
## 
## Resumen Muestras con repetición para n = 15 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.13333 0.12480 0.20000 0.40000 
## 
## Desviación estándar:  0.08344658 
## 
## Varianza:  0.006963331 
## 
## Coeficiente de Variación:  66.86424 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.91921, p-value = 1.023e-15

## 
## 
## Resumen Muestras con repetición para n = 20 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0500  0.1000  0.1236  0.1500  0.3500 
## 
## Desviación estándar:  0.07066135 
## 
## Varianza:  0.004993026 
## 
## Coeficiente de Variación:  57.16938 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.94356, p-value = 7.407e-13

## 
## 
## Resumen Muestras con repetición para n = 30 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.06667 0.10000 0.11673 0.16667 0.36667 
## 
## Desviación estándar:  0.05723142 
## 
## Varianza:  0.003275435 
## 
## Coeficiente de Variación:  49.02749 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.96131, p-value = 3.452e-10

## 
## 
## Resumen Muestras con repetición para n = 50 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0200  0.1000  0.1200  0.1207  0.1400  0.2600 
## 
## Desviación estándar:  0.04426575 
## 
## Varianza:  0.001959457 
## 
## Coeficiente de Variación:  36.68027 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.97826, p-value = 8.619e-07

## 
## 
## Resumen Muestras con repetición para n = 60 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.1000  0.1167  0.1183  0.1333  0.2333 
## 
## Desviación estándar:  0.03795156 
## 
## Varianza:  0.001440321 
## 
## Coeficiente de Variación:  32.08982 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.97774, p-value = 6.506e-07

## 
## 
## Resumen Muestras con repetición para n = 100 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0400  0.1000  0.1200  0.1212  0.1400  0.2400 
## 
## Desviación estándar:  0.03200173 
## 
## Varianza:  0.001024111 
## 
## Coeficiente de Variación:  26.39536 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.98295, p-value = 1.34e-05

## 
## 
## Resumen Muestras con repetición para n = 200 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0650  0.1050  0.1200  0.1201  0.1350  0.1850 
## 
## Desviación estándar:  0.02124231 
## 
## Varianza:  0.0004512356 
## 
## Coeficiente de Variación:  17.68277 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.9913, p-value = 0.004917

## 
## 
## Resumen Muestras con repetición para n = 500 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.094   0.114   0.120   0.120   0.128   0.148 
## 
## Desviación estándar:  0.01011355 
## 
## Varianza:  0.000102284 
## 
## Coeficiente de Variación:  8.429648 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.99335, p-value = 0.02639

Con este porcentaje de plantas enfermas solo las muestras mas grandes evidencian simetria y la Normalidad solo se ve en la muestra de 500, debido a que es la unica que supera el nivel de significancia, aun cuando la muestra de 200 esta bastante cercana al nivel de significancia.

Para lotes con el 90% de plantas enfermas.

Lo primero que realizamos es la simulación con un 90% de plantas enfermas.

N = 1000
P = 0.9 # Procentaje de individuos (plantas) enfermos

set.seed(1234)
enfermos = rbinom(N,1,P)

Ahora ejecutamos de nuevo el ciclo pero con el 90% de plantas enfermas:

tamanos_estimadores= c(5,10,15,20,30,50,60,100,200,500)
for(i in tamanos_estimadores){
  analisis_muestras(i,enfermos)
}

## Resumen Muestras con repetición para n = 5 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.8000  1.0000  0.8752  1.0000  1.0000 
## 
## Desviación estándar:  0.1447303 
## 
## Varianza:  0.02094685 
## 
## Coeficiente de Variación:  16.53682 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.75989, p-value < 2.2e-16

## 
## 
## Resumen Muestras con repetición para n = 10 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5000  0.8000  0.9000  0.8822  1.0000  1.0000 
## 
## Desviación estándar:  0.1062343 
## 
## Varianza:  0.01128573 
## 
## Coeficiente de Variación:  12.04198 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.86489, p-value < 2.2e-16

## 
## 
## Resumen Muestras con repetición para n = 15 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6000  0.8000  0.8667  0.8752  0.9333  1.0000 
## 
## Desviación estándar:  0.08344658 
## 
## Varianza:  0.006963331 
## 
## Coeficiente de Variación:  9.534572 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.91921, p-value = 1.023e-15

## 
## 
## Resumen Muestras con repetición para n = 20 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6500  0.8500  0.9000  0.8764  0.9500  1.0000 
## 
## Desviación estándar:  0.07066135 
## 
## Varianza:  0.004993026 
## 
## Coeficiente de Variación:  8.062682 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.94356, p-value = 7.407e-13

## 
## 
## Resumen Muestras con repetición para n = 30 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6333  0.8333  0.9000  0.8833  0.9333  1.0000 
## 
## Desviación estándar:  0.05723142 
## 
## Varianza:  0.003275435 
## 
## Coeficiente de Variación:  6.479518 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.96131, p-value = 3.452e-10

## 
## 
## Resumen Muestras con repetición para n = 50 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7400  0.8600  0.8800  0.8793  0.9000  0.9800 
## 
## Desviación estándar:  0.04426575 
## 
## Varianza:  0.001959457 
## 
## Coeficiente de Variación:  5.034089 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.97826, p-value = 8.619e-07

## 
## 
## Resumen Muestras con repetición para n = 60 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7667  0.8667  0.8833  0.8817  0.9000  1.0000 
## 
## Desviación estándar:  0.03795156 
## 
## Varianza:  0.001440321 
## 
## Coeficiente de Variación:  4.304199 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.97774, p-value = 6.506e-07

## 
## 
## Resumen Muestras con repetición para n = 100 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7600  0.8600  0.8800  0.8788  0.9000  0.9600 
## 
## Desviación estándar:  0.03200173 
## 
## Varianza:  0.001024111 
## 
## Coeficiente de Variación:  3.641692 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.98295, p-value = 1.34e-05

## 
## 
## Resumen Muestras con repetición para n = 200 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.8150  0.8650  0.8800  0.8799  0.8950  0.9350 
## 
## Desviación estándar:  0.02124231 
## 
## Varianza:  0.0004512356 
## 
## Coeficiente de Variación:  2.414255 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.9913, p-value = 0.004917

## 
## 
## Resumen Muestras con repetición para n = 500 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.852   0.872   0.880   0.880   0.886   0.906 
## 
## Desviación estándar:  0.01011355 
## 
## Varianza:  0.000102284 
## 
## Coeficiente de Variación:  1.149236 % 
## 
##  Shapiro-Wilk normality test
## 
## data:  estimadoresfr
## W = 0.99335, p-value = 0.02639

Con lotes con el 90% de plantas enfermas, pasa algo muy particular, existe una alta simetria en los datos y tambien el coeficiente de variación para todas las muestras estan dentro del umbral del 25%, lo particular es que la función Sphiro para ninguna de las muestras arrojo un resultado favorable para comprobar la hipotesis de una distriución Normal.

Problema3_Unidad2

Ivan Quiza - Luis Semma

2024-03-11

Objetivo