_________________________________________________________________________________________________________________________
Si tenemos una población conocida, la fórmula ajustada es:
\[ n = \frac{Z^2 \cdot \sigma^2 \cdot N}{(N - 1) \cdot E^2 + Z^2 \cdot \sigma^2} \]
Donde:
\(n\): tamaño muestral.
\(Z\): valor Z correspondiente a un nivel de confianza.
\(\sigma\): desviación estándar de la población.
\(N\): tamaño de la población.
\(E\): margen de error tolerado.
# 1. Definimos los Parámetros
Z <- 1.96 # Valor de Z para un nivel de confianza del 95%
sigma <- 3 # Desviación estándar de la población
N <- 250 # Tamaño de la población total
E <- 2 # Margen de error tolerado
# 2. Calculamos el tamaño muestral
n_med_pf <- (Z^2 * sigma^2 * N) / ((N - 1) * E^2 + Z^2 * sigma^2)
n_med_pf <- ceiling(n_med_pf) # Redondear hacia arriba
n_med_pf## [1] 9
Para una población infinita, el tamaño muestral se calcula usando:
\[ n = \left( \frac{Z \cdot S}{E} \right)^2 \]
Donde:
\(Z\): es el valor del estadístico Z para un determinado nivel de confianza (1 - \(\alpha\)).
\(S\): es la desviación estándar estimada de la población a través de la muestra piloto o bien de experiencias previas.
\(E\): es el margen de error tolerado, es decir, la máxima diferencia aceptable entre la media muestral y la media poblacional.
# 1. Definimos los parámetros
Z <- 1.96 # Valor de Z para un nivel de confianza del 95%
E <- 14 # Margen de error tolerado
S <- 105 # Se considera una estimación de la desviación estándar de 105
# 2. Calculamos el tamaño muestral
n_media_pinf <- (Z * S / E)^2
n_media_pinf <- ceiling(n_media_pinf) # Redondear hacia arriba para obtener valor entero.
n_media_pinf## [1] 217
El tamaño de muestra necesario para estimar una proporción en una población infinita se puede calcular usando la siguiente fórmula:
\[ n = \frac{Z^2 \cdot p \cdot (1 - p)}{E^2} \]
Donde:
\(n\): es el tamaño muestral.
\(Z\): es el valor Z correspondiente al nivel de confianza.
\(p\): es la proporción esperada.
\(E\): es el margen de error tolerado.
# 1. Definimos los parámetros
Z <- 1.96 # Valor de Z para un nivel de confianza del 95%
p <- 0.5 # Proporción esperada
E <- 0.05 # Margen de error
# 2. Calculamos el tamaño muestral
n_prop_inf <- (Z^2 * p * (1 - p)) / (E^2)
n_prop_inf <- ceiling(n_prop_inf) # Redondear hacia arriba
n_prop_inf## [1] 385
\[ n = \frac{Z^2 \cdot p \cdot (1 - p) \cdot N}{(N - 1) \cdot E^2 + Z^2 \cdot p \cdot (1 - p)} \]
Donde:
\(n\): es el tamaño muestral.
\(Z\): es el valor Z correspondiente al nivel de confianza.
\(p\): es la proporción esperada.
\(N\): es el tamaño de la población.
\(E\): es el margen de error tolerado.
# 1. Definimos los Parámetros
Z <- 1.96 # Para un nivel de confianza del 95%
p <- 0.5 # Proporción esperada
N <- 1000 # Tamaño de la población total
E <- 0.05 # Margen de error tolerado
# 2. Calculamos el tamaño muestral
n_prop_fin <- (Z^2 * p * (1 - p) * N) / ((N - 1) * E^2 + Z^2 * p * (1 - p))
n_prop_fin <- ceiling(n_prop_fin) # Redondear hacia arriba
n_prop_fin## [1] 278
RESUMEN <- MANDARINAS %>%
filter(VARIEDAD == "Clementina", GRUPO == 1 ) %>%
summarise(MEDIA = mean(PESO),
SD = sd(PESO),
MIN_GRUPO= min(PESO),
MAX_GRUPO= max(PESO))
RESUMEN## # A tibble: 1 × 4
## MEDIA SD MIN_GRUPO MAX_GRUPO
## <dbl> <dbl> <dbl> <dbl>
## 1 146. 34.6 37 231
“Cuando no se conocen los valores poblacionales, se pueden sustituir por una estimación adecuada obtenida de estudios previos o de una prueba piloto (Ojeda et al., 2011, Metodología de diseño estadístico).”
Podemos asumir un error del 5% respecto al valor medio. Si tomamos por ejemplo la variable “Peso” de las mandarinas, se puedes calcular el error en función de las medias observadas.Así, para el Grupo 1, con una media de 146.47 g, un error del 5% sería:
𝐸= 0.05 × 146.47 = 7.32 g
Esto implica que se espera que la media poblacional esté dentro de 7.32 gramos por encima o por debajo de la media muetral.
# Calculamos el tamaño muestral de frutos para la variedad "Clementina".
# 1. Definimos los parámetros
M1 <- 146.4667 # Media muestral del Grupo 1.
Z <- 1.96 # Valor de Z para un nivel de confianza del 95%
E <- 0.05*M1 # Margen de error tolerado (5% de la media)
S1 <- 34.57100 # Se considera una estimación de la desviación estándar de 35.59
E## [1] 7.323335
# 2. Calculamos el tamaño muestral
n_cle_g1 <- (Z * S1 / E)^2
n_cle_g1 <- ceiling(n_cle_g1) # Redondear hacia arriba para obtener valor entero.
n_cle_g1## [1] 86
Para resolver este caso, vamos a partir del supuesto que cada árbol tiene 500 frutos y que en el lote hay 250 plantas de la variedad Clementina.
N = 500 frutos/planta x 250 plantas = 125000 frutos
## [1] 146.4667
Z <- 1.96 # Valor de Z para un nivel de confianza del 95%
sigma <- 34.57100 # Desviación estándar de la población
N <- 125000 # Tamaño de la población total
E <- 0.05 * M1 # Margen de error tolerado
E## [1] 7.323335
# 2. Calculamos el tamaño muestral
n_cle_peso_pf <- (Z^2 * sigma^2 * N) / ((N - 1) * E^2 + Z^2 * sigma^2)
n_cle_peso_pf <- ceiling(n_cle_peso_pf) # Redondear hacia arriba
n_cle_peso_pf## [1] 86
Vamos a suponer que pertenecemos al Grupo 1 y queremos estimar la proporción de frutas “Con Daño” (CD) en la variedad Clementina. Decidimos hacerlo con un nivel de confianza del 95 % y un margen de error del 10 %. Realizamos una prueba piloto y obtenemos el valor de la proporción estimada (p) que indica que aproximadamente el 76.67 % de las frutas presentan daño. ¿De qué tamaño debe ser la muestra?
Nombre de nueva variable: DAÑO_BINARIO Categorías: Sin Daño (SD) y Con Daño (CD)
MANDARINAS <- MANDARINAS %>%
mutate(DAÑO_BINARIO = case_when( #mutate: crea nueva variable
NIVEL_DE_DAÑO == 0 ~ "SD", # 1ra condición
NIVEL_DE_DAÑO %in% c(1, 2, 3) ~ "CD")) # 2da condición: Si NIVEL_DE_DAÑO es 1, 2 o 3, la variable BINARIA tomará el valor "CD"
#case_when: crea nueva variable basada en múltiples condiciones
MANDARINAS## # A tibble: 419 × 9
## N GRUPO VARIEDAD N_DE_FRUTO PESO DIAM_ECUAT NIVEL_DE_DAÑO COLOR
## <dbl> <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 Clementina 19 101 64.2 1 4
## 2 2 1 Clementina 9 122 64.2 0 5
## 3 3 1 Clementina 21 127 64.7 3 4
## 4 4 1 Clementina 8 126 64.9 3 1
## 5 5 1 Clementina 4 37 65.9 2 5
## 6 6 1 Clementina 30 139 66.4 2 4
## 7 7 1 Clementina 22 140 67.1 3 4
## 8 8 1 Clementina 23 130 67.5 1 3
## 9 9 1 Clementina 17 138 68.2 2 3
## 10 10 1 Clementina 27 142 68.2 2 4
## # ℹ 409 more rows
## # ℹ 1 more variable: DAÑO_BINARIO <chr>
# Crear tabla de contingencia
tabla_contingencia <- table( GRUPO1$VARIEDAD, GRUPO1$DAÑO_BINARIO)
# Agregar totales de filas y columnas
tabla_contingencia_con_totales <- addmargins(tabla_contingencia)
# Mostrar la tabla con totales
tabla_contingencia_con_totales##
## CD SD Sum
## Clementina 23 7 30
## Criolla 20 10 30
## Sum 43 17 60
##
## CD SD
## Clementina 0.7666667 0.2333333
## Criolla 0.6666667 0.3333333
# Definir los parámetros
Z <- 1.96 # Nivel de confianza del 95%
p_CD <- 0.7666667 # Proporción estimada de frutas con daño
E_CD <- 0.10 # margen de error
# Aplicar la fórmula para calcular el tamaño de muestra
n_prop <- (Z^2 * p_CD * (1 - p_CD)) / (E_CD^2)
n_prop <- ceiling(n_prop)
# Mostrar el tamaño de muestra requerido
n_prop## [1] 69