_________________________________________________________________________________________________________________________

Caso 1: tamaño muestral para estimar la media con población finita

Si tenemos una población conocida, la fórmula ajustada es:

\[ n = \frac{Z^2 \cdot \sigma^2 \cdot N}{(N - 1) \cdot E^2 + Z^2 \cdot \sigma^2} \]

Donde:

  • \(n\): tamaño muestral.

  • \(Z\): valor Z correspondiente a un nivel de confianza.

  • \(\sigma\): desviación estándar de la población.

  • \(N\): tamaño de la población.

  • \(E\): margen de error tolerado.

# 1. Definimos los Parámetros
Z <- 1.96  # Valor de Z para un nivel de confianza del 95%
sigma <- 3  # Desviación estándar de la población
N <- 250  # Tamaño de la población total
E <- 2     # Margen de error tolerado

# 2. Calculamos el tamaño muestral
n_med_pf <- (Z^2 * sigma^2 * N) / ((N - 1) * E^2 + Z^2 * sigma^2)
n_med_pf <- ceiling(n_med_pf)  # Redondear hacia arriba
n_med_pf
## [1] 9


Caso 2: tamaño muestral para estimar la media con población infinita

Para una población infinita, el tamaño muestral se calcula usando:

\[ n = \left( \frac{Z \cdot S}{E} \right)^2 \]

Donde:

  • \(Z\): es el valor del estadístico Z para un determinado nivel de confianza (1 - \(\alpha\)).

  • \(S\): es la desviación estándar estimada de la población a través de la muestra piloto o bien de experiencias previas.

  • \(E\): es el margen de error tolerado, es decir, la máxima diferencia aceptable entre la media muestral y la media poblacional.

# 1. Definimos los parámetros
Z <- 1.96  # Valor de Z para un nivel de confianza del 95%
E <- 14     # Margen de error tolerado
S <- 105  # Se considera una estimación de la desviación estándar de 105

# 2. Calculamos el tamaño muestral
n_media_pinf <- (Z * S / E)^2
n_media_pinf <- ceiling(n_media_pinf)  # Redondear hacia arriba para obtener valor entero.
n_media_pinf
## [1] 217


Caso 3: tamaño muestral para una proporción con población infinita

El tamaño de muestra necesario para estimar una proporción en una población infinita se puede calcular usando la siguiente fórmula:

\[ n = \frac{Z^2 \cdot p \cdot (1 - p)}{E^2} \]

Donde:

  • \(n\): es el tamaño muestral.

  • \(Z\): es el valor Z correspondiente al nivel de confianza.

  • \(p\): es la proporción esperada.

  • \(E\): es el margen de error tolerado.

# 1. Definimos los parámetros
Z <- 1.96  # Valor de Z para un nivel de confianza del 95%
p <- 0.5   # Proporción esperada 
E <- 0.05  # Margen de error

# 2. Calculamos el tamaño muestral
n_prop_inf <- (Z^2 * p * (1 - p)) / (E^2)
n_prop_inf <- ceiling(n_prop_inf)  # Redondear hacia arriba
n_prop_inf
## [1] 385


Caso 4: tamaño muestral para una proporción con población finita

\[ n = \frac{Z^2 \cdot p \cdot (1 - p) \cdot N}{(N - 1) \cdot E^2 + Z^2 \cdot p \cdot (1 - p)} \]

Donde:

  • \(n\): es el tamaño muestral.

  • \(Z\): es el valor Z correspondiente al nivel de confianza.

  • \(p\): es la proporción esperada.

  • \(N\): es el tamaño de la población.

  • \(E\): es el margen de error tolerado.

# 1. Definimos los Parámetros
Z <- 1.96  # Para un nivel de confianza del 95%
p <- 0.5   # Proporción esperada 
N <- 1000  # Tamaño de la población total
E <- 0.05  # Margen de error tolerado

# 2. Calculamos el tamaño muestral
n_prop_fin <- (Z^2 * p * (1 - p) * N) / ((N - 1) * E^2 + Z^2 * p * (1 - p))
n_prop_fin <- ceiling(n_prop_fin)  # Redondear hacia arriba
n_prop_fin
## [1] 278

Desarrollamos un caso práctico con la base de datos “Mandarinas”

1. Instalamos paquetes

install.packages("tidyverse")

2. Cargamos paquetes

library(tidyverse)
library(readxl)

3. Cargamos la base de datos

MANDARINAS <- read_excel("MANDARINAS_2024.xlsx")

4. Obtenemos medidas de resumen para la variable “Peso” del “Grupo 1” y variedad “Clementina”.

RESUMEN <- MANDARINAS %>% 
  filter(VARIEDAD == "Clementina", GRUPO == 1 ) %>% 
  summarise(MEDIA = mean(PESO),
            SD = sd(PESO),
            MIN_GRUPO= min(PESO),
            MAX_GRUPO= max(PESO))
RESUMEN
## # A tibble: 1 × 4
##   MEDIA    SD MIN_GRUPO MAX_GRUPO
##   <dbl> <dbl>     <dbl>     <dbl>
## 1  146.  34.6        37       231

5. Cálculo del tamaño muestral

“Cuando no se conocen los valores poblacionales, se pueden sustituir por una estimación adecuada obtenida de estudios previos o de una prueba piloto (Ojeda et al., 2011, Metodología de diseño estadístico).”

Error muestral

Podemos asumir un error del 5% respecto al valor medio. Si tomamos por ejemplo la variable “Peso” de las mandarinas, se puedes calcular el error en función de las medias observadas.Así, para el Grupo 1, con una media de 146.47 g, un error del 5% sería:

𝐸= 0.05 × 146.47 = 7.32 g

Esto implica que se espera que la media poblacional esté dentro de 7.32 gramos por encima o por debajo de la media muetral.

6.1. Tamaño muestral para población desconocida con base en los datos del “Grupo 1”, tomando la variable “Peso”.

# Calculamos el tamaño muestral de frutos para la variedad "Clementina".

# 1. Definimos los parámetros
M1 <- 146.4667 # Media muestral del Grupo 1.    
Z <- 1.96  # Valor de Z para un nivel de confianza del 95%
E <- 0.05*M1 # Margen de error tolerado (5% de la media)
S1 <- 34.57100  # Se considera una estimación de la desviación estándar de 35.59
E
## [1] 7.323335
# 2. Calculamos el tamaño muestral
n_cle_g1 <- (Z * S1 / E)^2
n_cle_g1 <- ceiling(n_cle_g1)  # Redondear hacia arriba para obtener valor entero.
n_cle_g1
## [1] 86

6.2. Tamaño muestral para estimar la media con población conocida.

Para resolver este caso, vamos a partir del supuesto que cada árbol tiene 500 frutos y que en el lote hay 250 plantas de la variedad Clementina.

N = 500 frutos/planta x 250 plantas = 125000 frutos

# 1. Definimos los Parámetros
M1  
## [1] 146.4667
Z <- 1.96  # Valor de Z para un nivel de confianza del 95%
sigma <- 34.57100  # Desviación estándar de la población
N <- 125000  # Tamaño de la población total
E <- 0.05 * M1  # Margen de error tolerado
E
## [1] 7.323335
# 2. Calculamos el tamaño muestral
n_cle_peso_pf <- (Z^2 * sigma^2 * N) / ((N - 1) * E^2 + Z^2 * sigma^2)
n_cle_peso_pf <- ceiling(n_cle_peso_pf)  # Redondear hacia arriba
n_cle_peso_pf
## [1] 86

6.3. Tamaño muestral para estimar la proporción para una población desconocida.

Vamos a suponer que pertenecemos al Grupo 1 y queremos estimar la proporción de frutas “Con Daño” (CD) en la variedad Clementina. Decidimos hacerlo con un nivel de confianza del 95 % y un margen de error del 10 %. Realizamos una prueba piloto y obtenemos el valor de la proporción estimada (p) que indica que aproximadamente el 76.67 % de las frutas presentan daño. ¿De qué tamaño debe ser la muestra?

Paso 1: Creamos una nueva variable: DAÑO_BINARIO

Nombre de nueva variable: DAÑO_BINARIO Categorías: Sin Daño (SD) y Con Daño (CD)

MANDARINAS <- MANDARINAS %>% 
  mutate(DAÑO_BINARIO = case_when(   #mutate: crea nueva variable
    NIVEL_DE_DAÑO == 0 ~ "SD",  # 1ra condición
    NIVEL_DE_DAÑO %in% c(1, 2, 3) ~ "CD"))  # 2da condición: Si NIVEL_DE_DAÑO es 1, 2 o 3, la variable BINARIA tomará el valor "CD"
#case_when: crea nueva variable basada en múltiples condiciones 
MANDARINAS
## # A tibble: 419 × 9
##        N GRUPO VARIEDAD   N_DE_FRUTO  PESO DIAM_ECUAT NIVEL_DE_DAÑO COLOR
##    <dbl> <dbl> <chr>           <dbl> <dbl>      <dbl>         <dbl> <dbl>
##  1     1     1 Clementina         19   101       64.2             1     4
##  2     2     1 Clementina          9   122       64.2             0     5
##  3     3     1 Clementina         21   127       64.7             3     4
##  4     4     1 Clementina          8   126       64.9             3     1
##  5     5     1 Clementina          4    37       65.9             2     5
##  6     6     1 Clementina         30   139       66.4             2     4
##  7     7     1 Clementina         22   140       67.1             3     4
##  8     8     1 Clementina         23   130       67.5             1     3
##  9     9     1 Clementina         17   138       68.2             2     3
## 10    10     1 Clementina         27   142       68.2             2     4
## # ℹ 409 more rows
## # ℹ 1 more variable: DAÑO_BINARIO <chr>

Paso 2: Filtrar los datos para el Grupo 1

GRUPO1 <- MANDARINAS %>%
  filter(GRUPO == 1)  # Asegúrate de que 'GRUPO' es la columna que identifica el grupo

Paso 3: Crear una tabla de contingencia

# Crear tabla de contingencia
tabla_contingencia <- table( GRUPO1$VARIEDAD, GRUPO1$DAÑO_BINARIO)

# Agregar totales de filas y columnas
tabla_contingencia_con_totales <- addmargins(tabla_contingencia)

# Mostrar la tabla con totales
tabla_contingencia_con_totales
##             
##              CD SD Sum
##   Clementina 23  7  30
##   Criolla    20 10  30
##   Sum        43 17  60

Paso 4: Cálculo de proporciones

# Calcular proporciones
prop.table(tabla_contingencia, margin = 1)  # Proporciones por variedad
##             
##                     CD        SD
##   Clementina 0.7666667 0.2333333
##   Criolla    0.6666667 0.3333333

Paso 5: Cálculo del tamaño de muestra

# Definir los parámetros
Z <- 1.96  # Nivel de confianza del 95%
p_CD <- 0.7666667  # Proporción estimada de frutas con daño
E_CD <- 0.10  # margen de error

# Aplicar la fórmula para calcular el tamaño de muestra
n_prop <- (Z^2 * p_CD * (1 - p_CD)) / (E_CD^2)
n_prop <- ceiling(n_prop)
# Mostrar el tamaño de muestra requerido
n_prop
## [1] 69