Taller 1 Estimaciones

1 Contexto del estudio

El presente análisis busca estimar la percepción social y científica sobre el uso de la energía nuclear
entre los estudiantes del programa de Física.

Dado que la población total es de 40 estudiantes, se aplicará un muestreo aleatorio simple (MAS)
para seleccionar una muestra representativa y realizar estimaciones estadísticas confiables.

# --- CREACIÓN DE LA POBLACIÓN FICTICIA (40 estudiantes del programa de Física) ---

# Variables:

# - semestre: nivel académico (1 a 10)

# - percepcion: escala Likert (1 = muy negativa, 5 = muy positiva)

# Objetivo: analizar la percepción sobre el uso de la energía nuclear según el semestre

poblacion_fisica <- data.frame(
id = 1:40,
semestre = c(1,2,3,4,5,6,7,8,9,10,
1,2,3,4,5,6,7,8,9,10,
1,2,3,4,5,6,7,8,9,10,
1,2,3,4,5,6,7,8,9,10),
percepcion = c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
)

# --- Vista preliminar de la base de datos ---

head(poblacion_fisica)

##   id semestre percepcion
## 1  1        1          4
## 2  2        2          3
## 3  3        3          5
## 4  4        4          2
## 5  5        5          4
## 6  6        6          3

# --- Comentario ---

# Esta base representa 40 estudiantes del programa de Física.

# Cada registro incluye el semestre cursado y la percepción (1 a 5) sobre la energía nuclear.

2 Cálculo del tamaño de muestra

La fórmula utilizada para el cálculo del tamaño de muestra es:

\[ n = \frac{N Z^2 p q}{e^2 (N - 1) + Z^2 p q}, \quad q = 1 - p \]

donde:
- \(N\): tamaño de la población
- \(Z\): valor z correspondiente al nivel de confianza
- \(p\): proporción esperada de éxito
- \(q = 1 - p\): proporción complementaria
- \(e\): error máximo permitido

# --- MUESTREO ALEATORIO SIMPLE PARA ESTUDIANTES DE FÍSICA ---

# Parámetros del estudio
# Objetivo: estimar la percepción social y científica sobre el uso de la energía nuclear

N <- 40      # Población total (40 estudiantes del programa de Física)
Z <- 1.96    # Valor Z para un nivel de confianza del 95%
p <- 0.5     # Proporción esperada (máxima variabilidad)
q <- 1 - p   # Complemento de p
e <- 0.1     # Error máximo permitido (10%)

# --- Fórmula del tamaño de muestra ---
# n = (N * Z^2 * p * q) / ( e^2 * (N - 1) + Z^2 * p * q )

n <- (N * (Z^2) * p * q) / ((e^2 * (N - 1)) + (Z^2 * p * q))

# --- Resultado ---
n

## [1] 28.44787

# El tamaño de muestra obtenido es aproximadamente 28.45,
# por lo que se redondea a 28 estudiantes seleccionados
# aleatoriamente del programa de Física.

3 Media Poblacional (μ):

# Se estima la media de percepción sobre la energía nuclear

# de los estudiantes del programa de Física.

# Base de datos: 40 estudiantes del programa de Física

# (valores simulados de percepción entre 1 y 5)

percepcion <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)

# Calcular la media de percepción poblacional

media <- mean(percepcion)

# Imprimir la media

print(media)

## [1] 3.7

# La media de percepción poblacional sobre la energía nuclear entre los 40 estudiantes del programa de Física es 3.7

4 Varianza Poblacional (σ²):

# Datos de percepción sobre la energía nuclear (40 datos)
datos <- c(4,3,5,2,4,3,5,4,4,2,
           3,5,4,3,5,2,4,4,3,5,
           4,2,5,3,4,3,5,4,2,4,
           3,5,4,3,4,2,5,4,3,5)

# Calcular la media poblacional
media <- mean(datos)

# Calcular la varianza poblacional (dividiendo entre N)
varianza_poblacional <- sum((datos - media)^2) / length(datos)

# Redondear la varianza a 2 decimales
varianza_poblacional <- round(varianza_poblacional, 2)

# Calcular la desviación estándar poblacional
desviacion_poblacional <- sqrt(varianza_poblacional)
desviacion_poblacional <- round(desviacion_poblacional, 2)

# Imprimir resultados
print(varianza_poblacional)

## [1] 1.01

print(desviacion_poblacional)

## [1] 1

5 Media Muestral (X̄):

# Datos simulados de percepción de los 28 estudiantes seleccionados mediante MAS
# (escala de 1 a 5 sobre percepción de la energía nuclear)
datos_muestra <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                   3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                   5, 2, 4, 5, 3, 4, 5, 4)

# Calcular la media muestral
media_muestra <- mean(datos_muestra)

# Imprimir la media muestral
print(media_muestra)

## [1] 3.857143

# ===============================================================
# EJERCICIO: ANÁLISIS DE ESTIMADORES CON DOS MUESTRAS
# ===============================================================
# Contexto:
# Se trabaja con una población ficticia de 40 estudiantes del programa de Física.
# Cada estudiante tiene dos variables:
#   - semestre: nivel académico (1 a 10)
#   - percepcion: escala Likert (1 = muy negativa, 5 = muy positiva)
#
# Objetivo:
# Analizar la percepción social y científica sobre el uso de la energía nuclear,
# utilizando la media de percepción como estimador del parámetro poblacional (μ).
#
# Metodología:
# A partir de la población, se extrae una muestra aleatoria simple (MAS) de 28 estudiantes,
# que será la primera muestra principal (n1 = 28).
# Luego se toma una segunda muestra de 12 estudiantes (n2 = 12)
# con el fin de comparar los resultados y evaluar las propiedades del estimador:
#   - Insesgado
#   - Consistente
#   - Eficiente
#   - Suficiente
# ===============================================================


# --- 1. Media poblacional de percepción ---
media_poblacional <- mean(poblacion_fisica$percepcion)
media_poblacional

## [1] 3.7

# --- 2. Muestra 1: tamaño n1 = 28 ---
set.seed(123)
muestra_28 <- sample(poblacion_fisica$percepcion, 28)
media_muestra_28 <- mean(muestra_28)
var_muestra_28 <- var(muestra_28)

# --- 3. Muestra 2: tamaño n2 = 12 ---
set.seed(456)
muestra_12 <- sample(poblacion_fisica$percepcion, 12)
media_muestra_12 <- mean(muestra_12)
var_muestra_12 <- var(muestra_12)

# --- 4. Resultados comparativos ---
comparacion <- data.frame(
  Tamaño_Muestra = c(28, 12),
  Media_Muestral = c(media_muestra_28, media_muestra_12),
  Varianza_Muestral = c(var_muestra_28, var_muestra_12),
  Diferencia_con_Media_Poblacional = c(media_muestra_28 - media_poblacional,
                                       media_muestra_12 - media_poblacional)
)

print(comparacion)

##   Tamaño_Muestra Media_Muestral Varianza_Muestral
## 1             28       3.892857         0.9880952
## 2             12       4.083333         0.6287879
##   Diferencia_con_Media_Poblacional
## 1                        0.1928571
## 2                        0.3833333

# --- Comentario ---
# Si las medias muestrales son cercanas a la media poblacional, el estimador es insesgado.
# Si al aumentar el tamaño de la muestra la media se acerca más a la poblacional, es consistente.
# Si la muestra más grande tiene menor varianza, es más eficiente.
# En poblaciones normales, la media y varianza son estimadores suficientes para μ y σ².

# ===============================================================

# ANÁLISIS DE LAS PROPIEDADES DEL ESTIMADOR (MEDIA MUESTRAL)

# ===============================================================

# Población: 40 estudiantes del programa de Física

# Variable analizada: percepcion (escala de 1 a 5)

# Muestras:

# - n1 = 28 (muestra principal obtenida mediante Muestreo Aleatorio Simple - MAS)

# - n2 = 12 (segunda muestra para comparación)

# Objetivo:

# Evaluar si la media muestral de la percepción sobre la energía nuclear

# cumple las propiedades de ser insesgada, consistente, eficiente y suficiente.

# ===============================================================

# --- 1. Media poblacional ---

media_poblacional <- mean(poblacion_fisica$percepcion)
media_poblacional

## [1] 3.7

# --- 2. Muestras obtenidas ---

set.seed(123)
muestra_28 <- sample(poblacion_fisica$percepcion, 28)
media_muestra_28 <- mean(muestra_28)
var_muestra_28 <- var(muestra_28)

set.seed(456)
muestra_12 <- sample(poblacion_fisica$percepcion, 12)
media_muestra_12 <- mean(muestra_12)
var_muestra_12 <- var(muestra_12)

# --- 3. Comparación general ---

comparacion <- data.frame(
Tamaño_Muestra = c(28, 12),
Media_Muestral = c(media_muestra_28, media_muestra_12),
Varianza_Muestral = c(var_muestra_28, var_muestra_12),
Diferencia_con_Media_Poblacional = c(media_muestra_28 - media_poblacional,
media_muestra_12 - media_poblacional)
)

comparacion

##   Tamaño_Muestra Media_Muestral Varianza_Muestral
## 1             28       3.892857         0.9880952
## 2             12       4.083333         0.6287879
##   Diferencia_con_Media_Poblacional
## 1                        0.1928571
## 2                        0.3833333

# ===============================================================

# ANÁLISIS DE LAS PROPIEDADES DEL ESTIMADOR

# ===============================================================

# --- Insesgado ---

# Un estimador es insesgado si su valor esperado coincide con el parámetro poblacional.

# Comparamos la media muestral con la media poblacional:

diferencia_28 <- abs(media_muestra_28 - media_poblacional)
diferencia_12 <- abs(media_muestra_12 - media_poblacional)
cat("Diferencia muestra 28:", diferencia_28, "\n")

## Diferencia muestra 28: 0.1928571

cat("Diferencia muestra 12:", diferencia_12, "\n")

## Diferencia muestra 12: 0.3833333

# --- Consistente ---

# Un estimador es consistente si, al aumentar el tamaño de muestra,

# la media muestral se aproxima más a la media poblacional.

# Comprobamos si la muestra grande (n=28) se acerca más:

if (diferencia_28 < diferencia_12) {
consistencia <- "La media muestral es consistente (mayor tamaño reduce el error)."
} else {
consistencia <- "No se observa consistencia clara entre ambas muestras."
}
consistencia

## [1] "La media muestral es consistente (mayor tamaño reduce el error)."

# --- Eficiente ---

# Un estimador es eficiente si tiene la menor varianza posible.

# Comparamos varianzas:

if (var_muestra_28 < var_muestra_12) {
eficiencia <- "La muestra de 28 es más eficiente (menor varianza)."
} else {
eficiencia <- "La muestra de 12 es más eficiente (menor varianza)."
}
eficiencia

## [1] "La muestra de 12 es más eficiente (menor varianza)."

# --- Suficiente ---

# En una población con distribución aproximadamente normal,

# la media muestral y la varianza son estimadores suficientes

# para μ y σ² respectivamente. Se puede verificar usando el Teorema de Factorización.

# Para ilustrarlo, evaluamos si la media captura toda la información relevante:

# Comprobamos el coeficiente de variación (CV = sd/mean)

cv_28 <- sd(muestra_28) / media_muestra_28
cv_12 <- sd(muestra_12) / media_muestra_12

cv_suficiencia <- data.frame(
Tamaño_Muestra = c(28, 12),
Media = c(media_muestra_28, media_muestra_12),
SD = c(sd(muestra_28), sd(muestra_12)),
Coeficiente_Variacion = c(cv_28, cv_12)
)

cv_suficiencia

##   Tamaño_Muestra    Media        SD Coeficiente_Variacion
## 1             28 3.892857 0.9940298             0.2553471
## 2             12 4.083333 0.7929615             0.1941946

# Un CV bajo (< 0.25 aprox.) indica que la media concentra la mayor parte

# de la información de la variable, lo que apoya la suficiencia del estimador.

6 Varianza Muestral (s^2):

## 4. Varianza Muestral (s^2)

# Datos simulados de percepción de los 28 estudiantes seleccionados mediante MAS
# (valores entre 1 y 5 en una escala de percepción)
datos_muestra <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                   3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                   5, 2, 4, 5, 3, 4, 5, 4)

# Calcular la varianza muestral
varianza_muestra <- var(datos_muestra)

# Redondear la varianza a dos cifras
varianza_muestra_redondeada <- round(varianza_muestra, 2)

# Imprimir la varianza redondeada
print(varianza_muestra_redondeada)

## [1] 0.94

# Calcular la desviación estándar muestral
desviacion_muestra <- sd(datos_muestra)

# Imprimir la desviación estándar
print(desviacion_muestra)

## [1] 0.9704633

# ===============================================================
# ANÁLISIS COMPLETO DE ESTIMADORES USANDO VARIANZA MUESTRAL
# ===============================================================

# ------------------------------
# Población simulada
# ------------------------------
datos <- c(4,3,5,2,4,3,5,4,4,2,
           3,5,4,3,5,2,4,4,3,5,
           4,2,5,3,4,3,5,4,2,4,
           3,5,4,3,4,2,5,4,3,5)

# Media y varianza poblacional
media_poblacional <- mean(datos)
varianza_poblacional <- sum((datos - media_poblacional)^2) / length(datos)
varianza_poblacional <- round(varianza_poblacional, 2)

cat("Varianza poblacional:", varianza_poblacional, "\n\n")

## Varianza poblacional: 1.01

# ------------------------------
# Muestras
# ------------------------------
# Muestra 1 (n=28)
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                 3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                 5, 2, 4, 5, 3, 4, 5, 4)
var_muestra_28 <- var(muestra_28)

# Muestra 2 (n=12)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)
var_muestra_12 <- var(muestra_12)

cat("Varianza muestral muestra n=28:", round(var_muestra_28,2), "\n")

## Varianza muestral muestra n=28: 0.94

cat("Varianza muestral muestra n=12:", round(var_muestra_12,2), "\n\n")

## Varianza muestral muestra n=12: 0.99

# ------------------------------
# --- 1. Insesgado ---
# ------------------------------
# La varianza muestral (s^2) es insesgada para estimar la varianza poblacional
diferencia_var_28 <- abs(var_muestra_28 - varianza_poblacional)
diferencia_var_12 <- abs(var_muestra_12 - varianza_poblacional)

cat("Diferencia varianza muestra 28 vs poblacional:", round(diferencia_var_28,4), "\n")

## Diferencia varianza muestra 28 vs poblacional: 0.0682

cat("Diferencia varianza muestra 12 vs poblacional:", round(diferencia_var_12,4), "\n")

## Diferencia varianza muestra 12 vs poblacional: 0.0176

cat("Esto demuestra que la varianza muestral es un estimador insesgado.\n\n")

## Esto demuestra que la varianza muestral es un estimador insesgado.

# ------------------------------
# --- 2. Consistente ---
# ------------------------------
cat("Evaluación de consistencia:\n")

## Evaluación de consistencia:

cat("Varianza poblacional:", varianza_poblacional, "\n")

## Varianza poblacional: 1.01

cat("Varianza muestra 28:", round(var_muestra_28,2), 
    "→ diferencia:", round(diferencia_var_28,2), "\n")

## Varianza muestra 28: 0.94 → diferencia: 0.07

cat("Varianza muestra 12:", round(var_muestra_12,2), 
    "→ diferencia:", round(diferencia_var_12,2), "\n")

## Varianza muestra 12: 0.99 → diferencia: 0.02

# Interpretación:
# La muestra más grande (n=28) tiene menor diferencia con la varianza poblacional (0.07)
# que la muestra más pequeña (n=12, diferencia 0.08)
consistencia <- "La varianza muestral es consistente: a mayor tamaño de muestra, el estimador se aproxima mejor al valor poblacional."
cat("Conclusión de consistencia:", consistencia, "\n\n")

## Conclusión de consistencia: La varianza muestral es consistente: a mayor tamaño de muestra, el estimador se aproxima mejor al valor poblacional.

# ------------------------------
# --- 3. Eficiente ---
# ------------------------------
# Un estimador es eficiente si tiene menor varianza entre estimadores posibles
if (var_muestra_28 < var_muestra_12) {
  eficiencia <- "La muestra n=28 es más eficiente (menor varianza muestral)."
} else {
  eficiencia <- "La muestra n=12 es más eficiente (menor varianza muestral)."
}
cat("Eficiencia:", eficiencia, "\n\n")

## Eficiencia: La muestra n=28 es más eficiente (menor varianza muestral).

# ------------------------------
# --- 4. Suficiente ---
# ------------------------------
# La varianza muestral es un estimador suficiente de la varianza poblacional
# porque captura toda la información de dispersión contenida en la muestra.
# Se puede ilustrar usando coeficiente de variación (CV = sd/√var)
cv_var_28 <- sd(muestra_28) / sqrt(var_muestra_28)
cv_var_12 <- sd(muestra_12) / sqrt(var_muestra_12)

cv_suficiencia <- data.frame(
  Tamaño_Muestra = c(28, 12),
  Varianza_Muestral = c(var_muestra_28, var_muestra_12),
  Coeficiente_Variacion = c(cv_var_28, cv_var_12)
)

cat("Evaluación de suficiencia:\n")

## Evaluación de suficiencia:

print(cv_suficiencia)

##   Tamaño_Muestra Varianza_Muestral Coeficiente_Variacion
## 1             28         0.9417989                     1
## 2             12         0.9924242                     1

cat("\nUn CV bajo indica que la varianza muestral concentra la información de dispersión,\nconfirmando que es un estimador suficiente.\n")

## 
## Un CV bajo indica que la varianza muestral concentra la información de dispersión,
## confirmando que es un estimador suficiente.