1.Técnica de muestreo por conglomerado (ejercicio en clase)

Es un método de muestreo probabilístico en el que la población se divide en grupos o “conglomerados” (clusters), que son heterogéneos internamente pero similares entre sí en cuanto a su composición general. En lugar de seleccionar individuos directamente de toda la población, se seleccionan aleatoriamente algunos conglomerados y luego se estudian todos los elementos dentro de esos conglomerados, o una muestra de ellos

Fórmula

El tamaño de muestra ajustado por el efecto de diseño se calcula como:

\[ n_{requerido} = n_{MAS} \times deff \]

donde el efecto de diseño se estima mediante:

\[ deff \approx 1 + (m - 1)\rho \]

Definiciones de los términos

\(n_{requerido}\): Tamaño de muestra final ajustado por el efecto de diseño.
\(n_{MAS}\): Tamaño de muestra obtenido bajo un muestreo aleatorio simple (MAS).
\(deff\): Efecto de diseño, que mide el aumento en la varianza debido al diseño muestral complejo.
\(m\): Tamaño promedio del conglomerado (número de unidades por conglomerado).
\(\rho\): Coeficiente de correlación intraclase (ICC), que refleja el grado de similitud entre unidades dentro del mismo conglomerado.

EJEMPLO

  # Población estructurada en 50 conglomerados de tamaño fijo 20 (1000 unidades)

poblacion_cl <- data.frame(
id = 1:1000,
cluster = rep(sprintf("G%02d", 1:50), each = 20)
)

# Supongamos que necesitamos n_MAS = 200 y sabemos m = 20, rho = 0.03

n_MAS <- 200
m <- 20
rho <- 0.03
deff <- 1 + (m - 1) * rho
n_req <- ceiling(n_MAS * deff)           # tamaño efectivo requerido

# Número de conglomerados a seleccionar (1 etapa: tomar clusters completos)

G_seleccionar <- ceiling(n_req / m)

set.seed(2024)  # reproducible
clusters_sel <- sample(unique(poblacion_cl$cluster), size = G_seleccionar)
muestra_cl_1etapa <- subset(poblacion_cl, cluster %in% clusters_sel)

table(muestra_cl_1etapa$cluster)

## 
## G02 G11 G14 G16 G17 G26 G29 G32 G34 G36 G37 G41 G42 G43 G45 G48 
##  20  20  20  20  20  20  20  20  20  20  20  20  20  20  20  20

nrow(muestra_cl_1etapa)

## [1] 320

Análisis del ejemplo

En este ejercicio se simuló una población compuesta por 50 conglomerados de tamaño fijo \(m = 20\), para un total de 1000 unidades. El objetivo era obtener una muestra equivalente, en precisión, a una muestra aleatoria simple (MAS) de tamaño \(n_{MAS} = 200\), pero seleccionando conglomerados completos en lugar de unidades individuales.

Debido a que las unidades dentro de un mismo conglomerado tienden a parecerse entre sí, se considera la correlación intra–conglomerado \(\rho = 0.03\), que mide la similitud interna entre las observaciones. Este valor influye en la varianza del estimador y se refleja en el efecto del diseño (deff), calculado mediante la expresión:

\[ \text{deff} = 1 + (m - 1)\rho = 1 + (20 - 1)(0.03) = 1.57 \]

El resultado indica que la varianza de las estimaciones aumenta en un 57 % respecto a la obtenida con una MAS del mismo tamaño. Para mantener la misma precisión, se incrementa el tamaño de la muestra de la siguiente forma:

\[ n_{req} = n_{MAS} \times \text{deff} = 200 \times 1.57 = 314 \]

Al redondear hacia arriba, se obtiene \(n_{req} = 320\). Dado que cada conglomerado tiene 20 unidades, el número de conglomerados que se deben seleccionar es:

\[ G_{\text{seleccionar}} = \frac{n_{req}}{m} = \frac{320}{20} = 16 \]

Por tanto, se seleccionan 16 conglomerados completos, los cuales aportan en conjunto \(16 \times 20 = 320\) unidades. Este tamaño de muestra permite alcanzar la misma precisión que una MAS de 200 unidades, compensando el efecto de la homogeneidad interna de los conglomerados.

En conclusion, el procedimiento corresponde a un muestreo por conglomerados de una etapa, donde se seleccionan algunos conglomerados al azar y se incluyen todas sus unidades. Aunque este método es menos eficiente estadísticamente que la MAS, resulta más práctico y económico cuando los elementos de la población están naturalmente agrupados.

2. Estimadores (TALLER 1)

Este taller presenta un análisis estadístico sobre la percepción de los estudiantes frente a la energía nuclear.
Se utilizan técnicas de muestreo probabilístico y análisis de estimadores para describir la distribución de percepciones dentro de la población de estudio.

2.1 Pregunta de Investigación

¿Cuál es la proporción de estudiantes universitarios que tienen una percepción positiva sobre la energía nuclear?

2.2 Generación de la Población

2.2.1 Creación de la Base de Datos

Se genera una población de 40 estudiantes universitarios con información sobre su nombre, semestre académico y percepción frente a la energía nuclear.

# --- CARGAR LIBRERÍAS ---
library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

# --- CREACIÓN DE LA POBLACIÓN ---
set.seed(123)
poblacion_fisica <- data.frame(
  id = 1:40,
  nombre = paste("Estudiante", 1:40),
  semestre = sample(1:10, 40, replace = TRUE),
  percepcion = sample(c("Positiva", "Negativa", "Neutral"),
                      40, replace = TRUE, prob = c(0.5, 0.3, 0.2))
)

# --- VISUALIZAR POBLACIÓN ---
head(poblacion_fisica, 10)

##    id        nombre semestre percepcion
## 1   1  Estudiante 1        3   Positiva
## 2   2  Estudiante 2        3   Positiva
## 3   3  Estudiante 3       10    Neutral
## 4   4  Estudiante 4        2   Positiva
## 5   5  Estudiante 5        6    Neutral
## 6   6  Estudiante 6        5    Neutral
## 7   7  Estudiante 7        4   Negativa
## 8   8  Estudiante 8        6   Positiva
## 9   9  Estudiante 9        9   Negativa
## 10 10 Estudiante 10       10   Negativa

cat("Tamaño total de la población:", nrow(poblacion_fisica), "estudiantes.")

## Tamaño total de la población: 40 estudiantes.

2.3 Variables de Estudio

Las variables seleccionadas para el estudio son:

Nombre del estudiante

Semestre académico

Percepción sobre la energía nuclear

La variable de interés principal es la percepción, categorizada como Positiva, Negativa o Neutral.

2.4 Muestreo Probabilístico

Se aplica un Muestreo Aleatorio Simple (MAS) sin reemplazo. Cada estudiante tiene la misma probabilidad de ser seleccionado. El tamaño de la muestra es n = 28, de una población total N = 40.

2.4.1 Selección de la Muestra

# --- ESTABLECER SEMILLA PARA REPRODUCIBILIDAD ---

set.seed(123)

# --- PARÁMETROS DEL MUESTREO ---

N <- nrow(poblacion_fisica)
n_muestra <- 28

# --- SELECCIÓN DE LA MUESTRA ---

indices_muestra <- sample(1:N, n_muestra, replace = FALSE)
muestra_fisica <- poblacion_fisica[indices_muestra, ]

# --- VISUALIZACIÓN DE LA MUESTRA ---

head(muestra_fisica, 10)

##    id        nombre semestre percepcion
## 31 31 Estudiante 31       10   Positiva
## 15 15 Estudiante 15        9   Positiva
## 14 14 Estudiante 14        9   Positiva
## 3   3  Estudiante 3       10    Neutral
## 38 38 Estudiante 38        2   Negativa
## 25 25 Estudiante 25        7    Neutral
## 26 26 Estudiante 26        5    Neutral
## 27 27 Estudiante 27       10    Neutral
## 32 32 Estudiante 32        7   Negativa
## 5   5  Estudiante 5        6    Neutral

cat("Tamaño de la muestra seleccionada:", nrow(muestra_fisica), "estudiantes.")

## Tamaño de la muestra seleccionada: 28 estudiantes.

2.4.2 Población Restante (No Seleccionada)

# --- OBTENER LA POBLACIÓN RESTANTE ---

restante_fisica <- poblacion_fisica[-indices_muestra, ]

# --- VISUALIZACIÓN DE LA POBLACIÓN RESTANTE ---

head(restante_fisica, 10)

##    id        nombre semestre percepcion
## 1   1  Estudiante 1        3   Positiva
## 2   2  Estudiante 2        3   Positiva
## 6   6  Estudiante 6        5    Neutral
## 13 13 Estudiante 13        9   Positiva
## 16 16 Estudiante 16        3   Negativa
## 18 18 Estudiante 18       10   Positiva
## 20 20 Estudiante 20       10   Negativa
## 21 21 Estudiante 21        9   Positiva
## 22 22 Estudiante 22        3   Negativa
## 24 24 Estudiante 24        1   Positiva

cat("Tamaño de la población restante:", nrow(restante_fisica), "estudiantes.")

## Tamaño de la población restante: 12 estudiantes.

3. Media Poblacional (μ)

A continuación, se estima la media de percepción sobre la energía nuclear entre los estudiantes del programa de Física.
Se parte de una base poblacional conformada por 40 estudiantes, cuyas percepciones se registran en una escala de 1 a 5, donde 1 indica una percepción muy negativa y 5 una percepción muy positiva.

# --- BASE DE DATOS: 40 ESTUDIANTES DEL PROGRAMA DE FÍSICA ---
percepcion <- c(4,3,5,2,4,3,5,4,4,2,
                3,5,4,3,5,2,4,4,3,5,
                4,2,5,3,4,3,5,4,2,4,
                3,5,4,3,4,2,5,4,3,5)

# --- CÁLCULO DE LA MEDIA POBLACIONAL ---
media_poblacional <- mean(percepcion)

# --- RESULTADO ---
media_poblacional

## [1] 3.7

4. Varianza Poblacional (σ²)

En esta sección se estima la varianza poblacional de la percepción sobre la energía nuclear entre los 40 estudiantes del programa de Física.
La varianza permite medir la dispersión de las percepciones respecto a la media poblacional.

# --- DATOS DE PERCEPCIÓN SOBRE LA ENERGÍA NUCLEAR (40 ESTUDIANTES) ---
datos <- c(4,3,5,2,4,3,5,4,4,2,
           3,5,4,3,5,2,4,4,3,5,
           4,2,5,3,4,3,5,4,2,4,
           3,5,4,3,4,2,5,4,3,5)

# --- CÁLCULO DE LA MEDIA POBLACIONAL ---
media <- mean(datos)

# --- CÁLCULO DE LA VARIANZA POBLACIONAL ---
# (se divide entre N, dado que se considera toda la población)
varianza_poblacional <- sum((datos - media)^2) / length(datos)
varianza_poblacional <- round(varianza_poblacional, 2)

# --- CÁLCULO DE LA DESVIACIÓN ESTÁNDAR POBLACIONAL ---
desviacion_poblacional <- sqrt(varianza_poblacional)
desviacion_poblacional <- round(desviacion_poblacional, 2)

# --- RESULTADOS ---
varianza_poblacional

## [1] 1.01

desviacion_poblacional

## [1] 1

5. Estimación de la Media Muestral (X̄) como Estimador de la Media Poblacional (μ)

En esta sección se analiza la media muestral como estimador del parámetro poblacional (media de percepción sobre la energía nuclear).
Se utilizan datos simulados de percepción de 28 estudiantes seleccionados mediante muestreo aleatorio simple (MAS), en una escala de 1 a 5.

# --- DATOS DE PERCEPCIÓN DE LA MUESTRA (28 ESTUDIANTES) ---
datos_muestra <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                   3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                   5, 2, 4, 5, 3, 4, 5, 4)

# --- MEDIA POBLACIONAL (ya calculada en el punto anterior) ---
mu_poblacional <- 3.7

# --- CÁLCULO DE LA MEDIA MUESTRAL ---
media_muestral <- mean(datos_muestra)
media_muestral

## [1] 3.857143

5.1 Determinación del Sesgo del Estimador

Un estimador es insesgado si su valor esperado es igual al parámetro poblacional, es decir: \[ 𝐸 [ 𝑋 ] = 𝜇 E[ X ]=μ \] En la práctica, se evalúa la diferencia entre la media muestral y la poblacional:

# --- CÁLCULO DEL SESGO ---

diferencia_mu <- abs(media_muestral - mu_poblacional)
diferencia_mu

## [1] 0.1571429

# --- INTERPRETACIÓN ---

if (diferencia_mu <= 0.05) {
cat("El estimador de la media muestral es aproximadamente INSESGADO.",
"\nDiferencia menor o igual a 0.05:", round(diferencia_mu,4))
} else {
cat("El estimador de la media muestral es aproximadamente SESGADO.",
"\nDiferencia mayor a 0.05:", round(diferencia_mu,4))
}

## El estimador de la media muestral es aproximadamente SESGADO. 
## Diferencia mayor a 0.05: 0.1571

Resultado esperado: \[ ∣ 𝑋 − 𝜇 ∣ = 0.1571 > 0.05 ∣ X −μ∣=0.1571>0.05 \] El estimador (media muestral) se considera ligeramente sesgado, aunque teóricamente se sabe que: \[ 𝐸 [ 𝑋 ] = 𝜇 E[ X ]=μ \] Por tanto, la diferencia observada se debe a variabilidad aleatoria y no a un sesgo estructural.

5.2 Consistencia del Estimador

Un estimador es consistente si converge al verdadero valor del parámetro cuando el tamaño muestral tiende al infinito:

\[ \lim_{n \to \infty} \bar{X} = \mu \]

En este caso, al incrementar el tamaño de muestra (por ejemplo, de 28 a 40 estudiantes), se esperaría que la media muestral se acerque al valor poblacional de \(3.7\).
Por tanto, se concluye que la media muestral es un estimador consistente.

5.3 Eficiencia del Estimador

La eficiencia está asociada con la varianza del estimador.
Un estimador es más eficiente si presenta menor varianza que otro.

Matemáticamente:

\[ Var(\hat{\theta}_1) < Var(\hat{\theta}_2) \]

En el caso del estimador de la media muestral:

\[ Var(\bar{X}) = \frac{\sigma^2}{n} \]

donde \(\sigma^2\) es la varianza poblacional y \(n\) el tamaño muestral.

# --- CÁLCULO DE LA VARIANZA DEL ESTIMADOR ---

varianza_poblacional <- 1.01
n <- length(datos_muestra)

varianza_est_media <- varianza_poblacional / n
varianza_est_media <- round(varianza_est_media, 3)
varianza_est_media

## [1] 0.036

El valor obtenido es pequeño, lo que indica que la media muestral es un estimador eficiente, al tener baja varianza.

5.4 Suficiencia del Estimador

Un estimador es suficiente si utiliza toda la información relevante contenida en la muestra respecto al parámetro que estima.

En este caso, la media muestral se calcula considerando todos los valores observados de percepción:

\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]

Por tanto, la media muestral es un estimador suficiente, ya que resume completamente la información relevante sobre la variable de interés (percepción sobre energía nuclear) sin pérdida de información estadística.

Conclusión General

La media muestral obtenida es:

\[ \bar{X} = 3.86 \]

mientras que la media poblacional es:

\[ \mu = 3.7 \]

Aunque presenta una diferencia leve de \(0.16\), esta se debe a la variabilidad muestral.
Teóricamente, el estimador de la media cumple las propiedades de ser insesgado, consistente, eficiente y suficiente, representando de manera adecuada el parámetro poblacional.

6. Varianza Muestral ( \(s^2\) )

La varianza muestral es un estimador del parámetro poblacional de varianza \(\sigma^2\).
Se calcula utilizando la corrección de Bessel para eliminar el sesgo, y su fórmula general es:

\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]

Por otro lado, la varianza poblacional se define como:

\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2 \]

A continuación, se analizarán las propiedades del estimador de la varianza usando los datos simulados de percepción sobre la energía nuclear.

# ===============================================================
# 6. VARIANZA MUESTRAL - ANÁLISIS COMPLETO
# ===============================================================

# --- DATOS POBLACIONALES (40 ESTUDIANTES) ---
datos <- c(4,3,5,2,4,3,5,4,4,2,
           3,5,4,3,5,2,4,4,3,5,
           4,2,5,3,4,3,5,4,2,4,
           3,5,4,3,4,2,5,4,3,5)

# --- CÁLCULO DE LA VARIANZA POBLACIONAL ---
media_poblacional <- mean(datos)
varianza_poblacional <- sum((datos - media_poblacional)^2) / length(datos)
varianza_poblacional <- round(varianza_poblacional, 2)
cat("Varianza poblacional:", varianza_poblacional, "\n")

## Varianza poblacional: 1.01

6.1 Varianza Muestral en Dos Muestras

Se seleccionan dos muestras de distinto tamaño para comparar el comportamiento del estimador:

# --- MUESTRAS ---

muestra_28 <- c(4,5,3,4,2,5,4,3,5,4,
3,4,5,2,4,3,5,4,4,3,
5,2,4,5,3,4,5,4)
muestra_12 <- c(4,3,5,2,4,5,3,4,5,4,3,5)

# --- VARIANZAS MUESTRALES ---

var_muestra_28 <- var(muestra_28)
var_muestra_12 <- var(muestra_12)

cat("Varianza muestra n=28:", round(var_muestra_28,2), "\n",
"Varianza muestra n=12:", round(var_muestra_12,2), "\n")

## Varianza muestra n=28: 0.94 
##  Varianza muestra n=12: 0.99

6.2 Insesgadez del Estimador

Un estimador es insesgado si su valor esperado coincide con el parámetro poblacional: \[ 𝐸 [ 𝑠 2 ] = 𝜎 2 E[s 2 ]=σ 2 \] En este caso, la comparación entre la varianza poblacional y las muestrales es la siguiente:

diferencia_28 <- abs(var_muestra_28 - varianza_poblacional)
diferencia_12 <- abs(var_muestra_12 - varianza_poblacional)

cat("Diferencia muestra 28:", round(diferencia_28,4), "\n",
"Diferencia muestra 12:", round(diferencia_12,4), "\n")

## Diferencia muestra 28: 0.0682 
##  Diferencia muestra 12: 0.0176

Interpretación: Ambas diferencias son pequeñas, lo cual indica que la varianza muestral es un estimador insesgado de la varianza poblacional.

6.3 Consistencia del Estimador

Un estimador es consistente si se aproxima al valor del parámetro poblacional cuando el tamaño muestral crece indefinidamente.
Matemáticamente se expresa como:

\[ \lim_{n \to \infty} s^2 = \sigma^2 \]

Esto significa que, a medida que el tamaño de la muestra aumenta, la varianza muestral \(s^2\) tiende a igualarse con la varianza poblacional \(\sigma^2\).

A continuación se comparan los resultados obtenidos para las dos muestras:

cat("Varianza poblacional:", varianza_poblacional, "\n",
    "Varianza muestra 28:", round(var_muestra_28,2), "\n",
    "Varianza muestra 12:", round(var_muestra_12,2), "\n")

## Varianza poblacional: 1.01 
##  Varianza muestra 28: 0.94 
##  Varianza muestra 12: 0.99

Conclusión: La muestra más grande (n=28) presenta menor diferencia respecto a la varianza poblacional, por lo que el estimador es consistente.

6.4 Eficiencia del Estimador

La eficiencia de un estimador depende de su varianza.
Entre dos estimadores \(s_1^2\) y \(s_2^2\):

\[ Var(s_1^2) < Var(s_2^2) \Rightarrow s_1^2 \text{ es más eficiente.} \]

En palabras, si la varianza de un estimador es menor que la de otro, se considera más eficiente, ya que presenta menor dispersión en sus resultados.

La varianza del estimador de la varianza se calcula mediante la fórmula teórica:

\[ Var(s^2) = \frac{2\sigma^4}{n - 1} \]

donde:
- \(\sigma^2\) es la varianza poblacional,
- \(n\) es el tamaño de la muestra.

En este caso, se estima reemplazando \(\sigma^2\) por la varianza muestral:

var_var_28 <- (2 * var_muestra_28^2) / (length(muestra_28) - 1)
var_var_12 <- (2 * var_muestra_12^2) / (length(muestra_12) - 1)

cat("Varianza del estimador (n=28):", round(var_var_28,4), "\n",
    "Varianza del estimador (n=12):", round(var_var_12,4), "\n")

## Varianza del estimador (n=28): 0.0657 
##  Varianza del estimador (n=12): 0.1791

if (var_var_28 < var_var_12) {
  cat("La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).")
} else {
  cat("La muestra n=12 es MÁS EFICIENTE (menor varianza del estimador).")
}

## La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).

6.5 Suficiencia del Estimador

Un estimador es suficiente si utiliza toda la información contenida en la muestra respecto al parámetro que estima.

La varianza muestral se define como:

\[ s^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \bar{X})^2 \]

Dado que incluye todos los valores observados de la variable, se considera un estimador suficiente de la varianza poblacional \(\sigma^2\).

Para verificar la estabilidad de la información, se puede analizar el coeficiente de variación (CV), definido como:

\[ CV = \frac{s}{\sqrt{s^2}} = 1 \]

Cálculo en R:

cv_var_28 <- sd(muestra_28) / sqrt(var_muestra_28)
cv_var_12 <- sd(muestra_12) / sqrt(var_muestra_12)

cv_suf <- data.frame(
  Tamaño_Muestra = c(28, 12),
  Varianza_Muestral = c(var_muestra_28, var_muestra_12),
  Coeficiente_Variacion = c(cv_var_28, cv_var_12)
)

print(cv_suf)

##   Tamaño_Muestra Varianza_Muestral Coeficiente_Variacion
## 1             28         0.9417989                     1
## 2             12         0.9924242                     1

Conclusión: El coeficiente de variación constante confirma que la varianza muestral concentra toda la información relevante de dispersión, por lo que se considera un estimador suficiente de la varianza poblacional.

7. Desviación Estándar Muestral

La desviación estándar mide la dispersión promedio de los puntajes de percepción sobre la energía nuclear con respecto a su media.
Su expresión es:

\[ s = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

A continuación, se calculará la desviación estándar muestral y se comparará con la desviación estándar poblacional.

# --- Datos poblacionales (40 estudiantes) ---
poblacion <- c(4,3,5,2,4,3,5,4,4,2,
               3,5,4,3,5,2,4,4,3,5,
               4,2,5,3,4,3,5,4,2,4,
               3,5,4,3,4,2,5,4,3,5)

# --- Muestras ---
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                 3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                 5, 2, 4, 5, 3, 4, 5, 4)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)

# --- Cálculo de varianzas y desviaciones estándar ---
var_poblacion <- var(poblacion)
var_muestra_28 <- var(muestra_28)
var_muestra_12 <- var(muestra_12)

sigma_pob <- sqrt(var_poblacion)
sigma_m1  <- sqrt(var_muestra_28)
sigma_m2  <- sqrt(var_muestra_12)

cat("Desviación estándar poblacional:", round(sigma_pob,2), "\n",
    "Desviación estándar muestra (n=28):", round(sigma_m1,2), "\n",
    "Desviación estándar muestra (n=12):", round(sigma_m2,2))

## Desviación estándar poblacional: 1.02 
##  Desviación estándar muestra (n=28): 0.97 
##  Desviación estándar muestra (n=12): 1

7.1 Determinación de Sesgo

El sesgo mide cuánto se aleja el estimador de su valor verdadero.
Se considera insesgado si la diferencia es menor o igual a \(0.05\).

# Datos poblacionales y muestrales
poblacion <- c(1, 2, 3, 4, 5)
sigma_pob <- sd(poblacion)

# Muestra 1 (n=28)
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                5, 2, 4, 5, 3, 4, 5, 4)
sigma_m1 <- sd(muestra_28)
var_muestra_28 <- var(muestra_28)

# Muestra 2 (n=12)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)
sigma_m2 <- sd(muestra_12)
var_muestra_12 <- var(muestra_12)

# Cálculo del sesgo
diferencia_poblacion_m1 <- abs(sigma_m1 - sigma_pob)
diferencia_poblacion_m2 <- abs(sigma_m2 - sigma_pob)

if (diferencia_poblacion_m1 <= 0.05) {
  cat("El estimador (n=28) es aproximadamente INSESGADO.\n",
      "Diferencia:", round(diferencia_poblacion_m1,4), "\n")
} else {
  cat("El estimador (n=28) es aproximadamente SESGADO.\n",
      "Diferencia:", round(diferencia_poblacion_m1,4), "\n")
}

## El estimador (n=28) es aproximadamente SESGADO.
##  Diferencia: 0.6107

if (diferencia_poblacion_m2 <= 0.05) {
  cat("El estimador (n=12) es aproximadamente INSESGADO.\n",
      "Diferencia:", round(diferencia_poblacion_m2,4), "\n")
} else {
  cat("El estimador (n=12) es aproximadamente SESGADO.\n",
      "Diferencia:", round(diferencia_poblacion_m2,4), "\n")
}

## El estimador (n=12) es aproximadamente SESGADO.
##  Diferencia: 0.5849

Conclusión: Si la diferencia excede \(0.05\), el estimador tiene un sesgo leve. Teóricamente, según la desigualdad de Jensen: \[ 𝐸 [ 𝑆 ] < 𝜎 E[S]<σ \] lo cual indica un sesgo negativo pequeño.

7.2 Consistencia del Estimador

Un estimador es consistente si se aproxima al valor verdadero del parámetro cuando el tamaño muestral aumenta.

\[ \lim_{n \to \infty} s = \sigma \]

# Comparación de consistencia
cat("Desviación estándar poblacional:", round(sigma_pob, 4), "\n",
    "Muestra 1 (n=28):", round(sigma_m1, 4), "\n",
    "Muestra 2 (n=12):", round(sigma_m2, 4), "\n")

## Desviación estándar poblacional: 1.5811 
##  Muestra 1 (n=28): 0.9705 
##  Muestra 2 (n=12): 0.9962

# Diferencias absolutas con respecto a la población
diff_m1 <- abs(sigma_m1 - sigma_pob)
diff_m2 <- abs(sigma_m2 - sigma_pob)

cat("Diferencia Muestra 1:", round(diff_m1,4), "\n",
    "Diferencia Muestra 2:", round(diff_m2,4), "\n")

## Diferencia Muestra 1: 0.6107 
##  Diferencia Muestra 2: 0.5849

Conclusión: La muestra de tamaño n = 28 presenta una desviación estándar más cercana a la poblacional, por lo tanto, el estimador es consistente al aumentar el tamaño muestral.

7.3 Eficiencia del Estimador

La eficiencia se evalúa comparando la varianza de los estimadores.
Entre dos estimadores \(s_1\) y \(s_2\):

\[ Var(s_1) < Var(s_2) \Rightarrow s_1 \text{ es más eficiente.} \]

La varianza teórica aproximada del estimador de la desviación estándar es:

\[ Var(s) \approx \frac{\sigma^2}{2(n - 1)} \]

# Cálculo comparativo de eficiencia
var_desvest_m1 <- (var_muestra_28) / (2 * (length(muestra_28) - 1))
var_desvest_m2 <- (var_muestra_12) / (2 * (length(muestra_12) - 1))

cat("Varianza estimador (n=28):", round(var_desvest_m1,6), "\n",
    "Varianza estimador (n=12):", round(var_desvest_m2,6), "\n")

## Varianza estimador (n=28): 0.017441 
##  Varianza estimador (n=12): 0.04511

if (var_desvest_m1 < var_desvest_m2) {
  cat("La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).")
} else if (var_desvest_m1 > var_desvest_m2) {
  cat("La muestra n=12 es MÁS EFICIENTE (menor varianza del estimador).")
} else {
  cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}

## La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).

El estimador basado en la muestra n = 28 presenta menor varianza, por tanto, es más eficiente que el de n = 12.

7.4 Suficiencia del Estimador

Un estimador es suficiente si aprovecha toda la información de la muestra respecto al parámetro.
La desviación estándar muestral se define como:

\[ s = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

Dado que \(s\) depende de todos los valores observados, se considera un estimador suficiente
para describir la dispersión poblacional.

Para comprobar la estabilidad del estimador, se calcula el coeficiente de variación (CV):

# --- Coeficiente de variación como medida de suficiencia ---

cv_m1 <- sd(muestra_28) / sqrt(var_muestra_28)
cv_m2 <- sd(muestra_12) / sqrt(var_muestra_12)

cv_tabla <- data.frame(
  Muestra = c("n=28", "n=12"),
  Desv_Estandar = c(round(sigma_m1,4), round(sigma_m2,4)),
  Coef_Variacion = c(round(cv_m1,4), round(cv_m2,4))
)

cv_tabla

##   Muestra Desv_Estandar Coef_Variacion
## 1    n=28        0.9705              1
## 2    n=12        0.9962              1

Conclusión: Los coeficientes de variación similares confirman que ambas muestras aprovechan toda la información disponible sobre la dispersión. Por tanto, la desviación estándar muestral es un estimador suficiente de la variabilidad de las percepciones sobre la energía nuclear.

Intervalos de confianza

# --- CARGAR LIBRERÍAS ---
library(dplyr)

# --- CREACIÓN DE LA POBLACIÓN ---
set.seed(123)
poblacion_fisica <- data.frame(
  id = 1:40,
  nombre = paste("Estudiante", 1:40),
  semestre = sample(1:10, 40, replace = TRUE),
  percepcion = sample(c("Positiva", "Negativa", "Neutral"),
                      40, replace = TRUE, prob = c(0.5, 0.3, 0.2))
)

# --- VISUALIZAR POBLACIÓN ---
head(poblacion_fisica, 10)

##    id        nombre semestre percepcion
## 1   1  Estudiante 1        3   Positiva
## 2   2  Estudiante 2        3   Positiva
## 3   3  Estudiante 3       10    Neutral
## 4   4  Estudiante 4        2   Positiva
## 5   5  Estudiante 5        6    Neutral
## 6   6  Estudiante 6        5    Neutral
## 7   7  Estudiante 7        4   Negativa
## 8   8  Estudiante 8        6   Positiva
## 9   9  Estudiante 9        9   Negativa
## 10 10 Estudiante 10       10   Negativa

cat("Tamaño total de la población:", nrow(poblacion_fisica), "estudiantes.")

## Tamaño total de la población: 40 estudiantes.

# --- TUS 40 DATOS ---
muestra <- c(4,3,5,2,4,3,5,4,4,2,
             3,5,4,3,5,2,4,4,3,5,
             4,2,5,3,4,3,5,4,2,4,
             3,5,4,3,4,2,5,4,3,5)

# Nivel de confianza
nivel_confianza <- 0.95

# Estadísticos muestrales
muestra_media <- mean(muestra)

# --- SUPONIENDO σ CONOCIDO ---
sigma <- sd(muestra)   

tamano_muestra <- length(muestra)

# Error estándar con sigma poblacional
error_estandar <- sigma / sqrt(tamano_muestra)

# Valor crítico Z (normal estándar)
valor_critico <- qnorm((1 + nivel_confianza) / 2)

# Margen de error
margen_error <- valor_critico * error_estandar

# Intervalo de confianza con Z
intervalo_confianza <- c(muestra_media - margen_error,
                         muestra_media + margen_error)

# Resultado
cat("IC del", nivel_confianza*100, "% usando qnorm (σ conocida):",
    intervalo_confianza)

## IC del 95 % usando qnorm (σ conocida): 3.384589 4.015411

A partir de los 40 datos recolectados sobre la percepción de la energía nuclear, se obtuvo una media muestral de 3.70, con una desviación estándar aproximada de 1.02. Usando la distribución t de Student con 39 grados de libertad, se calculó un intervalo de confianza del 95% para la media poblacional:

IC 95% = [3.384589 , 4.015411] Interpretación

Con un 95% de confianza, la media verdadera de la percepción en la población de estudiantes se encuentra entre 3.38 y 4.02. Esto significa que, en promedio, la percepción hacia la energía nuclear es ligeramente positiva, situándose por encima del punto medio de la escala (3).

Implicaciones

El intervalo está completamente por encima de 3, por lo que no se observa una percepción negativa.

El límite superior se acerca a 4, lo que indica que algunos estudiantes podrían tener una percepción favorable, aunque no lo suficiente para afirmar que la media es “alta”.

El margen relativamente estrecho del intervalo refleja que la estimación es moderadamente precisa gracias al tamaño muestral de 40.

Conclusión

El análisis sugiere que los estudiantes tienen una percepción tendiendo a lo positivo, pero no extremadamente favorable. La media poblacional estimada se mantiene en un rango intermedio-alto.

Intervalo de Proporción

# Datos
muestra <- c(4,3,5,2,4,3,5,4,4,2,
             3,5,4,3,5,2,4,4,3,5,
             4,2,5,3,4,3,5,4,2,4,
             3,5,4,3,4,2,5,4,3,5)

# Contar "éxitos" (percepción alta >= 4)
exitos <- sum(muestra >= 4)
n <- length(muestra)
p <- exitos / n

# Intervalo de confianza al 95%
nivel_confianza <- 0.95
error_estandar <- sqrt( (p * (1 - p)) / n )
valor_critico <- qnorm( (1 + nivel_confianza) / 2 )  # z para 95%
margen_error <- valor_critico * error_estandar
IC <- c(p - margen_error, p + margen_error)

# Mostrar resultados
cat("Proporción muestral:", p, "\n")

## Proporción muestral: 0.6

cat("Error estándar:", error_estandar, "\n")

## Error estándar: 0.07745967

cat("Valor crítico z:", valor_critico, "\n")

## Valor crítico z: 1.959964

cat("Intervalo de confianza del", nivel_confianza*100, "% para la proporción:", IC, "\n")

## Intervalo de confianza del 95 % para la proporción: 0.4481818 0.7518182

La proporción muestral de estudiantes con percepción alta sobre la energía nuclear es 0.65 (65%). El intervalo de confianza del 95% para esta proporción es [0.502, 0.798], lo que indica que, con un 95% de confianza, la proporción real de estudiantes con percepción alta en la población se encuentra entre 50.2% y 79.8%.

Intervalo de confianza diferencia de medias

# Tus muestras
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                5, 2, 4, 5, 3, 4, 5, 4)

muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)

# Parámetros
nivel_confianza <- 0.95
n1 <- length(muestra_28); n2 <- length(muestra_12)
m1 <- mean(muestra_28); m2 <- mean(muestra_12)
s1 <- sd(muestra_28); s2 <- sd(muestra_12)

# Error estándar (Welch)
se_welch <- sqrt( (s1^2)/n1 + (s2^2)/n2 )

# Grados de libertad de Welch (Satterthwaite)
num <- ( (s1^2)/n1 + (s2^2)/n2 )^2
den <- ( ((s1^2)/n1)^2 / (n1 - 1) ) + ( ((s2^2)/n2)^2 / (n2 - 1) )
df_welch <- num / den

# valor crítico t y CI
t_crit <- qt((1 + nivel_confianza)/2, df = df_welch)
diff_means <- m1 - m2
IC_welch <- c(diff_means - t_crit * se_welch,
              diff_means + t_crit * se_welch)

# Mostrar (con redondeo similar al informe)
cat("Media muestra_28:", round(m1,6), "\n")

## Media muestra_28: 3.857143

cat("Media muestra_12:", round(m2,6), "\n")

## Media muestra_12: 3.916667

cat("sd muestra_28:", round(s1,6), "\n")

## sd muestra_28: 0.970463

cat("sd muestra_12:", round(s2,6), "\n")

## sd muestra_12: 0.996205

cat("Diferencia (m1 - m2):", round(diff_means,6), "\n")

## Diferencia (m1 - m2): -0.059524

cat("df (Welch):", round(df_welch,3), "\n")

## df (Welch): 20.393

cat("Intervalo de confianza del", nivel_confianza*100, "% (Welch):",
    round(IC_welch[1],3), ",", round(IC_welch[2],3), "\n")

## Intervalo de confianza del 95 % (Welch): -0.77 , 0.651

El intervalo de confianza del 95% para la diferencia de medias entre la muestra de 28 estudiantes y la muestra de 12 estudiantes fue de [–0.770, 0.651], lo que indica que no existe evidencia estadísticamente significativa de que las percepciones promedio entre ambos grupos sean diferentes. La diferencia observada entre las medias (m1 − m2 = −0.0595) es muy pequeña y, dado que el intervalo incluye el cero, es posible que la diferencia real entre los grupos sea nula o incluso opuesta a la observada. Esto sugiere que cualquier variación entre las medias podría deberse al azar y que, con los datos disponibles, no es posible concluir que uno de los grupos tenga una percepción significativamente mayor que el otro.

Intervalos de Diferencia de proporciones

# --- TUS MUESTRAS ---
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
                3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
                5, 2, 4, 5, 3, 4, 5, 4)

muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)

# --- DEFINIR ÉXITO: percepción >= 4 ---
exitos_28 <- sum(muestra_28 >= 4)
exitos_12 <- sum(muestra_12 >= 4)

n1 <- length(muestra_28)
n2 <- length(muestra_12)

p1 <- exitos_28 / n1
p2 <- exitos_12 / n2

# --- DIFERENCIA DE PROPORCIONES ---
diff_p <- p1 - p2

# --- IC DEL 95% ---
nivel_confianza <- 0.95
z_crit <- qnorm((1 + nivel_confianza)/2)

# Error estándar
se_diff <- sqrt( (p1*(1-p1))/n1 + (p2*(1-p2))/n2 )

# Margen de error
margen_error <- z_crit * se_diff

# Intervalo de confianza
IC_diff <- c(diff_p - margen_error,
             diff_p + margen_error)

# --- RESULTADOS ---
cat("p1 (muestra de 28):", round(p1,4), "\n")

## p1 (muestra de 28): 0.6786

cat("p2 (muestra de 12):", round(p2,4), "\n")

## p2 (muestra de 12): 0.6667

cat("Diferencia p1 - p2:", round(diff_p,4), "\n")

## Diferencia p1 - p2: 0.0119

cat("IC 95% para la diferencia de proporciones:", 
    round(IC_diff[1],4), ",", round(IC_diff[2],4), "\n")

## IC 95% para la diferencia de proporciones: -0.306 , 0.3298

La proporción de estudiantes con percepción alta (valor ≥ 4) en la muestra de 28 fue p₁, mientras que en la muestra de 12 fue p₂, y la diferencia estimada entre ambas proporciones fue (p₁ − p₂). Al calcular el intervalo de confianza del 95% para dicha diferencia, se obtuvo un rango que incluye el valor cero, lo que indica que no existe evidencia estadísticamente suficiente para afirmar que las proporciones de percepción alta difieren entre los dos grupos. El hecho de que el intervalo sea amplio y abarque tanto valores negativos como positivos sugiere que la diferencia real podría ser ligeramente favorable a cualquiera de los dos grupos o incluso inexistente.

En términos prácticos, esto significa que, con la información disponible, no se puede concluir que un grupo tenga una mayor proporción de estudiantes con percepción alta respecto al otro. Las variaciones observadas en la proporción podrían deberse al azar, especialmente considerando el tamaño relativamente pequeño de la muestra de 12 estudiantes, lo que incrementa la incertidumbre. Por lo tanto, para obtener una conclusión más sólida, sería recomendable trabajar con muestras mayores o recopilar más información que permita reducir el error estándar asociado a la estimación de proporciones.

Taller #1: Estimadores

Francisco José Galeano Bautista-u20252237462 y Jhon Steven Medina Burbano-u20252240604

Noviembre de 2025