Es un método de muestreo probabilístico en el que la población se divide en grupos o “conglomerados” (clusters), que son heterogéneos internamente pero similares entre sí en cuanto a su composición general. En lugar de seleccionar individuos directamente de toda la población, se seleccionan aleatoriamente algunos conglomerados y luego se estudian todos los elementos dentro de esos conglomerados, o una muestra de ellos
El tamaño de muestra ajustado por el efecto de diseño se calcula como:
\[ n_{requerido} = n_{MAS} \times deff \]
donde el efecto de diseño se estima mediante:
\[ deff \approx 1 + (m - 1)\rho \]
# Población estructurada en 50 conglomerados de tamaño fijo 20 (1000 unidades)
poblacion_cl <- data.frame(
id = 1:1000,
cluster = rep(sprintf("G%02d", 1:50), each = 20)
)
# Supongamos que necesitamos n_MAS = 200 y sabemos m = 20, rho = 0.03
n_MAS <- 200
m <- 20
rho <- 0.03
deff <- 1 + (m - 1) * rho
n_req <- ceiling(n_MAS * deff) # tamaño efectivo requerido
# Número de conglomerados a seleccionar (1 etapa: tomar clusters completos)
G_seleccionar <- ceiling(n_req / m)
set.seed(2024) # reproducible
clusters_sel <- sample(unique(poblacion_cl$cluster), size = G_seleccionar)
muestra_cl_1etapa <- subset(poblacion_cl, cluster %in% clusters_sel)
table(muestra_cl_1etapa$cluster)
##
## G02 G11 G14 G16 G17 G26 G29 G32 G34 G36 G37 G41 G42 G43 G45 G48
## 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
nrow(muestra_cl_1etapa)
## [1] 320
En este ejercicio se simuló una población compuesta por 50 conglomerados de tamaño fijo \(m = 20\), para un total de 1000 unidades. El objetivo era obtener una muestra equivalente, en precisión, a una muestra aleatoria simple (MAS) de tamaño \(n_{MAS} = 200\), pero seleccionando conglomerados completos en lugar de unidades individuales.
Debido a que las unidades dentro de un mismo conglomerado tienden a parecerse entre sí, se considera la correlación intra–conglomerado \(\rho = 0.03\), que mide la similitud interna entre las observaciones. Este valor influye en la varianza del estimador y se refleja en el efecto del diseño (deff), calculado mediante la expresión:
\[ \text{deff} = 1 + (m - 1)\rho = 1 + (20 - 1)(0.03) = 1.57 \]
El resultado indica que la varianza de las estimaciones aumenta en un 57 % respecto a la obtenida con una MAS del mismo tamaño. Para mantener la misma precisión, se incrementa el tamaño de la muestra de la siguiente forma:
\[ n_{req} = n_{MAS} \times \text{deff} = 200 \times 1.57 = 314 \]
Al redondear hacia arriba, se obtiene \(n_{req} = 320\). Dado que cada conglomerado tiene 20 unidades, el número de conglomerados que se deben seleccionar es:
\[ G_{\text{seleccionar}} = \frac{n_{req}}{m} = \frac{320}{20} = 16 \]
Por tanto, se seleccionan 16 conglomerados completos, los cuales aportan en conjunto \(16 \times 20 = 320\) unidades. Este tamaño de muestra permite alcanzar la misma precisión que una MAS de 200 unidades, compensando el efecto de la homogeneidad interna de los conglomerados.
En conclusion, el procedimiento corresponde a un muestreo por conglomerados de una etapa, donde se seleccionan algunos conglomerados al azar y se incluyen todas sus unidades. Aunque este método es menos eficiente estadísticamente que la MAS, resulta más práctico y económico cuando los elementos de la población están naturalmente agrupados.
Este taller presenta un análisis estadístico sobre la
percepción de los estudiantes frente a la energía
nuclear.
Se utilizan técnicas de muestreo probabilístico y análisis de
estimadores para describir la distribución de percepciones dentro de la
población de estudio.
¿Cuál es la proporción de estudiantes universitarios que tienen una percepción positiva sobre la energía nuclear?
Se genera una población de 40 estudiantes universitarios con información sobre su nombre, semestre académico y percepción frente a la energía nuclear.
# --- CARGAR LIBRERÍAS ---
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# --- CREACIÓN DE LA POBLACIÓN ---
set.seed(123)
poblacion_fisica <- data.frame(
id = 1:40,
nombre = paste("Estudiante", 1:40),
semestre = sample(1:10, 40, replace = TRUE),
percepcion = sample(c("Positiva", "Negativa", "Neutral"),
40, replace = TRUE, prob = c(0.5, 0.3, 0.2))
)
# --- VISUALIZAR POBLACIÓN ---
head(poblacion_fisica, 10)
## id nombre semestre percepcion
## 1 1 Estudiante 1 3 Positiva
## 2 2 Estudiante 2 3 Positiva
## 3 3 Estudiante 3 10 Neutral
## 4 4 Estudiante 4 2 Positiva
## 5 5 Estudiante 5 6 Neutral
## 6 6 Estudiante 6 5 Neutral
## 7 7 Estudiante 7 4 Negativa
## 8 8 Estudiante 8 6 Positiva
## 9 9 Estudiante 9 9 Negativa
## 10 10 Estudiante 10 10 Negativa
cat("Tamaño total de la población:", nrow(poblacion_fisica), "estudiantes.")
## Tamaño total de la población: 40 estudiantes.
Las variables seleccionadas para el estudio son:
Nombre del estudiante
Semestre académico
Percepción sobre la energía nuclear
La variable de interés principal es la percepción, categorizada como Positiva, Negativa o Neutral.
Se aplica un Muestreo Aleatorio Simple (MAS) sin reemplazo. Cada estudiante tiene la misma probabilidad de ser seleccionado. El tamaño de la muestra es n = 28, de una población total N = 40.
# --- ESTABLECER SEMILLA PARA REPRODUCIBILIDAD ---
set.seed(123)
# --- PARÁMETROS DEL MUESTREO ---
N <- nrow(poblacion_fisica)
n_muestra <- 28
# --- SELECCIÓN DE LA MUESTRA ---
indices_muestra <- sample(1:N, n_muestra, replace = FALSE)
muestra_fisica <- poblacion_fisica[indices_muestra, ]
# --- VISUALIZACIÓN DE LA MUESTRA ---
head(muestra_fisica, 10)
## id nombre semestre percepcion
## 31 31 Estudiante 31 10 Positiva
## 15 15 Estudiante 15 9 Positiva
## 14 14 Estudiante 14 9 Positiva
## 3 3 Estudiante 3 10 Neutral
## 38 38 Estudiante 38 2 Negativa
## 25 25 Estudiante 25 7 Neutral
## 26 26 Estudiante 26 5 Neutral
## 27 27 Estudiante 27 10 Neutral
## 32 32 Estudiante 32 7 Negativa
## 5 5 Estudiante 5 6 Neutral
cat("Tamaño de la muestra seleccionada:", nrow(muestra_fisica), "estudiantes.")
## Tamaño de la muestra seleccionada: 28 estudiantes.
# --- OBTENER LA POBLACIÓN RESTANTE ---
restante_fisica <- poblacion_fisica[-indices_muestra, ]
# --- VISUALIZACIÓN DE LA POBLACIÓN RESTANTE ---
head(restante_fisica, 10)
## id nombre semestre percepcion
## 1 1 Estudiante 1 3 Positiva
## 2 2 Estudiante 2 3 Positiva
## 6 6 Estudiante 6 5 Neutral
## 13 13 Estudiante 13 9 Positiva
## 16 16 Estudiante 16 3 Negativa
## 18 18 Estudiante 18 10 Positiva
## 20 20 Estudiante 20 10 Negativa
## 21 21 Estudiante 21 9 Positiva
## 22 22 Estudiante 22 3 Negativa
## 24 24 Estudiante 24 1 Positiva
cat("Tamaño de la población restante:", nrow(restante_fisica), "estudiantes.")
## Tamaño de la población restante: 12 estudiantes.
A continuación, se estima la media de percepción
sobre la energía nuclear entre los estudiantes del programa de
Física.
Se parte de una base poblacional conformada por 40
estudiantes, cuyas percepciones se registran en una escala de 1
a 5, donde 1 indica una percepción muy negativa y 5 una percepción muy
positiva.
# --- BASE DE DATOS: 40 ESTUDIANTES DEL PROGRAMA DE FÍSICA ---
percepcion <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
# --- CÁLCULO DE LA MEDIA POBLACIONAL ---
media_poblacional <- mean(percepcion)
# --- RESULTADO ---
media_poblacional
## [1] 3.7
En esta sección se estima la varianza poblacional de
la percepción sobre la energía nuclear entre los 40 estudiantes del
programa de Física.
La varianza permite medir la dispersión de las percepciones respecto a
la media poblacional.
# --- DATOS DE PERCEPCIÓN SOBRE LA ENERGÍA NUCLEAR (40 ESTUDIANTES) ---
datos <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
# --- CÁLCULO DE LA MEDIA POBLACIONAL ---
media <- mean(datos)
# --- CÁLCULO DE LA VARIANZA POBLACIONAL ---
# (se divide entre N, dado que se considera toda la población)
varianza_poblacional <- sum((datos - media)^2) / length(datos)
varianza_poblacional <- round(varianza_poblacional, 2)
# --- CÁLCULO DE LA DESVIACIÓN ESTÁNDAR POBLACIONAL ---
desviacion_poblacional <- sqrt(varianza_poblacional)
desviacion_poblacional <- round(desviacion_poblacional, 2)
# --- RESULTADOS ---
varianza_poblacional
## [1] 1.01
desviacion_poblacional
## [1] 1
En esta sección se analiza la media muestral como
estimador del parámetro poblacional (media de percepción sobre la
energía nuclear).
Se utilizan datos simulados de percepción de 28 estudiantes
seleccionados mediante muestreo aleatorio simple (MAS), en una escala de
1 a 5.
# --- DATOS DE PERCEPCIÓN DE LA MUESTRA (28 ESTUDIANTES) ---
datos_muestra <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
5, 2, 4, 5, 3, 4, 5, 4)
# --- MEDIA POBLACIONAL (ya calculada en el punto anterior) ---
mu_poblacional <- 3.7
# --- CÁLCULO DE LA MEDIA MUESTRAL ---
media_muestral <- mean(datos_muestra)
media_muestral
## [1] 3.857143
Un estimador es insesgado si su valor esperado es igual al parámetro poblacional, es decir: \[ 𝐸 [ 𝑋 ] = 𝜇 E[ X ]=μ \] En la práctica, se evalúa la diferencia entre la media muestral y la poblacional:
# --- CÁLCULO DEL SESGO ---
diferencia_mu <- abs(media_muestral - mu_poblacional)
diferencia_mu
## [1] 0.1571429
# --- INTERPRETACIÓN ---
if (diferencia_mu <= 0.05) {
cat("El estimador de la media muestral es aproximadamente INSESGADO.",
"\nDiferencia menor o igual a 0.05:", round(diferencia_mu,4))
} else {
cat("El estimador de la media muestral es aproximadamente SESGADO.",
"\nDiferencia mayor a 0.05:", round(diferencia_mu,4))
}
## El estimador de la media muestral es aproximadamente SESGADO.
## Diferencia mayor a 0.05: 0.1571
Resultado esperado: \[ ∣ 𝑋 − 𝜇 ∣ = 0.1571 > 0.05 ∣ X −μ∣=0.1571>0.05 \] El estimador (media muestral) se considera ligeramente sesgado, aunque teóricamente se sabe que: \[ 𝐸 [ 𝑋 ] = 𝜇 E[ X ]=μ \] Por tanto, la diferencia observada se debe a variabilidad aleatoria y no a un sesgo estructural.
Un estimador es consistente si converge al verdadero valor del parámetro cuando el tamaño muestral tiende al infinito:
\[ \lim_{n \to \infty} \bar{X} = \mu \]
En este caso, al incrementar el tamaño de muestra (por ejemplo, de 28
a 40 estudiantes), se esperaría que la media muestral se acerque al
valor poblacional de \(3.7\).
Por tanto, se concluye que la media muestral es un estimador
consistente.
La eficiencia está asociada con la varianza del estimador.
Un estimador es más eficiente si presenta menor varianza que otro.
Matemáticamente:
\[ Var(\hat{\theta}_1) < Var(\hat{\theta}_2) \]
En el caso del estimador de la media muestral:
\[ Var(\bar{X}) = \frac{\sigma^2}{n} \]
donde \(\sigma^2\) es la varianza poblacional y \(n\) el tamaño muestral.
# --- CÁLCULO DE LA VARIANZA DEL ESTIMADOR ---
varianza_poblacional <- 1.01
n <- length(datos_muestra)
varianza_est_media <- varianza_poblacional / n
varianza_est_media <- round(varianza_est_media, 3)
varianza_est_media
## [1] 0.036
El valor obtenido es pequeño, lo que indica que la media muestral es un estimador eficiente, al tener baja varianza.
Un estimador es suficiente si utiliza toda la información relevante contenida en la muestra respecto al parámetro que estima.
En este caso, la media muestral se calcula considerando todos los valores observados de percepción:
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
Por tanto, la media muestral es un estimador suficiente, ya que resume completamente la información relevante sobre la variable de interés (percepción sobre energía nuclear) sin pérdida de información estadística.
La media muestral obtenida es:
\[ \bar{X} = 3.86 \]
mientras que la media poblacional es:
\[ \mu = 3.7 \]
Aunque presenta una diferencia leve de \(0.16\), esta se debe a la
variabilidad muestral.
Teóricamente, el estimador de la media cumple las propiedades de ser
insesgado, consistente,
eficiente y suficiente, representando
de manera adecuada el parámetro poblacional.
La varianza muestral es un estimador del parámetro
poblacional de varianza \(\sigma^2\).
Se calcula utilizando la corrección de Bessel para eliminar el sesgo, y
su fórmula general es:
\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
Por otro lado, la varianza poblacional se define como:
\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2 \]
A continuación, se analizarán las propiedades del estimador de la varianza usando los datos simulados de percepción sobre la energía nuclear.
# ===============================================================
# 6. VARIANZA MUESTRAL - ANÁLISIS COMPLETO
# ===============================================================
# --- DATOS POBLACIONALES (40 ESTUDIANTES) ---
datos <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
# --- CÁLCULO DE LA VARIANZA POBLACIONAL ---
media_poblacional <- mean(datos)
varianza_poblacional <- sum((datos - media_poblacional)^2) / length(datos)
varianza_poblacional <- round(varianza_poblacional, 2)
cat("Varianza poblacional:", varianza_poblacional, "\n")
## Varianza poblacional: 1.01
Se seleccionan dos muestras de distinto tamaño para comparar el comportamiento del estimador:
# --- MUESTRAS ---
muestra_28 <- c(4,5,3,4,2,5,4,3,5,4,
3,4,5,2,4,3,5,4,4,3,
5,2,4,5,3,4,5,4)
muestra_12 <- c(4,3,5,2,4,5,3,4,5,4,3,5)
# --- VARIANZAS MUESTRALES ---
var_muestra_28 <- var(muestra_28)
var_muestra_12 <- var(muestra_12)
cat("Varianza muestra n=28:", round(var_muestra_28,2), "\n",
"Varianza muestra n=12:", round(var_muestra_12,2), "\n")
## Varianza muestra n=28: 0.94
## Varianza muestra n=12: 0.99
Un estimador es insesgado si su valor esperado coincide con el parámetro poblacional: \[ 𝐸 [ 𝑠 2 ] = 𝜎 2 E[s 2 ]=σ 2 \] En este caso, la comparación entre la varianza poblacional y las muestrales es la siguiente:
diferencia_28 <- abs(var_muestra_28 - varianza_poblacional)
diferencia_12 <- abs(var_muestra_12 - varianza_poblacional)
cat("Diferencia muestra 28:", round(diferencia_28,4), "\n",
"Diferencia muestra 12:", round(diferencia_12,4), "\n")
## Diferencia muestra 28: 0.0682
## Diferencia muestra 12: 0.0176
Interpretación: Ambas diferencias son pequeñas, lo cual indica que la varianza muestral es un estimador insesgado de la varianza poblacional.
Un estimador es consistente si se aproxima al valor
del parámetro poblacional cuando el tamaño muestral crece
indefinidamente.
Matemáticamente se expresa como:
\[ \lim_{n \to \infty} s^2 = \sigma^2 \]
Esto significa que, a medida que el tamaño de la muestra aumenta, la varianza muestral \(s^2\) tiende a igualarse con la varianza poblacional \(\sigma^2\).
A continuación se comparan los resultados obtenidos para las dos muestras:
cat("Varianza poblacional:", varianza_poblacional, "\n",
"Varianza muestra 28:", round(var_muestra_28,2), "\n",
"Varianza muestra 12:", round(var_muestra_12,2), "\n")
## Varianza poblacional: 1.01
## Varianza muestra 28: 0.94
## Varianza muestra 12: 0.99
Conclusión: La muestra más grande (n=28) presenta menor diferencia respecto a la varianza poblacional, por lo que el estimador es consistente.
La eficiencia de un estimador depende de su
varianza.
Entre dos estimadores \(s_1^2\) y \(s_2^2\):
\[ Var(s_1^2) < Var(s_2^2) \Rightarrow s_1^2 \text{ es más eficiente.} \]
En palabras, si la varianza de un estimador es menor que la de otro, se considera más eficiente, ya que presenta menor dispersión en sus resultados.
La varianza del estimador de la varianza se calcula mediante la fórmula teórica:
\[ Var(s^2) = \frac{2\sigma^4}{n - 1} \]
donde:
- \(\sigma^2\) es la varianza
poblacional,
- \(n\) es el tamaño de la muestra.
En este caso, se estima reemplazando \(\sigma^2\) por la varianza muestral:
var_var_28 <- (2 * var_muestra_28^2) / (length(muestra_28) - 1)
var_var_12 <- (2 * var_muestra_12^2) / (length(muestra_12) - 1)
cat("Varianza del estimador (n=28):", round(var_var_28,4), "\n",
"Varianza del estimador (n=12):", round(var_var_12,4), "\n")
## Varianza del estimador (n=28): 0.0657
## Varianza del estimador (n=12): 0.1791
if (var_var_28 < var_var_12) {
cat("La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).")
} else {
cat("La muestra n=12 es MÁS EFICIENTE (menor varianza del estimador).")
}
## La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).
Un estimador es suficiente si utiliza toda la información contenida en la muestra respecto al parámetro que estima.
La varianza muestral se define como:
\[ s^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \bar{X})^2 \]
Dado que incluye todos los valores observados de la variable, se considera un estimador suficiente de la varianza poblacional \(\sigma^2\).
Para verificar la estabilidad de la información, se puede analizar el coeficiente de variación (CV), definido como:
\[ CV = \frac{s}{\sqrt{s^2}} = 1 \]
Cálculo en R:
cv_var_28 <- sd(muestra_28) / sqrt(var_muestra_28)
cv_var_12 <- sd(muestra_12) / sqrt(var_muestra_12)
cv_suf <- data.frame(
Tamaño_Muestra = c(28, 12),
Varianza_Muestral = c(var_muestra_28, var_muestra_12),
Coeficiente_Variacion = c(cv_var_28, cv_var_12)
)
print(cv_suf)
## Tamaño_Muestra Varianza_Muestral Coeficiente_Variacion
## 1 28 0.9417989 1
## 2 12 0.9924242 1
Conclusión: El coeficiente de variación constante confirma que la varianza muestral concentra toda la información relevante de dispersión, por lo que se considera un estimador suficiente de la varianza poblacional.
La desviación estándar mide la dispersión promedio
de los puntajes de percepción sobre la energía nuclear con respecto a su
media.
Su expresión es:
\[ s = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]
A continuación, se calculará la desviación estándar muestral y se comparará con la desviación estándar poblacional.
# --- Datos poblacionales (40 estudiantes) ---
poblacion <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
# --- Muestras ---
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
5, 2, 4, 5, 3, 4, 5, 4)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)
# --- Cálculo de varianzas y desviaciones estándar ---
var_poblacion <- var(poblacion)
var_muestra_28 <- var(muestra_28)
var_muestra_12 <- var(muestra_12)
sigma_pob <- sqrt(var_poblacion)
sigma_m1 <- sqrt(var_muestra_28)
sigma_m2 <- sqrt(var_muestra_12)
cat("Desviación estándar poblacional:", round(sigma_pob,2), "\n",
"Desviación estándar muestra (n=28):", round(sigma_m1,2), "\n",
"Desviación estándar muestra (n=12):", round(sigma_m2,2))
## Desviación estándar poblacional: 1.02
## Desviación estándar muestra (n=28): 0.97
## Desviación estándar muestra (n=12): 1
El sesgo mide cuánto se aleja el estimador de su
valor verdadero.
Se considera insesgado si la diferencia es menor o
igual a \(0.05\).
# Datos poblacionales y muestrales
poblacion <- c(1, 2, 3, 4, 5)
sigma_pob <- sd(poblacion)
# Muestra 1 (n=28)
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
5, 2, 4, 5, 3, 4, 5, 4)
sigma_m1 <- sd(muestra_28)
var_muestra_28 <- var(muestra_28)
# Muestra 2 (n=12)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)
sigma_m2 <- sd(muestra_12)
var_muestra_12 <- var(muestra_12)
# Cálculo del sesgo
diferencia_poblacion_m1 <- abs(sigma_m1 - sigma_pob)
diferencia_poblacion_m2 <- abs(sigma_m2 - sigma_pob)
if (diferencia_poblacion_m1 <= 0.05) {
cat("El estimador (n=28) es aproximadamente INSESGADO.\n",
"Diferencia:", round(diferencia_poblacion_m1,4), "\n")
} else {
cat("El estimador (n=28) es aproximadamente SESGADO.\n",
"Diferencia:", round(diferencia_poblacion_m1,4), "\n")
}
## El estimador (n=28) es aproximadamente SESGADO.
## Diferencia: 0.6107
if (diferencia_poblacion_m2 <= 0.05) {
cat("El estimador (n=12) es aproximadamente INSESGADO.\n",
"Diferencia:", round(diferencia_poblacion_m2,4), "\n")
} else {
cat("El estimador (n=12) es aproximadamente SESGADO.\n",
"Diferencia:", round(diferencia_poblacion_m2,4), "\n")
}
## El estimador (n=12) es aproximadamente SESGADO.
## Diferencia: 0.5849
Conclusión: Si la diferencia excede \(0.05\), el estimador tiene un sesgo leve. Teóricamente, según la desigualdad de Jensen: \[ 𝐸 [ 𝑆 ] < 𝜎 E[S]<σ \] lo cual indica un sesgo negativo pequeño.
Un estimador es consistente si se aproxima al valor verdadero del parámetro cuando el tamaño muestral aumenta.
\[ \lim_{n \to \infty} s = \sigma \]
# Comparación de consistencia
cat("Desviación estándar poblacional:", round(sigma_pob, 4), "\n",
"Muestra 1 (n=28):", round(sigma_m1, 4), "\n",
"Muestra 2 (n=12):", round(sigma_m2, 4), "\n")
## Desviación estándar poblacional: 1.5811
## Muestra 1 (n=28): 0.9705
## Muestra 2 (n=12): 0.9962
# Diferencias absolutas con respecto a la población
diff_m1 <- abs(sigma_m1 - sigma_pob)
diff_m2 <- abs(sigma_m2 - sigma_pob)
cat("Diferencia Muestra 1:", round(diff_m1,4), "\n",
"Diferencia Muestra 2:", round(diff_m2,4), "\n")
## Diferencia Muestra 1: 0.6107
## Diferencia Muestra 2: 0.5849
Conclusión: La muestra de tamaño n = 28 presenta una desviación estándar más cercana a la poblacional, por lo tanto, el estimador es consistente al aumentar el tamaño muestral.
La eficiencia se evalúa comparando la
varianza de los estimadores.
Entre dos estimadores \(s_1\) y \(s_2\):
\[ Var(s_1) < Var(s_2) \Rightarrow s_1 \text{ es más eficiente.} \]
La varianza teórica aproximada del estimador de la desviación estándar es:
\[ Var(s) \approx \frac{\sigma^2}{2(n - 1)} \]
# Cálculo comparativo de eficiencia
var_desvest_m1 <- (var_muestra_28) / (2 * (length(muestra_28) - 1))
var_desvest_m2 <- (var_muestra_12) / (2 * (length(muestra_12) - 1))
cat("Varianza estimador (n=28):", round(var_desvest_m1,6), "\n",
"Varianza estimador (n=12):", round(var_desvest_m2,6), "\n")
## Varianza estimador (n=28): 0.017441
## Varianza estimador (n=12): 0.04511
if (var_desvest_m1 < var_desvest_m2) {
cat("La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("La muestra n=12 es MÁS EFICIENTE (menor varianza del estimador).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## La muestra n=28 es MÁS EFICIENTE (menor varianza del estimador).
El estimador basado en la muestra n = 28 presenta menor varianza, por tanto, es más eficiente que el de n = 12.
Un estimador es suficiente si
aprovecha toda la información de la muestra respecto al parámetro.
La desviación estándar muestral se define como:
\[ s = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]
Dado que \(s\) depende de
todos los valores observados, se considera un estimador
suficiente
para describir la dispersión poblacional.
Para comprobar la estabilidad del estimador, se calcula el coeficiente de variación (CV):
# --- Coeficiente de variación como medida de suficiencia ---
cv_m1 <- sd(muestra_28) / sqrt(var_muestra_28)
cv_m2 <- sd(muestra_12) / sqrt(var_muestra_12)
cv_tabla <- data.frame(
Muestra = c("n=28", "n=12"),
Desv_Estandar = c(round(sigma_m1,4), round(sigma_m2,4)),
Coef_Variacion = c(round(cv_m1,4), round(cv_m2,4))
)
cv_tabla
## Muestra Desv_Estandar Coef_Variacion
## 1 n=28 0.9705 1
## 2 n=12 0.9962 1
Conclusión: Los coeficientes de variación similares confirman que ambas muestras aprovechan toda la información disponible sobre la dispersión. Por tanto, la desviación estándar muestral es un estimador suficiente de la variabilidad de las percepciones sobre la energía nuclear.
# --- CARGAR LIBRERÍAS ---
library(dplyr)
# --- CREACIÓN DE LA POBLACIÓN ---
set.seed(123)
poblacion_fisica <- data.frame(
id = 1:40,
nombre = paste("Estudiante", 1:40),
semestre = sample(1:10, 40, replace = TRUE),
percepcion = sample(c("Positiva", "Negativa", "Neutral"),
40, replace = TRUE, prob = c(0.5, 0.3, 0.2))
)
# --- VISUALIZAR POBLACIÓN ---
head(poblacion_fisica, 10)
## id nombre semestre percepcion
## 1 1 Estudiante 1 3 Positiva
## 2 2 Estudiante 2 3 Positiva
## 3 3 Estudiante 3 10 Neutral
## 4 4 Estudiante 4 2 Positiva
## 5 5 Estudiante 5 6 Neutral
## 6 6 Estudiante 6 5 Neutral
## 7 7 Estudiante 7 4 Negativa
## 8 8 Estudiante 8 6 Positiva
## 9 9 Estudiante 9 9 Negativa
## 10 10 Estudiante 10 10 Negativa
cat("Tamaño total de la población:", nrow(poblacion_fisica), "estudiantes.")
## Tamaño total de la población: 40 estudiantes.
# --- TUS 40 DATOS ---
muestra <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
# Nivel de confianza
nivel_confianza <- 0.95
# Estadísticos muestrales
muestra_media <- mean(muestra)
# --- SUPONIENDO σ CONOCIDO ---
sigma <- sd(muestra)
tamano_muestra <- length(muestra)
# Error estándar con sigma poblacional
error_estandar <- sigma / sqrt(tamano_muestra)
# Valor crítico Z (normal estándar)
valor_critico <- qnorm((1 + nivel_confianza) / 2)
# Margen de error
margen_error <- valor_critico * error_estandar
# Intervalo de confianza con Z
intervalo_confianza <- c(muestra_media - margen_error,
muestra_media + margen_error)
# Resultado
cat("IC del", nivel_confianza*100, "% usando qnorm (σ conocida):",
intervalo_confianza)
## IC del 95 % usando qnorm (σ conocida): 3.384589 4.015411
A partir de los 40 datos recolectados sobre la percepción de la energía nuclear, se obtuvo una media muestral de 3.70, con una desviación estándar aproximada de 1.02. Usando la distribución t de Student con 39 grados de libertad, se calculó un intervalo de confianza del 95% para la media poblacional:
IC 95% = [3.384589 , 4.015411] Interpretación
Con un 95% de confianza, la media verdadera de la percepción en la población de estudiantes se encuentra entre 3.38 y 4.02. Esto significa que, en promedio, la percepción hacia la energía nuclear es ligeramente positiva, situándose por encima del punto medio de la escala (3).
Implicaciones
El intervalo está completamente por encima de 3, por lo que no se observa una percepción negativa.
El límite superior se acerca a 4, lo que indica que algunos estudiantes podrían tener una percepción favorable, aunque no lo suficiente para afirmar que la media es “alta”.
El margen relativamente estrecho del intervalo refleja que la estimación es moderadamente precisa gracias al tamaño muestral de 40.
Conclusión
El análisis sugiere que los estudiantes tienen una percepción tendiendo a lo positivo, pero no extremadamente favorable. La media poblacional estimada se mantiene en un rango intermedio-alto.
# Datos
muestra <- c(4,3,5,2,4,3,5,4,4,2,
3,5,4,3,5,2,4,4,3,5,
4,2,5,3,4,3,5,4,2,4,
3,5,4,3,4,2,5,4,3,5)
# Contar "éxitos" (percepción alta >= 4)
exitos <- sum(muestra >= 4)
n <- length(muestra)
p <- exitos / n
# Intervalo de confianza al 95%
nivel_confianza <- 0.95
error_estandar <- sqrt( (p * (1 - p)) / n )
valor_critico <- qnorm( (1 + nivel_confianza) / 2 ) # z para 95%
margen_error <- valor_critico * error_estandar
IC <- c(p - margen_error, p + margen_error)
# Mostrar resultados
cat("Proporción muestral:", p, "\n")
## Proporción muestral: 0.6
cat("Error estándar:", error_estandar, "\n")
## Error estándar: 0.07745967
cat("Valor crítico z:", valor_critico, "\n")
## Valor crítico z: 1.959964
cat("Intervalo de confianza del", nivel_confianza*100, "% para la proporción:", IC, "\n")
## Intervalo de confianza del 95 % para la proporción: 0.4481818 0.7518182
La proporción muestral de estudiantes con percepción alta sobre la energía nuclear es 0.65 (65%). El intervalo de confianza del 95% para esta proporción es [0.502, 0.798], lo que indica que, con un 95% de confianza, la proporción real de estudiantes con percepción alta en la población se encuentra entre 50.2% y 79.8%.
# Tus muestras
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
5, 2, 4, 5, 3, 4, 5, 4)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)
# Parámetros
nivel_confianza <- 0.95
n1 <- length(muestra_28); n2 <- length(muestra_12)
m1 <- mean(muestra_28); m2 <- mean(muestra_12)
s1 <- sd(muestra_28); s2 <- sd(muestra_12)
# Error estándar (Welch)
se_welch <- sqrt( (s1^2)/n1 + (s2^2)/n2 )
# Grados de libertad de Welch (Satterthwaite)
num <- ( (s1^2)/n1 + (s2^2)/n2 )^2
den <- ( ((s1^2)/n1)^2 / (n1 - 1) ) + ( ((s2^2)/n2)^2 / (n2 - 1) )
df_welch <- num / den
# valor crítico t y CI
t_crit <- qt((1 + nivel_confianza)/2, df = df_welch)
diff_means <- m1 - m2
IC_welch <- c(diff_means - t_crit * se_welch,
diff_means + t_crit * se_welch)
# Mostrar (con redondeo similar al informe)
cat("Media muestra_28:", round(m1,6), "\n")
## Media muestra_28: 3.857143
cat("Media muestra_12:", round(m2,6), "\n")
## Media muestra_12: 3.916667
cat("sd muestra_28:", round(s1,6), "\n")
## sd muestra_28: 0.970463
cat("sd muestra_12:", round(s2,6), "\n")
## sd muestra_12: 0.996205
cat("Diferencia (m1 - m2):", round(diff_means,6), "\n")
## Diferencia (m1 - m2): -0.059524
cat("df (Welch):", round(df_welch,3), "\n")
## df (Welch): 20.393
cat("Intervalo de confianza del", nivel_confianza*100, "% (Welch):",
round(IC_welch[1],3), ",", round(IC_welch[2],3), "\n")
## Intervalo de confianza del 95 % (Welch): -0.77 , 0.651
El intervalo de confianza del 95% para la diferencia de medias entre la muestra de 28 estudiantes y la muestra de 12 estudiantes fue de [–0.770, 0.651], lo que indica que no existe evidencia estadísticamente significativa de que las percepciones promedio entre ambos grupos sean diferentes. La diferencia observada entre las medias (m1 − m2 = −0.0595) es muy pequeña y, dado que el intervalo incluye el cero, es posible que la diferencia real entre los grupos sea nula o incluso opuesta a la observada. Esto sugiere que cualquier variación entre las medias podría deberse al azar y que, con los datos disponibles, no es posible concluir que uno de los grupos tenga una percepción significativamente mayor que el otro.
# --- TUS MUESTRAS ---
muestra_28 <- c(4, 5, 3, 4, 2, 5, 4, 3, 5, 4,
3, 4, 5, 2, 4, 3, 5, 4, 4, 3,
5, 2, 4, 5, 3, 4, 5, 4)
muestra_12 <- c(4, 3, 5, 2, 4, 5, 3, 4, 5, 4, 3, 5)
# --- DEFINIR ÉXITO: percepción >= 4 ---
exitos_28 <- sum(muestra_28 >= 4)
exitos_12 <- sum(muestra_12 >= 4)
n1 <- length(muestra_28)
n2 <- length(muestra_12)
p1 <- exitos_28 / n1
p2 <- exitos_12 / n2
# --- DIFERENCIA DE PROPORCIONES ---
diff_p <- p1 - p2
# --- IC DEL 95% ---
nivel_confianza <- 0.95
z_crit <- qnorm((1 + nivel_confianza)/2)
# Error estándar
se_diff <- sqrt( (p1*(1-p1))/n1 + (p2*(1-p2))/n2 )
# Margen de error
margen_error <- z_crit * se_diff
# Intervalo de confianza
IC_diff <- c(diff_p - margen_error,
diff_p + margen_error)
# --- RESULTADOS ---
cat("p1 (muestra de 28):", round(p1,4), "\n")
## p1 (muestra de 28): 0.6786
cat("p2 (muestra de 12):", round(p2,4), "\n")
## p2 (muestra de 12): 0.6667
cat("Diferencia p1 - p2:", round(diff_p,4), "\n")
## Diferencia p1 - p2: 0.0119
cat("IC 95% para la diferencia de proporciones:",
round(IC_diff[1],4), ",", round(IC_diff[2],4), "\n")
## IC 95% para la diferencia de proporciones: -0.306 , 0.3298
La proporción de estudiantes con percepción alta (valor ≥ 4) en la muestra de 28 fue p₁, mientras que en la muestra de 12 fue p₂, y la diferencia estimada entre ambas proporciones fue (p₁ − p₂). Al calcular el intervalo de confianza del 95% para dicha diferencia, se obtuvo un rango que incluye el valor cero, lo que indica que no existe evidencia estadísticamente suficiente para afirmar que las proporciones de percepción alta difieren entre los dos grupos. El hecho de que el intervalo sea amplio y abarque tanto valores negativos como positivos sugiere que la diferencia real podría ser ligeramente favorable a cualquiera de los dos grupos o incluso inexistente.
En términos prácticos, esto significa que, con la información disponible, no se puede concluir que un grupo tenga una mayor proporción de estudiantes con percepción alta respecto al otro. Las variaciones observadas en la proporción podrían deberse al azar, especialmente considerando el tamaño relativamente pequeño de la muestra de 12 estudiantes, lo que incrementa la incertidumbre. Por lo tanto, para obtener una conclusión más sólida, sería recomendable trabajar con muestras mayores o recopilar más información que permita reducir el error estándar asociado a la estimación de proporciones.