En estadística inferencial buscamos obtener información sobre
una población a partir de una muestra.
Como normalmente no podemos observar a toda la población, usamos
estimadores — valores calculados con los datos
muestrales — para aproximar los parámetros
poblacionales desconocidos.
La calidad del estimador depende fuertemente del tipo de
muestreo utilizado.
Un muestreo correcto garantiza que los estimadores sean
representativos e insesgados.
\[ n = \frac{N Z_{\alpha/2}^2 p q}{e^2 (N - 1) + Z_{\alpha/2}^2 p q}, \quad q = 1 - p \]
Donde:
# tamaño de muestra para proporción (población finita)
n_proporcion_finita <- function(N, e = 0.05, conf = 0.95, p = 0.5){
z <- qnorm(1 - (1-conf)/2)
q <- 1 - p
num <- N * z^2 * p * q
den <- e^2 * (N - 1) + z^2 * p * q
ceiling(num / den)
}
# tamaño de muestra para media (población finita)
n_media_finita <- function(N, e, S, conf = 0.95){
z <- qnorm(1 - (1-conf)/2)
num <- N * z^2 * S^2
den <- e^2 * (N - 1) + z^2 * S^2
ceiling(num / den)
}
# Ejemplos
n_proporcion_finita(N = 10000, e = 0.05, conf = 0.95, p = 0.5) # típico
## [1] 370
n_media_finita(N = 5000, e = 2, S = 15, conf = 0.95)
## [1] 208
Tamaño de muestra. Usa la fórmula general de arriba (población finita). No requiere ajuste extra.
set.seed(123) # hace el muestreo reproducible
# Supón una población etiquetada 1..N
N <- 1000
n <- n_proporcion_finita(N, e = 0.05, conf = 0.95, p = 0.5)
muestra_ids <- sample(1:N, size = n, replace = FALSE)
# Si tienes un data.frame 'poblacion', usa:
# muestra <- poblacion[sample(1:nrow(poblacion), n), ]
muestra_ids
## [1] 415 463 179 526 195 938 818 118 299 229 244 14 374 665 602 603 768 709
## [19] 91 953 348 649 355 840 26 519 426 979 766 211 932 590 593 555 871 373
## [37] 844 143 544 490 621 775 905 937 842 23 923 309 135 821 954 224 166 217
## [55] 290 581 72 588 575 141 722 865 859 153 294 277 999 41 431 90 316 223
## [73] 528 116 606 774 747 456 598 854 39 159 752 209 988 994 34 516 13 69
## [91] 895 755 409 308 278 89 537 291 424 880 286 671 121 110 158 64 483 477
## [109] 480 711 67 663 847 85 165 648 51 74 178 362 236 610 330 726 127 212
## [127] 686 785 814 310 744 243 862 888 792 113 619 893 151 666 614 767 160 391
## [145] 155 974 5 326 784 280 800 789 567 843 238 764 339 920 822 137 455 738
## [163] 560 589 83 696 867 196 769 680 900 926 500 852 344 966 459 20 996 164
## [181] 52 534 177 554 84 523 633 392 302 597 706 864 837 430 710 761 712 428
## [199] 672 250 429 398 928 381 545 40 522 473 200 125 265 959 186 573 252 458
## [217] 152 54 538 235 289 185 765 413 627 794 981 783 205 904 564 857 908 727
## [235] 346 858 468 509 57 457 617 357 279 270 646 347 129 218 618 698 337 976
## [253] 539 975 861 553 724 390 498 222 899 657 421 762 660 163 846 673 578 913
## [271] 878 225 389 117 771 885 55 947
r,r+k,r+2k,… con k=⌊N/n⌋
Requiere un listado sin periodicidades que puedan sesgar.
Tamaño de muestra: Igual que Muestreo aleatorio simple.
Ejemplo: en una lista de empleados, tomar cada 10.º nombre.
Ejemplo
N <- 1000
n <- 100
k <- floor(N / n)
r <- 3 # arranque "fijo" para que no cambie (o usa set.seed + sample(1:k,1))
idx <- seq(from = r, to = r + k*(n-1), by = k)
idx
## [1] 3 13 23 33 43 53 63 73 83 93 103 113 123 133 143 153 163 173
## [19] 183 193 203 213 223 233 243 253 263 273 283 293 303 313 323 333 343 353
## [37] 363 373 383 393 403 413 423 433 443 453 463 473 483 493 503 513 523 533
## [55] 543 553 563 573 583 593 603 613 623 633 643 653 663 673 683 693 703 713
## [73] 723 733 743 753 763 773 783 793 803 813 823 833 843 853 863 873 883 893
## [91] 903 913 923 933 943 953 963 973 983 993
# idx son las posiciones muestreadas
Se divide la población en estratos mutuamente excluyentes y
exhaustivos.
Dentro de cada estrato se realiza un Muestreo Aleatorio Simple
(MAS).
\[ n_h = n \cdot \frac{N_h}{N} \]
\[ n_h = n \cdot \frac{N_h S_h}{\sum_h N_h S_h} \]
Ejemplo: dividir a los estudiantes por facultad y luego seleccionar al azar dentro de cada una.
La población se agrupa en conglomerados (por
ejemplo, escuelas, barrios).
Se seleccionan conglomerados completos (una etapa) o se
muestrean unidades dentro (dos etapas).
\[ n_{\text{requerido}} = n_{\text{MAS}} \times deff, \quad deff \approx 1 + (m - 1)\rho \]
# Población estructurada en 50 conglomerados de tamaño fijo 20 (1000 unidades)
poblacion_cl <- data.frame(
id = 1:1000,
cluster = rep(sprintf("G%02d", 1:50), each = 20)
)
# Supongamos que necesitamos n_MAS = 200 y sabemos m = 20, rho = 0.03
n_MAS <- 200
m <- 20
rho <- 0.03
deff <- 1 + (m - 1) * rho
n_req <- ceiling(n_MAS * deff) # tamaño efectivo requerido
# Número de conglomerados a seleccionar (1 etapa: tomar clusters completos)
G_seleccionar <- ceiling(n_req / m)
set.seed(2024) # reproducible
clusters_sel <- sample(unique(poblacion_cl$cluster), size = G_seleccionar)
muestra_cl_1etapa <- subset(poblacion_cl, cluster %in% clusters_sel)
table(muestra_cl_1etapa$cluster)
##
## G02 G11 G14 G16 G17 G26 G29 G32 G34 G36 G37 G41 G42 G43 G45 G48
## 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
nrow(muestra_cl_1etapa)
## [1] 320
La inclusión de las unidades no se basa en probabilidades
conocidas, sino en el juicio del investigador,
la conveniencia o la accesibilidad de
los participantes.
Por esta razón, no se puede garantizar la representatividad
estadística, ni calcular márgenes de error válidos o intervalos
de confianza.
No existe una fórmula probabilística para determinar
el tamaño de muestra.
Generalmente se define en función de:
Selecciona las unidades más accesibles o disponibles
para el investigador.
Es el tipo más común en estudios exploratorios o pilotos.
Ejemplo:
Encuestar a las primeras personas que salen de un supermercado.
El investigador elige los casos que considera más
representativos o informativos.
Se usa en estudios cualitativos o en investigaciones donde se busca un
perfil específico.
Ejemplo:
Seleccionar expertos en un área determinada para entrevistas.
Se divide la población en categorías (edad, sexo, ocupación, etc.) y se asignan cuotas que deben cumplirse, pero sin selección aleatoria dentro de las categorías.
Ejemplo:
Seleccionar 50 mujeres y 50 hombres, sin importar quiénes
específicamente acepten participar.
Se utiliza cuando la población es difícil de acceder o no
está claramente identificada.
Los primeros participantes recomiendan a otros,
formando una “cadena”.
Ejemplo:
Estudiar redes de consumo de drogas o comunidades específicas.
Los sujetos deciden participar por iniciativa
propia.
Es común en encuestas en línea, redes sociales o medios de
comunicación.
Ejemplo:
Una encuesta en un sitio web donde las personas ingresan voluntariamente
a responder.
Un estimador es una función de la muestra que busca
aproximar un parámetro poblacional.
Al aplicarlo a una muestra concreta, obtenemos una estimación
puntual.
Muestra: tiempos (minutos): 8, 9, 10, 12, 11, 7, 9, 13, 10, 11
Media muestral = 10 min → estimador de μ.
Varianza muestral \(S^2\) → estimador
de σ².
Una estimación puntual asigna un único valor al parámetro de interés:
Ejemplo:
En una encuesta de 200 personas, 112 prefieren la marca A.
\(\hat{p} = 112 / 200 = 0.56\)
(estimación puntual de p).
En este ejemplo usaremos una pequeña población ficticia con 30 observaciones para cuatro variables.
# --------------------------------------
# Población
# --------------------------------------
edad <- c(25, 30, 28, 32, 27, 31, 29, 26, 33, 28,
30, 35, 26, 29, 34, 31, 27, 28, 30, 29,
32, 33, 28, 26, 31, 30, 27, 29, 34, 32)
altura <- c(165, 170, 172, 168, 169, 175, 173, 167, 171, 170,
172, 174, 168, 176, 169, 171, 170, 172, 173, 168,
174, 175, 169, 170, 172, 173, 174, 175, 176, 177)
peso <- c(60, 70, 68, 72, 65, 80, 77, 66, 75, 70,
73, 78, 69, 74, 82, 71, 68, 69, 70, 72,
74, 75, 73, 67, 79, 81, 76, 77, 80, 78)
nota <- c(78, 85, 88, 90, 82, 91, 89, 87, 84, 86,
92, 88, 83, 89, 94, 90, 85, 87, 86, 91,
88, 89, 90, 84, 92, 93, 85, 87, 88, 90)
# Guardamos en un data frame
datos <- data.frame(edad, altura, peso, nota)
head(datos)
media_edad <- mean(edad)
media_altura <- mean(altura)
media_peso <- mean(peso)
media_nota <- mean(nota)
cat("Estimaciones puntuales (media):\n")
cat("Edad:", media_edad, "\nAltura:", media_altura, "\nPeso:", media_peso, "\nNota:", media_nota, "\n")
Evaluación de propiedades del estimador
Varianza y eficiencia del estimador:
n <- length(edad)
var_edad <- var(edad) / n
var_altura <- var(altura) / n
var_peso <- var(peso) / n
var_nota <- var(nota) / n
cat("Varianza del estimador (eficiencia):\n")
cat("Edad:", var_edad, "\nAltura:", var_altura, "\nPeso:", var_peso, "\nNota:", var_nota, "\n")
Un intervalo de confianza (IC) al nivel \((1 - \alpha)\) proporciona un rango de valores que probablemente contenga el parámetro poblacional.
Si construimos muchos intervalos de confianza de la misma forma sobre diferentes muestras, aproximadamente un \((1 - \alpha)\times100\%\) de ellos contendrán el valor verdadero del parámetro.
Media (σ desconocida):
\(\bar{X} \pm t_{1-\alpha/2,
n-1}\dfrac{S}{\sqrt{n}}\)
Media (σ conocida):
\(\bar{X} \pm
z_{1-\alpha/2}\dfrac{\sigma}{\sqrt{n}}\)
Proporción:
\(\hat{p} \pm
z_{1-\alpha/2}\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\)
Diferencia de medias (Welch):
\((\bar{X}_1 - \bar{X}_2) \pm
t_{\nu,1-\alpha/2}\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}\)
Diferencia de proporciones:
\((\hat{p}_1 - \hat{p}_2) \pm
z_{1-\alpha/2}\sqrt{\dfrac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\dfrac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\)
El estimador de máxima verosimilitud elige el valor del parámetro que maximiza la probabilidad de obtener la muestra observada.
Ventajas: consistentes, eficientes asintóticamente y con distribución aproximadamente normal para muestras grandes.
Ejemplo: un IC al 95% implica \(\alpha = 0.05\).
Relación directa: un IC del 95% para μ equivale a una prueba bilateral con α = 0.05.
Consiste en igualar momentos muestrales con los teóricos para resolver los parámetros desconocidos.
Maximiza la función \(L(\theta | x)\), es decir, el valor del parámetro que hace más probable la muestra observada.
Integra información previa (prior) con la evidencia observada (verosimilitud) para obtener una distribución posterior del parámetro.
Minimiza la suma de los errores cuadrados entre valores observados y estimados. Se usa especialmente en regresión lineal.
Una prueba de hipótesis evalúa una afirmación sobre un parámetro poblacional basándose en la evidencia muestral.
| Tipo | Forma | Región crítica |
|---|---|---|
| Bilateral | \(H_1:\theta \neq \theta_0\) | Dos colas |
| Unilateral derecha | \(H_1:\theta > \theta_0\) | Cola derecha |
| Unilateral izquierda | \(H_1:\theta < \theta_0\) | Cola izquierda |
La potencia aumenta con: - tamaño de muestra n grande, - menor variabilidad, - efecto verdadero más grande, - nivel de significancia más alto.
# -----------------------------
# Simulación de datos
# -----------------------------
set.seed(123)
tiempos <- round(rnorm(40, mean = 9.2, sd = 2.1), 1)
maniana <- round(rnorm(22, mean = 8.7, sd = 1.8), 1)
tarde <- round(rnorm(24, mean = 9.8, sd = 2.3), 1)
exitos_A <- 112; n_A <- 200
exitos_B <- 124; n_B <- 220