Análisis probabilístico del peso total de ocupantes usando propiedades de la distribución normal
“Un ascensor limita el peso de sus 4 ocupantes a 300 kilogramos. Si el peso de un individuo sigue una distribución normal N(71, 7), calcular la probabilidad de que el peso total de 4 individuos supere los 300 kilogramos.”
A
0.2266
B
0.1841
C
0.1151
D
0.1587
E
0.0808
Datos proporcionados:
• Peso individual: Xᵢ ~ N(μ,
σ²)
• Media individual: μ = 71 kg
• Varianza individual: σ² =
7
• Desviación estándar: σ = √7 ≈ 2.6458 kg
• Número de
ocupantes: n = 4
• Límite de peso: L = 300 kg
• Pregunta: P(S₄
> 300)
Definición de suma:
S₄ = X₁ + X₂
+ X₃ + X₄
Suma de 4 pesos individuales
Contexto de
seguridad:
• Ascensor con límite de carga
•
Consideraciones de seguridad
• Normativas de construcción
Teorema fundamental:
Si Xᵢ ~ N(μᵢ, σᵢ²)
independientes
entonces ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)
Aplicación al problema:
• Media total: μₜ = 4 × μ =
4 × 71 = 284 kg
• Varianza total: σₜ² = 4 × σ² = 4 × 7 = 28
•
Desviación estándar total:
σₜ = √(4 × 7) = √28 ≈ 5.2915 kg
Distribución de la suma:
S₄ ~ N(284, 28)
Interpretación:
Peso total promedio: 284 kg
Variabilidad total: σₜ = 5.29 kg
Probabilidad requerida:
P(S₄ > 300)
Fórmula de estandarización:
Z = \(\frac{S₄ - μₜ}{σₜ}\)
Sustitución para S₄ = 300:
Z = \(\frac{300 - 284}{\sqrt{28}}\)
Z = \(\frac{16}{\sqrt{28}}\)
Z = \(\frac{16}{5.2915}\)
Cálculo exacto:
Z = \(\frac{16}{\sqrt{28}}\)
Z = \(\frac{16}{2\sqrt{7}}\) = \(\frac{8}{\sqrt{7}}\)
Z ≈ 3.0237
Interpretación:
300 kg está
aproximadamente
3.02 desviaciones estándar
por encima de la
media
Probabilidad requerida:
P(S₄ > 300) = P(Z >
3.0237)
Uso de simetría:
P(Z > z) = 1 -
P(Z < z)
Valores de tabla normal:
P(Z
< 3.02) = 0.99874
P(Z < 3.03) = 0.99878
Interpolación lineal:
Para Z = 3.0237:
P(Z <
3.0237) ≈ 0.99875
Probabilidad final:
P(Z
> 3.0237) = 1 - 0.99875
P = 0.00125 ≈ 0.0013
Porcentaje: 0.13%
Interpretación:
Muy baja probabilidad
Cálculo exacto de σₜ:
σₜ = √(4 × 7) = √28 = 2√7
σₜ ≈ 5.291502622
Cálculo exacto de Z:
Z =
(300 - 284)/√28
Z = 16/√28
Z = 16/(2√7) = 8/√7
Z =
8/2.645751311
Z = 3.023715784
Probabilidad
exacta:
P(Z > 3.023715784)
Usando software
estadístico:
P ≈ 0.001254
Redondeo a 4
decimales:
P ≈ 0.0013
Notación
científica: 1.25×10⁻³
Margen de seguridad:
• Peso promedio: 284 kg
•
Límite: 300 kg
• Diferencia: 16 kg
• En términos de σₜ:
3.02σₜ
Frecuencia esperada:
Probabilidad
0.0013 significa:
• 1 en 769 grupos de 4 personas
• 0.13% de los
viajes
• Muy seguro por diseño
Comparación con
opciones:
A) 0.2266 ✗ (181 veces mayor)
B) 0.1841 ✗
(147 veces mayor)
C) 0.1151 ✗ (92 veces mayor)
D) 0.1587 ✗ (126
veces mayor)
E) 0.0808 ✗ (64 veces mayor)
¡Ninguna
coincide! Error en opciones
Consideraciones de diseño:
1. Factor de
seguridad:
Margen 16 kg sobre promedio 284 kg
Representa 5.6% de margen adicional
Diseño conservador y seguro
2. Normativas de construcción:
Ascensores
diseñados con factores
de seguridad típicos de 1.5 a 2.0
Este
diseño excede requerimientos
3. Capacidad nominal vs
real:
Capacidad nominal: 300 kg
Capacidad promedio: 284
kg
Margen para variabilidad: 16 kg
4. Riesgo
aceptable:
Probabilidad 0.13% muy baja
Considerado
riesgo aceptable
en ingeniería civil
Probabilidad calculada:
0.0013
≈ 0.13%
(ninguna opción coincide)
Error en opciones:
Todas son órdenes de magnitud
mayores
Posible error en parámetros del problema
Análisis de posibles errores en el enunciado: Las opciones proporcionadas (0.2266, 0.1841, 0.1151, 0.1587, 0.0808) son todas probabilidades mucho mayores (entre 64 y 181 veces mayor) que el cálculo correcto (0.0013). Esto sugiere tres posibilidades: 1) Error tipográfico en la varianza (debería ser σ=7 no σ²=7), 2) Error en el límite de peso, o 3) Error en las opciones de respuesta. Si σ=7 (no σ²=7), entonces σₜ=√(4×49)=14, Z=16/14=1.1429, P=0.1265, lo que se acerca a algunas opciones.
⚖️
Fórmulas aplicadas:
• Suma de normales: ΣXᵢ ~
N(Σμᵢ, Σσᵢ²)
• Media total: μₜ = n × μ
• Varianza total: σₜ² = n
× σ²
• Desviación estándar total: σₜ = √(n × σ²)
•
Estandarización: Z = (x - μₜ)/σₜ
• Probabilidad cola derecha: P(Z
> z)
Resultados correctos:
Probabilidad: 0.0013
(0.13%)
Z-score: 3.02
Margen seguridad: 16 kg
Factor
seguridad: 1.056
Interpretación: Muy seguro
Error en opciones:
Sí
Conclusión clave: La probabilidad de que 4 personas con peso N(71,7) superen los 300 kg es aproximadamente 0.0013 (0.13%), indicando un diseño de ascensor muy seguro. Ninguna de las opciones proporcionadas coincide con este cálculo, siendo todas órdenes de magnitud mayores. Esto sugiere un posible error en la interpretación de los parámetros: si la distribución fuera N(71,7) con σ=7 (no σ²=7), entonces la probabilidad sería aproximadamente 0.1265, lo que se acerca a algunas opciones. Se recomienda verificar la correcta interpretación de los parámetros en el enunciado original.
⚖️ RESULTADO: PROBABILIDAD ≈ 0.0013 (0.13%)
Suma de Variables Normales • Diseño de Seguridad • Análisis Probabilístico
Nota: Ninguna opción coincide. Posible error en parámetros del problema.
Si σ=7 (no σ²=7): P ≈ 0.1265 (se acerca a opciones C, D, E)
Comparación estadística de rendimiento promedio entre dos tipos de gasolina usando distribución normal
“Se prueba el rendimiento (km/l) de dos tipos de gasolina: la primera
tiene desviación estándar σ₁ = 1.23 km/l y se prueba en 35 vehículos; la
segunda tiene σ₂ = 1.37 km/l y se prueba en 42 vehículos.
a)
¿Cuál es la probabilidad de que la primera gasolina dé un rendimiento
promedio mayor de 0.45 km/l que la segunda?
b) ¿Cuál es la
probabilidad de que la diferencia en rendimientos promedio se encuentre
entre 0.65 y 0.83 km/l a favor de la primera gasolina?”
Datos proporcionados:
• Gasolina 1: σ₁ = 1.23 km/l,
n₁ = 35
• Gasolina 2: σ₂ = 1.37 km/l, n₂ = 42
Variables de interés:
• \(\bar{X}_1\): Rendimiento promedio gasolina
1
• \(\bar{X}_2\): Rendimiento
promedio gasolina 2
• Diferencia: \(D =
\bar{X}_1 - \bar{X}_2\)
Supuestos:
• Rendimientos siguen distribución normal
• Muestras
independientes
• Varianzas poblacionales conocidas
Parte a: P(\(\bar{X}_1 -
\bar{X}_2\) > 0.45)
Teorema fundamental:
Si \(\bar{X}_1\) ~ N(μ₁, σ₁²/n₁)
y \(\bar{X}_2\) ~ N(μ₂, σ₂²/n₂)
independientes, entonces:
\(D =
\bar{X}_1 - \bar{X}_2\) ~ N(μ₁-μ₂, σ_D²)
Varianza de la diferencia:
σ_D² = \(\frac{σ₁²}{n₁} + \frac{σ₂²}{n₂}\)
Suponiendo medias iguales (H₀):
μ₁ = μ₂ ⇒ μ_D =
0
Cálculo de σ_D²:
σ_D² = \(\frac{1.23²}{35} + \frac{1.37²}{42}\)
σ_D² = \(\frac{1.5129}{35} +
\frac{1.8769}{42}\)
Cálculo detallado:
σ₁² = 1.23² = 1.5129
σ₂² =
1.37² = 1.8769
Término 1: σ₁²/n₁ =
1.5129/35
= 0.0432257
Término 2: σ₂²/n₂ =
1.8769/42
= 0.0446881
Varianza total:
σ_D² = 0.0432257 + 0.0446881
σ_D² = 0.0879138
Desviación estándar:
σ_D = √0.0879138
σ_D ≈
0.2965
Distribución:
D ~ N(0, 0.0879138)
Parte a: P(D > 0.45)
Estandarización:
Z = \(\frac{D - μ_D}{σ_D}\)
Z = \(\frac{0.45 - 0}{0.2965}\)
Z =
0.45/0.2965
Cálculo exacto:
Z =
0.45/√0.0879138
Z = 0.45/0.296502
Z ≈ 1.5180
Probabilidad:
P(D > 0.45) = P(Z > 1.5180)
= 1 - P(Z < 1.5180)
Usando tabla
normal:
P(Z < 1.51) = 0.93448
P(Z < 1.52) =
0.93574
Interpolación:
P(Z < 1.518) ≈
0.9356
Resultado parte a:
P = 1 - 0.9356 =
0.0644
≈ 0.0644 (6.44%)
Parte b: P(0.65 < D < 0.83)
Interpretación:
“a favor de la primera
gasolina”
significa \(\bar{X}_1 >
\bar{X}_2\)
∴ D > 0 siempre
Distribución:
D ~ N(0, 0.0879138)
σ_D ≈
0.2965
Probabilidad requerida:
P(0.65 <
D < 0.83)
Estandarización para límites:
Z₁ = (0.65 - 0)/σ_D
Z₂ = (0.83 - 0)/σ_D
Relación
con tabla normal:
P(a < D < b) = P(Z₁ < Z <
Z₂)
= P(Z < Z₂) - P(Z < Z₁)
Cálculo Z-scores:
Z₁ = 0.65/0.2965 ≈ 2.1922
Z₂
= 0.83/0.2965 ≈ 2.7993
Valores tabla
normal:
P(Z < 2.19) = 0.98574
P(Z < 2.20) =
0.98610
P(Z < 2.79) = 0.99736
P(Z < 2.80) = 0.99744
Interpolación lineal:
P(Z < 2.192) ≈
0.9858
P(Z < 2.799) ≈ 0.9974
Probabilidad:
P(0.65 < D < 0.83)
=
P(2.192 < Z < 2.799)
= 0.9974 - 0.9858
= 0.0116
Resultado parte b:
P ≈ 0.0116 (1.16%)
Cálculo exacto σ_D²:
σ_D² = \(\frac{1.5129}{35} + \frac{1.8769}{42}\)
= 0.043225714 + 0.044688095
= 0.087913809
σ_D
exacto:
σ_D = √0.087913809
= 0.296502631
Parte a exacta:
Z = 0.45/0.296502631
=
1.517698
P(Z > 1.517698) = 0.0646
Parte b
exacta:
Z₁ = 0.65/0.296502631 = 2.1922
Z₂ =
0.83/0.296502631 = 2.7993
P = Φ(2.7993) - Φ(2.1922)
= 0.99744 -
0.98586
= 0.01158
Interpretación parte a:
• Probabilidad 6.44%
•
Significa: Si ambas gasolinas tienen
igual rendimiento promedio
(μ₁=μ₂)
• Solo 6.44% de muestras mostrarían
diferencia >0.45
km/l
• Diferencia de 0.45 km/l sería poco común
Interpretación parte b:
• Probabilidad 1.16%
•
Muy baja probabilidad
• Diferencia entre 0.65-0.83 km/l
sería
muy inusual si μ₁=μ₂
• Sugeriría diferencia real si se observa
P(D > 0.45) = 0.0646
≈ 6.46%
Z-score: 1.518
Interpretación: Baja probabilidad
P(0.65 < D < 0.83) = 0.0116
≈ 1.16%
Z₁: 2.192, Z₂: 2.799
Interpretación: Muy baja probabilidad
Distribución Diferencia
D ~ N(μ₁-μ₂, σ₁²/n₁+σ₂²/n₂)
Estandarización
Z = (D - μ_D)/σ_D
Hipótesis Nula
Asume μ₁ = μ₂ ⇒ μ_D = 0
Parte a (6.46%): Si en pruebas reales se observa una
diferencia mayor a 0.45 km/l, hay evidencia moderada (p=0.0646) contra
la hipótesis de igual rendimiento. En investigación, esto podría
considerarse “marginalmente significativo”.
Parte b
(1.16%): Una diferencia entre 0.65-0.83 km/l sería muy inusual
si las gasolinas fueran iguales. Esto proporcionaría evidencia más
fuerte para concluir que la primera gasolina es realmente mejor.
Varianza de Diferencia:
σ_D² = σ₁²/n₁ + σ₂²/n₂
= 1.5129/35 + 1.8769/42
= 0.0879138
Estandarización:
Z = (D - μ_D)/σ_D
Parte a: Z =
0.45/0.2965
Parte b: Z₁ = 0.65/0.2965
Z₂ = 0.83/0.2965
⛽ RESULTADOS FINALES - COMPARACIÓN DE GASOLINAS
Parte a:
P(D > 0.45) = 0.0646
(6.46%)
Parte b:
P(0.65 < D < 0.83) = 0.0116
(1.16%)
Diferencia de Medias • Distribución Normal • Pruebas de Hipótesis • Análisis Comparativo
Comportamiento estadístico de proporciones muestrales en inferencia paramétrica
Proporción Poblacional (parámetro):
p = éxitos /
N (población)
q = 1 - p (fracasos)
Proporción Muestral (estadístico):
p̂ = X / n
Donde:
• X = número de éxitos en muestra
• n = tamaño
muestral
Media (valor esperado):
μp̂ = E(p̂) =
p
Varianza:
σ²p̂ = Var(p̂) = p(1-p)/n
= pq/n
Error estándar:
σp̂ = √[p(1-p)/n]
= √(pq/n)
Regla general (más usada):
np ≥ 10
y n(1-p) ≥ 10
Regla más conservadora:
np ≥ 5
y n(1-p) ≥ 5
Interpretación:
• np = número esperado de
éxitos
• n(1-p) = número esperado de fracasos
Características clave:
1.
Normalidad: Aproximación normal buena
2.
Media: μp̂ = p (insesgado)
3.
Error estándar: σp̂ = √(pq/n)
4.
Simetría: Mejor si p ≈ 0.5
Intervalo de confianza aproximado:
p̂ ±
zα/2√[p̂(1-p̂)/n]
Contexto:
Encuesta preelectoral. Se estima p =
0.45 (45% votaría por candidato A).
Problema:
n = 400 votantes:
• ¿Distribución
de p̂?
• P(p̂ > 0.48) = ?
Verificación:
np = 400×0.45 = 180 ≥ 10 ✓
n(1-p) = 400×0.55 = 220 ≥ 10 ✓
Contexto:
Línea producción, tasa defectos
histórica p = 0.02.
Problema:
n = 600 productos:
• Error
estándar de p̂?
• P(p̂ < 0.015)?
Verificación:
np = 600×0.02 = 12 ≥ 10 ✓
n(1-p) = 600×0.98 = 588 ≥ 10 ✓
Contexto:
Universidad, proporción que aprueba
cálculo p = 0.70.
Problema:
Muestras n = 250 estudiantes:
• IC
95% para p̂?
• Tamaño efecto?
Verificación:
np = 250×0.70 = 175 ≥ 10 ✓
n(1-p) = 250×0.30 = 75 ≥ 10 ✓
Cuando NO se cumplen np ≥ 10 y n(1-p) ≥ 10:
•
Usar distribución binomial exacta
• X ∼ Binomial(n, p)
• p̂ =
X/n
Probabilidad exacta:
P(X = k) = C(n,k) p^k
(1-p)^{n-k}
Cuando usar:
1. n pequeño
2. p muy cercano a
0 o 1
3. np < 10 o n(1-p) < 10
Intervalo de confianza exacto (Clopper-Pearson):
Usa distribución binomial
Más conservador
Adecuado para n
pequeños
Intervalo de Wilson:
\(\frac{\hat{p} + \frac{z^2}{2n} \pm
z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1 +
\frac{z^2}{n}}\)
Mejor para p cercano a 0 o 1
Contexto:
Medicamento, efecto secundario grave p
= 0.005.
Problema:
Estudio con n = 100 pacientes:
•
np = 100×0.005 = 0.5 (<10)
• n(1-p) = 99.5 (>10)
• Usar
binomial exacta
Contexto:
Proceso alta calidad, p(defecto) =
0.001.
Problema:
Control calidad n = 50 unidades:
•
np = 0.05 (<10)
• Usar Poisson como aproximación
Solución Poisson:
λ = np = 0.05
P(X ≥ 1) = 1
- P(X=0)
= 1 - e^{-0.05}
= 1 - 0.9512 = 0.0488
Contexto:
Encuesta piloto nueva app.
n = 20
usuarios, 3 la recomiendan.
Problema:
p̂ = 3/20 = 0.15
• IC 95% exacto
(Clopper-Pearson)
• Comparar con normal aproximado
Solución exacta:
Usando binomial:
Límite
inferior: 0.032
Límite superior: 0.379
IC exacto: [0.032,
0.379]
| Método | Fórmula | Ventajas | Cuándo usar |
|---|---|---|---|
| Wald (Normal) | p̂ ± z√[p̂(1-p̂)/n] | Sencillo | n grande, p moderado |
| Wilson | (p̂+z²/(2n)±z√[·])/(1+z²/n) | Mejor para p extremos | Cualquier n, p |
| Clopper-Pearson | Exacto binomial | Conservador | n pequeño |
| Agresti-Coull | p̃ ± z√[p̃(1-p̃)/ñ] | Buen balance | Propósito general |
Contexto:
Referéndum, se espera p = 0.52 a
favor.
Parte A (encuesta grande):
n = 1000
encuestados:
np = 520 ≥ 10 ✓
n(1-p) = 480 ≥ 10 ✓
• Usar
aproximación normal
σp̂ = √[0.52×0.48/1000] = 0.0158
IC 95%: 0.52 ± 1.96×0.0158 = [0.489, 0.551]
Contexto:
Fábrica, defectos históricos p =
0.01.
Caso 1 (lote grande):
n = 500 unidades:
np =
5 (<10!)
n(1-p) = 495 ≥ 10
• np < 10 → usar binomial
exacta
• O Poisson: λ = 5
Contexto:
Nuevo tratamiento, éxito esperado p =
0.85.
Fase I (n pequeño):
n = 20 pacientes, 18
éxitos:
p̂ = 0.90
np̂ = 18 ≥ 10 ✓
n(1-p̂) = 2 (<10!)
•
Usar método exacto
• Clopper-Pearson IC 95%: [0.683,
0.988]
| Aspecto | Muestras Grandes | Muestras Pequeñas | Recomendación |
|---|---|---|---|
| Condición | np ≥ 10 y n(1-p) ≥ 10 | np < 10 o n(1-p) < 10 | Verificar siempre |
| Distribución | Normal aproximada | Binomial exacta | Usar la apropiada |
| Error estándar | √[p̂(1-p̂)/n] | No aplica directamente | Cuidado con p extremos |
| Intervalo confianza | Wald, Agresti-Coull | Clopper-Pearson, Wilson | Wilson para general |
| Precisión | Buena, mejora con √n | Limitada, intervalos amplios | Mayor n para más precisión |
| Aplicaciones | Encuestas, control calidad | Estudios piloto, eventos raros | Contexto determina método |
1. Propiedades de p̂:
• Media: E(p̂) = p
(insesgado)
• Varianza: Var(p̂) = p(1-p)/n
• Error estándar:
σp̂ = √[p(1-p)/n]
2. Condiciones aproximación normal:
• np ≥ 10 y
n(1-p) ≥ 10 (estándar)
• Más conservador: np ≥ 5 y n(1-p) ≥ 5
•
p̂ ∼ N(p, p(1-p)/n) aproximadamente
3. Métodos intervalos confianza:
• Wald: simple
pero pobre para p extremos
• Wilson: recomendado para uso
general
• Clopper-Pearson: exacto pero conservador
•
Agresti-Coull: buen balance
Para investigación aplicada:
1.
Verificar condiciones: Siempre calcular np y n(1-p)
2. Elegir método apropiado:
• np ≥ 10: usar
aproximación normal
• np < 10: usar métodos exactos
3.
Reportar claramente:
• Tamaño muestral n
•
Proporción observada p̂
• Método usado para inferencia
•
Condiciones verificadas
Para diseño de estudios:
• Calcular tamaño
muestral necesario
• Considerar p esperada y precisión deseada
•
Planificar para análisis apropiado
• Considerar métodos robustos
(Wilson)
Paso 1
Calcular
np y n(1-p)
Paso 2
np ≥ 10 y
n(1-p) ≥ 10?
Paso 3
Elegir método
apropiado
SI
Usar métodos normales
• Wald
• Agresti-Coull
• Wilson
(recomendado)
NO
Usar métodos exactos
• Clopper-Pearson
• Wilson
• Binomial
exacta
En ciencias sociales:
• Encuestas de opinión
pública
• Estudios de mercado
• Investigación educativa
•
Análisis de preferencias
En medicina y salud:
• Tasas de éxito
tratamiento
• Prevalencia enfermedades
• Efectos secundarios
• Estudios epidemiológicos
En ingeniería y calidad:
• Tasa de defectos
•
Control de procesos
• Fiabilidad sistemas
• Mejora continua
✅ DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN: TEORÍA COMPLETA
Para muestras grandes: Aproximación normal • Para muestras pequeñas: Binomial exacta • 6 ejemplos prácticos
Condición clave: np ≥ 10 y n(1-p) ≥ 10 • Métodos recomendados: Wilson para uso general
Sea \(Y_1, Y_2, ..., Y_n\) una muestra aleatoria de una distribución normal con media \(\mu\) y varianza \(\sigma^2\).
\[ \sum_{i=1}^n \frac{(Y_i - \mu)^2}{\sigma^2} \sim \chi^2_{(n)} \]
Problema: \(Z_1, ..., Z_6 \sim N(0,1)\), hallar \(b\) tal que \(P(\sum Z_i^2 \leq b) = 0.95\)
\[ \sum_{i=1}^6 Z_i^2 \sim \chi^2_{(6)} \\ P(\chi^2_{(6)} \leq 12.5916) = 0.95 \\ \Rightarrow b = 12.5916 \]
Implementación R: qchisq(0.95,
df=6)
Teorema: Para muestra normal:
\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)} \]
Propiedad clave: \(\bar{Y}\) y \(S^2\) son independientes
📊 Problema
🎯 Solución
# Parámetros dados
n <- 6 # Tamaño de la muestra (grados de libertad)
prob <- 0.95 # Probabilidad deseada
# Encontrar el valor crítico b usando la distribución chi-cuadrado
b <- qchisq(prob, df = n)
# Mostrar el valor de b
print(paste("El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es: 12.5916"
# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 20, length.out = 1000)
# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = n)
# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de ∑Z_i²", ylab = "Densidad",
main = "Distribución chi-cuadrado con 6 grados de libertad")
# Sombrear el área correspondiente a P(∑Z_i² ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- dchisq(x_shade, df = n)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(∑Zi²≤ b) = 0.95)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
# Parámetros dados
n <- 10 # Tamaño de la muestra
sigma <- 1.0 # Desviación estándar poblacional
alpha <- 0.10 # Nivel de significancia (1 - 0.90)
# Grados de libertad
df <- n - 1
# Encontrar los valores críticos de la distribución chi-cuadrado
b1 <- qchisq(alpha / 2, df) * sigma^2 / df
b2 <- qchisq(1 - alpha / 2, df) * sigma^2 / df
# Mostrar los resultados
print(paste("El valor de b1 es:", round(b1, 4)))
## [1] "El valor de b1 es: 0.3695"
print(paste("El valor de b2 es:", round(b2, 4)))
## [1] "El valor de b2 es: 1.8799"
# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 30, length.out = 1000)
# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = df)
# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Varianza muestral (S²)", ylab = "Densidad",
main = "Distribución chi-cuadrado con 9 grados de libertad")
# Sombrear el área correspondiente a P(b1 ≤ S² ≤ b2)
x_shade <- seq(b1, b2, length.out = 1000)
y_shade <- dchisq(x_shade, df = df)
polygon(c(b1, x_shade, b2), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir líneas verticales para los límites
abline(v = b1, col = "red", lty = 2, lwd = 2)
abline(v = b2, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(b1 ≤ S² ≤ b2) = 0.90)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
Sea \(Z \sim N(0,1)\) y \(\chi^2_\nu \sim \chi^2(\nu)\) independientes. Entonces:
\[ T = \frac{Z}{\sqrt{\chi^2_\nu / \nu}} \sim t_{(\nu)} \]
Contexto: Resistencia a tensión ∼ \(N(\mu, \sigma^2)\), \(n=6\) segmentos
\[ \frac{\bar{Y} - \mu}{S/\sqrt{n}} \sim t_{(5)} \\ P(|\bar{Y} - \mu| \leq 2S/\sqrt{n}) = P(-2 \leq t_{(5)} \leq 2) = 0.8980 \]
Comparación con σ conocida: \(P(-2 \leq Z \leq 2) = 0.9544\)
# Parámetros n <- 6; k <- 2; df <- n-1 # Probabilidad usando t-Student prob_t <- pt(k, df) - pt(-k, df) # 0.8980 # Comparación con normal (σ conocida) prob_z <- pnorm(k) - pnorm(-k) # 0.9544 # Gráfico distribución t x <- seq(-4, 4, length=1000) y <- dt(x, df) plot(x, y, type="l", main="Distribución t(5)")
# Parámetros dados
n <- 6 # Tamaño de la muestra
k <- 2 # Factor de escala (2 en este caso)
# Grados de libertad
df <- n - 1
# Calcular la probabilidad usando la distribución t de Student
prob <- pt(k, df = df) - pt(-k, df = df)
# Mostrar la probabilidad
print(paste("La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es:", round(prob, 4)))
## [1] "La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es: 0.8981"
# Crear una secuencia de valores para la distribución t de Student
x <- seq(-4, 4, length.out = 1000)
# Calcular la densidad de la distribución t de Student
y <- dt(x, df = df)
# Graficar la distribución t de Student
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de t", ylab = "Densidad",
main = "Distribución t de Student con 5 grados de libertad")
# Sombrear el área correspondiente a P(-2 ≤ t ≤ 2)
x_shade <- seq(-k, k, length.out = 1000)
y_shade <- dt(x_shade, df = df)
polygon(c(-k, x_shade, k), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir líneas verticales para los límites
abline(v = -k, col = "red", lty = 2, lwd = 2)
abline(v = k, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución t de Student", "Área sombreada (P(-2 ≤ t ≤ 2))"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
Sean \(\chi^2_{\nu_1}\) y \(\chi^2_{\nu_2}\) independientes con \(\nu_1\) y \(\nu_2\) grados de libertad.
\[ F = \frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2} \sim F_{(\nu_1, \nu_2)} \]
Problema: \(n_1=6\), \(n_2=10\), poblaciones normales con igual varianza
\[ \frac{S_1^2}{S_2^2} \sim F_{(5,9)} \\ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95 \\ \Rightarrow b = F_{0.95}(5,9) = 3.48 \]
Aplicación: Pruebas de homogeneidad de varianzas
# Distribución F en R
n1 <- 6; n2 <- 10; df1 <- n1-1; df2 <- n2-1
# Valor crítico b
b <- qf(0.95, df1, df2) # 3.48
# Gráfico distribución F
x <- seq(0, 5, length=1000)
y <- df(x, df1, df2)
plot(x, y, type="l", main="F(5,9)")
# Sombrear área P(F ≤ b)
polygon(c(0,seq(0,b,length=100),b),
c(0,df(seq(0,b,length=100),df1,df2),0),
col="lightblue")
📊 Normal
\(\bar{Y} \sim N(\mu, \frac{\sigma^2}{n})\)
📐 Chi-cuadrada
\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)}\)
📈 t-Student
\(\frac{\bar{Y}-\mu}{S/\sqrt{n}} \sim t_{(n-1)}\)
📊 F
\(\frac{S_1^2}{S_2^2} \sim F_{(n_1-1,n_2-1)}\)
# Parámetros dados
n1 <- 6 # Tamaño de la primera muestra
n2 <- 10 # Tamaño de la segunda muestra
prob <- 0.95 # Probabilidad deseada
# Grados de libertad
df1 <- n1 - 1 # Grados de libertad para S1²
df2 <- n2 - 1 # Grados de libertad para S2²
# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)
# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"
# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)
# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)
# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
main = "Distribución F con (5, 9) grados de libertad")
# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
# Parámetros dados
n1 <- 6 # Tamaño de la primera muestra
n2 <- 10 # Tamaño de la segunda muestra
prob <- 0.95 # Probabilidad deseada
# Grados de libertad
df1 <- n1 - 1 # Grados de libertad para S1²
df2 <- n2 - 1 # Grados de libertad para S2²
# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)
# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"
# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)
# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)
# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
main = "Distribución F con (5, 9) grados de libertad")
# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
🎓 07. DISTRIBUCIONES MUESTRALES COMPLETAS
Teoremas fundamentales • Aplicaciones prácticas • Implementación en R • Bases para inferencia estadística
El pilar fundamental de la inferencia estadística moderna y sus aplicaciones en contextos reales
“El Teorema del Límite Central (TLC) es uno de los resultados más importantes en estadística y probabilidad. Establece que, bajo ciertas condiciones, la distribución de la media muestral de una muestra aleatoria se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original, siempre que el tamaño de la muestra sea suficientemente grande.”
Sean \(Y_1, Y_2, \dots, Y_n\) variables aleatorias i.i.d. con:
\[ U_n = \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \]
Convergencia en distribución: \(U_n \xrightarrow{d} N(0, 1)\) cuando \(n \to \infty\)
Objetivo: Mostrar cómo la distribución de medias muestrales de una población exponencial (no normal) converge a normalidad conforme aumenta \(n\).
📊
📈
📐
# Parámetros de simulación
set.seed(123)
mu <- 1 # Media exponencial
n_sim <- 1000 # Número de simulaciones
sample_sizes <- c(5, 30, 100)
# Función de simulación
simulate_sample_means <- function(n) {
sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}
# Gráficos comparativos
par(mfrow = c(1, 3))
for (n in sample_sizes) {
sample_means <- simulate_sample_means(n)
hist(sample_means, breaks = 30, freq = FALSE,
main = paste("n =", n), xlab = "Media muestral",
col = "lightblue", border = "white")
# Curva normal teórica
curve(dnorm(x, mean = mu, sd = mu/sqrt(n)),
add = TRUE, col = "red", lwd = 2)
}
# Parámetros
set.seed(123) # Para reproducibilidad
mu <- 1 # Media de la distribución exponencial
n_sim <- 1000 # Número de simulaciones
sample_sizes <- c(5, 30, 100) # Tamaños de muestra
# Función para simular medias muestrales
simulate_sample_means <- function(n) {
sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}
# Crear gráficos
par(mfrow = c(1, 3)) # 1 fila, 3 columnas
for (n in sample_sizes) {
sample_means <- simulate_sample_means(n)
hist(sample_means, breaks = 30, freq = FALSE, main = paste("n =", n),
xlab = "Media muestral", col = "lightblue", border = "white")
curve(dnorm(x, mean = mu, sd = mu/sqrt(n)), add = TRUE, col = "red", lwd = 2)
}
Contexto: Candidato A necesita al menos 55% de votos en el Distrito I para ganar. Encuestas muestran que aproximadamente 50% de votantes le favorecen. Con \(n = 100\) votantes esperados en el distrito, ¿cuál es la probabilidad de que gane?
\[ \begin{aligned} P\left(\frac{Y}{100} \geq 0.55\right) &= P\left(\frac{\bar{X} - p}{\sqrt{p(1-p)/n}} \geq \frac{0.55 - 0.5}{\sqrt{0.25/100}}\right) \\ &= P\left(Z \geq \frac{0.05}{0.05}\right) = P(Z \geq 1) \\ &= 1 - P(Z \leq 1) = 1 - 0.8413 = 0.1587 \end{aligned} \]
Interpretación: Solo 15.87% de probabilidad de ganar
📉 Riesgo Alto
🎯 Decisiones de Campaña
Contexto: Pruebas estatales tienen media 60, varianza 64. Una preparatoria con \(n = 100\) estudiantes obtiene media 58. ¿Es esta institución inferior al promedio estatal?
\[ \begin{aligned} \text{Parámetros: } &\mu = 60, \sigma^2 = 64, n = 100 \\ \text{Error estándar: } &SE = \frac{\sigma}{\sqrt{n}} = \frac{8}{10} = 0.8 \\ \text{Estadístico Z: } &Z = \frac{58 - 60}{0.8} = -2.5 \\ \text{Valor p: } &P(Z \leq -2.5) = 0.0062 \end{aligned} \]
Significancia: \(p = 0.0062 < 0.05\) → Evidencia estadística fuerte
# Análisis de desempeño escolar
mu_poblacion <- 60
var_poblacion <- 64
n <- 100
media_muestral <- 58
# Cálculos
se <- sqrt(var_poblacion / n) # 0.8
z <- (media_muestral - mu_poblacion) / se # -2.5
p_valor <- pnorm(z) # 0.0062
# Conclusión estadística
alpha <- 0.05
if (p_valor < alpha) {
print("Rechazar H₀: La escuela es inferior")
} else {
print("No rechazar H₀: Sin evidencia de inferioridad")
}
📉 Hallazgos Estadísticos
🏫 Acciones Recomendadas
# Parámetros dados
mu_poblacion <- 60 # Media poblacional
var_poblacion <- 64 # Varianza poblacional
n <- 100 # Tamaño de la muestra
media_muestral <- 58 # Media muestral
# Error estándar de la media
se <- sqrt(var_poblacion / n)
# Estadístico de prueba Z
z <- (media_muestral - mu_poblacion) / se
# Valor p (prueba de una cola, cola inferior)
p_valor <- pnorm(z)
# Mostrar resultados
print(paste("Estadístico de prueba Z:", round(z, 4)))
## [1] "Estadístico de prueba Z: -2.5"
print(paste("Valor p:", round(p_valor, 4)))
## [1] "Valor p: 0.0062"
# Conclusión
alpha <- 0.05 # Nivel de significancia
if (p_valor < alpha) {
print("Rechazamos la hipótesis nula: La preparatoria es inferior.")
} else {
print("No rechazamos la hipótesis nula: No hay evidencia suficiente para afirmar que la preparatoria es inferior.")
}
## [1] "Rechazamos la hipótesis nula: La preparatoria es inferior."
# Gráfica de la distribución normal estándar
x <- seq(-4, 4, length.out = 1000) # Rango de valores para Z
y <- dnorm(x) # Densidad de la distribución normal estándar
# Crear la gráfica
plot(x, y, type = "l", lwd = 2, col = "blue", xlab = "Z", ylab = "Densidad",
main = "Distribución normal estándar y región de rechazo")
# Sombrear la región correspondiente al valor p (cola inferior)
x_shade <- seq(-4, z, length.out = 1000)
y_shade <- dnorm(x_shade)
polygon(c(-4, x_shade, z), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el estadístico de prueba Z
abline(v = z, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Región de rechazo (Valor p)", "Estadístico Z"),
col = c("blue", "lightblue", "red"), lwd = 2, lty = c(1, NA, 2), fill = c(NA, "lightblue", NA))
# Cargar librería para gráficos
#install.packages("ggplot2")
library(ggplot2)
# Parámetros
media_poblacion <- 60
desviacion_estandar <- 8 / sqrt(100) # Error estándar
nivel_significancia <- 0.05
valor_critico <- qnorm(nivel_significancia) # Valor crítico Z
# Crear un rango de valores para la distribución
x <- seq(media_poblacion - 4 * desviacion_estandar,
media_poblacion + 4 * desviacion_estandar,
length.out = 1000)
y <- dnorm(x, mean = media_poblacion, sd = desviacion_estandar)
# Crear un data frame para ggplot
datos <- data.frame(x = x, y = y)
# Gráfico
ggplot(datos, aes(x = x, y = y)) +
geom_line(color = "blue", size = 1) + # Curva de la distribución
geom_area(data = subset(datos, x <= media_poblacion + valor_critico * desviacion_estandar),
aes(x = x, y = y),
fill = "red", alpha = 0.5) + # Región de rechazo
geom_vline(xintercept = media_poblacion + valor_critico * desviacion_estandar,
color = "black", linetype = "dashed", size = 1) + # Línea del valor crítico
annotate("text", x = media_poblacion + valor_critico * desviacion_estandar,
y = 0.1, label = "Z crítico = -1.645",
hjust = 1.2, color = "black") + # Etiqueta del valor crítico
labs(title = "Región de rechazo para prueba de una cola (cola izquierda)",
x = "Media muestral",
y = "Densidad") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Contexto: Tienda minorista con tiempos de espera promedio 1.5 minutos, varianza 1.0. ¿Cuál es la probabilidad de atender 100 clientes en menos de 2 horas (120 minutos)?
\[ \begin{aligned} \text{Datos: } &\mu = 1.5 \text{ min}, \sigma^2 = 1.0, n = 100 \\ \text{Tiempo total: } &T = \sum_{i=1}^{100} Y_i \\ \text{Objetivo: } &P(T \leq 120) = P\left(\frac{T}{100} \leq 1.2\right) \\ &= P(\bar{Y} \leq 1.2) \end{aligned} \]
Aplicación TLC: \(\bar{Y} \approx N(1.5, 0.01)\)
\[ \begin{aligned} P(\bar{Y} \leq 1.2) &= P\left(Z \leq \frac{1.2 - 1.5}{1/\sqrt{100}}\right) \\ &= P\left(Z \leq \frac{-0.3}{0.1}\right) \\ &= P(Z \leq -3.0) = 0.0013 \end{aligned} \]
Interpretación: Solo 0.13% de probabilidad de éxito
📉 Análisis de Riesgo
🔄 Estrategias de Mejora
🎓 TEOREMA DEL LÍMITE CENTRAL: APLICACIONES EN CONTEXTOS REALES
Elecciones políticas • Evaluación educativa • Gestión de servicios • Toma de decisiones basada en evidencia estadística
Teoría de estimación puntual, propiedades de estimadores y aplicaciones en inferencia estadística
“El objetivo de la estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, la mayoría de las investigaciones se conducen en deducir inferencias acerca de ellos. Los procedimientos de la inferencia estadística involucran ya sea la estimación o la Prueba de Hipótesis, las cuales tienen muchas aplicaciones prácticas.”
“Para que un estimador sea bueno, se desea que la varianza del estimador sea lo más pequeña posible, mientras que la distribución de muestreo debe concentrarse alrededor del valor del parámetro.”
Dualidad: Precisión (varianza baja) + Exactitud (centrado en θ)
Se dice que la estadística \(\hat{\theta} = H(X_1, X_2, \dots, X_n)\) es un estimador insesgado del parámetro \(\theta\) si:
\[ E(\hat{\theta}) = \theta \]
Interpretación: En promedio, a largo plazo, el estimador da el valor correcto
\[ \text{Sea } Y_1, Y_2, \dots, Y_n \sim \text{i.i.d. con } E(Y_i) = \mu \\ \text{Estimador: } \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \\ E(\bar{Y}) = E\left(\frac{1}{n} \sum_{i=1}^n Y_i\right) = \frac{1}{n} \sum_{i=1}^n E(Y_i) = \frac{1}{n} \cdot n\mu = \mu \]
Conclusión: Ȳ es estimador insesgado de μ
✅ Estimador Insesgado
❌ Estimador Sesgado
| Parámetro θ | Estimador θ̂ | \(E(θ̂)\) | \(V(θ̂)\) |
|---|---|---|---|
| Media μ | \(\bar{Y}\) | μ | \(\frac{σ²}{n}\) |
| Proporción p | \(\hat{p} = Y/n\) | p | \(\frac{pq}{n}\) |
| Diferencia μ₁-μ₂ | \(\bar{Y}_1 - \bar{Y}_2\) | μ₁-μ₂ | \(\frac{σ₁²}{n₁} + \frac{σ₂²}{n₂}\) |
| Diferencia p₁-p₂ | \(\hat{p}_1 - \hat{p}_2\) | p₁-p₂ | \(\frac{p₁q₁}{n₁} + \frac{p₂q₂}{n₂}\) |
Contexto: ¿Por qué usamos \((n-1)\) en lugar de \(n\) en el denominador de la varianza muestral? Esta demostración explica una de las decisiones más importantes en estadística inferencial.
\[ S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2 \\ E(S^{*2}) = \frac{(n-1)\sigma^2}{n} \]
Propiedades:
\[ S^{2} = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2 \\ E(S^{2}) = \sigma^2 \]
Propiedades:
🎯 Por Qué Ocurre el Sesgo
📊 Implicaciones Prácticas
Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria con \(E(Y_i) = \mu\) y \(V(Y_i) = \sigma^2\). Demuestre que:
Solución:
Paso 1: Expresamos \((Y_i - \bar{Y})^2\) como: \[ (Y_i - \bar{Y})^2 = Y_i^2 - 2Y_i \bar{Y} + \bar{Y}^2 \]
Paso 2: Sumamos sobre todas las observaciones: \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 = \sum_{i=1}^n Y_i^2 - 2n \bar{Y}^2 + n \bar{Y}^2 = \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \]
Paso 3: Calculamos la esperanza: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = E\left( \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \right) = \sum_{i=1}^n E(Y_i^2) - n E(\bar{Y}^2) \]
Paso 4: Recordamos que: \[ E(Y_i^2) = \sigma^2 + \mu^2 \quad \text{y} \quad E(\bar{Y}^2) = \frac{\sigma^2}{n} + \mu^2 \]
Paso 5: Sustituimos: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = (n-1)\sigma^2 \]
Paso 6: Por tanto: \[ E(S^{*2}) = \frac{1}{n} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \frac{(n-1)\sigma^2}{n} \] Esto muestra que \(S^{*2}\) es sesgado.
Paso 7: Para \(S^2\): \[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \sigma^2 \] Por tanto, \(S^2\) es insesgado.
“Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece el tamaño de la muestra y la información se vuelve más completa. La distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del parámetro θ.”
\[ \lim_{n \to \infty} \hat{\theta} = \theta \quad \text{o equivalentemente} \quad \lim_{n \to \infty} V(\hat{\theta}) = 0 \]
\[ \text{Para } \bar{Y} \text{ como estimador de } \mu: \\ V(\bar{Y}) = \frac{\sigma^2}{n} \\ \lim_{n \to \infty} V(\bar{Y}) = \lim_{n \to \infty} \frac{\sigma^2}{n} = 0 \]
Interpretación: A mayor n, menor varianza → mayor precisión
Sean \(\hat{\theta}_1\) y \(\hat{\theta}_2\) dos estimadores insesgados de θ. Se dice que \(\hat{\theta}_1\) es más eficiente que \(\hat{\theta}_2\) si:
\[ V(\hat{\theta}_1) \leq V(\hat{\theta}_2) \quad \text{y} \quad e = \frac{V(\hat{\theta}_1)}{V(\hat{\theta}_2)} \]
Donde \(e\) es la eficiencia relativa (0 ≤ e ≤ 1). Valores cercanos a 0 indican mayor eficiencia.
Para población normal:
Conclusión: La media es ~64% más eficiente que la mediana para distribuciones normales
Contexto: Encuesta de n = 1000 votantes muestra 560 a favor del candidato Gómez. Estimar la proporción poblacional p con límite de error.
\[ \text{Datos: } n = 1000, \quad Y = 560 \\ \hat{p} = \frac{Y}{n} = \frac{560}{1000} = 0.56 \\ E(\hat{p}) = p \quad (\text{insesgado}) \\ V(\hat{p}) = \frac{pq}{n} \]
Interpretación: Estimamos que 56% de votantes favorece a Gómez
\[ \text{Error: } b = 2\sigma_{\hat{p}} = 2\sqrt{\frac{pq}{n}} \\ \text{Usando } \hat{p} \approx p: \\ b \approx 2\sqrt{\frac{(0.56)(0.44)}{1000}} = 2\sqrt{0.0002464} \\ = 2 \times 0.0157 = 0.0314 \approx 0.03 \]
Interpretación: Error máximo ≈ ±3% con 95% confianza
Implementación de técnicas de muestreo para estudios estadísticos en criminología
“Un investigador criminológico necesita analizar la relación entre características antropométricas y patrones delictivos utilizando el dataset crimtab de R, que contiene 924 registros históricos. Debe seleccionar una muestra representativa de 30 casos utilizando diferentes métodos de muestreo y verificar la representatividad de cada muestra.”
A
MIA con R Base
B
dplyr sin reemplazo
C
Muestreo ponderado
D
Muestreo proporcional
E
Todas las anteriores
Análisis del dataset: • Total de registros: 924 casos históricos • Variables disponibles: Altura, perímetro torácico, frecuencia • Tipo de datos: Características antropométricas de individuos • Contexto histórico: Dataset clásico en estadística para demostración
El dataset crimtab es un conjunto de datos histórico que contiene medidas antropométricas de individuos, ampliamente utilizado en la enseñanza de técnicas estadísticas por su estructura clara y tamaño manejable.
Procedimiento MIA: • Configurar semilla para reproducibilidad • Especificar tamaño muestral: n = 30 casos • Seleccionar índices aleatorios sin reemplazo • Extraer observaciones correspondientes • Verificar representatividad de la muestra
Cada elemento de la población (924 casos) tiene igual probabilidad de ser seleccionado: 30/924 ≈ 3.25%. El muestreo sin reemplazo garantiza que no se repitan casos, asegurando independencia entre observaciones.
Ventajas del enfoque dplyr: • Sintaxis intuitiva y concisa • Integración perfecta con el operador pipe (%>%) • Funciones especializadas: sample_n() y sample_frac() • Facilidad para combinar con otras operaciones de manipulación • Mejor legibilidad del código
Características del muestreo ponderado: • La variable “Freq” indica frecuencia de combinaciones idénticas • Combinaciones más comunes tienen mayor probabilidad • Útil para estudiar patrones prevalentes • Permite análisis de subgrupos con diferente representación • Aplicación en estudios de características típicas
En crimtab, la columna “Freq” representa cuántos individuos tienen combinaciones idénticas de altura y perímetro torácico. Este tipo de muestreo es particularmente útil cuando se desea estudiar características que aparecen con mayor frecuencia en la población.
Ventajas del muestreo proporcional: • Mantiene proporción constante respecto a la población • Adaptable a cambios en el tamaño poblacional • Ideal para estudios longitudinales • Permite comparaciones consistentes en el tiempo • Fácil implementación con sample_frac()
El muestreo proporcional es especialmente útil en investigaciones que se repiten periódicamente o cuando el tamaño de la población objetivo varía significativamente. Garantiza que la muestra mantenga una relación constante con la población total.
Métodos de verificación: • Comparación de medias y desviaciones estándar • Análisis de distribuciones por percentiles • Pruebas de hipótesis de igualdad de medias • Inspección visual de histogramas • Cálculo de diferencias relativas • Evaluación de sesgos potenciales
Técnicas de visualización: • Histogramas comparativos de diferentes muestras • Gráficos de densidad superpuestos • Diagramas de caja para comparar distribuciones • Gráficos Q-Q para evaluar normalidad • Visualización de intervalos de confianza • Representación de diferencias entre muestras
Evaluación comparativa: • Comparación de estadísticos descriptivos • Análisis de diferencias entre métodos • Identificación del método más representativo • Consideración de objetivos de investigación • Evaluación de ventajas y limitaciones • Recomendaciones según contexto
Resultados obtenidos:
1. MIA R
Base: Enfoque fundamental con control total sobre el proceso de
selección 2. dplyr sample_n: Método moderno con
sintaxis elegante y alta legibilidad 3. Muestreo
ponderado: Técnica especializada que considera frecuencias
diferenciales 4. Muestreo proporcional: Enfoque
adaptable para estudios longitudinales
Recomendación para
investigación criminológica:
• Estudios
exploratorios: Muestreo simple por simplicidad
•
Datos con patrones repetidos: Muestreo ponderado para
análisis de frecuencias
• Estudios longitudinales:
Muestreo proporcional para consistencia temporal
• Máximo
control: Método base para validación de procesos
Respuesta correcta:
Todas las anteriores
Opción E
Cada método tiene aplicaciones específicas según el contexto de investigación
Observación clave: En investigación criminológica, la selección del método de muestreo depende críticamente de los objetivos específicos del estudio. Para análisis exploratorio de relaciones entre variables, el Muestreo Irrestricto Aleatorio simple es generalmente adecuado. Si se buscan patrones de combinaciones específicas o características prevalentes, el muestreo ponderado es preferible. Para monitoreo continuo o estudios comparativos en el tiempo, el muestreo proporcional mantiene consistencia metodológica. Por lo tanto, todos los métodos presentados son válidos y aplicables en diferentes contextos de investigación criminológica, siendo la elección dependiente de las preguntas de investigación específicas.
📊
Mejores prácticas en muestreo:
•
Reproducibilidad: Siempre establecer semilla aleatoria
para garantizar replicabilidad
• Documentación:
Registrar detalladamente el método de muestreo utilizado
•
Verificación: Comparar estadísticos muestrales con
parámetros poblacionales
• Selección contextual:
Elegir método según objetivos específicos de investigación
•
Validación: Evaluar representatividad mediante
múltiples indicadores
• Transparencia: Reportar
completamente el proceso de selección muestral
Aplicación criminológica específica:
Dataset
histórico crimtab con 924 registros
Muestra representativa de 30
casos
Análisis de relaciones antropométricas
Estudio de
características físicas
Investigación de patrones delictivos
Validación de hipótesis criminológicas
Conclusión clave: Este ejercicio demuestra la aplicación práctica de diferentes técnicas de muestreo en investigación criminológica. Cada método (Muestreo Irrestricto Aleatorio con R Base, dplyr, muestreo ponderado, muestreo proporcional) posee características distintivas y aplicaciones específicas según los objetivos del estudio. La verificación rigurosa de representatividad es esencial para garantizar la validez de las inferencias estadísticas. La respuesta correcta es que todas las técnicas presentadas son aplicables en contextos de investigación apropiados, siendo la selección óptima dependiente de las preguntas de investigación específicas y las características del conjunto de datos.
✅ SOLUCIÓN CORRECTA: OPCIÓN E - TODAS LAS ANTERIORES
Muestreo Irrestricto Aleatorio • dplyr • Ponderado • Proporcional
Cada técnica posee aplicaciones específicas en investigación criminológica según los objetivos del estudio
crime<-data.frame(crimtab)
dim(crime)
## [1] 924 3
#Selección de la muestra
#Tamaño de la muestra
n<-30
muestramia<- sample(1:nrow(crime),size=n,replace=FALSE)
muestramia
## [1] 608 539 408 420 492 586 439 197 175 55 335 436 653 4 595 917 551 123 532
## [20] 856 675 153 360 289 183 429 776 275 746 556
#Asignar los elementos de la muestra al data frame de datos
crimemuestramia<- crime[muestramia, ]
head(crimemuestramia)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#Muestra sin reemplazo
crimemuestramia2<- crime %>%
sample_n(size=n,replace=FALSE)
head(crimemuestramia2)
#Muestra con pesos
crimemuestramia3<- crime %>%
sample_n(size=n,weight=Freq)
head(crimemuestramia3)
#Muestra con una proporción de casos
crimemuestramia4<- crime %>%
sample_frac(0.05)
head(crimemuestramia4);dim(crimemuestramia4)
## [1] 46 3