Laboratorio 1. https://youtu.be/-jxFY7jBSVo

Form 1. https://forms.gle/LN3AGxLH9Zh1nDHa8

https://rpubs.com/jseferino/1392841

📊 3.12. Ejercicio 3. PROBLEMA DE DISTRIBUCIÓN NORMAL - LÍMITE DE PESO EN ASCENSORES

⚖️ PROBLEMA: SEGURIDAD EN ASCENSORES - LÍMITE DE CARGA

Análisis probabilístico del peso total de ocupantes usando propiedades de la distribución normal

📝 ENUNCIADO DEL PROBLEMA

“Un ascensor limita el peso de sus 4 ocupantes a 300 kilogramos. Si el peso de un individuo sigue una distribución normal N(71, 7), calcular la probabilidad de que el peso total de 4 individuos supere los 300 kilogramos.”

0.2266

0.1841

0.1151

0.1587

0.0808

🧮 SOLUCIÓN PASO A PASO

⚖️ Paso 1: Identificar variables y parámetros

Datos proporcionados:
• Peso individual: Xᵢ ~ N(μ, σ²)
• Media individual: μ = 71 kg
• Varianza individual: σ² = 7
• Desviación estándar: σ = √7 ≈ 2.6458 kg
• Número de ocupantes: n = 4
• Límite de peso: L = 300 kg
• Pregunta: P(S₄ > 300)

Definición de suma:
S₄ = X₁ + X₂ + X₃ + X₄
Suma de 4 pesos individuales

Contexto de seguridad:
• Ascensor con límite de carga
• Consideraciones de seguridad
• Normativas de construcción

📊 Paso 2: Propiedades de suma de variables normales independientes

Teorema fundamental:
Si Xᵢ ~ N(μᵢ, σᵢ²) independientes
entonces ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)

Aplicación al problema:
• Media total: μₜ = 4 × μ = 4 × 71 = 284 kg
• Varianza total: σₜ² = 4 × σ² = 4 × 7 = 28
• Desviación estándar total:
σₜ = √(4 × 7) = √28 ≈ 5.2915 kg

Distribución de la suma:
S₄ ~ N(284, 28)

Interpretación:
Peso total promedio: 284 kg
Variabilidad total: σₜ = 5.29 kg

📈 Paso 3: Estandarización a distribución normal estándar

Probabilidad requerida:
P(S₄ > 300)

Fórmula de estandarización:
Z = \(\frac{S₄ - μₜ}{σₜ}\)

Sustitución para S₄ = 300:
Z = \(\frac{300 - 284}{\sqrt{28}}\)
Z = \(\frac{16}{\sqrt{28}}\)
Z = \(\frac{16}{5.2915}\)

Cálculo exacto:
Z = \(\frac{16}{\sqrt{28}}\)
Z = \(\frac{16}{2\sqrt{7}}\) = \(\frac{8}{\sqrt{7}}\)
Z ≈ 3.0237

Interpretación:
300 kg está aproximadamente
3.02 desviaciones estándar
por encima de la media

📊 Paso 4: Calcular probabilidad usando distribución normal estándar

Probabilidad requerida:
P(S₄ > 300) = P(Z > 3.0237)

Uso de simetría:
P(Z > z) = 1 - P(Z < z)

Valores de tabla normal:
P(Z < 3.02) = 0.99874
P(Z < 3.03) = 0.99878

Interpolación lineal:
Para Z = 3.0237:
P(Z < 3.0237) ≈ 0.99875

Probabilidad final:
P(Z > 3.0237) = 1 - 0.99875
P = 0.00125 ≈ 0.0013

Porcentaje: 0.13%
Interpretación: Muy baja probabilidad

🎯 Paso 5: Cálculo exacto con valores precisos

Cálculo exacto de σₜ:
σₜ = √(4 × 7) = √28 = 2√7
σₜ ≈ 5.291502622

Cálculo exacto de Z:
Z = (300 - 284)/√28
Z = 16/√28
Z = 16/(2√7) = 8/√7
Z = 8/2.645751311
Z = 3.023715784

Probabilidad exacta:
P(Z > 3.023715784)
Usando software estadístico:
P ≈ 0.001254

Redondeo a 4 decimales:
P ≈ 0.0013
Notación científica: 1.25×10⁻³

🔍 Paso 6: Análisis de seguridad y comparación con opciones

Margen de seguridad:
• Peso promedio: 284 kg
• Límite: 300 kg
• Diferencia: 16 kg
• En términos de σₜ: 3.02σₜ

Frecuencia esperada:
Probabilidad 0.0013 significa:
• 1 en 769 grupos de 4 personas
• 0.13% de los viajes
• Muy seguro por diseño

Comparación con opciones:
A) 0.2266 ✗ (181 veces mayor)
B) 0.1841 ✗ (147 veces mayor)
C) 0.1151 ✗ (92 veces mayor)
D) 0.1587 ✗ (126 veces mayor)
E) 0.0808 ✗ (64 veces mayor)

¡Ninguna coincide! Error en opciones

🏢 Paso 7: Interpretación en contexto de seguridad y normativa

Consideraciones de diseño:
1. Factor de seguridad:
Margen 16 kg sobre promedio 284 kg
Representa 5.6% de margen adicional
Diseño conservador y seguro

2. Normativas de construcción:
Ascensores diseñados con factores
de seguridad típicos de 1.5 a 2.0
Este diseño excede requerimientos

3. Capacidad nominal vs real:
Capacidad nominal: 300 kg
Capacidad promedio: 284 kg
Margen para variabilidad: 16 kg

4. Riesgo aceptable:
Probabilidad 0.13% muy baja
Considerado riesgo aceptable
en ingeniería civil

Probabilidad calculada:
0.0013

≈ 0.13%

(ninguna opción coincide)

Error en opciones:
Todas son órdenes de magnitud mayores
Posible error en parámetros del problema

Análisis de posibles errores en el enunciado: Las opciones proporcionadas (0.2266, 0.1841, 0.1151, 0.1587, 0.0808) son todas probabilidades mucho mayores (entre 64 y 181 veces mayor) que el cálculo correcto (0.0013). Esto sugiere tres posibilidades: 1) Error tipográfico en la varianza (debería ser σ=7 no σ²=7), 2) Error en el límite de peso, o 3) Error en las opciones de respuesta. Si σ=7 (no σ²=7), entonces σₜ=√(4×49)=14, Z=16/14=1.1429, P=0.1265, lo que se acerca a algunas opciones.

📚 CONCEPTOS ESTADÍSTICOS APLICADOS

📊 Suma de Variables Normales Independientes

Si Xᵢ ~ N(μᵢ, σᵢ²) independientes
Entonces ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)
Media de suma = suma de medias
Varianza de suma = suma de varianzas
Normalidad se preserva en la suma

⚖️ Diseño de Ingeniería con Factores de Seguridad

Capacidad nominal vs capacidad real
Margen de seguridad estadístico
Probabilidad de falla aceptable
Consideración de variabilidad natural
Cumplimiento de normativas

🏢 Análisis de Seguridad Estructural

Límites de carga basados en estadística
Evaluación de riesgo probabilístico
Diseño para condiciones extremas
Consideración de carga máxima probable
Factores de seguridad apropiados

🎯 RESUMEN Y CONCLUSIÓN

⚖️

Resumen de la solución

Variables individuales: Xᵢ ~ N(71, 7) donde σ²=7, σ=√7≈2.6458
Suma de 4 variables: S₄ = X₁+X₂+X₃+X₄
Propiedades de suma: μₜ=4×71=284, σₜ²=4×7=28, σₜ=√28≈5.2915
Distribución suma: S₄ ~ N(284, 28)
Estandarización: Z = (300-284)/√28 = 16/√28 ≈ 3.0237
Probabilidad: P(S₄>300) = P(Z>3.0237) ≈ 0.0013
Comparación: Ninguna opción coincide (todas son mucho mayores)
Posible error: σ=7 (no σ²=7) daría P≈0.1265 (cercano a opciones)

Fórmulas aplicadas:

• Suma de normales: ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)
• Media total: μₜ = n × μ
• Varianza total: σₜ² = n × σ²
• Desviación estándar total: σₜ = √(n × σ²)
• Estandarización: Z = (x - μₜ)/σₜ
• Probabilidad cola derecha: P(Z > z)

Resultados correctos:

Probabilidad: 0.0013 (0.13%)
Z-score: 3.02
Margen seguridad: 16 kg
Factor seguridad: 1.056
Interpretación: Muy seguro
Error en opciones: Sí

Conclusión clave: La probabilidad de que 4 personas con peso N(71,7) superen los 300 kg es aproximadamente 0.0013 (0.13%), indicando un diseño de ascensor muy seguro. Ninguna de las opciones proporcionadas coincide con este cálculo, siendo todas órdenes de magnitud mayores. Esto sugiere un posible error en la interpretación de los parámetros: si la distribución fuera N(71,7) con σ=7 (no σ²=7), entonces la probabilidad sería aproximadamente 0.1265, lo que se acerca a algunas opciones. Se recomienda verificar la correcta interpretación de los parámetros en el enunciado original.

⚖️ RESULTADO: PROBABILIDAD ≈ 0.0013 (0.13%)

Suma de Variables Normales • Diseño de Seguridad • Análisis Probabilístico

Nota: Ninguna opción coincide. Posible error en parámetros del problema.

Si σ=7 (no σ²=7): P ≈ 0.1265 (se acerca a opciones C, D, E)

📊 3.13. Ejercicio 4. PROBLEMA DE COMPARACIÓN DE MEDIAS - RENDIMIENTO DE GASOLINAS

⛽ PROBLEMA: ANÁLISIS COMPARATIVO DE GASOLINAS - PRUEBAS DE RENDIMIENTO

Comparación estadística de rendimiento promedio entre dos tipos de gasolina usando distribución normal

📝 ENUNCIADO DEL PROBLEMA

“Se prueba el rendimiento (km/l) de dos tipos de gasolina: la primera tiene desviación estándar σ₁ = 1.23 km/l y se prueba en 35 vehículos; la segunda tiene σ₂ = 1.37 km/l y se prueba en 42 vehículos.

a) ¿Cuál es la probabilidad de que la primera gasolina dé un rendimiento promedio mayor de 0.45 km/l que la segunda?
b) ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83 km/l a favor de la primera gasolina?”

🧮 PARTE A: SOLUCIÓN PASO A PASO

⛽ Paso 1: Identificar parámetros y definir variables

Datos proporcionados:
• Gasolina 1: σ₁ = 1.23 km/l, n₁ = 35
• Gasolina 2: σ₂ = 1.37 km/l, n₂ = 42

Variables de interés:
• \(\bar{X}_1\): Rendimiento promedio gasolina 1
• \(\bar{X}_2\): Rendimiento promedio gasolina 2
• Diferencia: \(D = \bar{X}_1 - \bar{X}_2\)

Supuestos:
• Rendimientos siguen distribución normal
• Muestras independientes
• Varianzas poblacionales conocidas

Parte a: P(\(\bar{X}_1 - \bar{X}_2\) > 0.45)

📊 Paso 2: Distribución de la diferencia de medias

Teorema fundamental:
Si \(\bar{X}_1\) ~ N(μ₁, σ₁²/n₁)
y \(\bar{X}_2\) ~ N(μ₂, σ₂²/n₂)
independientes, entonces:

\(D = \bar{X}_1 - \bar{X}_2\) ~ N(μ₁-μ₂, σ_D²)

Varianza de la diferencia:
σ_D² = \(\frac{σ₁²}{n₁} + \frac{σ₂²}{n₂}\)

Suponiendo medias iguales (H₀):
μ₁ = μ₂ ⇒ μ_D = 0

Cálculo de σ_D²:
σ_D² = \(\frac{1.23²}{35} + \frac{1.37²}{42}\)
σ_D² = \(\frac{1.5129}{35} + \frac{1.8769}{42}\)

📈 Paso 3: Cálculo de varianza y desviación estándar

Cálculo detallado:
σ₁² = 1.23² = 1.5129
σ₂² = 1.37² = 1.8769

Término 1: σ₁²/n₁ = 1.5129/35
= 0.0432257

Término 2: σ₂²/n₂ = 1.8769/42
= 0.0446881

Varianza total:
σ_D² = 0.0432257 + 0.0446881
σ_D² = 0.0879138

Desviación estándar:
σ_D = √0.0879138
σ_D ≈ 0.2965

Distribución:
D ~ N(0, 0.0879138)

🎯 Paso 4: Estandarización y cálculo de probabilidad (parte a)

Parte a: P(D > 0.45)

Estandarización:
Z = \(\frac{D - μ_D}{σ_D}\)
Z = \(\frac{0.45 - 0}{0.2965}\)
Z = 0.45/0.2965

Cálculo exacto:
Z = 0.45/√0.0879138
Z = 0.45/0.296502
Z ≈ 1.5180

Probabilidad:
P(D > 0.45) = P(Z > 1.5180)
= 1 - P(Z < 1.5180)

Usando tabla normal:
P(Z < 1.51) = 0.93448
P(Z < 1.52) = 0.93574

Interpolación:
P(Z < 1.518) ≈ 0.9356

Resultado parte a:
P = 1 - 0.9356 = 0.0644
≈ 0.0644 (6.44%)

📊 PARTE B: SOLUCIÓN PASO A PASO

🎯 Paso 5: Planteamiento parte b

Parte b: P(0.65 < D < 0.83)

Interpretación:
“a favor de la primera gasolina”
significa \(\bar{X}_1 > \bar{X}_2\)
∴ D > 0 siempre

Distribución:
D ~ N(0, 0.0879138)
σ_D ≈ 0.2965

Probabilidad requerida:
P(0.65 < D < 0.83)

Estandarización para límites:
Z₁ = (0.65 - 0)/σ_D
Z₂ = (0.83 - 0)/σ_D

Relación con tabla normal:
P(a < D < b) = P(Z₁ < Z < Z₂)
= P(Z < Z₂) - P(Z < Z₁)

📈 Paso 6: Cálculo de Z-scores y probabilidad

Cálculo Z-scores:
Z₁ = 0.65/0.2965 ≈ 2.1922
Z₂ = 0.83/0.2965 ≈ 2.7993

Valores tabla normal:
P(Z < 2.19) = 0.98574
P(Z < 2.20) = 0.98610
P(Z < 2.79) = 0.99736
P(Z < 2.80) = 0.99744

Interpolación lineal:
P(Z < 2.192) ≈ 0.9858
P(Z < 2.799) ≈ 0.9974

Probabilidad:
P(0.65 < D < 0.83)
= P(2.192 < Z < 2.799)
= 0.9974 - 0.9858
= 0.0116

Resultado parte b:
P ≈ 0.0116 (1.16%)

🔍 Paso 7: Cálculos exactos con mayor precisión

Cálculo exacto σ_D²:
σ_D² = \(\frac{1.5129}{35} + \frac{1.8769}{42}\)
= 0.043225714 + 0.044688095
= 0.087913809

σ_D exacto:
σ_D = √0.087913809
= 0.296502631

Parte a exacta:
Z = 0.45/0.296502631
= 1.517698
P(Z > 1.517698) = 0.0646

Parte b exacta:
Z₁ = 0.65/0.296502631 = 2.1922
Z₂ = 0.83/0.296502631 = 2.7993
P = Φ(2.7993) - Φ(2.1922)
= 0.99744 - 0.98586
= 0.01158

📊 Paso 8: Interpretación en contexto aplicado

Interpretación parte a:
• Probabilidad 6.44%
• Significa: Si ambas gasolinas tienen
igual rendimiento promedio (μ₁=μ₂)
• Solo 6.44% de muestras mostrarían
diferencia >0.45 km/l
• Diferencia de 0.45 km/l sería poco común

Interpretación parte b:
• Probabilidad 1.16%
• Muy baja probabilidad
• Diferencia entre 0.65-0.83 km/l
sería muy inusual si μ₁=μ₂
• Sugeriría diferencia real si se observa

📚 RESUMEN DE RESULTADOS Y CONCEPTOS

📊 RESULTADO PARTE A

P(D > 0.45) = 0.0646

≈ 6.46%

Z-score: 1.518
Interpretación: Baja probabilidad

📈 RESULTADO PARTE B

P(0.65 < D < 0.83) = 0.0116

≈ 1.16%

Z₁: 2.192, Z₂: 2.799
Interpretación: Muy baja probabilidad

📋 CONCEPTOS ESTADÍSTICOS APLICADOS

Distribución Diferencia
D ~ N(μ₁-μ₂, σ₁²/n₁+σ₂²/n₂)

Estandarización
Z = (D - μ_D)/σ_D

Hipótesis Nula
Asume μ₁ = μ₂ ⇒ μ_D = 0

🎯 CONCLUSIÓN Y APLICACIÓN PRÁCTICA

⚡ Implicaciones para Pruebas de Gasolina

Parte a (6.46%): Si en pruebas reales se observa una diferencia mayor a 0.45 km/l, hay evidencia moderada (p=0.0646) contra la hipótesis de igual rendimiento. En investigación, esto podría considerarse “marginalmente significativo”.

Parte b (1.16%): Una diferencia entre 0.65-0.83 km/l sería muy inusual si las gasolinas fueran iguales. Esto proporcionaría evidencia más fuerte para concluir que la primera gasolina es realmente mejor.

📊 Recomendaciones para Diseño Experimental

Tamaños muestrales: n₁=35 y n₂=42 son adecuados para detectar diferencias moderadas.

Variabilidad: σ₁=1.23 y σ₂=1.37 indican alta variabilidad en rendimiento entre vehículos.

Potencia estadística: Para detectar diferencias pequeñas (0.2-0.3 km/l) podrían necesitarse muestras mayores.

Control experimental: Mismas condiciones de prueba para ambas gasolinas.

📝 Fórmulas Clave Utilizadas

Varianza de Diferencia:
σ_D² = σ₁²/n₁ + σ₂²/n₂
= 1.5129/35 + 1.8769/42
= 0.0879138

Estandarización:
Z = (D - μ_D)/σ_D
Parte a: Z = 0.45/0.2965
Parte b: Z₁ = 0.65/0.2965
Z₂ = 0.83/0.2965

⛽ RESULTADOS FINALES - COMPARACIÓN DE GASOLINAS

Parte a:
P(D > 0.45) = 0.0646
(6.46%)

Parte b:
P(0.65 < D < 0.83) = 0.0116
(1.16%)

Diferencia de Medias • Distribución Normal • Pruebas de Hipótesis • Análisis Comparativo

📊 4. TEORÍA DE LA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN

📈 DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN: TEORÍA Y APLICACIONES

Comportamiento estadístico de proporciones muestrales en inferencia paramétrica

🎯 FUNDAMENTOS TEÓRICOS DE LA PROPORCIÓN MUESTRAL

📊 Definición y Notación

Proporción Poblacional (parámetro):
p = éxitos / N (población)
q = 1 - p (fracasos)

Proporción Muestral (estadístico):
p̂ = X / n
Donde:
• X = número de éxitos en muestra
• n = tamaño muestral

Distribución Muestral:
Es la distribución de probabilidad de todas las proporciones muestrales posibles p̂ de tamaño n.

📐 Parámetros de la Distribución

Media (valor esperado):
μ_p̂ = E(p̂) = p

Varianza:
σ²_p̂ = Var(p̂) = p(1-p)/n
= pq/n

Error estándar:
σ_p̂ = √[p(1-p)/n]
= √(pq/n)

Para población finita (N):
Factor corrección: √[(N-n)/(N-1)]

📈 APROXIMACIÓN NORMAL PARA MUESTRAS GRANDES

🎯 Condiciones de Aplicabilidad

Regla general (más usada):
np ≥ 10 y n(1-p) ≥ 10

Regla más conservadora:
np ≥ 5 y n(1-p) ≥ 5

Interpretación:
• np = número esperado de éxitos
• n(1-p) = número esperado de fracasos

Si se cumplen condiciones:
p̂ ∼ N(p, pq/n) aproximadamente
Z = (p̂ - p)/√(pq/n) ∼ N(0,1)

📊 Propiedades para Muestras Grandes

Características clave:
1. Normalidad: Aproximación normal buena
2. Media: μ_p̂ = p (insesgado)
3. Error estándar: σ_p̂ = √(pq/n)
4. Simetría: Mejor si p ≈ 0.5

Intervalo de confianza aproximado:
p̂ ± z_α/2√[p̂(1-p̂)/n]

Más preciso:
p̂ ± z_α/2√[p̂(1-p̂)/n + z²_α/2/(4n²)]

🎯 EJEMPLOS PARA MUESTRAS GRANDES (np ≥ 10, n(1-p) ≥ 10)

🗳️ Ejemplo 1: Intención de Voto

Contexto:
Encuesta preelectoral. Se estima p = 0.45 (45% votaría por candidato A).

Problema:
n = 400 votantes:
• ¿Distribución de p̂?
• P(p̂ > 0.48) = ?

Verificación:
np = 400×0.45 = 180 ≥ 10 ✓
n(1-p) = 400×0.55 = 220 ≥ 10 ✓

Solución:
σ_p̂ = √[0.45×0.55/400] = 0.0249
Z = (0.48-0.45)/0.0249 = 1.205
P(Z > 1.205) = 0.1141

🏭 Ejemplo 2: Defectos en Producción

Contexto:
Línea producción, tasa defectos histórica p = 0.02.

Problema:
n = 600 productos:
• Error estándar de p̂?
• P(p̂ < 0.015)?

Verificación:
np = 600×0.02 = 12 ≥ 10 ✓
n(1-p) = 600×0.98 = 588 ≥ 10 ✓

Solución:
σ_p̂ = √[0.02×0.98/600] = 0.0057
Z = (0.015-0.02)/0.0057 = -0.877
P(Z < -0.877) = 0.1902

🎓 Ejemplo 3: Aprobación Curso

Contexto:
Universidad, proporción que aprueba cálculo p = 0.70.

Problema:
Muestras n = 250 estudiantes:
• IC 95% para p̂?
• Tamaño efecto?

Verificación:
np = 250×0.70 = 175 ≥ 10 ✓
n(1-p) = 250×0.30 = 75 ≥ 10 ✓

Solución:
σ_p̂ = √[0.70×0.30/250] = 0.0290
IC 95%: 0.70 ± 1.96×0.0290
= [0.643, 0.757]

📊 DISTRIBUCIÓN EXACTA: BINOMIAL Y ALTERNATIVAS PARA MUESTRAS PEQUEÑAS

📐 Distribución Binomial Exacta

Cuando NO se cumplen np ≥ 10 y n(1-p) ≥ 10:
• Usar distribución binomial exacta
• X ∼ Binomial(n, p)
• p̂ = X/n

Probabilidad exacta:
P(X = k) = C(n,k) p^k (1-p)^{n-k}

Cuando usar:
1. n pequeño
2. p muy cercano a 0 o 1
3. np < 10 o n(1-p) < 10

Ejemplo: n=15, p=0.1 → np=1.5 (<10)

📈 Métodos Alternativos para Muestras Pequeñas

Intervalo de confianza exacto (Clopper-Pearson):
Usa distribución binomial
Más conservador
Adecuado para n pequeños

Intervalo de Wilson:
\(\frac{\hat{p} + \frac{z^2}{2n} \pm z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1 + \frac{z^2}{n}}\)
Mejor para p cercano a 0 o 1

Intervalo de Jeffreys:
Basado en distribución Beta
Bayesiano no informativo
Buenas propiedades frecuentistas

🎯 EJEMPLOS PARA MUESTRAS PEQUEÑAS (np < 10 o n(1-p) < 10)

💊 Ejemplo 1: Efecto Secundario Raro

Contexto:
Medicamento, efecto secundario grave p = 0.005.

Problema:
Estudio con n = 100 pacientes:
• np = 100×0.005 = 0.5 (<10)
• n(1-p) = 99.5 (>10)
• Usar binomial exacta

Solución exacta:
P(X ≥ 2) = 1 - P(X ≤ 1)
= 1 - [P(X=0) + P(X=1)]
= 1 - [C(100,0)(0.995)^100 + C(100,1)(0.005)(0.995)^99]
= 1 - [0.6058 + 0.3044] = 0.0898

🏭 Ejemplo 2: Defectos Muy Raros

Contexto:
Proceso alta calidad, p(defecto) = 0.001.

Problema:
Control calidad n = 50 unidades:
• np = 0.05 (<10)
• Usar Poisson como aproximación

Solución Poisson:
λ = np = 0.05
P(X ≥ 1) = 1 - P(X=0)
= 1 - e^{-0.05}
= 1 - 0.9512 = 0.0488

Exacta binomial:
P(X ≥ 1) = 1 - (0.999)^50 = 0.0488

📱 Ejemplo 3: Encuesta Piloto

Contexto:
Encuesta piloto nueva app.
n = 20 usuarios, 3 la recomiendan.

Problema:
p̂ = 3/20 = 0.15
• IC 95% exacto (Clopper-Pearson)
• Comparar con normal aproximado

Solución exacta:
Usando binomial:
Límite inferior: 0.032
Límite superior: 0.379
IC exacto: [0.032, 0.379]

Aproximado normal:
[0.015, 0.285] (subestima)

📊 COMPARACIÓN: MUESTRAS GRANDES vs PEQUEÑAS PARA PROPORCIONES

📈 Muestras Grandes (np ≥ 10, n(1-p) ≥ 10)

Condición: np ≥ 10 y n(1-p) ≥ 10

Distribución: Aproximación normal

Error estándar: √[p̂(1-p̂)/n]

Estadístico: Z = (p̂-p)/√[p(1-p)/n]

Intervalo: p̂ ± z√[p̂(1-p̂)/n]

Ventaja: Simple, ampliamente usado

Desventaja: Pobre si p cerca de 0 o 1

📉 Muestras Pequeñas (np < 10 o n(1-p) < 10)

Condición: np < 10 o n(1-p) < 10

Distribución: Binomial exacta

Método: Cálculo directo binomial

Intervalo: Clopper-Pearson, Wilson, Jeffreys

Ventaja: Exacto, buen para p extremos

Desventaja: Cálculos complejos

Alternativa: Aproximación Poisson si p muy pequeño

📋 Tabla Comparativa: Métodos para Intervalos de Confianza

Método Fórmula Ventajas Cuándo usar

Wald (Normal) p̂ ± z√[p̂(1-p̂)/n] Sencillo n grande, p moderado

Wilson (p̂+z²/(2n)±z√[·])/(1+z²/n) Mejor para p extremos Cualquier n, p

Clopper-Pearson Exacto binomial Conservador n pequeño

Agresti-Coull p̃ ± z√[p̃(1-p̃)/ñ] Buen balance Propósito general

🎯 EJEMPLOS INTEGRADORES - AMBAS SITUACIONES

🗳️ Ejemplo Integrador 1: Referéndum

Contexto:
Referéndum, se espera p = 0.52 a favor.

Parte A (encuesta grande):
n = 1000 encuestados:
np = 520 ≥ 10 ✓
n(1-p) = 480 ≥ 10 ✓
• Usar aproximación normal
σ_p̂ = √[0.52×0.48/1000] = 0.0158
IC 95%: 0.52 ± 1.96×0.0158 = [0.489, 0.551]

Parte B (sondeo pequeño):
n = 50, p̂ = 0.60:
np̂ = 30 ≥ 10 ✓
n(1-p̂) = 20 ≥ 10 ✓
• Podría usar normal
• Pero mejor Wilson por n pequeño

🏭 Ejemplo Integrador 2: Control Calidad

Contexto:
Fábrica, defectos históricos p = 0.01.

Caso 1 (lote grande):
n = 500 unidades:
np = 5 (<10!)
n(1-p) = 495 ≥ 10
• np < 10 → usar binomial exacta
• O Poisson: λ = 5

Caso 2 (lote muy grande):
n = 2000 unidades:
np = 20 ≥ 10 ✓
n(1-p) = 1980 ≥ 10 ✓
• Usar aproximación normal
σ_p̂ = √[0.01×0.99/2000] = 0.0022
P(p̂ > 0.012) = P(Z > 0.91) = 0.1814

💊 Ejemplo Integrador 3: Estudio Clínico

Contexto:
Nuevo tratamiento, éxito esperado p = 0.85.

Fase I (n pequeño):
n = 20 pacientes, 18 éxitos:
p̂ = 0.90
np̂ = 18 ≥ 10 ✓
n(1-p̂) = 2 (<10!)
• Usar método exacto
• Clopper-Pearson IC 95%: [0.683, 0.988]

Fase III (n grande):
n = 300 pacientes, 255 éxitos:
p̂ = 0.85
np̂ = 255 ≥ 10 ✓
n(1-p̂) = 45 ≥ 10 ✓
• Usar normal
IC 95%: = [0.807, 0.893]
Precisión mejorada con n grande

📊 Tabla de Comparación General

Aspecto Muestras Grandes Muestras Pequeñas Recomendación

Condición np ≥ 10 y n(1-p) ≥ 10 np < 10 o n(1-p) < 10 Verificar siempre

Distribución Normal aproximada Binomial exacta Usar la apropiada

Error estándar √[p̂(1-p̂)/n] No aplica directamente Cuidado con p extremos

Intervalo confianza Wald, Agresti-Coull Clopper-Pearson, Wilson Wilson para general

Precisión Buena, mejora con √n Limitada, intervalos amplios Mayor n para más precisión

Aplicaciones Encuestas, control calidad Estudios piloto, eventos raros Contexto determina método

📚 RESUMEN Y CONCLUSIONES FINALES

🎯 Puntos Clave Teóricos

1. Propiedades de p̂:
• Media: E(p̂) = p (insesgado)
• Varianza: Var(p̂) = p(1-p)/n
• Error estándar: σ_p̂ = √[p(1-p)/n]

2. Condiciones aproximación normal:
• np ≥ 10 y n(1-p) ≥ 10 (estándar)
• Más conservador: np ≥ 5 y n(1-p) ≥ 5
• p̂ ∼ N(p, p(1-p)/n) aproximadamente

3. Métodos intervalos confianza:
• Wald: simple pero pobre para p extremos
• Wilson: recomendado para uso general
• Clopper-Pearson: exacto pero conservador
• Agresti-Coull: buen balance

4. Para población finita:
Factor corrección: √[(N-n)/(N-1)]

🏭 Recomendaciones Prácticas

Para investigación aplicada:
1. Verificar condiciones: Siempre calcular np y n(1-p)
2. Elegir método apropiado:
• np ≥ 10: usar aproximación normal
• np < 10: usar métodos exactos
3. Reportar claramente:
• Tamaño muestral n
• Proporción observada p̂
• Método usado para inferencia
• Condiciones verificadas

Para diseño de estudios:
• Calcular tamaño muestral necesario
• Considerar p esperada y precisión deseada
• Planificar para análisis apropiado
• Considerar métodos robustos (Wilson)

Errores comunes a evitar:
• Usar Wald cuando p cerca de 0 o 1
• Ignorar condiciones np ≥ 10
• No reportar método estadístico
• Interpretar p como probabilidad exacta

💡 Flujograma de Decisión para Análisis de Proporciones

Paso 1

Calcular
np y n(1-p)

Paso 2

np ≥ 10 y
n(1-p) ≥ 10?

Paso 3

Elegir método
apropiado

SI

Usar métodos normales
• Wald
• Agresti-Coull
• Wilson (recomendado)

NO

Usar métodos exactos
• Clopper-Pearson
• Wilson
• Binomial exacta

📈 Importancia en Investigación y Toma de Decisiones

En ciencias sociales:
• Encuestas de opinión pública
• Estudios de mercado
• Investigación educativa
• Análisis de preferencias

En medicina y salud:
• Tasas de éxito tratamiento
• Prevalencia enfermedades
• Efectos secundarios
• Estudios epidemiológicos

En ingeniería y calidad:
• Tasa de defectos
• Control de procesos
• Fiabilidad sistemas
• Mejora continua

✅ DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN: TEORÍA COMPLETA

Para muestras grandes: Aproximación normal • Para muestras pequeñas: Binomial exacta • 6 ejemplos prácticos

Condición clave: np ≥ 10 y n(1-p) ≥ 10 • Métodos recomendados: Wilson para uso general

Método	Fórmula	Ventajas	Cuándo usar
Wald (Normal)	p̂ ± z√[p̂(1-p̂)/n]	Sencillo	n grande, p moderado
Wilson	(p̂+z²/(2n)±z√[·])/(1+z²/n)	Mejor para p extremos	Cualquier n, p
Clopper-Pearson	Exacto binomial	Conservador	n pequeño
Agresti-Coull	p̃ ± z√[p̃(1-p̃)/ñ]	Buen balance	Propósito general

Aspecto	Muestras Grandes	Muestras Pequeñas	Recomendación
Condición	np ≥ 10 y n(1-p) ≥ 10	np < 10 o n(1-p) < 10	Verificar siempre
Distribución	Normal aproximada	Binomial exacta	Usar la apropiada
Error estándar	√[p̂(1-p̂)/n]	No aplica directamente	Cuidado con p extremos
Intervalo confianza	Wald, Agresti-Coull	Clopper-Pearson, Wilson	Wilson para general
Precisión	Buena, mejora con √n	Limitada, intervalos amplios	Mayor n para más precisión
Aplicaciones	Encuestas, control calidad	Estudios piloto, eventos raros	Contexto determina método

HASTA AQUI BIEN

📐 04. DISTRIBUCIÓN CHI-CUADRADA

🎯 Teorema Fundamental

Sea \(Y_1, Y_2, ..., Y_n\) una muestra aleatoria de una distribución normal con media \(\mu\) y varianza \(\sigma^2\).

\[ \sum_{i=1}^n \frac{(Y_i - \mu)^2}{\sigma^2} \sim \chi^2_{(n)} \]

📊 Ejemplo 2: Valor Crítico

Problema: \(Z_1, ..., Z_6 \sim N(0,1)\), hallar \(b\) tal que \(P(\sum Z_i^2 \leq b) = 0.95\)

\[ \sum_{i=1}^6 Z_i^2 \sim \chi^2_{(6)} \\ P(\chi^2_{(6)} \leq 12.5916) = 0.95 \\ \Rightarrow b = 12.5916 \]

Implementación R: qchisq(0.95, df=6)

🔬 Distribución de la Varianza Muestral

Teorema: Para muestra normal:

\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)} \]

Propiedad clave: \(\bar{Y}\) y \(S^2\) son independientes

🏭 Ejemplo 3: Muestreo de Varianzas

📊 Problema

\(n = 10\) botellas, \(\sigma = 1.0\)
Encontrar \(b_1, b_2\) tal que \(P(b_1 \leq S^2 \leq b_2) = 0.90\)
Usar: \(\frac{9S^2}{1} \sim \chi^2_{(9)}\)

🎯 Solución

Tabla \(\chi^2(9)\): \(P(3.325 \leq \chi^2 \leq 16.919) = 0.90\)
\(b_1 = 3.325/9 = 0.369\)
\(b_2 = 16.919/9 = 1.880\)

a. Encontrar el valor crítico b usando la distribución chi-cuadrado - Usando R

# Parámetros dados
n <- 6           # Tamaño de la muestra (grados de libertad)
prob <- 0.95     # Probabilidad deseada

# Encontrar el valor crítico b usando la distribución chi-cuadrado
b <- qchisq(prob, df = n)

# Mostrar el valor de b
print(paste("El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es:", round(b, 4)))

## [1] "El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es: 12.5916"

# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 20, length.out = 1000)

# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = n)

# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de ∑Z_i²", ylab = "Densidad",
     main = "Distribución chi-cuadrado con 6 grados de libertad")

# Sombrear el área correspondiente a P(∑Z_i² ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- dchisq(x_shade, df = n)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(∑Zi²≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

b. Encontrar los valores críticos de la distribución chi-cuadrado - Usando R

# Parámetros dados
n <- 10          # Tamaño de la muestra
sigma <- 1.0     # Desviación estándar poblacional
alpha <- 0.10    # Nivel de significancia (1 - 0.90)

# Grados de libertad
df <- n - 1

# Encontrar los valores críticos de la distribución chi-cuadrado
b1 <- qchisq(alpha / 2, df) * sigma^2 / df
b2 <- qchisq(1 - alpha / 2, df) * sigma^2 / df

# Mostrar los resultados
print(paste("El valor de b1 es:", round(b1, 4)))

## [1] "El valor de b1 es: 0.3695"

print(paste("El valor de b2 es:", round(b2, 4)))

## [1] "El valor de b2 es: 1.8799"

# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 30, length.out = 1000)

# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = df)

# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Varianza muestral (S²)", ylab = "Densidad",
     main = "Distribución chi-cuadrado con 9 grados de libertad")

# Sombrear el área correspondiente a P(b1 ≤ S² ≤ b2)
x_shade <- seq(b1, b2, length.out = 1000)
y_shade <- dchisq(x_shade, df = df)
polygon(c(b1, x_shade, b2), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = b1, col = "red", lty = 2, lwd = 2)
abline(v = b2, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(b1 ≤ S² ≤ b2) = 0.90)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

📊 05. DISTRIBUCIÓN t DE STUDENT

🎓 Definición Formal

Sea \(Z \sim N(0,1)\) y \(\chi^2_\nu \sim \chi^2(\nu)\) independientes. Entonces:

\[ T = \frac{Z}{\sqrt{\chi^2_\nu / \nu}} \sim t_{(\nu)} \]

🔬 Ejemplo 4: Resistencia de Alambre

Contexto: Resistencia a tensión ∼ \(N(\mu, \sigma^2)\), \(n=6\) segmentos

\[ \frac{\bar{Y} - \mu}{S/\sqrt{n}} \sim t_{(5)} \\ P(|\bar{Y} - \mu| \leq 2S/\sqrt{n}) = P(-2 \leq t_{(5)} \leq 2) = 0.8980 \]

Comparación con σ conocida: \(P(-2 \leq Z \leq 2) = 0.9544\)

💻 Implementación en R

# Parámetros
n <- 6; k <- 2; df <- n-1

# Probabilidad usando t-Student
prob_t <- pt(k, df) - pt(-k, df)  # 0.8980

# Comparación con normal (σ conocida)
prob_z <- pnorm(k) - pnorm(-k)    # 0.9544

# Gráfico distribución t
x <- seq(-4, 4, length=1000)
y <- dt(x, df)
plot(x, y, type="l", main="Distribución t(5)")

**a. Calcular la probabilidad usando la distribución t de Student - Usando R**

# Parámetros dados
n <- 6           # Tamaño de la muestra
k <- 2           # Factor de escala (2 en este caso)

# Grados de libertad
df <- n - 1

# Calcular la probabilidad usando la distribución t de Student
prob <- pt(k, df = df) - pt(-k, df = df)

# Mostrar la probabilidad
print(paste("La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es:", round(prob, 4)))

## [1] "La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es: 0.8981"

# Crear una secuencia de valores para la distribución t de Student
x <- seq(-4, 4, length.out = 1000)

# Calcular la densidad de la distribución t de Student
y <- dt(x, df = df)

# Graficar la distribución t de Student
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de t", ylab = "Densidad",
     main = "Distribución t de Student con 5 grados de libertad")

# Sombrear el área correspondiente a P(-2 ≤ t ≤ 2)
x_shade <- seq(-k, k, length.out = 1000)
y_shade <- dt(x_shade, df = df)
polygon(c(-k, x_shade, k), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = -k, col = "red", lty = 2, lwd = 2)
abline(v = k, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución t de Student", "Área sombreada (P(-2 ≤ t ≤ 2))"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

📈 06. DISTRIBUCIÓN F

🎯 Definición Matemática

Sean \(\chi^2_{\nu_1}\) y \(\chi^2_{\nu_2}\) independientes con \(\nu_1\) y \(\nu_2\) grados de libertad.

\[ F = \frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2} \sim F_{(\nu_1, \nu_2)} \]

📊 Ejemplo 5: Razón de Varianzas

Problema: \(n_1=6\), \(n_2=10\), poblaciones normales con igual varianza

\[ \frac{S_1^2}{S_2^2} \sim F_{(5,9)} \\ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95 \\ \Rightarrow b = F_{0.95}(5,9) = 3.48 \]

Aplicación: Pruebas de homogeneidad de varianzas

💻 Código R Completo

# Distribución F en R
n1 <- 6; n2 <- 10; df1 <- n1-1; df2 <- n2-1

# Valor crítico b
b <- qf(0.95, df1, df2)  # 3.48

# Gráfico distribución F
x <- seq(0, 5, length=1000)
y <- df(x, df1, df2)
plot(x, y, type="l", main="F(5,9)")

# Sombrear área P(F ≤ b)
polygon(c(0,seq(0,b,length=100),b), 
        c(0,df(seq(0,b,length=100),df1,df2),0), 
        col="lightblue")

📋 Resumen de Distribuciones Muestrales

📊 Normal

\(\bar{Y} \sim N(\mu, \frac{\sigma^2}{n})\)

📐 Chi-cuadrada

\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)}\)

📈 t-Student

\(\frac{\bar{Y}-\mu}{S/\sqrt{n}} \sim t_{(n-1)}\)

📊 F

\(\frac{S_1^2}{S_2^2} \sim F_{(n_1-1,n_2-1)}\)

Encontrar el valor crítico b usando la distribución F - Usando R

# Parámetros dados
n1 <- 6           # Tamaño de la primera muestra
n2 <- 10          # Tamaño de la segunda muestra
prob <- 0.95      # Probabilidad deseada

# Grados de libertad
df1 <- n1 - 1     # Grados de libertad para S1²
df2 <- n2 - 1     # Grados de libertad para S2²

# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)

# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))

## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"

# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)

# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)

# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
     main = "Distribución F con (5, 9) grados de libertad")

# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

Encontrar el valor crítico b usando la distribución F

# Parámetros dados
n1 <- 6           # Tamaño de la primera muestra
n2 <- 10          # Tamaño de la segunda muestra
prob <- 0.95      # Probabilidad deseada

# Grados de libertad
df1 <- n1 - 1     # Grados de libertad para S1²
df2 <- n2 - 1     # Grados de libertad para S2²

# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)

# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))

## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"

# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)

# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)

# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
     main = "Distribución F con (5, 9) grados de libertad")

# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

🎓 07. DISTRIBUCIONES MUESTRALES COMPLETAS

Teoremas fundamentales • Aplicaciones prácticas • Implementación en R • Bases para inferencia estadística

📅 D. TEOREMAS FUNDAMENTALES DE LA ESTADÍSTICA - TEOREMA DEL LÍMITE CENTRAL

📊 TEOREMA DEL LÍMITE CENTRAL (TLC) Y APLICACIONES PRÁCTICAS

El pilar fundamental de la inferencia estadística moderna y sus aplicaciones en contextos reales

⚡ 10. TEOREMA DEL LÍMITE CENTRAL (TLC) - EL CORAZÓN DE LA ESTADÍSTICA

“El Teorema del Límite Central (TLC) es uno de los resultados más importantes en estadística y probabilidad. Establece que, bajo ciertas condiciones, la distribución de la media muestral de una muestra aleatoria se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original, siempre que el tamaño de la muestra sea suficientemente grande.”

🎯 Enunciado Matemático Formal

Sean \(Y_1, Y_2, \dots, Y_n\) variables aleatorias i.i.d. con:

Media: \(E[Y_i] = \mu\)
Varianza: \(Var[Y_i] = \sigma^2 < \infty\)

\[ U_n = \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \]

Convergencia en distribución: \(U_n \xrightarrow{d} N(0, 1)\) cuando \(n \to \infty\)

📈 Interpretación Práctica

Distribución de \(\bar{Y}\): \(\bar{Y} \approx N(\mu, \frac{\sigma^2}{n})\)
Independiente de la forma original: Aplica incluso para poblaciones no normales
Tamaño muestral: Generalmente \(n \geq 30\) es suficiente
Error estándar: \(\sigma_{\bar{Y}} = \frac{\sigma}{\sqrt{n}}\) disminuye con \(n\)
Fundamento para inferencia: Intervalos de confianza, pruebas de hipótesis

🔬 10.3. EJEMPLO 6: ILUSTRACIÓN DEL TLC CON SIMULACIÓN

📊 Demostración Visual del TLC

Objetivo: Mostrar cómo la distribución de medias muestrales de una población exponencial (no normal) converge a normalidad conforme aumenta \(n\).

📊

\(n = 5\)

Distribución claramente asimétrica
Forma similar a exponencial original
Poca aproximación a normal
Variabilidad alta

📈

\(n = 30\)

Mayor simetría
Inicio de forma campana
Buena aproximación práctica
Variabilidad moderada

📐

\(n = 100\)

Excelente aproximación normal
Forma campana perfecta
Curva teórica (roja) se ajusta
Variabilidad baja

💻 Código R para Simulación

# Parámetros de simulación
set.seed(123)
mu <- 1                     # Media exponencial
n_sim <- 1000               # Número de simulaciones
sample_sizes <- c(5, 30, 100)

# Función de simulación
simulate_sample_means <- function(n) {
  sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}

# Gráficos comparativos
par(mfrow = c(1, 3))
for (n in sample_sizes) {
  sample_means <- simulate_sample_means(n)
  hist(sample_means, breaks = 30, freq = FALSE,
       main = paste("n =", n), xlab = "Media muestral",
       col = "lightblue", border = "white")
  # Curva normal teórica
  curve(dnorm(x, mean = mu, sd = mu/sqrt(n)),
        add = TRUE, col = "red", lwd = 2)
}

Función para simular medias muestrales - Código en R para la ilustración:

# Parámetros
set.seed(123)  # Para reproducibilidad
mu <- 1        # Media de la distribución exponencial
n_sim <- 1000  # Número de simulaciones
sample_sizes <- c(5, 30, 100)  # Tamaños de muestra

# Función para simular medias muestrales
simulate_sample_means <- function(n) {
  sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}

# Crear gráficos
par(mfrow = c(1, 3))  # 1 fila, 3 columnas
for (n in sample_sizes) {
  sample_means <- simulate_sample_means(n)
  hist(sample_means, breaks = 30, freq = FALSE, main = paste("n =", n),
       xlab = "Media muestral", col = "lightblue", border = "white")
  curve(dnorm(x, mean = mu, sd = mu/sqrt(n)), add = TRUE, col = "red", lwd = 2)
}

🗳️ 10.5. EJEMPLO 8: APLICACIÓN EN ELECCIONES

🏛️ Problema de Campaña Electoral

Contexto: Candidato A necesita al menos 55% de votos en el Distrito I para ganar. Encuestas muestran que aproximadamente 50% de votantes le favorecen. Con \(n = 100\) votantes esperados en el distrito, ¿cuál es la probabilidad de que gane?

📊 Modelado Estadístico

Variable: \(Y =\) # votantes a favor
Distribución: \(Y \sim B(100, 0.5)\)
Representación: \(Y = \sum_{i=1}^{100} X_i\)
Indicadores: \(X_i = 1\) (vota por A) o \(0\) (no vota)
Proporción: \(\frac{Y}{100} = \bar{X}\)

🧮 Cálculo de Probabilidad

\[ \begin{aligned} P\left(\frac{Y}{100} \geq 0.55\right) &= P\left(\frac{\bar{X} - p}{\sqrt{p(1-p)/n}} \geq \frac{0.55 - 0.5}{\sqrt{0.25/100}}\right) \\ &= P\left(Z \geq \frac{0.05}{0.05}\right) = P(Z \geq 1) \\ &= 1 - P(Z \leq 1) = 1 - 0.8413 = 0.1587 \end{aligned} \]

Interpretación: Solo 15.87% de probabilidad de ganar

💡 Implicaciones Estratégicas

📉 Riesgo Alto

Probabilidad baja (15.9%)
Necesita 5% más del esperado
Margen muy estrecho
Estrategia de campaña crítica

🎯 Decisiones de Campaña

Intensificar campaña en distrito
Segmentar votantes indecisos
Aumentar tamaño muestral encuestas
Considerar alianzas estratégicas

🏫 10.6. EJEMPLO 6: EVALUACIÓN DE INSTITUCIONES EDUCATIVAS

🎓 Análisis de Desempeño Académico

Contexto: Pruebas estatales tienen media 60, varianza 64. Una preparatoria con \(n = 100\) estudiantes obtiene media 58. ¿Es esta institución inferior al promedio estatal?

📚 Análisis Estadístico

\[ \begin{aligned} \text{Parámetros: } &\mu = 60, \sigma^2 = 64, n = 100 \\ \text{Error estándar: } &SE = \frac{\sigma}{\sqrt{n}} = \frac{8}{10} = 0.8 \\ \text{Estadístico Z: } &Z = \frac{58 - 60}{0.8} = -2.5 \\ \text{Valor p: } &P(Z \leq -2.5) = 0.0062 \end{aligned} \]

Significancia: \(p = 0.0062 < 0.05\) → Evidencia estadística fuerte

💻 Implementación en R

# Análisis de desempeño escolar
mu_poblacion <- 60
var_poblacion <- 64
n <- 100
media_muestral <- 58

# Cálculos
se <- sqrt(var_poblacion / n)  # 0.8
z <- (media_muestral - mu_poblacion) / se  # -2.5
p_valor <- pnorm(z)  # 0.0062

# Conclusión estadística
alpha <- 0.05
if (p_valor < alpha) {
  print("Rechazar H₀: La escuela es inferior")
} else {
  print("No rechazar H₀: Sin evidencia de inferioridad")
}

🎯 Implicaciones Educativas

📉 Hallazgos Estadísticos

Diferencia significativa (p = 0.0062)
La escuela está 2.5 SE por debajo
Probabilidad muy baja por azar (0.62%)
Evidencia sólida de inferioridad

🏫 Acciones Recomendadas

Revisar métodos de enseñanza
Capacitar profesores
Implementar tutorías
Monitorear progreso continuo
Asignar recursos adicionales

Distribución normal estándar y región de rechazo - Código en R:

# Parámetros dados
mu_poblacion <- 60      # Media poblacional
var_poblacion <- 64     # Varianza poblacional
n <- 100                # Tamaño de la muestra
media_muestral <- 58    # Media muestral

# Error estándar de la media
se <- sqrt(var_poblacion / n)

# Estadístico de prueba Z
z <- (media_muestral - mu_poblacion) / se

# Valor p (prueba de una cola, cola inferior)
p_valor <- pnorm(z)

# Mostrar resultados
print(paste("Estadístico de prueba Z:", round(z, 4)))

## [1] "Estadístico de prueba Z: -2.5"

print(paste("Valor p:", round(p_valor, 4)))

## [1] "Valor p: 0.0062"

# Conclusión
alpha <- 0.05  # Nivel de significancia
if (p_valor < alpha) {
  print("Rechazamos la hipótesis nula: La preparatoria es inferior.")
} else {
  print("No rechazamos la hipótesis nula: No hay evidencia suficiente para afirmar que la preparatoria es inferior.")
}

## [1] "Rechazamos la hipótesis nula: La preparatoria es inferior."

# Gráfica de la distribución normal estándar
x <- seq(-4, 4, length.out = 1000)  # Rango de valores para Z
y <- dnorm(x)                       # Densidad de la distribución normal estándar

# Crear la gráfica
plot(x, y, type = "l", lwd = 2, col = "blue", xlab = "Z", ylab = "Densidad",
     main = "Distribución normal estándar y región de rechazo")

# Sombrear la región correspondiente al valor p (cola inferior)
x_shade <- seq(-4, z, length.out = 1000)
y_shade <- dnorm(x_shade)
polygon(c(-4, x_shade, z), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el estadístico de prueba Z
abline(v = z, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Región de rechazo (Valor p)", "Estadístico Z"),
       col = c("blue", "lightblue", "red"), lwd = 2, lty = c(1, NA, 2), fill = c(NA, "lightblue", NA))

El enunciado en R

# Cargar librería para gráficos
#install.packages("ggplot2")
library(ggplot2)

# Parámetros
media_poblacion <- 60
desviacion_estandar <- 8 / sqrt(100)  # Error estándar
nivel_significancia <- 0.05
valor_critico <- qnorm(nivel_significancia)  # Valor crítico Z

# Crear un rango de valores para la distribución
x <- seq(media_poblacion - 4 * desviacion_estandar, 
         media_poblacion + 4 * desviacion_estandar, 
         length.out = 1000)
y <- dnorm(x, mean = media_poblacion, sd = desviacion_estandar)

# Crear un data frame para ggplot
datos <- data.frame(x = x, y = y)

# Gráfico
ggplot(datos, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +  # Curva de la distribución
  geom_area(data = subset(datos, x <= media_poblacion + valor_critico * desviacion_estandar), 
            aes(x = x, y = y), 
            fill = "red", alpha = 0.5) +  # Región de rechazo
  geom_vline(xintercept = media_poblacion + valor_critico * desviacion_estandar, 
             color = "black", linetype = "dashed", size = 1) +  # Línea del valor crítico
  annotate("text", x = media_poblacion + valor_critico * desviacion_estandar, 
           y = 0.1, label = "Z crítico = -1.645", 
           hjust = 1.2, color = "black") +  # Etiqueta del valor crítico
  labs(title = "Región de rechazo para prueba de una cola (cola izquierda)",
       x = "Media muestral",
       y = "Densidad") +
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

⏱️ 10.7. EJEMPLO 7: GESTIÓN DE SERVICIOS Y TIEMPOS DE ESPERA

🛒 Optimización de Atención al Cliente

Contexto: Tienda minorista con tiempos de espera promedio 1.5 minutos, varianza 1.0. ¿Cuál es la probabilidad de atender 100 clientes en menos de 2 horas (120 minutos)?

📊 Modelado del Problema

\[ \begin{aligned} \text{Datos: } &\mu = 1.5 \text{ min}, \sigma^2 = 1.0, n = 100 \\ \text{Tiempo total: } &T = \sum_{i=1}^{100} Y_i \\ \text{Objetivo: } &P(T \leq 120) = P\left(\frac{T}{100} \leq 1.2\right) \\ &= P(\bar{Y} \leq 1.2) \end{aligned} \]

Aplicación TLC: \(\bar{Y} \approx N(1.5, 0.01)\)

🧮 Cálculo de Probabilidad

\[ \begin{aligned} P(\bar{Y} \leq 1.2) &= P\left(Z \leq \frac{1.2 - 1.5}{1/\sqrt{100}}\right) \\ &= P\left(Z \leq \frac{-0.3}{0.1}\right) \\ &= P(Z \leq -3.0) = 0.0013 \end{aligned} \]

Interpretación: Solo 0.13% de probabilidad de éxito

💡 Recomendaciones Operativas

📉 Análisis de Riesgo

Probabilidad extremadamente baja (0.13%)
Meta prácticamente imposible
Necesita reducir tiempo promedio en 0.3 min
Requiere mejora significativa en procesos

🔄 Estrategias de Mejora

Aumentar personal en cajas
Implementar sistema de filas único
Automatizar procesos de pago
Capacitar personal en eficiencia
Rediseñar layout de tienda

🎓 TEOREMA DEL LÍMITE CENTRAL: APLICACIONES EN CONTEXTOS REALES

Elecciones políticas • Evaluación educativa • Gestión de servicios • Toma de decisiones basada en evidencia estadística

📅 E. FUNDAMENTOS TEÓRICOS - ESTIMACIÓN DE PARÁMETROS POBLACIONALES

📊 ESTIMACIÓN DE PARÁMETROS POBLACIONALES: FUNDAMENTOS Y PROPIEDADES

Teoría de estimación puntual, propiedades de estimadores y aplicaciones en inferencia estadística

🎯 11. FUNDAMENTOS DE LA ESTIMACIÓN POBLACIONAL

“El objetivo de la estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, la mayoría de las investigaciones se conducen en deducir inferencias acerca de ellos. Los procedimientos de la inferencia estadística involucran ya sea la estimación o la Prueba de Hipótesis, las cuales tienen muchas aplicaciones prácticas.”

📈 Parámetros Poblacionales vs. Estadísticos Muestrales

Parámetro (θ): Característica numérica fija de la población
Estadístico (θ̂): Función de los datos muestrales que estima θ
Ejemplos comunes:
- Media poblacional: μ → Media muestral: Ȳ
- Varianza poblacional: σ² → Varianza muestral: S²
- Proporción poblacional: p → Proporción muestral: p̂
Objetivo: Inferir θ desconocido usando θ̂ calculado de muestra

🔍 Principio Fundamental de Estimación

“Para que un estimador sea bueno, se desea que la varianza del estimador sea lo más pequeña posible, mientras que la distribución de muestreo debe concentrarse alrededor del valor del parámetro.”

Dualidad: Precisión (varianza baja) + Exactitud (centrado en θ)

📐 11.3. ESTIMADORES INSESGADOS: EL CORAZÓN DE LA INFERENCIA

🎯 Definición Matemática

Se dice que la estadística \(\hat{\theta} = H(X_1, X_2, \dots, X_n)\) es un estimador insesgado del parámetro \(\theta\) si:

\[ E(\hat{\theta}) = \theta \]

Interpretación: En promedio, a largo plazo, el estimador da el valor correcto

📊 Ejemplo Clave: Media Muestral

\[ \text{Sea } Y_1, Y_2, \dots, Y_n \sim \text{i.i.d. con } E(Y_i) = \mu \\ \text{Estimador: } \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \\ E(\bar{Y}) = E\left(\frac{1}{n} \sum_{i=1}^n Y_i\right) = \frac{1}{n} \sum_{i=1}^n E(Y_i) = \frac{1}{n} \cdot n\mu = \mu \]

Conclusión: Ȳ es estimador insesgado de μ

🎭 Sesgo vs. Insesgamiento

✅ Estimador Insesgado

\(E(\hat{\theta}) = \theta\)
Centrado en valor real
Precisión sistemática
Ejemplo: Ȳ para μ

❌ Estimador Sesgado

\(E(\hat{\theta}) \neq \theta\)
Sistemáticamente alto/bajo
Error sistemático
Ejemplo: S*² para σ²

📋 Tabla de Estimadores Insesgados Comunes

Parámetro θ	Estimador θ̂	\(E(θ̂)\)	\(V(θ̂)\)
Media μ	\(\bar{Y}\)	μ	\(\frac{σ²}{n}\)
Proporción p	\(\hat{p} = Y/n\)	p	\(\frac{pq}{n}\)
Diferencia μ₁-μ₂	\(\bar{Y}_1 - \bar{Y}_2\)	μ₁-μ₂	\(\frac{σ₁²}{n₁} + \frac{σ₂²}{n₂}\)
Diferencia p₁-p₂	\(\hat{p}_1 - \hat{p}_2\)	p₁-p₂	\(\frac{p₁q₁}{n₁} + \frac{p₂q₂}{n₂}\)

🔍 11.5. DEMOSTRACIÓN CRÍTICA: VARIANZA SESGADA VS INSESGADA

📊 El Problema Fundamental de la Varianza

Contexto: ¿Por qué usamos \((n-1)\) en lugar de \(n\) en el denominador de la varianza muestral? Esta demostración explica una de las decisiones más importantes en estadística inferencial.

❌ **Varianza Sesgada: S*²**

\[ S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2 \\ E(S^{*2}) = \frac{(n-1)\sigma^2}{n} \]

Propiedades:

Sesgo: \(\text{Sesgo} = E(S^{*2}) - \sigma^2 = -\frac{\sigma^2}{n}\)
Dirección: Subestima sistemáticamente σ²
Magnitud: Error relativo: \(\frac{1}{n}\) del valor real

✅ Varianza Insesgada: S²

\[ S^{2} = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2 \\ E(S^{2}) = \sigma^2 \]

Propiedades:

Sesgo: \(\text{Sesgo} = 0\) (exactamente insesgado)
Precisión: En promedio da el valor correcto
Corrección: Factor \(n/(n-1)\) ajusta por pérdida de un grado de libertad

📈 Interpretación Gráfica del Sesgo

🎯 Por Qué Ocurre el Sesgo

Pérdida de libertad: Usar Ȳ (estimado) en lugar de μ (desconocido)
Restricción: \(\sum (Y_i - \bar{Y}) = 0\) reduce variabilidad
Intuición: Muestra “se ajusta” a sus propios datos
Corrección Bessel: Factor \((n-1)\) compensa esta pérdida

📊 Implicaciones Prácticas

Muestras pequeñas: Sesgo más pronunciado (ej: n=5 → 20% subestimación)
Muestras grandes: Diferencia mínima (n=100 → 1% diferencia)
Estándar académico: Siempre usar S² en investigación
Software estadístico: Todos usan fórmula con (n-1) por defecto

Aqui lq prueba - Estimadores Insesgados y Sesgados

Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria con \(E(Y_i) = \mu\) y \(V(Y_i) = \sigma^2\). Demuestre que:

\(S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es un estimador sesgado para \(\sigma^2\).
\(S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es un estimador insesgado para \(\sigma^2\).

Solución:

Paso 1: Expresamos \((Y_i - \bar{Y})^2\) como: \[ (Y_i - \bar{Y})^2 = Y_i^2 - 2Y_i \bar{Y} + \bar{Y}^2 \]
Paso 2: Sumamos sobre todas las observaciones: \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 = \sum_{i=1}^n Y_i^2 - 2n \bar{Y}^2 + n \bar{Y}^2 = \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \]
Paso 3: Calculamos la esperanza: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = E\left( \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \right) = \sum_{i=1}^n E(Y_i^2) - n E(\bar{Y}^2) \]
Paso 4: Recordamos que: \[ E(Y_i^2) = \sigma^2 + \mu^2 \quad \text{y} \quad E(\bar{Y}^2) = \frac{\sigma^2}{n} + \mu^2 \]
Paso 5: Sustituimos: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = (n-1)\sigma^2 \]
Paso 6: Por tanto: \[ E(S^{*2}) = \frac{1}{n} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \frac{(n-1)\sigma^2}{n} \] Esto muestra que \(S^{*2}\) es sesgado.
Paso 7: Para \(S^2\): \[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \sigma^2 \] Por tanto, \(S^2\) es insesgado.

📈 11.6. CONSISTENCIA: CONVERGENCIA A LA VERDAD

🔄 Propiedad de Consistencia

“Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece el tamaño de la muestra y la información se vuelve más completa. La distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del parámetro θ.”

\[ \lim_{n \to \infty} \hat{\theta} = \theta \quad \text{o equivalentemente} \quad \lim_{n \to \infty} V(\hat{\theta}) = 0 \]

📊 Ejemplo: Media Muestral

\[ \text{Para } \bar{Y} \text{ como estimador de } \mu: \\ V(\bar{Y}) = \frac{\sigma^2}{n} \\ \lim_{n \to \infty} V(\bar{Y}) = \lim_{n \to \infty} \frac{\sigma^2}{n} = 0 \]

Interpretación: A mayor n, menor varianza → mayor precisión

🎯 Implicaciones Prácticas

Diseño de estudios: Muestras más grandes → estimaciones más confiables
Ley de rendimientos decrecientes: Mejoras marginales decrecen con n
Criterio práctico: n suficiente para V(θ̂) aceptable
Relación costo-beneficio: Balance entre precisión y recursos

⚡ 11.7. EFICIENCIA: OPTIMIZANDO LA PRECISIÓN

📐 Definición de Eficiencia Relativa

Sean \(\hat{\theta}_1\) y \(\hat{\theta}_2\) dos estimadores insesgados de θ. Se dice que \(\hat{\theta}_1\) es más eficiente que \(\hat{\theta}_2\) si:

\[ V(\hat{\theta}_1) \leq V(\hat{\theta}_2) \quad \text{y} \quad e = \frac{V(\hat{\theta}_1)}{V(\hat{\theta}_2)} \]

Donde \(e\) es la eficiencia relativa (0 ≤ e ≤ 1). Valores cercanos a 0 indican mayor eficiencia.

📊 Ejemplo: Media vs. Mediana

Para población normal:

Estimador 1 (Ȳ): \(V(Ȳ) = \frac{\sigma^2}{n}\)
Estimador 2 (Mediana): \(V(\text{Med}) \approx \frac{\pi}{2} \cdot \frac{\sigma^2}{n}\)
Eficiencia relativa: \(e = \frac{V(Ȳ)}{V(\text{Med})} \approx \frac{2}{\pi} \approx 0.637\)

Conclusión: La media es ~64% más eficiente que la mediana para distribuciones normales

🎯 Selección de Estimadores

Eficiencia asintótica: Comparación cuando n → ∞
Cota de Cramér-Rao: Límite inferior teórico para varianza
Estimador eficiente: Alcanza la cota de Cramér-Rao
MLE (Maximum Likelihood): Generalmente eficiente asintóticamente
Robustez vs. Eficiencia: Trade-off en presencia de outliers

🗳️ 11.9. EJEMPLO APLICADO: ENCUESTAS ELECTORALES

🏛️ Caso Real: Campaña del Candidato Gómez

Contexto: Encuesta de n = 1000 votantes muestra 560 a favor del candidato Gómez. Estimar la proporción poblacional p con límite de error.

📊 Estimación Puntual

\[ \text{Datos: } n = 1000, \quad Y = 560 \\ \hat{p} = \frac{Y}{n} = \frac{560}{1000} = 0.56 \\ E(\hat{p}) = p \quad (\text{insesgado}) \\ V(\hat{p}) = \frac{pq}{n} \]

Interpretación: Estimamos que 56% de votantes favorece a Gómez

🎯 Límite de Error con 95% Confianza

\[ \text{Error: } b = 2\sigma_{\hat{p}} = 2\sqrt{\frac{pq}{n}} \\ \text{Usando } \hat{p} \approx p: \\ b \approx 2\sqrt{\frac{(0.56)(0.44)}{1000}} = 2\sqrt{0.0002464} \\ = 2 \times 0.0157 = 0.0314 \approx 0.03 \]

Interpretación: Error máximo ≈ ±3% con 95% confianza

📊 F. PROBLEMA DE APLICACIÓN PRÁCTICA - SELECCIÓN DE MUESTRAS EN INVESTIGACIÓN CRIMINOLÓGICA

🏛️ PROBLEMA: DISEÑO DE INVESTIGACIÓN CON MUESTREO IRRESTRICTO ALEATORIO

Implementación de técnicas de muestreo para estudios estadísticos en criminología

📝 CONTEXTO DE INVESTIGACIÓN

“Un investigador criminológico necesita analizar la relación entre características antropométricas y patrones delictivos utilizando el dataset crimtab de R, que contiene 924 registros históricos. Debe seleccionar una muestra representativa de 30 casos utilizando diferentes métodos de muestreo y verificar la representatividad de cada muestra.”

MIA con R Base

dplyr sin reemplazo

Muestreo ponderado

Muestreo proporcional

Todas las anteriores

💻 IMPLEMENTACIÓN Y ANÁLISIS PASO A PASO

📊 Paso 1: Exploración del dataset crimtab

Análisis del dataset: • Total de registros: 924 casos históricos • Variables disponibles: Altura, perímetro torácico, frecuencia • Tipo de datos: Características antropométricas de individuos • Contexto histórico: Dataset clásico en estadística para demostración

El dataset crimtab es un conjunto de datos histórico que contiene medidas antropométricas de individuos, ampliamente utilizado en la enseñanza de técnicas estadísticas por su estructura clara y tamaño manejable.

🎯 Paso 2: Muestreo Irrestricto Aleatorio con R Base

Procedimiento MIA: • Configurar semilla para reproducibilidad • Especificar tamaño muestral: n = 30 casos • Seleccionar índices aleatorios sin reemplazo • Extraer observaciones correspondientes • Verificar representatividad de la muestra

Cada elemento de la población (924 casos) tiene igual probabilidad de ser seleccionado: 30/924 ≈ 3.25%. El muestreo sin reemplazo garantiza que no se repitan casos, asegurando independencia entre observaciones.

📦 Paso 3: Muestreo con dplyr - Método elegante

Ventajas del enfoque dplyr: • Sintaxis intuitiva y concisa • Integración perfecta con el operador pipe (%>%) • Funciones especializadas: sample_n() y sample_frac() • Facilidad para combinar con otras operaciones de manipulación • Mejor legibilidad del código

⚖️ Paso 4: Muestreo ponderado según frecuencia

Características del muestreo ponderado: • La variable “Freq” indica frecuencia de combinaciones idénticas • Combinaciones más comunes tienen mayor probabilidad • Útil para estudiar patrones prevalentes • Permite análisis de subgrupos con diferente representación • Aplicación en estudios de características típicas

En crimtab, la columna “Freq” representa cuántos individuos tienen combinaciones idénticas de altura y perímetro torácico. Este tipo de muestreo es particularmente útil cuando se desea estudiar características que aparecen con mayor frecuencia en la población.

📐 Paso 5: Muestreo por proporción (5% de la población)

Ventajas del muestreo proporcional: • Mantiene proporción constante respecto a la población • Adaptable a cambios en el tamaño poblacional • Ideal para estudios longitudinales • Permite comparaciones consistentes en el tiempo • Fácil implementación con sample_frac()

El muestreo proporcional es especialmente útil en investigaciones que se repiten periódicamente o cuando el tamaño de la población objetivo varía significativamente. Garantiza que la muestra mantenga una relación constante con la población total.

🔍 Paso 6: Verificación de representatividad

Métodos de verificación: • Comparación de medias y desviaciones estándar • Análisis de distribuciones por percentiles • Pruebas de hipótesis de igualdad de medias • Inspección visual de histogramas • Cálculo de diferencias relativas • Evaluación de sesgos potenciales

📈 Paso 7: Visualización comparativa de métodos

Técnicas de visualización: • Histogramas comparativos de diferentes muestras • Gráficos de densidad superpuestos • Diagramas de caja para comparar distribuciones • Gráficos Q-Q para evaluar normalidad • Visualización de intervalos de confianza • Representación de diferencias entre muestras

✅ Paso 8: Análisis de resultados y recomendaciones

Evaluación comparativa: • Comparación de estadísticos descriptivos • Análisis de diferencias entre métodos • Identificación del método más representativo • Consideración de objetivos de investigación • Evaluación de ventajas y limitaciones • Recomendaciones según contexto

📊 Paso 9: Conclusión y aplicación práctica

Resultados obtenidos:
1. MIA R Base: Enfoque fundamental con control total sobre el proceso de selección 2. dplyr sample_n: Método moderno con sintaxis elegante y alta legibilidad 3. Muestreo ponderado: Técnica especializada que considera frecuencias diferenciales 4. Muestreo proporcional: Enfoque adaptable para estudios longitudinales
Recomendación para investigación criminológica:
• Estudios exploratorios: Muestreo simple por simplicidad
• Datos con patrones repetidos: Muestreo ponderado para análisis de frecuencias
• Estudios longitudinales: Muestreo proporcional para consistencia temporal
• Máximo control: Método base para validación de procesos

Respuesta correcta:
Todas las anteriores

Opción E

Cada método tiene aplicaciones específicas según el contexto de investigación

Observación clave: En investigación criminológica, la selección del método de muestreo depende críticamente de los objetivos específicos del estudio. Para análisis exploratorio de relaciones entre variables, el Muestreo Irrestricto Aleatorio simple es generalmente adecuado. Si se buscan patrones de combinaciones específicas o características prevalentes, el muestreo ponderado es preferible. Para monitoreo continuo o estudios comparativos en el tiempo, el muestreo proporcional mantiene consistencia metodológica. Por lo tanto, todos los métodos presentados son válidos y aplicables en diferentes contextos de investigación criminológica, siendo la elección dependiente de las preguntas de investigación específicas.

📚 CONCEPTOS ESTADÍSTICOS APLICADOS

🎲 Muestreo Irrestricto Aleatorio

Cada elemento de la población tiene igual probabilidad de selección
Muestreo sin reemplazo garantiza elementos únicos en la muestra
Muestreo con reemplazo permite posibles repeticiones
Base fundamental para inferencia estadística válida
Garantiza representatividad cuando la población es homogénea

📦 Funciones para Muestreo

Función sample(): Método base para selección aleatoria de índices
Función sample_n(): Selección de tamaño fijo en el entorno dplyr
Función sample_frac(): Selección proporcional de la población
Función set.seed(): Garantiza reproducibilidad de resultados
Parámetro weight: Permite muestreo con probabilidades desiguales

⚖️ Muestreo Ponderado

Asigna probabilidades desiguales de selección a diferentes elementos
Útil para sobremuestrear subgrupos de interés específico
Considera frecuencias diferenciales en datos agregados
Implementado mediante el parámetro weight en funciones dplyr
Permite análisis focalizado en características particulares

🎯 RESUMEN Y RECOMENDACIONES PRÁCTICAS

📊

Resumen de técnicas implementadas

Muestreo Irrestricto Aleatorio con R Base: Enfoque fundamental utilizando la función sample() para selección aleatoria de índices con o sin reemplazo
Muestreo con dplyr mediante sample_n(): Método moderno que ofrece sintaxis elegante e integración perfecta con operaciones de manipulación de datos
Muestreo ponderado con weight: Técnica especializada que considera frecuencias diferenciales para análisis focalizado
Muestreo proporcional con sample_frac(): Enfoque adaptable que mantiene proporción constante respecto a la población total
Verificación de representatividad: Comparación sistemática de estadísticos descriptivos entre muestra y población

Mejores prácticas en muestreo:

• Reproducibilidad: Siempre establecer semilla aleatoria para garantizar replicabilidad
• Documentación: Registrar detalladamente el método de muestreo utilizado
• Verificación: Comparar estadísticos muestrales con parámetros poblacionales
• Selección contextual: Elegir método según objetivos específicos de investigación
• Validación: Evaluar representatividad mediante múltiples indicadores
• Transparencia: Reportar completamente el proceso de selección muestral

Aplicación criminológica específica:

Dataset histórico crimtab con 924 registros
Muestra representativa de 30 casos
Análisis de relaciones antropométricas
Estudio de características físicas
Investigación de patrones delictivos
Validación de hipótesis criminológicas

Conclusión clave: Este ejercicio demuestra la aplicación práctica de diferentes técnicas de muestreo en investigación criminológica. Cada método (Muestreo Irrestricto Aleatorio con R Base, dplyr, muestreo ponderado, muestreo proporcional) posee características distintivas y aplicaciones específicas según los objetivos del estudio. La verificación rigurosa de representatividad es esencial para garantizar la validez de las inferencias estadísticas. La respuesta correcta es que todas las técnicas presentadas son aplicables en contextos de investigación apropiados, siendo la selección óptima dependiente de las preguntas de investigación específicas y las características del conjunto de datos.

✅ SOLUCIÓN CORRECTA: OPCIÓN E - TODAS LAS ANTERIORES

Muestreo Irrestricto Aleatorio • dplyr • Ponderado • Proporcional

Cada técnica posee aplicaciones específicas en investigación criminológica según los objetivos del estudio

En R

Paso 1: Exploración del dataset crimtab

crime<-data.frame(crimtab)
dim(crime)

## [1] 924   3

Paso 2: Muestreo Irrestricto Aleatorio con R Base

#Selección de la muestra

#Tamaño de la muestra
n<-30

muestramia<- sample(1:nrow(crime),size=n,replace=FALSE)
muestramia

##  [1] 608 539 408 420 492 586 439 197 175  55 335 436 653   4 595 917 551 123 532
## [20] 856 675 153 360 289 183 429 776 275 746 556

Asignar los elementos de la muestra al data frame de datos

#Asignar los elementos de la muestra al data frame de datos
crimemuestramia<- crime[muestramia, ]

head(crimemuestramia)

Paso 3: Muestreo con dplyr - Método elegante

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

#Muestra sin reemplazo
crimemuestramia2<- crime %>%
  sample_n(size=n,replace=FALSE)

head(crimemuestramia2)

Paso 4: Muestreo ponderado según frecuencia

#Muestra con pesos
crimemuestramia3<- crime %>%
  sample_n(size=n,weight=Freq)

head(crimemuestramia3)

Paso 5: Muestreo por proporción (5% de la población)

#Muestra con una proporción de casos
crimemuestramia4<- crime %>%
  sample_frac(0.05)

head(crimemuestramia4);dim(crimemuestramia4)

## [1] 46  3

Mi Curso de Estadistica Inferencial - PARTE 2En construcción

Julio Hurtado Marquez - juliohurtado210307@gmail.com

Año 2026

Laboratorio 1. https://youtu.be/-jxFY7jBSVo

Form 1. https://forms.gle/LN3AGxLH9Zh1nDHa8

https://rpubs.com/jseferino/1392841

📊 3.12. Ejercicio 3. PROBLEMA DE DISTRIBUCIÓN NORMAL - LÍMITE DE PESO EN ASCENSORES

⚖️ PROBLEMA: SEGURIDAD EN ASCENSORES - LÍMITE DE CARGA

📝 ENUNCIADO DEL PROBLEMA

🧮 SOLUCIÓN PASO A PASO

⚖️ Paso 1: Identificar variables y parámetros

📊 Paso 2: Propiedades de suma de variables normales independientes

📈 Paso 3: Estandarización a distribución normal estándar

📊 Paso 4: Calcular probabilidad usando distribución normal estándar

🎯 Paso 5: Cálculo exacto con valores precisos

🔍 Paso 6: Análisis de seguridad y comparación con opciones

🏢 Paso 7: Interpretación en contexto de seguridad y normativa

📚 CONCEPTOS ESTADÍSTICOS APLICADOS

📊 Suma de Variables Normales Independientes

⚖️ Diseño de Ingeniería con Factores de Seguridad

🏢 Análisis de Seguridad Estructural

🎯 RESUMEN Y CONCLUSIÓN

Resumen de la solución

📊 3.13. Ejercicio 4. PROBLEMA DE COMPARACIÓN DE MEDIAS - RENDIMIENTO DE GASOLINAS

⛽ PROBLEMA: ANÁLISIS COMPARATIVO DE GASOLINAS - PRUEBAS DE RENDIMIENTO

📝 ENUNCIADO DEL PROBLEMA

🧮 PARTE A: SOLUCIÓN PASO A PASO

⛽ Paso 1: Identificar parámetros y definir variables

📊 Paso 2: Distribución de la diferencia de medias

📈 Paso 3: Cálculo de varianza y desviación estándar

🎯 Paso 4: Estandarización y cálculo de probabilidad (parte a)

📊 PARTE B: SOLUCIÓN PASO A PASO

🎯 Paso 5: Planteamiento parte b

📈 Paso 6: Cálculo de Z-scores y probabilidad

🔍 Paso 7: Cálculos exactos con mayor precisión

📊 Paso 8: Interpretación en contexto aplicado

📚 RESUMEN DE RESULTADOS Y CONCEPTOS

📊 RESULTADO PARTE A

📈 RESULTADO PARTE B

📋 CONCEPTOS ESTADÍSTICOS APLICADOS

🎯 CONCLUSIÓN Y APLICACIÓN PRÁCTICA

⚡ Implicaciones para Pruebas de Gasolina

📊 Recomendaciones para Diseño Experimental

📝 Fórmulas Clave Utilizadas

📊 4. TEORÍA DE LA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN

📈 DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN: TEORÍA Y APLICACIONES

🎯 FUNDAMENTOS TEÓRICOS DE LA PROPORCIÓN MUESTRAL

📊 Definición y Notación

📐 Parámetros de la Distribución

📈 APROXIMACIÓN NORMAL PARA MUESTRAS GRANDES

🎯 Condiciones de Aplicabilidad

📊 Propiedades para Muestras Grandes

🎯 EJEMPLOS PARA MUESTRAS GRANDES (np ≥ 10, n(1-p) ≥ 10)

🗳️ Ejemplo 1: Intención de Voto

🏭 Ejemplo 2: Defectos en Producción

🎓 Ejemplo 3: Aprobación Curso

📊 DISTRIBUCIÓN EXACTA: BINOMIAL Y ALTERNATIVAS PARA MUESTRAS PEQUEÑAS

📐 Distribución Binomial Exacta

📈 Métodos Alternativos para Muestras Pequeñas

🎯 EJEMPLOS PARA MUESTRAS PEQUEÑAS (np < 10 o n(1-p) < 10)

💊 Ejemplo 1: Efecto Secundario Raro

🏭 Ejemplo 2: Defectos Muy Raros

📱 Ejemplo 3: Encuesta Piloto

📊 COMPARACIÓN: MUESTRAS GRANDES vs PEQUEÑAS PARA PROPORCIONES

📈 Muestras Grandes (np ≥ 10, n(1-p) ≥ 10)

📉 Muestras Pequeñas (np < 10 o n(1-p) < 10)

📋 Tabla Comparativa: Métodos para Intervalos de Confianza

🎯 EJEMPLOS INTEGRADORES - AMBAS SITUACIONES

🗳️ Ejemplo Integrador 1: Referéndum

🏭 Ejemplo Integrador 2: Control Calidad

💊 Ejemplo Integrador 3: Estudio Clínico

📊 Tabla de Comparación General

📚 RESUMEN Y CONCLUSIONES FINALES

🎯 Puntos Clave Teóricos

🏭 Recomendaciones Prácticas

💡 Flujograma de Decisión para Análisis de Proporciones

📈 Importancia en Investigación y Toma de Decisiones

HASTA AQUI BIEN

📐 04. DISTRIBUCIÓN CHI-CUADRADA

🎯 Teorema Fundamental

**a. Calcular la probabilidad usando la distribución t de Student - Usando R**

❌ **Varianza Sesgada: S*²**