📊 3.12. Ejercicio 3. PROBLEMA DE DISTRIBUCIÓN NORMAL - LÍMITE DE PESO EN ASCENSORES

⚖️ PROBLEMA: SEGURIDAD EN ASCENSORES - LÍMITE DE CARGA

Análisis probabilístico del peso total de ocupantes usando propiedades de la distribución normal

📝 ENUNCIADO DEL PROBLEMA

“Un ascensor limita el peso de sus 4 ocupantes a 300 kilogramos. Si el peso de un individuo sigue una distribución normal N(71, 7), calcular la probabilidad de que el peso total de 4 individuos supere los 300 kilogramos.”

A

0.2266

B

0.1841

C

0.1151

D

0.1587

E

0.0808

🧮 SOLUCIÓN PASO A PASO

⚖️ Paso 1: Identificar variables y parámetros

Datos proporcionados:
• Peso individual: Xᵢ ~ N(μ, σ²)
• Media individual: μ = 71 kg
• Varianza individual: σ² = 7
• Desviación estándar: σ = √7 ≈ 2.6458 kg
• Número de ocupantes: n = 4
• Límite de peso: L = 300 kg
• Pregunta: P(S₄ > 300)

Definición de suma:
S₄ = X₁ + X₂ + X₃ + X₄
Suma de 4 pesos individuales

Contexto de seguridad:
• Ascensor con límite de carga
• Consideraciones de seguridad
• Normativas de construcción

📊 Paso 2: Propiedades de suma de variables normales independientes

Teorema fundamental:
Si Xᵢ ~ N(μᵢ, σᵢ²) independientes
entonces ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)

Aplicación al problema:
• Media total: μₜ = 4 × μ = 4 × 71 = 284 kg
• Varianza total: σₜ² = 4 × σ² = 4 × 7 = 28
• Desviación estándar total:
σₜ = √(4 × 7) = √28 ≈ 5.2915 kg

Distribución de la suma:
S₄ ~ N(284, 28)

Interpretación:
Peso total promedio: 284 kg
Variabilidad total: σₜ = 5.29 kg

📈 Paso 3: Estandarización a distribución normal estándar

Probabilidad requerida:
P(S₄ > 300)

Fórmula de estandarización:
Z = \(\frac{S₄ - μₜ}{σₜ}\)

Sustitución para S₄ = 300:
Z = \(\frac{300 - 284}{\sqrt{28}}\)
Z = \(\frac{16}{\sqrt{28}}\)
Z = \(\frac{16}{5.2915}\)

Cálculo exacto:
Z = \(\frac{16}{\sqrt{28}}\)
Z = \(\frac{16}{2\sqrt{7}}\) = \(\frac{8}{\sqrt{7}}\)
Z ≈ 3.0237

Interpretación:
300 kg está aproximadamente
3.02 desviaciones estándar
por encima de la media

📊 Paso 4: Calcular probabilidad usando distribución normal estándar

Probabilidad requerida:
P(S₄ > 300) = P(Z > 3.0237)

Uso de simetría:
P(Z > z) = 1 - P(Z < z)

Valores de tabla normal:
P(Z < 3.02) = 0.99874
P(Z < 3.03) = 0.99878

Interpolación lineal:
Para Z = 3.0237:
P(Z < 3.0237) ≈ 0.99875

Probabilidad final:
P(Z > 3.0237) = 1 - 0.99875
P = 0.00125 ≈ 0.0013

Porcentaje: 0.13%
Interpretación: Muy baja probabilidad

🎯 Paso 5: Cálculo exacto con valores precisos

Cálculo exacto de σₜ:
σₜ = √(4 × 7) = √28 = 2√7
σₜ ≈ 5.291502622

Cálculo exacto de Z:
Z = (300 - 284)/√28
Z = 16/√28
Z = 16/(2√7) = 8/√7
Z = 8/2.645751311
Z = 3.023715784

Probabilidad exacta:
P(Z > 3.023715784)
Usando software estadístico:
P ≈ 0.001254

Redondeo a 4 decimales:
P ≈ 0.0013
Notación científica: 1.25×10⁻³

🔍 Paso 6: Análisis de seguridad y comparación con opciones

Margen de seguridad:
• Peso promedio: 284 kg
• Límite: 300 kg
• Diferencia: 16 kg
• En términos de σₜ: 3.02σₜ

Frecuencia esperada:
Probabilidad 0.0013 significa:
• 1 en 769 grupos de 4 personas
• 0.13% de los viajes
• Muy seguro por diseño

Comparación con opciones:
A) 0.2266 ✗ (181 veces mayor)
B) 0.1841 ✗ (147 veces mayor)
C) 0.1151 ✗ (92 veces mayor)
D) 0.1587 ✗ (126 veces mayor)
E) 0.0808 ✗ (64 veces mayor)

¡Ninguna coincide! Error en opciones

🏢 Paso 7: Interpretación en contexto de seguridad y normativa

Consideraciones de diseño:
1. Factor de seguridad:
Margen 16 kg sobre promedio 284 kg
Representa 5.6% de margen adicional
Diseño conservador y seguro

2. Normativas de construcción:
Ascensores diseñados con factores
de seguridad típicos de 1.5 a 2.0
Este diseño excede requerimientos

3. Capacidad nominal vs real:
Capacidad nominal: 300 kg
Capacidad promedio: 284 kg
Margen para variabilidad: 16 kg

4. Riesgo aceptable:
Probabilidad 0.13% muy baja
Considerado riesgo aceptable
en ingeniería civil

Probabilidad calculada:
0.0013

≈ 0.13%

(ninguna opción coincide)

Error en opciones:
Todas son órdenes de magnitud mayores
Posible error en parámetros del problema

Análisis de posibles errores en el enunciado: Las opciones proporcionadas (0.2266, 0.1841, 0.1151, 0.1587, 0.0808) son todas probabilidades mucho mayores (entre 64 y 181 veces mayor) que el cálculo correcto (0.0013). Esto sugiere tres posibilidades: 1) Error tipográfico en la varianza (debería ser σ=7 no σ²=7), 2) Error en el límite de peso, o 3) Error en las opciones de respuesta. Si σ=7 (no σ²=7), entonces σₜ=√(4×49)=14, Z=16/14=1.1429, P=0.1265, lo que se acerca a algunas opciones.

📚 CONCEPTOS ESTADÍSTICOS APLICADOS

📊 Suma de Variables Normales Independientes

  • Si Xᵢ ~ N(μᵢ, σᵢ²) independientes
  • Entonces ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)
  • Media de suma = suma de medias
  • Varianza de suma = suma de varianzas
  • Normalidad se preserva en la suma

⚖️ Diseño de Ingeniería con Factores de Seguridad

  • Capacidad nominal vs capacidad real
  • Margen de seguridad estadístico
  • Probabilidad de falla aceptable
  • Consideración de variabilidad natural
  • Cumplimiento de normativas

🏢 Análisis de Seguridad Estructural

  • Límites de carga basados en estadística
  • Evaluación de riesgo probabilístico
  • Diseño para condiciones extremas
  • Consideración de carga máxima probable
  • Factores de seguridad apropiados

🎯 RESUMEN Y CONCLUSIÓN

⚖️

Resumen de la solución

  1. Variables individuales: Xᵢ ~ N(71, 7) donde σ²=7, σ=√7≈2.6458
  2. Suma de 4 variables: S₄ = X₁+X₂+X₃+X₄
  3. Propiedades de suma: μₜ=4×71=284, σₜ²=4×7=28, σₜ=√28≈5.2915
  4. Distribución suma: S₄ ~ N(284, 28)
  5. Estandarización: Z = (300-284)/√28 = 16/√28 ≈ 3.0237
  6. Probabilidad: P(S₄>300) = P(Z>3.0237) ≈ 0.0013
  7. Comparación: Ninguna opción coincide (todas son mucho mayores)
  8. Posible error: σ=7 (no σ²=7) daría P≈0.1265 (cercano a opciones)

Fórmulas aplicadas:

• Suma de normales: ΣXᵢ ~ N(Σμᵢ, Σσᵢ²)
• Media total: μₜ = n × μ
• Varianza total: σₜ² = n × σ²
• Desviación estándar total: σₜ = √(n × σ²)
• Estandarización: Z = (x - μₜ)/σₜ
• Probabilidad cola derecha: P(Z > z)

Resultados correctos:

Probabilidad: 0.0013 (0.13%)
Z-score: 3.02
Margen seguridad: 16 kg
Factor seguridad: 1.056
Interpretación: Muy seguro
Error en opciones: Sí

Conclusión clave: La probabilidad de que 4 personas con peso N(71,7) superen los 300 kg es aproximadamente 0.0013 (0.13%), indicando un diseño de ascensor muy seguro. Ninguna de las opciones proporcionadas coincide con este cálculo, siendo todas órdenes de magnitud mayores. Esto sugiere un posible error en la interpretación de los parámetros: si la distribución fuera N(71,7) con σ=7 (no σ²=7), entonces la probabilidad sería aproximadamente 0.1265, lo que se acerca a algunas opciones. Se recomienda verificar la correcta interpretación de los parámetros en el enunciado original.

⚖️ RESULTADO: PROBABILIDAD ≈ 0.0013 (0.13%)

Suma de Variables Normales • Diseño de Seguridad • Análisis Probabilístico

Nota: Ninguna opción coincide. Posible error en parámetros del problema.

Si σ=7 (no σ²=7): P ≈ 0.1265 (se acerca a opciones C, D, E)

📊 3.13. Ejercicio 4. PROBLEMA DE COMPARACIÓN DE MEDIAS - RENDIMIENTO DE GASOLINAS

PROBLEMA: ANÁLISIS COMPARATIVO DE GASOLINAS - PRUEBAS DE RENDIMIENTO

Comparación estadística de rendimiento promedio entre dos tipos de gasolina usando distribución normal

📝 ENUNCIADO DEL PROBLEMA

“Se prueba el rendimiento (km/l) de dos tipos de gasolina: la primera tiene desviación estándar σ₁ = 1.23 km/l y se prueba en 35 vehículos; la segunda tiene σ₂ = 1.37 km/l y se prueba en 42 vehículos.

a) ¿Cuál es la probabilidad de que la primera gasolina dé un rendimiento promedio mayor de 0.45 km/l que la segunda?
b) ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83 km/l a favor de la primera gasolina?”

🧮 PARTE A: SOLUCIÓN PASO A PASO

Paso 1: Identificar parámetros y definir variables

Datos proporcionados:
• Gasolina 1: σ₁ = 1.23 km/l, n₁ = 35
• Gasolina 2: σ₂ = 1.37 km/l, n₂ = 42

Variables de interés:
\(\bar{X}_1\): Rendimiento promedio gasolina 1
\(\bar{X}_2\): Rendimiento promedio gasolina 2
• Diferencia: \(D = \bar{X}_1 - \bar{X}_2\)

Supuestos:
• Rendimientos siguen distribución normal
• Muestras independientes
• Varianzas poblacionales conocidas

Parte a: P(\(\bar{X}_1 - \bar{X}_2\) > 0.45)

📊 Paso 2: Distribución de la diferencia de medias

Teorema fundamental:
Si \(\bar{X}_1\) ~ N(μ₁, σ₁²/n₁)
y \(\bar{X}_2\) ~ N(μ₂, σ₂²/n₂)
independientes, entonces:

\(D = \bar{X}_1 - \bar{X}_2\) ~ N(μ₁-μ₂, σ_D²)

Varianza de la diferencia:
σ_D² = \(\frac{σ₁²}{n₁} + \frac{σ₂²}{n₂}\)

Suponiendo medias iguales (H₀):
μ₁ = μ₂ ⇒ μ_D = 0

Cálculo de σ_D²:
σ_D² = \(\frac{1.23²}{35} + \frac{1.37²}{42}\)
σ_D² = \(\frac{1.5129}{35} + \frac{1.8769}{42}\)

📈 Paso 3: Cálculo de varianza y desviación estándar

Cálculo detallado:
σ₁² = 1.23² = 1.5129
σ₂² = 1.37² = 1.8769

Término 1: σ₁²/n₁ = 1.5129/35
= 0.0432257

Término 2: σ₂²/n₂ = 1.8769/42
= 0.0446881

Varianza total:
σ_D² = 0.0432257 + 0.0446881
σ_D² = 0.0879138

Desviación estándar:
σ_D = √0.0879138
σ_D ≈ 0.2965

Distribución:
D ~ N(0, 0.0879138)

🎯 Paso 4: Estandarización y cálculo de probabilidad (parte a)

Parte a: P(D > 0.45)

Estandarización:
Z = \(\frac{D - μ_D}{σ_D}\)
Z = \(\frac{0.45 - 0}{0.2965}\)
Z = 0.45/0.2965

Cálculo exacto:
Z = 0.45/√0.0879138
Z = 0.45/0.296502
Z ≈ 1.5180

Probabilidad:
P(D > 0.45) = P(Z > 1.5180)
= 1 - P(Z < 1.5180)

Usando tabla normal:
P(Z < 1.51) = 0.93448
P(Z < 1.52) = 0.93574

Interpolación:
P(Z < 1.518) ≈ 0.9356

Resultado parte a:
P = 1 - 0.9356 = 0.0644
≈ 0.0644 (6.44%)

📊 PARTE B: SOLUCIÓN PASO A PASO

🎯 Paso 5: Planteamiento parte b

Parte b: P(0.65 < D < 0.83)

Interpretación:
“a favor de la primera gasolina”
significa \(\bar{X}_1 > \bar{X}_2\)
∴ D > 0 siempre

Distribución:
D ~ N(0, 0.0879138)
σ_D ≈ 0.2965

Probabilidad requerida:
P(0.65 < D < 0.83)

Estandarización para límites:
Z₁ = (0.65 - 0)/σ_D
Z₂ = (0.83 - 0)/σ_D

Relación con tabla normal:
P(a < D < b) = P(Z₁ < Z < Z₂)
= P(Z < Z₂) - P(Z < Z₁)

📈 Paso 6: Cálculo de Z-scores y probabilidad

Cálculo Z-scores:
Z₁ = 0.65/0.2965 ≈ 2.1922
Z₂ = 0.83/0.2965 ≈ 2.7993

Valores tabla normal:
P(Z < 2.19) = 0.98574
P(Z < 2.20) = 0.98610
P(Z < 2.79) = 0.99736
P(Z < 2.80) = 0.99744

Interpolación lineal:
P(Z < 2.192) ≈ 0.9858
P(Z < 2.799) ≈ 0.9974

Probabilidad:
P(0.65 < D < 0.83)
= P(2.192 < Z < 2.799)
= 0.9974 - 0.9858
= 0.0116

Resultado parte b:
P ≈ 0.0116 (1.16%)

🔍 Paso 7: Cálculos exactos con mayor precisión

Cálculo exacto σ_D²:
σ_D² = \(\frac{1.5129}{35} + \frac{1.8769}{42}\)
= 0.043225714 + 0.044688095
= 0.087913809

σ_D exacto:
σ_D = √0.087913809
= 0.296502631

Parte a exacta:
Z = 0.45/0.296502631
= 1.517698
P(Z > 1.517698) = 0.0646

Parte b exacta:
Z₁ = 0.65/0.296502631 = 2.1922
Z₂ = 0.83/0.296502631 = 2.7993
P = Φ(2.7993) - Φ(2.1922)
= 0.99744 - 0.98586
= 0.01158

📊 Paso 8: Interpretación en contexto aplicado

Interpretación parte a:
• Probabilidad 6.44%
• Significa: Si ambas gasolinas tienen
igual rendimiento promedio (μ₁=μ₂)
• Solo 6.44% de muestras mostrarían
diferencia >0.45 km/l
• Diferencia de 0.45 km/l sería poco común

Interpretación parte b:
• Probabilidad 1.16%
• Muy baja probabilidad
• Diferencia entre 0.65-0.83 km/l
sería muy inusual si μ₁=μ₂
• Sugeriría diferencia real si se observa

📚 RESUMEN DE RESULTADOS Y CONCEPTOS

📊 RESULTADO PARTE A

P(D > 0.45) = 0.0646

≈ 6.46%

Z-score: 1.518
Interpretación: Baja probabilidad

📈 RESULTADO PARTE B

P(0.65 < D < 0.83) = 0.0116

≈ 1.16%

Z₁: 2.192, Z₂: 2.799
Interpretación: Muy baja probabilidad

📋 CONCEPTOS ESTADÍSTICOS APLICADOS

Distribución Diferencia
D ~ N(μ₁-μ₂, σ₁²/n₁+σ₂²/n₂)

Estandarización
Z = (D - μ_D)/σ_D

Hipótesis Nula
Asume μ₁ = μ₂ ⇒ μ_D = 0

🎯 CONCLUSIÓN Y APLICACIÓN PRÁCTICA

Implicaciones para Pruebas de Gasolina

Parte a (6.46%): Si en pruebas reales se observa una diferencia mayor a 0.45 km/l, hay evidencia moderada (p=0.0646) contra la hipótesis de igual rendimiento. En investigación, esto podría considerarse “marginalmente significativo”.

Parte b (1.16%): Una diferencia entre 0.65-0.83 km/l sería muy inusual si las gasolinas fueran iguales. Esto proporcionaría evidencia más fuerte para concluir que la primera gasolina es realmente mejor.

📊 Recomendaciones para Diseño Experimental

  1. Tamaños muestrales: n₁=35 y n₂=42 son adecuados para detectar diferencias moderadas.
  2. Variabilidad: σ₁=1.23 y σ₂=1.37 indican alta variabilidad en rendimiento entre vehículos.
  3. Potencia estadística: Para detectar diferencias pequeñas (0.2-0.3 km/l) podrían necesitarse muestras mayores.
  4. Control experimental: Mismas condiciones de prueba para ambas gasolinas.

📝 Fórmulas Clave Utilizadas

Varianza de Diferencia:
σ_D² = σ₁²/n₁ + σ₂²/n₂
= 1.5129/35 + 1.8769/42
= 0.0879138

Estandarización:
Z = (D - μ_D)/σ_D
Parte a: Z = 0.45/0.2965
Parte b: Z₁ = 0.65/0.2965
Z₂ = 0.83/0.2965

RESULTADOS FINALES - COMPARACIÓN DE GASOLINAS

Parte a:
P(D > 0.45) = 0.0646
(6.46%)

Parte b:
P(0.65 < D < 0.83) = 0.0116
(1.16%)

Diferencia de Medias • Distribución Normal • Pruebas de Hipótesis • Análisis Comparativo

📊 4. TEORÍA DE LA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN

📈 DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN: TEORÍA Y APLICACIONES

Comportamiento estadístico de proporciones muestrales en inferencia paramétrica

🎯 FUNDAMENTOS TEÓRICOS DE LA PROPORCIÓN MUESTRAL

📊 Definición y Notación

Proporción Poblacional (parámetro):
p = éxitos / N (población)
q = 1 - p (fracasos)

Proporción Muestral (estadístico):
p̂ = X / n
Donde:
• X = número de éxitos en muestra
• n = tamaño muestral

Distribución Muestral:
Es la distribución de probabilidad de todas las proporciones muestrales posibles p̂ de tamaño n.

📐 Parámetros de la Distribución

Media (valor esperado):
μ = E(p̂) = p

Varianza:
σ² = Var(p̂) = p(1-p)/n
= pq/n

Error estándar:
σ = √[p(1-p)/n]
= √(pq/n)

Para población finita (N):
Factor corrección: √[(N-n)/(N-1)]

📈 APROXIMACIÓN NORMAL PARA MUESTRAS GRANDES

🎯 Condiciones de Aplicabilidad

Regla general (más usada):
np ≥ 10 y n(1-p) ≥ 10

Regla más conservadora:
np ≥ 5 y n(1-p) ≥ 5

Interpretación:
• np = número esperado de éxitos
• n(1-p) = número esperado de fracasos

Si se cumplen condiciones:
p̂ ∼ N(p, pq/n) aproximadamente
Z = (p̂ - p)/√(pq/n) ∼ N(0,1)

📊 Propiedades para Muestras Grandes

Características clave:
1. Normalidad: Aproximación normal buena
2. Media: μ = p (insesgado)
3. Error estándar: σ = √(pq/n)
4. Simetría: Mejor si p ≈ 0.5

Intervalo de confianza aproximado:
p̂ ± zα/2√[p̂(1-p̂)/n]

Más preciso:
p̂ ± zα/2√[p̂(1-p̂)/n + z²α/2/(4n²)]

🎯 EJEMPLOS PARA MUESTRAS GRANDES (np ≥ 10, n(1-p) ≥ 10)

🗳️ Ejemplo 1: Intención de Voto

Contexto:
Encuesta preelectoral. Se estima p = 0.45 (45% votaría por candidato A).

Problema:
n = 400 votantes:
• ¿Distribución de p̂?
• P(p̂ > 0.48) = ?

Verificación:
np = 400×0.45 = 180 ≥ 10 ✓
n(1-p) = 400×0.55 = 220 ≥ 10 ✓

Solución:
σ = √[0.45×0.55/400] = 0.0249
Z = (0.48-0.45)/0.0249 = 1.205
P(Z > 1.205) = 0.1141

🏭 Ejemplo 2: Defectos en Producción

Contexto:
Línea producción, tasa defectos histórica p = 0.02.

Problema:
n = 600 productos:
• Error estándar de p̂?
• P(p̂ < 0.015)?

Verificación:
np = 600×0.02 = 12 ≥ 10 ✓
n(1-p) = 600×0.98 = 588 ≥ 10 ✓

Solución:
σ = √[0.02×0.98/600] = 0.0057
Z = (0.015-0.02)/0.0057 = -0.877
P(Z < -0.877) = 0.1902

🎓 Ejemplo 3: Aprobación Curso

Contexto:
Universidad, proporción que aprueba cálculo p = 0.70.

Problema:
Muestras n = 250 estudiantes:
• IC 95% para p̂?
• Tamaño efecto?

Verificación:
np = 250×0.70 = 175 ≥ 10 ✓
n(1-p) = 250×0.30 = 75 ≥ 10 ✓

Solución:
σ = √[0.70×0.30/250] = 0.0290
IC 95%: 0.70 ± 1.96×0.0290
= [0.643, 0.757]

📊 DISTRIBUCIÓN EXACTA: BINOMIAL Y ALTERNATIVAS PARA MUESTRAS PEQUEÑAS

📐 Distribución Binomial Exacta

Cuando NO se cumplen np ≥ 10 y n(1-p) ≥ 10:
• Usar distribución binomial exacta
• X ∼ Binomial(n, p)
• p̂ = X/n

Probabilidad exacta:
P(X = k) = C(n,k) p^k (1-p)^{n-k}

Cuando usar:
1. n pequeño
2. p muy cercano a 0 o 1
3. np < 10 o n(1-p) < 10

Ejemplo: n=15, p=0.1 → np=1.5 (<10)

📈 Métodos Alternativos para Muestras Pequeñas

Intervalo de confianza exacto (Clopper-Pearson):
Usa distribución binomial
Más conservador
Adecuado para n pequeños

Intervalo de Wilson:
\(\frac{\hat{p} + \frac{z^2}{2n} \pm z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1 + \frac{z^2}{n}}\)
Mejor para p cercano a 0 o 1

Intervalo de Jeffreys:
Basado en distribución Beta
Bayesiano no informativo
Buenas propiedades frecuentistas

🎯 EJEMPLOS PARA MUESTRAS PEQUEÑAS (np < 10 o n(1-p) < 10)

💊 Ejemplo 1: Efecto Secundario Raro

Contexto:
Medicamento, efecto secundario grave p = 0.005.

Problema:
Estudio con n = 100 pacientes:
• np = 100×0.005 = 0.5 (<10)
• n(1-p) = 99.5 (>10)
• Usar binomial exacta

Solución exacta:
P(X ≥ 2) = 1 - P(X ≤ 1)
= 1 - [P(X=0) + P(X=1)]
= 1 - [C(100,0)(0.995)^100 + C(100,1)(0.005)(0.995)^99]
= 1 - [0.6058 + 0.3044] = 0.0898

🏭 Ejemplo 2: Defectos Muy Raros

Contexto:
Proceso alta calidad, p(defecto) = 0.001.

Problema:
Control calidad n = 50 unidades:
• np = 0.05 (<10)
• Usar Poisson como aproximación

Solución Poisson:
λ = np = 0.05
P(X ≥ 1) = 1 - P(X=0)
= 1 - e^{-0.05}
= 1 - 0.9512 = 0.0488

Exacta binomial:
P(X ≥ 1) = 1 - (0.999)^50 = 0.0488

📱 Ejemplo 3: Encuesta Piloto

Contexto:
Encuesta piloto nueva app.
n = 20 usuarios, 3 la recomiendan.

Problema:
p̂ = 3/20 = 0.15
• IC 95% exacto (Clopper-Pearson)
• Comparar con normal aproximado

Solución exacta:
Usando binomial:
Límite inferior: 0.032
Límite superior: 0.379
IC exacto: [0.032, 0.379]

Aproximado normal:
[0.015, 0.285] (subestima)

📊 COMPARACIÓN: MUESTRAS GRANDES vs PEQUEÑAS PARA PROPORCIONES

📈 Muestras Grandes (np ≥ 10, n(1-p) ≥ 10)

  • Condición: np ≥ 10 y n(1-p) ≥ 10
  • Distribución: Aproximación normal
  • Error estándar: √[p̂(1-p̂)/n]
  • Estadístico: Z = (p̂-p)/√[p(1-p)/n]
  • Intervalo: p̂ ± z√[p̂(1-p̂)/n]
  • Ventaja: Simple, ampliamente usado
  • Desventaja: Pobre si p cerca de 0 o 1

📉 Muestras Pequeñas (np < 10 o n(1-p) < 10)

  • Condición: np < 10 o n(1-p) < 10
  • Distribución: Binomial exacta
  • Método: Cálculo directo binomial
  • Intervalo: Clopper-Pearson, Wilson, Jeffreys
  • Ventaja: Exacto, buen para p extremos
  • Desventaja: Cálculos complejos
  • Alternativa: Aproximación Poisson si p muy pequeño

📋 Tabla Comparativa: Métodos para Intervalos de Confianza

Método Fórmula Ventajas Cuándo usar
Wald (Normal) p̂ ± z√[p̂(1-p̂)/n] Sencillo n grande, p moderado
Wilson (p̂+z²/(2n)±z√[·])/(1+z²/n) Mejor para p extremos Cualquier n, p
Clopper-Pearson Exacto binomial Conservador n pequeño
Agresti-Coull p̃ ± z√[p̃(1-p̃)/ñ] Buen balance Propósito general

🎯 EJEMPLOS INTEGRADORES - AMBAS SITUACIONES

🗳️ Ejemplo Integrador 1: Referéndum

Contexto:
Referéndum, se espera p = 0.52 a favor.

Parte A (encuesta grande):
n = 1000 encuestados:
np = 520 ≥ 10 ✓
n(1-p) = 480 ≥ 10 ✓
• Usar aproximación normal
σ = √[0.52×0.48/1000] = 0.0158
IC 95%: 0.52 ± 1.96×0.0158 = [0.489, 0.551]

Parte B (sondeo pequeño):
n = 50, p̂ = 0.60:
np̂ = 30 ≥ 10 ✓
n(1-p̂) = 20 ≥ 10 ✓
• Podría usar normal
• Pero mejor Wilson por n pequeño

🏭 Ejemplo Integrador 2: Control Calidad

Contexto:
Fábrica, defectos históricos p = 0.01.

Caso 1 (lote grande):
n = 500 unidades:
np = 5 (<10!)
n(1-p) = 495 ≥ 10
• np < 10 → usar binomial exacta
• O Poisson: λ = 5

Caso 2 (lote muy grande):
n = 2000 unidades:
np = 20 ≥ 10 ✓
n(1-p) = 1980 ≥ 10 ✓
• Usar aproximación normal
σ = √[0.01×0.99/2000] = 0.0022
P(p̂ > 0.012) = P(Z > 0.91) = 0.1814

💊 Ejemplo Integrador 3: Estudio Clínico

Contexto:
Nuevo tratamiento, éxito esperado p = 0.85.

Fase I (n pequeño):
n = 20 pacientes, 18 éxitos:
p̂ = 0.90
np̂ = 18 ≥ 10 ✓
n(1-p̂) = 2 (<10!)
• Usar método exacto
• Clopper-Pearson IC 95%: [0.683, 0.988]

Fase III (n grande):
n = 300 pacientes, 255 éxitos:
p̂ = 0.85
np̂ = 255 ≥ 10 ✓
n(1-p̂) = 45 ≥ 10 ✓
• Usar normal
IC 95%: = [0.807, 0.893]
Precisión mejorada con n grande

📊 Tabla de Comparación General

Aspecto Muestras Grandes Muestras Pequeñas Recomendación
Condición np ≥ 10 y n(1-p) ≥ 10 np < 10 o n(1-p) < 10 Verificar siempre
Distribución Normal aproximada Binomial exacta Usar la apropiada
Error estándar √[p̂(1-p̂)/n] No aplica directamente Cuidado con p extremos
Intervalo confianza Wald, Agresti-Coull Clopper-Pearson, Wilson Wilson para general
Precisión Buena, mejora con √n Limitada, intervalos amplios Mayor n para más precisión
Aplicaciones Encuestas, control calidad Estudios piloto, eventos raros Contexto determina método

📚 RESUMEN Y CONCLUSIONES FINALES

🎯 Puntos Clave Teóricos

1. Propiedades de p̂:
• Media: E(p̂) = p (insesgado)
• Varianza: Var(p̂) = p(1-p)/n
• Error estándar: σ = √[p(1-p)/n]

2. Condiciones aproximación normal:
• np ≥ 10 y n(1-p) ≥ 10 (estándar)
• Más conservador: np ≥ 5 y n(1-p) ≥ 5
• p̂ ∼ N(p, p(1-p)/n) aproximadamente

3. Métodos intervalos confianza:
• Wald: simple pero pobre para p extremos
• Wilson: recomendado para uso general
• Clopper-Pearson: exacto pero conservador
• Agresti-Coull: buen balance

4. Para población finita:
Factor corrección: √[(N-n)/(N-1)]

🏭 Recomendaciones Prácticas

Para investigación aplicada:
1. Verificar condiciones: Siempre calcular np y n(1-p)
2. Elegir método apropiado:
• np ≥ 10: usar aproximación normal
• np < 10: usar métodos exactos
3. Reportar claramente:
• Tamaño muestral n
• Proporción observada p̂
• Método usado para inferencia
• Condiciones verificadas

Para diseño de estudios:
• Calcular tamaño muestral necesario
• Considerar p esperada y precisión deseada
• Planificar para análisis apropiado
• Considerar métodos robustos (Wilson)

Errores comunes a evitar:
• Usar Wald cuando p cerca de 0 o 1
• Ignorar condiciones np ≥ 10
• No reportar método estadístico
• Interpretar p como probabilidad exacta

💡 Flujograma de Decisión para Análisis de Proporciones

Paso 1

Calcular
np y n(1-p)

Paso 2

np ≥ 10 y
n(1-p) ≥ 10?

Paso 3

Elegir método
apropiado

SI

Usar métodos normales
• Wald
• Agresti-Coull
• Wilson (recomendado)

NO

Usar métodos exactos
• Clopper-Pearson
• Wilson
• Binomial exacta

📈 Importancia en Investigación y Toma de Decisiones

En ciencias sociales:
• Encuestas de opinión pública
• Estudios de mercado
• Investigación educativa
• Análisis de preferencias

En medicina y salud:
• Tasas de éxito tratamiento
• Prevalencia enfermedades
• Efectos secundarios
• Estudios epidemiológicos

En ingeniería y calidad:
• Tasa de defectos
• Control de procesos
• Fiabilidad sistemas
• Mejora continua

DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN: TEORÍA COMPLETA

Para muestras grandes: Aproximación normal • Para muestras pequeñas: Binomial exacta • 6 ejemplos prácticos

Condición clave: np ≥ 10 y n(1-p) ≥ 10 • Métodos recomendados: Wilson para uso general

HASTA AQUI BIEN

📐 04. DISTRIBUCIÓN CHI-CUADRADA

🎯 Teorema Fundamental

Sea \(Y_1, Y_2, ..., Y_n\) una muestra aleatoria de una distribución normal con media \(\mu\) y varianza \(\sigma^2\).

\[ \sum_{i=1}^n \frac{(Y_i - \mu)^2}{\sigma^2} \sim \chi^2_{(n)} \]

📊 Ejemplo 2: Valor Crítico

Problema: \(Z_1, ..., Z_6 \sim N(0,1)\), hallar \(b\) tal que \(P(\sum Z_i^2 \leq b) = 0.95\)

\[ \sum_{i=1}^6 Z_i^2 \sim \chi^2_{(6)} \\ P(\chi^2_{(6)} \leq 12.5916) = 0.95 \\ \Rightarrow b = 12.5916 \]

Implementación R: qchisq(0.95, df=6)

🔬 Distribución de la Varianza Muestral

Teorema: Para muestra normal:

\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)} \]

Propiedad clave: \(\bar{Y}\) y \(S^2\) son independientes

🏭 Ejemplo 3: Muestreo de Varianzas

📊 Problema

  • \(n = 10\) botellas, \(\sigma = 1.0\)
  • Encontrar \(b_1, b_2\) tal que \(P(b_1 \leq S^2 \leq b_2) = 0.90\)
  • Usar: \(\frac{9S^2}{1} \sim \chi^2_{(9)}\)

🎯 Solución

  • Tabla \(\chi^2(9)\): \(P(3.325 \leq \chi^2 \leq 16.919) = 0.90\)
  • \(b_1 = 3.325/9 = 0.369\)
  • \(b_2 = 16.919/9 = 1.880\)

a. Encontrar el valor crítico b usando la distribución chi-cuadrado - Usando R

# Parámetros dados
n <- 6           # Tamaño de la muestra (grados de libertad)
prob <- 0.95     # Probabilidad deseada

# Encontrar el valor crítico b usando la distribución chi-cuadrado
b <- qchisq(prob, df = n)

# Mostrar el valor de b
print(paste("El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es: 12.5916"
# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 20, length.out = 1000)

# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = n)

# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de ∑Z_i²", ylab = "Densidad",
     main = "Distribución chi-cuadrado con 6 grados de libertad")

# Sombrear el área correspondiente a P(∑Z_i² ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- dchisq(x_shade, df = n)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(∑Zi²≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

b. Encontrar los valores críticos de la distribución chi-cuadrado - Usando R

# Parámetros dados
n <- 10          # Tamaño de la muestra
sigma <- 1.0     # Desviación estándar poblacional
alpha <- 0.10    # Nivel de significancia (1 - 0.90)

# Grados de libertad
df <- n - 1

# Encontrar los valores críticos de la distribución chi-cuadrado
b1 <- qchisq(alpha / 2, df) * sigma^2 / df
b2 <- qchisq(1 - alpha / 2, df) * sigma^2 / df

# Mostrar los resultados
print(paste("El valor de b1 es:", round(b1, 4)))
## [1] "El valor de b1 es: 0.3695"
print(paste("El valor de b2 es:", round(b2, 4)))
## [1] "El valor de b2 es: 1.8799"
# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 30, length.out = 1000)

# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = df)

# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Varianza muestral (S²)", ylab = "Densidad",
     main = "Distribución chi-cuadrado con 9 grados de libertad")

# Sombrear el área correspondiente a P(b1 ≤ S² ≤ b2)
x_shade <- seq(b1, b2, length.out = 1000)
y_shade <- dchisq(x_shade, df = df)
polygon(c(b1, x_shade, b2), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = b1, col = "red", lty = 2, lwd = 2)
abline(v = b2, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(b1 ≤ S² ≤ b2) = 0.90)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

📊 05. DISTRIBUCIÓN t DE STUDENT

🎓 Definición Formal

Sea \(Z \sim N(0,1)\) y \(\chi^2_\nu \sim \chi^2(\nu)\) independientes. Entonces:

\[ T = \frac{Z}{\sqrt{\chi^2_\nu / \nu}} \sim t_{(\nu)} \]

🔬 Ejemplo 4: Resistencia de Alambre

Contexto: Resistencia a tensión ∼ \(N(\mu, \sigma^2)\), \(n=6\) segmentos

\[ \frac{\bar{Y} - \mu}{S/\sqrt{n}} \sim t_{(5)} \\ P(|\bar{Y} - \mu| \leq 2S/\sqrt{n}) = P(-2 \leq t_{(5)} \leq 2) = 0.8980 \]

Comparación con σ conocida: \(P(-2 \leq Z \leq 2) = 0.9544\)

💻 Implementación en R

# Parámetros
n <- 6; k <- 2; df <- n-1

# Probabilidad usando t-Student
prob_t <- pt(k, df) - pt(-k, df)  # 0.8980

# Comparación con normal (σ conocida)
prob_z <- pnorm(k) - pnorm(-k)    # 0.9544

# Gráfico distribución t
x <- seq(-4, 4, length=1000)
y <- dt(x, df)
plot(x, y, type="l", main="Distribución t(5)")

a. Calcular la probabilidad usando la distribución t de Student - Usando R

# Parámetros dados
n <- 6           # Tamaño de la muestra
k <- 2           # Factor de escala (2 en este caso)

# Grados de libertad
df <- n - 1

# Calcular la probabilidad usando la distribución t de Student
prob <- pt(k, df = df) - pt(-k, df = df)

# Mostrar la probabilidad
print(paste("La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es:", round(prob, 4)))
## [1] "La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es: 0.8981"
# Crear una secuencia de valores para la distribución t de Student
x <- seq(-4, 4, length.out = 1000)

# Calcular la densidad de la distribución t de Student
y <- dt(x, df = df)

# Graficar la distribución t de Student
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de t", ylab = "Densidad",
     main = "Distribución t de Student con 5 grados de libertad")

# Sombrear el área correspondiente a P(-2 ≤ t ≤ 2)
x_shade <- seq(-k, k, length.out = 1000)
y_shade <- dt(x_shade, df = df)
polygon(c(-k, x_shade, k), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = -k, col = "red", lty = 2, lwd = 2)
abline(v = k, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución t de Student", "Área sombreada (P(-2 ≤ t ≤ 2))"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

📈 06. DISTRIBUCIÓN F

🎯 Definición Matemática

Sean \(\chi^2_{\nu_1}\) y \(\chi^2_{\nu_2}\) independientes con \(\nu_1\) y \(\nu_2\) grados de libertad.

\[ F = \frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2} \sim F_{(\nu_1, \nu_2)} \]

📊 Ejemplo 5: Razón de Varianzas

Problema: \(n_1=6\), \(n_2=10\), poblaciones normales con igual varianza

\[ \frac{S_1^2}{S_2^2} \sim F_{(5,9)} \\ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95 \\ \Rightarrow b = F_{0.95}(5,9) = 3.48 \]

Aplicación: Pruebas de homogeneidad de varianzas

💻 Código R Completo

# Distribución F en R
n1 <- 6; n2 <- 10; df1 <- n1-1; df2 <- n2-1

# Valor crítico b
b <- qf(0.95, df1, df2)  # 3.48

# Gráfico distribución F
x <- seq(0, 5, length=1000)
y <- df(x, df1, df2)
plot(x, y, type="l", main="F(5,9)")

# Sombrear área P(F ≤ b)
polygon(c(0,seq(0,b,length=100),b), 
        c(0,df(seq(0,b,length=100),df1,df2),0), 
        col="lightblue")

📋 Resumen de Distribuciones Muestrales

📊 Normal

\(\bar{Y} \sim N(\mu, \frac{\sigma^2}{n})\)

📐 Chi-cuadrada

\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)}\)

📈 t-Student

\(\frac{\bar{Y}-\mu}{S/\sqrt{n}} \sim t_{(n-1)}\)

📊 F

\(\frac{S_1^2}{S_2^2} \sim F_{(n_1-1,n_2-1)}\)

Encontrar el valor crítico b usando la distribución F - Usando R

# Parámetros dados
n1 <- 6           # Tamaño de la primera muestra
n2 <- 10          # Tamaño de la segunda muestra
prob <- 0.95      # Probabilidad deseada

# Grados de libertad
df1 <- n1 - 1     # Grados de libertad para S1²
df2 <- n2 - 1     # Grados de libertad para S2²

# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)

# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"
# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)

# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)

# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
     main = "Distribución F con (5, 9) grados de libertad")

# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

Encontrar el valor crítico b usando la distribución F

# Parámetros dados
n1 <- 6           # Tamaño de la primera muestra
n2 <- 10          # Tamaño de la segunda muestra
prob <- 0.95      # Probabilidad deseada

# Grados de libertad
df1 <- n1 - 1     # Grados de libertad para S1²
df2 <- n2 - 1     # Grados de libertad para S2²

# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)

# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"
# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)

# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)

# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
     main = "Distribución F con (5, 9) grados de libertad")

# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

🎓 07. DISTRIBUCIONES MUESTRALES COMPLETAS

Teoremas fundamentales • Aplicaciones prácticas • Implementación en R • Bases para inferencia estadística

📅 D. TEOREMAS FUNDAMENTALES DE LA ESTADÍSTICA - TEOREMA DEL LÍMITE CENTRAL

📊 TEOREMA DEL LÍMITE CENTRAL (TLC) Y APLICACIONES PRÁCTICAS

El pilar fundamental de la inferencia estadística moderna y sus aplicaciones en contextos reales

10. TEOREMA DEL LÍMITE CENTRAL (TLC) - EL CORAZÓN DE LA ESTADÍSTICA

“El Teorema del Límite Central (TLC) es uno de los resultados más importantes en estadística y probabilidad. Establece que, bajo ciertas condiciones, la distribución de la media muestral de una muestra aleatoria se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original, siempre que el tamaño de la muestra sea suficientemente grande.”

🎯 Enunciado Matemático Formal

Sean \(Y_1, Y_2, \dots, Y_n\) variables aleatorias i.i.d. con:

  • Media: \(E[Y_i] = \mu\)
  • Varianza: \(Var[Y_i] = \sigma^2 < \infty\)

\[ U_n = \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \]

Convergencia en distribución: \(U_n \xrightarrow{d} N(0, 1)\) cuando \(n \to \infty\)

📈 Interpretación Práctica

  • Distribución de \(\bar{Y}\): \(\bar{Y} \approx N(\mu, \frac{\sigma^2}{n})\)
  • Independiente de la forma original: Aplica incluso para poblaciones no normales
  • Tamaño muestral: Generalmente \(n \geq 30\) es suficiente
  • Error estándar: \(\sigma_{\bar{Y}} = \frac{\sigma}{\sqrt{n}}\) disminuye con \(n\)
  • Fundamento para inferencia: Intervalos de confianza, pruebas de hipótesis

🔬 10.3. EJEMPLO 6: ILUSTRACIÓN DEL TLC CON SIMULACIÓN

📊 Demostración Visual del TLC

Objetivo: Mostrar cómo la distribución de medias muestrales de una población exponencial (no normal) converge a normalidad conforme aumenta \(n\).

📊

\(n = 5\)

  • Distribución claramente asimétrica
  • Forma similar a exponencial original
  • Poca aproximación a normal
  • Variabilidad alta

📈

\(n = 30\)

  • Mayor simetría
  • Inicio de forma campana
  • Buena aproximación práctica
  • Variabilidad moderada

📐

\(n = 100\)

  • Excelente aproximación normal
  • Forma campana perfecta
  • Curva teórica (roja) se ajusta
  • Variabilidad baja

💻 Código R para Simulación

# Parámetros de simulación
set.seed(123)
mu <- 1                     # Media exponencial
n_sim <- 1000               # Número de simulaciones
sample_sizes <- c(5, 30, 100)

# Función de simulación
simulate_sample_means <- function(n) {
  sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}

# Gráficos comparativos
par(mfrow = c(1, 3))
for (n in sample_sizes) {
  sample_means <- simulate_sample_means(n)
  hist(sample_means, breaks = 30, freq = FALSE,
       main = paste("n =", n), xlab = "Media muestral",
       col = "lightblue", border = "white")
  # Curva normal teórica
  curve(dnorm(x, mean = mu, sd = mu/sqrt(n)),
        add = TRUE, col = "red", lwd = 2)
}

Función para simular medias muestrales - Código en R para la ilustración:

# Parámetros
set.seed(123)  # Para reproducibilidad
mu <- 1        # Media de la distribución exponencial
n_sim <- 1000  # Número de simulaciones
sample_sizes <- c(5, 30, 100)  # Tamaños de muestra

# Función para simular medias muestrales
simulate_sample_means <- function(n) {
  sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}

# Crear gráficos
par(mfrow = c(1, 3))  # 1 fila, 3 columnas
for (n in sample_sizes) {
  sample_means <- simulate_sample_means(n)
  hist(sample_means, breaks = 30, freq = FALSE, main = paste("n =", n),
       xlab = "Media muestral", col = "lightblue", border = "white")
  curve(dnorm(x, mean = mu, sd = mu/sqrt(n)), add = TRUE, col = "red", lwd = 2)
}

🗳️ 10.5. EJEMPLO 8: APLICACIÓN EN ELECCIONES

🏛️ Problema de Campaña Electoral

Contexto: Candidato A necesita al menos 55% de votos en el Distrito I para ganar. Encuestas muestran que aproximadamente 50% de votantes le favorecen. Con \(n = 100\) votantes esperados en el distrito, ¿cuál es la probabilidad de que gane?

📊 Modelado Estadístico

  • Variable: \(Y =\) # votantes a favor
  • Distribución: \(Y \sim B(100, 0.5)\)
  • Representación: \(Y = \sum_{i=1}^{100} X_i\)
  • Indicadores: \(X_i = 1\) (vota por A) o \(0\) (no vota)
  • Proporción: \(\frac{Y}{100} = \bar{X}\)

🧮 Cálculo de Probabilidad

\[ \begin{aligned} P\left(\frac{Y}{100} \geq 0.55\right) &= P\left(\frac{\bar{X} - p}{\sqrt{p(1-p)/n}} \geq \frac{0.55 - 0.5}{\sqrt{0.25/100}}\right) \\ &= P\left(Z \geq \frac{0.05}{0.05}\right) = P(Z \geq 1) \\ &= 1 - P(Z \leq 1) = 1 - 0.8413 = 0.1587 \end{aligned} \]

Interpretación: Solo 15.87% de probabilidad de ganar

💡 Implicaciones Estratégicas

📉 Riesgo Alto

  • Probabilidad baja (15.9%)
  • Necesita 5% más del esperado
  • Margen muy estrecho
  • Estrategia de campaña crítica

🎯 Decisiones de Campaña

  • Intensificar campaña en distrito
  • Segmentar votantes indecisos
  • Aumentar tamaño muestral encuestas
  • Considerar alianzas estratégicas

🏫 10.6. EJEMPLO 6: EVALUACIÓN DE INSTITUCIONES EDUCATIVAS

🎓 Análisis de Desempeño Académico

Contexto: Pruebas estatales tienen media 60, varianza 64. Una preparatoria con \(n = 100\) estudiantes obtiene media 58. ¿Es esta institución inferior al promedio estatal?

📚 Análisis Estadístico

\[ \begin{aligned} \text{Parámetros: } &\mu = 60, \sigma^2 = 64, n = 100 \\ \text{Error estándar: } &SE = \frac{\sigma}{\sqrt{n}} = \frac{8}{10} = 0.8 \\ \text{Estadístico Z: } &Z = \frac{58 - 60}{0.8} = -2.5 \\ \text{Valor p: } &P(Z \leq -2.5) = 0.0062 \end{aligned} \]

Significancia: \(p = 0.0062 < 0.05\) → Evidencia estadística fuerte

💻 Implementación en R

# Análisis de desempeño escolar
mu_poblacion <- 60
var_poblacion <- 64
n <- 100
media_muestral <- 58

# Cálculos
se <- sqrt(var_poblacion / n)  # 0.8
z <- (media_muestral - mu_poblacion) / se  # -2.5
p_valor <- pnorm(z)  # 0.0062

# Conclusión estadística
alpha <- 0.05
if (p_valor < alpha) {
  print("Rechazar H₀: La escuela es inferior")
} else {
  print("No rechazar H₀: Sin evidencia de inferioridad")
}

🎯 Implicaciones Educativas

📉 Hallazgos Estadísticos

  • Diferencia significativa (p = 0.0062)
  • La escuela está 2.5 SE por debajo
  • Probabilidad muy baja por azar (0.62%)
  • Evidencia sólida de inferioridad

🏫 Acciones Recomendadas

  • Revisar métodos de enseñanza
  • Capacitar profesores
  • Implementar tutorías
  • Monitorear progreso continuo
  • Asignar recursos adicionales

Distribución normal estándar y región de rechazo - Código en R:

# Parámetros dados
mu_poblacion <- 60      # Media poblacional
var_poblacion <- 64     # Varianza poblacional
n <- 100                # Tamaño de la muestra
media_muestral <- 58    # Media muestral

# Error estándar de la media
se <- sqrt(var_poblacion / n)

# Estadístico de prueba Z
z <- (media_muestral - mu_poblacion) / se

# Valor p (prueba de una cola, cola inferior)
p_valor <- pnorm(z)

# Mostrar resultados
print(paste("Estadístico de prueba Z:", round(z, 4)))
## [1] "Estadístico de prueba Z: -2.5"
print(paste("Valor p:", round(p_valor, 4)))
## [1] "Valor p: 0.0062"
# Conclusión
alpha <- 0.05  # Nivel de significancia
if (p_valor < alpha) {
  print("Rechazamos la hipótesis nula: La preparatoria es inferior.")
} else {
  print("No rechazamos la hipótesis nula: No hay evidencia suficiente para afirmar que la preparatoria es inferior.")
}
## [1] "Rechazamos la hipótesis nula: La preparatoria es inferior."
# Gráfica de la distribución normal estándar
x <- seq(-4, 4, length.out = 1000)  # Rango de valores para Z
y <- dnorm(x)                       # Densidad de la distribución normal estándar

# Crear la gráfica
plot(x, y, type = "l", lwd = 2, col = "blue", xlab = "Z", ylab = "Densidad",
     main = "Distribución normal estándar y región de rechazo")

# Sombrear la región correspondiente al valor p (cola inferior)
x_shade <- seq(-4, z, length.out = 1000)
y_shade <- dnorm(x_shade)
polygon(c(-4, x_shade, z), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el estadístico de prueba Z
abline(v = z, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Región de rechazo (Valor p)", "Estadístico Z"),
       col = c("blue", "lightblue", "red"), lwd = 2, lty = c(1, NA, 2), fill = c(NA, "lightblue", NA))

El enunciado en R

# Cargar librería para gráficos
#install.packages("ggplot2")
library(ggplot2)

# Parámetros
media_poblacion <- 60
desviacion_estandar <- 8 / sqrt(100)  # Error estándar
nivel_significancia <- 0.05
valor_critico <- qnorm(nivel_significancia)  # Valor crítico Z

# Crear un rango de valores para la distribución
x <- seq(media_poblacion - 4 * desviacion_estandar, 
         media_poblacion + 4 * desviacion_estandar, 
         length.out = 1000)
y <- dnorm(x, mean = media_poblacion, sd = desviacion_estandar)

# Crear un data frame para ggplot
datos <- data.frame(x = x, y = y)

# Gráfico
ggplot(datos, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +  # Curva de la distribución
  geom_area(data = subset(datos, x <= media_poblacion + valor_critico * desviacion_estandar), 
            aes(x = x, y = y), 
            fill = "red", alpha = 0.5) +  # Región de rechazo
  geom_vline(xintercept = media_poblacion + valor_critico * desviacion_estandar, 
             color = "black", linetype = "dashed", size = 1) +  # Línea del valor crítico
  annotate("text", x = media_poblacion + valor_critico * desviacion_estandar, 
           y = 0.1, label = "Z crítico = -1.645", 
           hjust = 1.2, color = "black") +  # Etiqueta del valor crítico
  labs(title = "Región de rechazo para prueba de una cola (cola izquierda)",
       x = "Media muestral",
       y = "Densidad") +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

⏱️ 10.7. EJEMPLO 7: GESTIÓN DE SERVICIOS Y TIEMPOS DE ESPERA

🛒 Optimización de Atención al Cliente

Contexto: Tienda minorista con tiempos de espera promedio 1.5 minutos, varianza 1.0. ¿Cuál es la probabilidad de atender 100 clientes en menos de 2 horas (120 minutos)?

📊 Modelado del Problema

\[ \begin{aligned} \text{Datos: } &\mu = 1.5 \text{ min}, \sigma^2 = 1.0, n = 100 \\ \text{Tiempo total: } &T = \sum_{i=1}^{100} Y_i \\ \text{Objetivo: } &P(T \leq 120) = P\left(\frac{T}{100} \leq 1.2\right) \\ &= P(\bar{Y} \leq 1.2) \end{aligned} \]

Aplicación TLC: \(\bar{Y} \approx N(1.5, 0.01)\)

🧮 Cálculo de Probabilidad

\[ \begin{aligned} P(\bar{Y} \leq 1.2) &= P\left(Z \leq \frac{1.2 - 1.5}{1/\sqrt{100}}\right) \\ &= P\left(Z \leq \frac{-0.3}{0.1}\right) \\ &= P(Z \leq -3.0) = 0.0013 \end{aligned} \]

Interpretación: Solo 0.13% de probabilidad de éxito

💡 Recomendaciones Operativas

📉 Análisis de Riesgo

  • Probabilidad extremadamente baja (0.13%)
  • Meta prácticamente imposible
  • Necesita reducir tiempo promedio en 0.3 min
  • Requiere mejora significativa en procesos

🔄 Estrategias de Mejora

  • Aumentar personal en cajas
  • Implementar sistema de filas único
  • Automatizar procesos de pago
  • Capacitar personal en eficiencia
  • Rediseñar layout de tienda

🎓 TEOREMA DEL LÍMITE CENTRAL: APLICACIONES EN CONTEXTOS REALES

Elecciones políticas • Evaluación educativa • Gestión de servicios • Toma de decisiones basada en evidencia estadística

📅 E. FUNDAMENTOS TEÓRICOS - ESTIMACIÓN DE PARÁMETROS POBLACIONALES

📊 ESTIMACIÓN DE PARÁMETROS POBLACIONALES: FUNDAMENTOS Y PROPIEDADES

Teoría de estimación puntual, propiedades de estimadores y aplicaciones en inferencia estadística

🎯 11. FUNDAMENTOS DE LA ESTIMACIÓN POBLACIONAL

“El objetivo de la estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, la mayoría de las investigaciones se conducen en deducir inferencias acerca de ellos. Los procedimientos de la inferencia estadística involucran ya sea la estimación o la Prueba de Hipótesis, las cuales tienen muchas aplicaciones prácticas.”

📈 Parámetros Poblacionales vs. Estadísticos Muestrales

  • Parámetro (θ): Característica numérica fija de la población
  • Estadístico (θ̂): Función de los datos muestrales que estima θ
  • Ejemplos comunes:
    • Media poblacional: μ → Media muestral: Ȳ
    • Varianza poblacional: σ² → Varianza muestral: S²
    • Proporción poblacional: p → Proporción muestral: p̂
  • Objetivo: Inferir θ desconocido usando θ̂ calculado de muestra

🔍 Principio Fundamental de Estimación

“Para que un estimador sea bueno, se desea que la varianza del estimador sea lo más pequeña posible, mientras que la distribución de muestreo debe concentrarse alrededor del valor del parámetro.”

Dualidad: Precisión (varianza baja) + Exactitud (centrado en θ)

📐 11.3. ESTIMADORES INSESGADOS: EL CORAZÓN DE LA INFERENCIA

🎯 Definición Matemática

Se dice que la estadística \(\hat{\theta} = H(X_1, X_2, \dots, X_n)\) es un estimador insesgado del parámetro \(\theta\) si:

\[ E(\hat{\theta}) = \theta \]

Interpretación: En promedio, a largo plazo, el estimador da el valor correcto

📊 Ejemplo Clave: Media Muestral

\[ \text{Sea } Y_1, Y_2, \dots, Y_n \sim \text{i.i.d. con } E(Y_i) = \mu \\ \text{Estimador: } \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \\ E(\bar{Y}) = E\left(\frac{1}{n} \sum_{i=1}^n Y_i\right) = \frac{1}{n} \sum_{i=1}^n E(Y_i) = \frac{1}{n} \cdot n\mu = \mu \]

Conclusión: Ȳ es estimador insesgado de μ

🎭 Sesgo vs. Insesgamiento

Estimador Insesgado

  • \(E(\hat{\theta}) = \theta\)
  • Centrado en valor real
  • Precisión sistemática
  • Ejemplo: Ȳ para μ

Estimador Sesgado

  • \(E(\hat{\theta}) \neq \theta\)
  • Sistemáticamente alto/bajo
  • Error sistemático
  • Ejemplo: S*² para σ²

📋 Tabla de Estimadores Insesgados Comunes

Parámetro θ Estimador θ̂ \(E(θ̂)\) \(V(θ̂)\)
Media μ \(\bar{Y}\) μ \(\frac{σ²}{n}\)
Proporción p \(\hat{p} = Y/n\) p \(\frac{pq}{n}\)
Diferencia μ₁-μ₂ \(\bar{Y}_1 - \bar{Y}_2\) μ₁-μ₂ \(\frac{σ₁²}{n₁} + \frac{σ₂²}{n₂}\)
Diferencia p₁-p₂ \(\hat{p}_1 - \hat{p}_2\) p₁-p₂ \(\frac{p₁q₁}{n₁} + \frac{p₂q₂}{n₂}\)

🔍 11.5. DEMOSTRACIÓN CRÍTICA: VARIANZA SESGADA VS INSESGADA

📊 El Problema Fundamental de la Varianza

Contexto: ¿Por qué usamos \((n-1)\) en lugar de \(n\) en el denominador de la varianza muestral? Esta demostración explica una de las decisiones más importantes en estadística inferencial.

Varianza Sesgada: S*²

\[ S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2 \\ E(S^{*2}) = \frac{(n-1)\sigma^2}{n} \]

Propiedades:

  • Sesgo: \(\text{Sesgo} = E(S^{*2}) - \sigma^2 = -\frac{\sigma^2}{n}\)
  • Dirección: Subestima sistemáticamente σ²
  • Magnitud: Error relativo: \(\frac{1}{n}\) del valor real

Varianza Insesgada: S²

\[ S^{2} = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2 \\ E(S^{2}) = \sigma^2 \]

Propiedades:

  • Sesgo: \(\text{Sesgo} = 0\) (exactamente insesgado)
  • Precisión: En promedio da el valor correcto
  • Corrección: Factor \(n/(n-1)\) ajusta por pérdida de un grado de libertad

📈 Interpretación Gráfica del Sesgo

🎯 Por Qué Ocurre el Sesgo

  • Pérdida de libertad: Usar Ȳ (estimado) en lugar de μ (desconocido)
  • Restricción: \(\sum (Y_i - \bar{Y}) = 0\) reduce variabilidad
  • Intuición: Muestra “se ajusta” a sus propios datos
  • Corrección Bessel: Factor \((n-1)\) compensa esta pérdida

📊 Implicaciones Prácticas

  • Muestras pequeñas: Sesgo más pronunciado (ej: n=5 → 20% subestimación)
  • Muestras grandes: Diferencia mínima (n=100 → 1% diferencia)
  • Estándar académico: Siempre usar S² en investigación
  • Software estadístico: Todos usan fórmula con (n-1) por defecto

Aqui lq prueba - Estimadores Insesgados y Sesgados

Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria con \(E(Y_i) = \mu\) y \(V(Y_i) = \sigma^2\). Demuestre que:

  1. \(S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es un estimador sesgado para \(\sigma^2\).
  2. \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es un estimador insesgado para \(\sigma^2\).

Solución:

  1. Paso 1: Expresamos \((Y_i - \bar{Y})^2\) como: \[ (Y_i - \bar{Y})^2 = Y_i^2 - 2Y_i \bar{Y} + \bar{Y}^2 \]

  2. Paso 2: Sumamos sobre todas las observaciones: \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 = \sum_{i=1}^n Y_i^2 - 2n \bar{Y}^2 + n \bar{Y}^2 = \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \]

  3. Paso 3: Calculamos la esperanza: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = E\left( \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \right) = \sum_{i=1}^n E(Y_i^2) - n E(\bar{Y}^2) \]

  4. Paso 4: Recordamos que: \[ E(Y_i^2) = \sigma^2 + \mu^2 \quad \text{y} \quad E(\bar{Y}^2) = \frac{\sigma^2}{n} + \mu^2 \]

  5. Paso 5: Sustituimos: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = (n-1)\sigma^2 \]

  6. Paso 6: Por tanto: \[ E(S^{*2}) = \frac{1}{n} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \frac{(n-1)\sigma^2}{n} \] Esto muestra que \(S^{*2}\) es sesgado.

  7. Paso 7: Para \(S^2\): \[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \sigma^2 \] Por tanto, \(S^2\) es insesgado.

📈 11.6. CONSISTENCIA: CONVERGENCIA A LA VERDAD

🔄 Propiedad de Consistencia

“Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece el tamaño de la muestra y la información se vuelve más completa. La distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del parámetro θ.”

\[ \lim_{n \to \infty} \hat{\theta} = \theta \quad \text{o equivalentemente} \quad \lim_{n \to \infty} V(\hat{\theta}) = 0 \]

📊 Ejemplo: Media Muestral

\[ \text{Para } \bar{Y} \text{ como estimador de } \mu: \\ V(\bar{Y}) = \frac{\sigma^2}{n} \\ \lim_{n \to \infty} V(\bar{Y}) = \lim_{n \to \infty} \frac{\sigma^2}{n} = 0 \]

Interpretación: A mayor n, menor varianza → mayor precisión

🎯 Implicaciones Prácticas

  • Diseño de estudios: Muestras más grandes → estimaciones más confiables
  • Ley de rendimientos decrecientes: Mejoras marginales decrecen con n
  • Criterio práctico: n suficiente para V(θ̂) aceptable
  • Relación costo-beneficio: Balance entre precisión y recursos

11.7. EFICIENCIA: OPTIMIZANDO LA PRECISIÓN

📐 Definición de Eficiencia Relativa

Sean \(\hat{\theta}_1\) y \(\hat{\theta}_2\) dos estimadores insesgados de θ. Se dice que \(\hat{\theta}_1\) es más eficiente que \(\hat{\theta}_2\) si:

\[ V(\hat{\theta}_1) \leq V(\hat{\theta}_2) \quad \text{y} \quad e = \frac{V(\hat{\theta}_1)}{V(\hat{\theta}_2)} \]

Donde \(e\) es la eficiencia relativa (0 ≤ e ≤ 1). Valores cercanos a 0 indican mayor eficiencia.

📊 Ejemplo: Media vs. Mediana

Para población normal:

  • Estimador 1 (Ȳ): \(V(Ȳ) = \frac{\sigma^2}{n}\)
  • Estimador 2 (Mediana): \(V(\text{Med}) \approx \frac{\pi}{2} \cdot \frac{\sigma^2}{n}\)
  • Eficiencia relativa: \(e = \frac{V(Ȳ)}{V(\text{Med})} \approx \frac{2}{\pi} \approx 0.637\)

Conclusión: La media es ~64% más eficiente que la mediana para distribuciones normales

🎯 Selección de Estimadores

  • Eficiencia asintótica: Comparación cuando n → ∞
  • Cota de Cramér-Rao: Límite inferior teórico para varianza
  • Estimador eficiente: Alcanza la cota de Cramér-Rao
  • MLE (Maximum Likelihood): Generalmente eficiente asintóticamente
  • Robustez vs. Eficiencia: Trade-off en presencia de outliers

🗳️ 11.9. EJEMPLO APLICADO: ENCUESTAS ELECTORALES

🏛️ Caso Real: Campaña del Candidato Gómez

Contexto: Encuesta de n = 1000 votantes muestra 560 a favor del candidato Gómez. Estimar la proporción poblacional p con límite de error.

📊 Estimación Puntual

\[ \text{Datos: } n = 1000, \quad Y = 560 \\ \hat{p} = \frac{Y}{n} = \frac{560}{1000} = 0.56 \\ E(\hat{p}) = p \quad (\text{insesgado}) \\ V(\hat{p}) = \frac{pq}{n} \]

Interpretación: Estimamos que 56% de votantes favorece a Gómez

🎯 Límite de Error con 95% Confianza

\[ \text{Error: } b = 2\sigma_{\hat{p}} = 2\sqrt{\frac{pq}{n}} \\ \text{Usando } \hat{p} \approx p: \\ b \approx 2\sqrt{\frac{(0.56)(0.44)}{1000}} = 2\sqrt{0.0002464} \\ = 2 \times 0.0157 = 0.0314 \approx 0.03 \]

Interpretación: Error máximo ≈ ±3% con 95% confianza

📊 F. PROBLEMA DE APLICACIÓN PRÁCTICA - SELECCIÓN DE MUESTRAS EN INVESTIGACIÓN CRIMINOLÓGICA

🏛️ PROBLEMA: DISEÑO DE INVESTIGACIÓN CON MUESTREO IRRESTRICTO ALEATORIO

Implementación de técnicas de muestreo para estudios estadísticos en criminología

📝 CONTEXTO DE INVESTIGACIÓN

“Un investigador criminológico necesita analizar la relación entre características antropométricas y patrones delictivos utilizando el dataset crimtab de R, que contiene 924 registros históricos. Debe seleccionar una muestra representativa de 30 casos utilizando diferentes métodos de muestreo y verificar la representatividad de cada muestra.”

A

MIA con R Base

B

dplyr sin reemplazo

C

Muestreo ponderado

D

Muestreo proporcional

E

Todas las anteriores

💻 IMPLEMENTACIÓN Y ANÁLISIS PASO A PASO

📊 Paso 1: Exploración del dataset crimtab

Análisis del dataset: • Total de registros: 924 casos históricos • Variables disponibles: Altura, perímetro torácico, frecuencia • Tipo de datos: Características antropométricas de individuos • Contexto histórico: Dataset clásico en estadística para demostración

El dataset crimtab es un conjunto de datos histórico que contiene medidas antropométricas de individuos, ampliamente utilizado en la enseñanza de técnicas estadísticas por su estructura clara y tamaño manejable.

🎯 Paso 2: Muestreo Irrestricto Aleatorio con R Base

Procedimiento MIA: • Configurar semilla para reproducibilidad • Especificar tamaño muestral: n = 30 casos • Seleccionar índices aleatorios sin reemplazo • Extraer observaciones correspondientes • Verificar representatividad de la muestra

Cada elemento de la población (924 casos) tiene igual probabilidad de ser seleccionado: 30/924 ≈ 3.25%. El muestreo sin reemplazo garantiza que no se repitan casos, asegurando independencia entre observaciones.

📦 Paso 3: Muestreo con dplyr - Método elegante

Ventajas del enfoque dplyr: • Sintaxis intuitiva y concisa • Integración perfecta con el operador pipe (%>%) • Funciones especializadas: sample_n() y sample_frac() • Facilidad para combinar con otras operaciones de manipulación • Mejor legibilidad del código

⚖️ Paso 4: Muestreo ponderado según frecuencia

Características del muestreo ponderado: • La variable “Freq” indica frecuencia de combinaciones idénticas • Combinaciones más comunes tienen mayor probabilidad • Útil para estudiar patrones prevalentes • Permite análisis de subgrupos con diferente representación • Aplicación en estudios de características típicas

En crimtab, la columna “Freq” representa cuántos individuos tienen combinaciones idénticas de altura y perímetro torácico. Este tipo de muestreo es particularmente útil cuando se desea estudiar características que aparecen con mayor frecuencia en la población.

📐 Paso 5: Muestreo por proporción (5% de la población)

Ventajas del muestreo proporcional: • Mantiene proporción constante respecto a la población • Adaptable a cambios en el tamaño poblacional • Ideal para estudios longitudinales • Permite comparaciones consistentes en el tiempo • Fácil implementación con sample_frac()

El muestreo proporcional es especialmente útil en investigaciones que se repiten periódicamente o cuando el tamaño de la población objetivo varía significativamente. Garantiza que la muestra mantenga una relación constante con la población total.

🔍 Paso 6: Verificación de representatividad

Métodos de verificación: • Comparación de medias y desviaciones estándar • Análisis de distribuciones por percentiles • Pruebas de hipótesis de igualdad de medias • Inspección visual de histogramas • Cálculo de diferencias relativas • Evaluación de sesgos potenciales

📈 Paso 7: Visualización comparativa de métodos

Técnicas de visualización: • Histogramas comparativos de diferentes muestras • Gráficos de densidad superpuestos • Diagramas de caja para comparar distribuciones • Gráficos Q-Q para evaluar normalidad • Visualización de intervalos de confianza • Representación de diferencias entre muestras

Paso 8: Análisis de resultados y recomendaciones

Evaluación comparativa: • Comparación de estadísticos descriptivos • Análisis de diferencias entre métodos • Identificación del método más representativo • Consideración de objetivos de investigación • Evaluación de ventajas y limitaciones • Recomendaciones según contexto

📊 Paso 9: Conclusión y aplicación práctica

Resultados obtenidos:
1. MIA R Base: Enfoque fundamental con control total sobre el proceso de selección 2. dplyr sample_n: Método moderno con sintaxis elegante y alta legibilidad 3. Muestreo ponderado: Técnica especializada que considera frecuencias diferenciales 4. Muestreo proporcional: Enfoque adaptable para estudios longitudinales
Recomendación para investigación criminológica:
Estudios exploratorios: Muestreo simple por simplicidad
Datos con patrones repetidos: Muestreo ponderado para análisis de frecuencias
Estudios longitudinales: Muestreo proporcional para consistencia temporal
Máximo control: Método base para validación de procesos

Respuesta correcta:
Todas las anteriores

Opción E

Cada método tiene aplicaciones específicas según el contexto de investigación

Observación clave: En investigación criminológica, la selección del método de muestreo depende críticamente de los objetivos específicos del estudio. Para análisis exploratorio de relaciones entre variables, el Muestreo Irrestricto Aleatorio simple es generalmente adecuado. Si se buscan patrones de combinaciones específicas o características prevalentes, el muestreo ponderado es preferible. Para monitoreo continuo o estudios comparativos en el tiempo, el muestreo proporcional mantiene consistencia metodológica. Por lo tanto, todos los métodos presentados son válidos y aplicables en diferentes contextos de investigación criminológica, siendo la elección dependiente de las preguntas de investigación específicas.

📚 CONCEPTOS ESTADÍSTICOS APLICADOS

🎲 Muestreo Irrestricto Aleatorio

  • Cada elemento de la población tiene igual probabilidad de selección
  • Muestreo sin reemplazo garantiza elementos únicos en la muestra
  • Muestreo con reemplazo permite posibles repeticiones
  • Base fundamental para inferencia estadística válida
  • Garantiza representatividad cuando la población es homogénea

📦 Funciones para Muestreo

  • Función sample(): Método base para selección aleatoria de índices
  • Función sample_n(): Selección de tamaño fijo en el entorno dplyr
  • Función sample_frac(): Selección proporcional de la población
  • Función set.seed(): Garantiza reproducibilidad de resultados
  • Parámetro weight: Permite muestreo con probabilidades desiguales

⚖️ Muestreo Ponderado

  • Asigna probabilidades desiguales de selección a diferentes elementos
  • Útil para sobremuestrear subgrupos de interés específico
  • Considera frecuencias diferenciales en datos agregados
  • Implementado mediante el parámetro weight en funciones dplyr
  • Permite análisis focalizado en características particulares

🎯 RESUMEN Y RECOMENDACIONES PRÁCTICAS

📊

Resumen de técnicas implementadas

  1. Muestreo Irrestricto Aleatorio con R Base: Enfoque fundamental utilizando la función sample() para selección aleatoria de índices con o sin reemplazo
  2. Muestreo con dplyr mediante sample_n(): Método moderno que ofrece sintaxis elegante e integración perfecta con operaciones de manipulación de datos
  3. Muestreo ponderado con weight: Técnica especializada que considera frecuencias diferenciales para análisis focalizado
  4. Muestreo proporcional con sample_frac(): Enfoque adaptable que mantiene proporción constante respecto a la población total
  5. Verificación de representatividad: Comparación sistemática de estadísticos descriptivos entre muestra y población

Mejores prácticas en muestreo:

Reproducibilidad: Siempre establecer semilla aleatoria para garantizar replicabilidad
Documentación: Registrar detalladamente el método de muestreo utilizado
Verificación: Comparar estadísticos muestrales con parámetros poblacionales
Selección contextual: Elegir método según objetivos específicos de investigación
Validación: Evaluar representatividad mediante múltiples indicadores
Transparencia: Reportar completamente el proceso de selección muestral

Aplicación criminológica específica:

Dataset histórico crimtab con 924 registros
Muestra representativa de 30 casos
Análisis de relaciones antropométricas
Estudio de características físicas
Investigación de patrones delictivos
Validación de hipótesis criminológicas

Conclusión clave: Este ejercicio demuestra la aplicación práctica de diferentes técnicas de muestreo en investigación criminológica. Cada método (Muestreo Irrestricto Aleatorio con R Base, dplyr, muestreo ponderado, muestreo proporcional) posee características distintivas y aplicaciones específicas según los objetivos del estudio. La verificación rigurosa de representatividad es esencial para garantizar la validez de las inferencias estadísticas. La respuesta correcta es que todas las técnicas presentadas son aplicables en contextos de investigación apropiados, siendo la selección óptima dependiente de las preguntas de investigación específicas y las características del conjunto de datos.

SOLUCIÓN CORRECTA: OPCIÓN E - TODAS LAS ANTERIORES

Muestreo Irrestricto Aleatorio • dplyr • Ponderado • Proporcional

Cada técnica posee aplicaciones específicas en investigación criminológica según los objetivos del estudio

En R

Paso 1: Exploración del dataset crimtab

crime<-data.frame(crimtab)
dim(crime)
## [1] 924   3

Paso 2: Muestreo Irrestricto Aleatorio con R Base

#Selección de la muestra

#Tamaño de la muestra
n<-30

muestramia<- sample(1:nrow(crime),size=n,replace=FALSE)
muestramia
##  [1] 608 539 408 420 492 586 439 197 175  55 335 436 653   4 595 917 551 123 532
## [20] 856 675 153 360 289 183 429 776 275 746 556
  • Asignar los elementos de la muestra al data frame de datos
#Asignar los elementos de la muestra al data frame de datos
crimemuestramia<- crime[muestramia, ]

head(crimemuestramia)

Paso 3: Muestreo con dplyr - Método elegante

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
#Muestra sin reemplazo
crimemuestramia2<- crime %>%
  sample_n(size=n,replace=FALSE)

head(crimemuestramia2)

Paso 4: Muestreo ponderado según frecuencia

#Muestra con pesos
crimemuestramia3<- crime %>%
  sample_n(size=n,weight=Freq)

head(crimemuestramia3)

Paso 5: Muestreo por proporción (5% de la población)

#Muestra con una proporción de casos
crimemuestramia4<- crime %>%
  sample_frac(0.05)

head(crimemuestramia4);dim(crimemuestramia4)
## [1] 46  3