Taller 4 - Intervalos de Confianza

Problema 1

La gerencia comercial analiza el precio de venta final por unidad de un producto. El precio se distribuye normalmente con \(\sigma^2 = 1000\) (pesos)². Muestra de \(n = 12\) ventas con \(\bar{x} = 3250\) pesos.

## a. IC 95%: [ 3232.108 , 3267.892 ]

##    Ancho: 35.7839

## b. IC 90%: [ 3234.985 , 3265.015 ] - Ancho: 30.0308

##    IC 95%: [ 3232.108 , 3267.892 ] - Ancho: 35.7839

##    IC 99%: [ 3226.486 , 3273.514 ] - Ancho: 47.028

##    => A mayor nivel de confianza, mayor ancho del intervalo.

## c. Tamaño de muestra requerido (error < 15, confianza 99%): 30

Interpretación: - a. Con el 95% de confianza, el precio promedio de venta se ubica entre 3232.11 y 3267.89 pesos. - b. Al aumentar el nivel de confianza el intervalo se amplía: para estar más seguros, sacrificamos precisión. - c. Se necesitan al menos 30 ventas en la muestra para estimar el precio con un error menor a 15 pesos al 99% de confianza.

Problema 2

Muestra de 6 paquetes de margarina dietética. Niveles de ácido graso poliinsaturado (%): 16.8, 17.2, 17.4, 16.9, 16.5, 17.1.

## a. Prueba Shapiro-Wilk:

##    W = 0.9878 | p-value = 0.9831

##    => No se rechaza H0: los datos provienen de una distribucion normal (p > 0.05)

## b. IC 99% para la media:

##    Media muestral: 16.9833

##    IC 99%: [ 16.4585 , 17.5082 ]

Interpretación: - a. El p-value de Shapiro-Wilk es 0.9831 > 0.05, por lo que hay evidencia de que el nivel de ácido graso se distribuye normalmente. - b. Con el 99% de confianza, el nivel promedio de ácido graso poliinsaturado está entre 16.4585% y 17.5082%. Como \(\sigma\) es desconocida, se utiliza la distribución \(t\) con \(n-1 = 5\) grados de libertad.

Problema 3

Red de 51 puntos comerciales. Desviación estándar muestral del porcentaje de conversión de leads: \(s = 0.37\).

## a. IC 95% para sigma:

##    Chi2 inferior (2.5%): 32.3574

##    Chi2 superior (97.5%): 71.4202

##    IC 95% para sigma^2: [ 0.0958 , 0.2115 ]

##    IC 95% para sigma:   [ 0.3096 , 0.4599 ]

## b. Efecto de aumentar n (s = 0.37 fija):

##    n = 51 => IC: [ 0.3096 , 0.4599 ] | Ancho: 0.1504 
##    n = 100 => IC: [ 0.3249 , 0.4298 ] | Ancho: 0.105 
##    n = 200 => IC: [ 0.3369 , 0.4103 ] | Ancho: 0.0734 
##    n = 500 => IC: [ 0.3484 , 0.3945 ] | Ancho: 0.0461

##    => Al aumentar n el intervalo se estrecha (mayor precision).

Interpretación: - a. Con el 95% de confianza, la desviación estándar real del porcentaje de conversión se ubica entre 0.3096 y 0.4599. - b. Al aumentar el tamaño muestral manteniendo \(s\) constante, el intervalo se vuelve más angosto porque los cuantiles chi-cuadrado se acercan entre sí en términos relativos.

Problema 4

De 1000 casos de cáncer de pulmón, 823 resultaron en muerte dentro de los 10 años posteriores a su detección.

## a. IC 95% para la tasa de mortalidad:

##    Proporcion muestral p̂ = 0.823

##    IC 95%: [ 0.7981 , 0.8454 ]

## b. Interpretacion:

##    Con el 95% de confianza, la verdadera tasa de mortalidad

##    por cancer de pulmon (a 10 anios) se ubica entre 79.81 % y 84.54 %

Interpretación: - a. La proporción muestral es \(\hat{p} = 0.823\). - b. Con el 95% de confianza, la verdadera tasa de mortalidad por cáncer de pulmón en los 10 años siguientes al diagnóstico se encuentra entre 79.81% y 84.54%. Dada la magnitud del intervalo, se evidencia que este tipo de cáncer tiene una tasa de mortalidad muy alta.

Problema 5

30 unidades de tabaco habano para medir contenido de alquitrán.

## Resumen de los datos:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.397   1.498   1.532   4.080   1.578  78.000

## 
## a. Prueba Shapiro-Wilk (con outlier):

##    W = 0.1827 | p-value = 8.1888e-12

##    => Se rechaza normalidad (p << 0.05). El valor 78.000 es un OUTLIER.

##    Prueba Shapiro-Wilk (sin outlier 78.000):

##    W = 0.9729 | p-value = 0.6417

##    => Sin el outlier, los datos siguen distribucion normal.

## b. IC 99% para la media del contenido de alquitran (datos limpios):

##    n valido: 29

##    Media: 1.5308

##    IC 99%: [ 1.5017 , 1.5599 ]

Interpretación: - a. Con el outlier 78.000 presente, la prueba Shapiro-Wilk rechaza la normalidad contundentemente. Este valor es claramente un error de medición o de registro. Eliminándolo, los datos sí son compatibles con una distribución normal. - b. Trabajando con los 29 datos válidos, el contenido promedio de alquitrán se estima con el 99% de confianza entre 1.5017 y 1.5599.

Problema 6

Tiempo de secado (horas) de una nueva pintura.

## n = 30 | Media = 4.2333 | S = 2.3879

## a. IC 95% para la media del tiempo de secado:

##    IC 95%: [ 3.3417 , 5.125 ]

## b. IC 98% para la varianza del tiempo de secado:

##    S^2 = 5.7023

##    IC 98%: [ 3.3348 , 11.5994 ]

Interpretación: - a. Con el 95% de confianza, el tiempo promedio de secado de la pintura está entre 3.3417 y 5.125 horas. - b. Con el 98% de confianza, la varianza real del tiempo de secado se ubica entre 3.3348 y 11.5994 horas². La amplitud del intervalo refleja la alta dispersión observada en los datos.

Problema 7

Servicio al cliente quiere estimar el tiempo promedio de resolución. \(\sigma = 40\) segundos. IC 95% dentro de 15 segundos de la media real.

## z_{0.025} = 1.96

## n requerido = ceiling(( 1.96 * 40 / 15 )^2)

## n requerido = 28

Interpretación: Se necesita una muestra de al menos 28 solicitudes para que el intervalo de confianza del 95% esté dentro de 15 segundos de la media real del tiempo de resolución.

Problema 8

Comparación del puntaje de respuesta comercial entre campaña estándar y campaña digital.

## Campaña estándar - Media: 443.3333 | SD: 14.2786

## Campaña digital  - Media: 451.4167 | SD: 14.939

## Prueba F para igualdad de varianzas:

##    p-value = 0.8835

##    Conclusion: varianzas iguales

## a. IC 95% para la diferencia de medias (estandar - digital):

##    Diferencia de medias: -8.0833

##    IC 95%: [ -20.4551 , 4.2885 ]

## b. Conclusion:

##    El IC incluye el 0 -> NO hay diferencia estadisticamente significativa entre campanas.

Interpretación: - a. El IC del 95% para \(\mu_{estándar} - \mu_{digital}\) es [-20.4551, 4.2885]. - b. Como el intervalo incluye el 0, no hay evidencia de diferencia real entre las campañas. La campaña digital presenta mayor puntaje promedio.

Problema 9

De 87 estaciones de gasolina, 13 tenían al menos un tanque subterráneo con fuga.

## a. IC 95% para la proporcion de estaciones con fugas:

##    p̂ = 0.1494

##    IC 95%: [ 0.0895 , 0.239 ]

## b. Tamaño de muestra requerido:

##    Con informacion previa (p̂ = 0.1494 ): n = 543

##    Sin informacion previa (p = 0.5): n = 1068

##    Nota sobre poblacion finita:

##    Si la poblacion total N es conocida, se aplica factor de correccion:

##    n_ajustado = n / (1 + (n-1)/N)

##    Solo aplica si n/N > 0.05 (fraccion de muestreo > 5%)

Interpretación: - a. Con el 95% de confianza, la verdadera proporción de estaciones con fugas está entre 8.95% y 23.9%. - b. Usando la información previa (\(\hat{p}\) conocido), se requieren 543 estaciones. Sin información previa, el caso más conservador requiere 1068. El ajuste por población finita aplica solo si el total de estaciones en el país es conocido y \(n/N > 5\%\).

Problema 10

Rendimiento mensual (%) de 7 portafolios. IC 95% por el método Bootstrap (k = 1000 muestras).

## Media muestral original: 5.5343

## Numero de muestras bootstrap: k = 1000

## Metodo 1 - Percentiles directos:

##    P_2.5  = 4.7484

##    P_97.5 = 6.5086

##    IC 95%: [ 4.7484 , 6.5086 ]

## Metodo 2 - Bootstrap basico (reflexion):

##    2*x̄ - P_97.5 = 4.5599

##    2*x̄ - P_2.5  = 6.3202

##    IC 95%: [ 4.5599 , 6.3202 ]

## Comparacion:

##    Metodo 1 - Ancho: 1.7603

##    Metodo 2 - Ancho: 1.7603

Interpretación: - Método 1 (percentiles directos): El IC del 95% para el rendimiento mensual promedio es [4.7484%, 6.5086%]. - Método 2 (bootstrap básico): El IC del 95% es [4.5599%, 6.3202%]. - Ambos métodos producen intervalos similares. El Método 2 es ligeramente más robusto porque corrige el posible sesgo de la distribución bootstrap respecto a la media original.