TALLER 4. DISTRIBUCIONES MUESTRALES

JOHN JAIRO PRADO - JAVIER ESTEBAN SANTAMARIA OVALLE

Profesor: Jorge Andrés Marulanda Celeita

Programa: Maestría en Estadística Aplicada y Ciencia de Datos

Universidad: Universidad El Bosque

NOTA IMPORTANTE

Se realizó una aplicación con Shiny con base a los ejercicios realizados en Clase. Espero sea de su Agrado Profe, Adjunto el link de descarga.

Link: https://johnky-100.shinyapps.io/Probabilidad4/

1. INTRODUCCION

La estadística es una herramienta fundamental en la toma de decisiones y la investigación en diversos campos. A lo largo de este taller, hemos explorado conceptos clave y aplicaciones prácticas.

En el ámbito de la estadística aplicada, el análisis de datos y la evaluación de hipótesis son fundamentales para obtener conclusiones precisas y tomar decisiones informadas. Este informe explora problemas estadísticos que implican el análisis de medias y varianzas en contextos diversos como tiempos de viaje, calificaciones, estaturas y resistencias a la tracción. Cada ejercicio presenta un trabajo específico que requiere el uso de herramientas estadísticas para calcular probabilidades, construir intervalos de confianza y realizar pruebas de hipótesis. El objetivo es demostrar cómo aplicar conceptos estadísticos para interpretar datos y validar suposiciones en situaciones reales.

2. OBJETIVOS

2.1. General

Aplicar y evaluar métodos estadísticos para analizar datos en diferentes situaciones, realizando cálculos de probabilidades, construyendo intervalos de confianza y llevando a cabo pruebas de hipótesis para determinar la validez de ciertas afirmaciones sobre las poblaciones estudiadas.

2.2. Específicos

  • Realizar cálculos de probabilidad utilizando distribuciones muestrales.

  • Calcular la probabilidad entre las medias muestrales de dos poblaciones.

  • Evaluar la validez de una varianza conocida en función de los resultados obtenidos de una muestra reciente, comparando la varianza muestral con la varianza poblacional.

  • Construir un intervalo de confianza, analizando el error estimado con un nivel de confianza específico para proporcionar una estimación precisa del parámetro poblacional y asumiendo una distribución normal, para realizar estimaciones de las dimensiones de los componentes y comunicar resultados.

3. ELABORACION DEL TALLER

3.1. El viaje en un autobús especial para ir de un campus de una universidad al campus de otra en una ciudad toma, en promedio, 28 minutos, con una desviación estándar de 5 minutos. En cierta semana un autobús hizo el viaje 40 veces. ¿Cuál es la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos?

3.1.1. Solución

Definición de variables:

X: Tiempo promedio del viaje en minutos. mu: Media poblacional del tiempo del viaje (dado como 28 minutos). sigma: Desviación estándar poblacional del tiempo del viaje (dado como 5 minutos). n: Número de viajes (en este caso, 40).

Tipo de probabilidad: Estamos interesados en la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos. Esto se refiere a una probabilidad de cola derecha (mayor que), por lo que utilizaremos la distribución normal.

# Instalar y cargar ggplot2 si no está ya instalado
# install.packages("ggplot2")
library(ggplot2)

# Datos
mu <- 28
sigma <- 5
n <- 40
X <- 30

# Cálculo del z-score
z_obs <- (X - mu) / (sigma / sqrt(n))

# Cálculo de la probabilidad
probabilidad <- 1 - pnorm(z_obs)

# Resultado
cat("La probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos es aproximadamente", round(probabilidad, 4), "\n")
La probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos es aproximadamente 0.0057 
# Crear un data frame para ggplot
data <- data.frame(
  x = seq(mu - 4 * sigma / sqrt(n), mu + 4 * sigma / sqrt(n), length.out = 100)
)
data$y <- dnorm(data$x, mean = mu, sd = sigma / sqrt(n))

# Crear el gráfico con ggplot2
ggplot(data, aes(x = x, y = y)) +
  geom_line(color = "blue", linewidth = 1) +  # Línea de la densidad de probabilidad
  geom_ribbon(data = subset(data, x > X), aes(ymin = 0, ymax = y), fill = "green", alpha = 0.5) +  # Área sombreada
  geom_vline(xintercept = X, color = "red", linetype = "dashed", linewidth = 1) +  # Línea vertical en X
  labs(
    title = "Distribución Normal del Tiempo Promedio del Viaje",
    x = "Tiempo Promedio del Viaje (minutos)",
    y = "Densidad de Probabilidad"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5),
    axis.title = element_text(size = 12),
    axis.text = element_text(size = 10)
  )

3.2. Se toma una muestra aleatoria de tamaño 25 de una población normal que tiene una media de 80 y una desviación estándar de 5. Una segunda muestra aleatoria de tamaño 36 se toma de una población normal diferente que tiene una media de 75 y una desviación estándar de 3. Calcule la probabilidad de que la media muestral calculada de las 25 mediciones exceda la media muestral calculada de las 36 mediciones por lo menos 3.4 pero menos de 5.9.

3.2.1. Solución

# Datos
media1 <- 80
media2 <- 75
desviacion1 <- 5
desviacion2 <- 3
n1 <- 25
n2 <- 36
diferencia_minima <- 3.4
diferencia_maxima <- 5.9

# Diferencia entre medias muestrales
diferencia <- media1 - media2

# Desviación estándar de la diferencia
sigma_d <- sqrt((desviacion1^2 / n1) + (desviacion2^2 / n2))

# Puntuaciones Z
z_score_min <- (diferencia_minima - diferencia) / sigma_d
z_score_max <- (diferencia_maxima - diferencia) / sigma_d

# Probabilidad
probabilidad <- pnorm(z_score_max) - pnorm(z_score_min)

# Resultado
cat("La probabilidad de que la media muestral calculada de las 25 mediciones exceda la media muestral calculada de las 36 mediciones por lo menos 3.4 pero menos de 5.9 es aproximadamente", round(probabilidad, 4), "\n")
## La probabilidad de que la media muestral calculada de las 25 mediciones exceda la media muestral calculada de las 36 mediciones por lo menos 3.4 pero menos de 5.9 es aproximadamente 0.7134
# Graficar la distribución normal
# Crear un rango de valores x
x <- seq(diferencia - 4 * sigma_d, diferencia + 4 * sigma_d, length.out = 100)

# Calcular la densidad de probabilidad
y <- dnorm(x, mean = diferencia, sd = sigma_d)

# Crear el gráfico
plot(x, y, type = "l", lwd = 2, ylab = "Densidad de Probabilidad", xlab = "Diferencia de Medias Muestrales",
     main = "Distribución Normal de la Diferencia entre Medias Muestrales")

# Sombrear el área de interés
polygon(c(diferencia_minima, x[x > diferencia_minima & x < diferencia_maxima], diferencia_maxima), 
        c(0, y[x > diferencia_minima & x < diferencia_maxima], 0), col = "green", border = NA)

# Agregar líneas verticales en diferencia_minima y diferencia_maxima
abline(v = diferencia_minima, col = "red", lwd = 2, lty = 2)
abline(v = diferencia_maxima, col = "red", lwd = 2, lty = 2)

3.3. Las calificaciones de un examen de colocación que se aplicó a estudiantes de primer año de una universidad durante los últimos cinco años tienen una distribución aproximadamente normal con una media 𝜇 = 74 y una varianza 𝜎2 = 8. ¿Seguiría considerando que 𝜎2 = 8 es un valor válido de la varianza si una muestra aleatoria de 20 estudiantes, a los que se les aplica el examen de colocación este año, obtienen un valor de 𝑠2 = 20?

3.3.1. Solución

# Datos
sigma_sq <- 8
n <- 20
sample_variance <- 20

# Estadística de prueba Chi-Cuadrado
chi_squared_statistic <- (n - 1) * sample_variance / sigma_sq

# Valores críticos para una prueba bilateral al 5% de significancia
alpha <- 0.05
critical_value_low <- qchisq(alpha / 2, df = n - 1)
critical_value_high <- qchisq(1 - alpha / 2, df = n - 1)

# Comparar el estadístico de prueba con los valores críticos
cat("Estadístico de prueba Chi-Cuadrado:", round(chi_squared_statistic, 2), "\n")
Estadístico de prueba Chi-Cuadrado: 47.5 
cat("Valor crítico bajo:", round(critical_value_low, 2), "\n")
Valor crítico bajo: 8.91 
cat("Valor crítico alto:", round(critical_value_high, 2), "\n")
Valor crítico alto: 32.85 
if (chi_squared_statistic < critical_value_low || chi_squared_statistic > critical_value_high) {
  cat("Rechazamos la hipótesis nula. La varianza poblacional ha cambiado.\n")
} else {
  cat("No rechazamos la hipótesis nula. La varianza poblacional parece ser 8.\n")
}
Rechazamos la hipótesis nula. La varianza poblacional ha cambiado.

3.4. Las estaturas de una muestra aleatoria de 50 estudiantes universitarios tienen una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros.

  1. Construya un intervalo de confianza del 98% para la estatura media de todos los estudiantes universitarios.
  2. ¿Qué podemos afirmar con una confianza del 98% acerca del posible tamaño de nuestro error, si estimamos que la estatura media de todos los estudiantes universitarios es de 174.5 centímetros?

3.4.1. Solución

# Datos
media_muestra <- 174.5
desviacion_estandar <- 6.9
n <- 50
nivel_confianza <- 0.98

# Valor crítico Z para un nivel de confianza del 98%
valor_critico <- qnorm((1 + nivel_confianza) / 2)

# Error estándar
error_estandar <- desviacion_estandar / sqrt(n)

# Intervalo de confianza
intervalo_inferior <- media_muestra - valor_critico * error_estandar
intervalo_superior <- media_muestra + valor_critico * error_estandar

# Tamaño del error estimado
tamanio_error <- (intervalo_superior - intervalo_inferior) / 2

# Resultados
cat("Conclusiones:\n")
Conclusiones:
cat("a) El intervalo de confianza al 98% para la estatura media de todos los estudiantes universitarios es [", round(intervalo_inferior, 2), ",", round(intervalo_superior, 2), "] centímetros.\n", sep = "")
a) El intervalo de confianza al 98% para la estatura media de todos los estudiantes universitarios es [172.23,176.77] centímetros.
cat("b) El tamaño del error estimado con un nivel de confianza del 98% es aproximadamente ", round(tamanio_error, 2), " centímetros.\n", sep = "")
b) El tamaño del error estimado con un nivel de confianza del 98% es aproximadamente 2.27 centímetros.

3.5. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra de las piezas y los diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03 centímetros. Calcule un intervalo de confianza del 99% para la media del diámetro de las piezas que se manufacturan con esta máquina. Suponga una distribución aproximadamente normal.

3.5.1. Solución

Definición de variables:

x: La media muestral de los diámetros. t: El valor crítico de la distribución t de Student para un nivel de confianza del 99% y los grados de libertad correspondientes. s: La desviación estándar de la muestra. n: El tamaño de la muestra.

# Datos de la muestra
diametros <- c(1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03)
n <- length(diametros)
xbar <- mean(diametros)
s <- sd(diametros)

# Valor crítico t para un nivel de confianza del 99%
t_critical <- qt(0.995, df = n - 1)

# Margen de error
margen_error <- t_critical * (s / sqrt(n))

# Límites del intervalo
limite_inferior <- xbar - margen_error
limite_superior <- xbar + margen_error

# Resultado
cat("Intervalo de confianza del 99% para la media del diámetro:", "\n")
Intervalo de confianza del 99% para la media del diámetro: 
## Intervalo de confianza del 99% para la media del diámetro:
cat("Límite inferior:", limite_inferior, "\n")
Límite inferior: 0.9780956 
## Límite inferior: 0.9780956
cat("Límite superior:", limite_superior, "\n")
Límite superior: 1.033016 
## Límite superior: 1.033016

3.6. Se desea realizar una prueba de hipótesis para la media de la edad poblacional de los estudiantes de la universidad El Bosque y se plantea la hipótesis de que la edad media es diferente a 25 años. Se sabe que la desviación estándar de la edad poblacional es de 4.5 años. Si se toma una muestra de 40 alumnos y se encuentra que el promedio de edad para la muestra es de 22.5 años ¿Esto muestra que la edad promedio es diferente a 25 años? Asuma un nivel de significancia del 5%.

3.6.1. Solución

Definición de variables:

(H_0): Hipótesis nula. En este caso, (H_0) afirma que la edad media poblacional (()) es igual a 25 años.

(H_1): Hipótesis alternativa. (H_1) afirma que la edad media poblacional (()) es diferente de 25 años.

(): Nivel de significancia (dado como 0.05).

Datos proporcionados:

Tamaño de la muestra ((n)): 40 alumnos.

Media muestral (({x})): 22.5 años.

Desviación estándar poblacional (()): 4.5 años.

Fórmula para la prueba de hipótesis:

Usaremos una prueba t de una muestra para comparar la media muestral con la hipótesis nula: [t=(x ‾-μ)/(σ/√n)]

Cálculo del estadístico (t): [t=(22.5-25)/(4.5/√40)]

Cálculo del valor crítico y p-valor:

Usaremos la función t.test en R para obtener el p-valor.

# Datos
n <- 40
xbar <- 22.5
mu <- 25
sigma <- 4.5

# Cálculo del estadístico t
t_statistic <- (xbar - mu) / (sigma / sqrt(n))

# Valor crítico de t para nivel de confianza del 95% (dos colas)
t_critical <- qt(0.975, df = n - 1)

# Resultado
cat("Estadístico t:", t_statistic, "\n")
Estadístico t: -3.513642 
## Estadístico t: -3.513642
cat("Valor crítico de t (95%):", t_critical, "\n")
Valor crítico de t (95%): 2.022691 
## Valor crítico de t (95%): 2.022691
# Decisión
if (abs(t_statistic) > t_critical) {
  cat("Rechazamos la hipótesis nula. La edad promedio es diferente de 25 años.\n")
} else {
  cat("No rechazamos la hipótesis nula. No hay suficiente evidencia para afirmar que la edad promedio es diferente de 25 años.\n")
}
Rechazamos la hipótesis nula. La edad promedio es diferente de 25 años.

3.7. Supongamos que un profesor está interesado en la variabilidad en las notas de los estudiantes en un examen y quiere probar si la varianza de las calificaciones es igual a 10. El profesor toma una muestra de 𝑛 = 25 estudiantes, registra sus calificaciones y calcula la varianza muestral obteniendo 𝑆2 = 12. A partir de este resultado ¿Es válido conjeturar que la varianza de las calificaciones es igual a 10? Suponga que las notas de los estudiantes se distribuyen de forma normal y asuma un nivel de significancia del 5%.

3.7.1. Solución

# Datos
n <- 25
S2 <- 12
sigma2 <- 10

# Cálculo del estadístico chi-cuadrado
chi_square <- ((n - 1) * S2) / sigma2

# Valor crítico chi-cuadrado para nivel de confianza del 95% (unilateral)
chi_critical <- qchisq(0.95, df = n - 1)

# Resultado
cat("Estadístico chi-cuadrado:", chi_square, "\n")
Estadístico chi-cuadrado: 28.8 
## Estadístico chi-cuadrado: 28.8
cat("Valor crítico chi-cuadrado (95%):", chi_critical, "\n")
Valor crítico chi-cuadrado (95%): 36.41503 
## Valor crítico chi-cuadrado (95%): 36.41503
# Decisión
if (chi_square < chi_critical) {
  cat("No rechazamos la hipótesis nula. La varianza de las calificaciones es igual a 10.\n")
} else {
  cat("Rechazamos la hipótesis nula. La varianza de las calificaciones es diferente de 10.\n")
}
No rechazamos la hipótesis nula. La varianza de las calificaciones es igual a 10.
## No rechazamos la hipótesis nula. La varianza de las calificaciones es igual a 10.
  1. Se aplican pruebas a 10 cables conductores soldados a un dispositivo semiconductor con el fin de determinar su resistencia a la tracción. Las pruebas demostraron que para romper la unión se requieren las libras de fuerza que se listan a continuación: 19.8 12.7 13.2 16.9 10.6 18.8 11.1 14.3 17.0 12.5 Otro conjunto de 8 cables conductores que forman un dispositivo se encapsuló y se probó para determinar si el encapsulado aumentaba la resistencia a la tracción. Las pruebas dieron los siguientes resultados: 24.9 22.8 23.6 22.1 20.4 21.6 21.8 22.5 Comente acerca de la evidencia disponible respecto a la igualdad de las dos varianzas de población.
# Datos del grupo sin encapsulado
grupo_sin_encapsulado <- c(19.8, 12.7, 13.2, 16.9, 10.6, 18.8, 11.1, 14.3, 17.0, 12.5)

# Datos del grupo con encapsulado
grupo_con_encapsulado <- c(24.9, 22.8, 23.6, 22.1, 20.4, 21.6, 21.8, 22.5)

# Prueba de igualdad de varianzas
resultado_prueba <- var.test(x = grupo_sin_encapsulado, y = grupo_con_encapsulado)

# Mostrar resultados
cat("Resultados de la prueba de igualdad de varianzas:\n")
Resultados de la prueba de igualdad de varianzas:
cat("Estadístico F:", resultado_prueba$statistic, "\n")
Estadístico F: 5.657436 
cat("P-valor:", resultado_prueba$p.value, "\n")
P-valor: 0.03244971 
cat("Intervalo de confianza (95%): [", resultado_prueba$conf.int[1], ",", resultado_prueba$conf.int[2], "]\n")
Intervalo de confianza (95%): [ 1.172959 , 23.74452 ]
# Interpretación
if (resultado_prueba$p.value < 0.05) {
  cat("\nConclusión: Rechazamos la hipótesis nula.\n")
  cat("Las varianzas no son iguales entre los dos grupos.\n")
} else {
  cat("\nConclusión: No hay suficiente evidencia para rechazar la hipótesis nula.\n")
  cat("Las varianzas podrían ser iguales entre los dos grupos.\n")
}

Conclusión: Rechazamos la hipótesis nula.
Las varianzas no son iguales entre los dos grupos.

4. CONCLUSIONES