Se realizó una aplicación con Shiny con base a los ejercicios realizados en Clase. Espero sea de su Agrado Profe, Adjunto el link de descarga.
La estadística es una herramienta fundamental en la toma de decisiones y la investigación en diversos campos. A lo largo de este taller, hemos explorado conceptos clave y aplicaciones prácticas.
En el ámbito de la estadística aplicada, el análisis de datos y la evaluación de hipótesis son fundamentales para obtener conclusiones precisas y tomar decisiones informadas. Este informe explora problemas estadísticos que implican el análisis de medias y varianzas en contextos diversos como tiempos de viaje, calificaciones, estaturas y resistencias a la tracción. Cada ejercicio presenta un trabajo específico que requiere el uso de herramientas estadísticas para calcular probabilidades, construir intervalos de confianza y realizar pruebas de hipótesis. El objetivo es demostrar cómo aplicar conceptos estadísticos para interpretar datos y validar suposiciones en situaciones reales.
Aplicar y evaluar métodos estadísticos para analizar datos en diferentes situaciones, realizando cálculos de probabilidades, construyendo intervalos de confianza y llevando a cabo pruebas de hipótesis para determinar la validez de ciertas afirmaciones sobre las poblaciones estudiadas.
Realizar cálculos de probabilidad utilizando distribuciones muestrales.
Calcular la probabilidad entre las medias muestrales de dos poblaciones.
Evaluar la validez de una varianza conocida en función de los resultados obtenidos de una muestra reciente, comparando la varianza muestral con la varianza poblacional.
Construir un intervalo de confianza, analizando el error estimado con un nivel de confianza específico para proporcionar una estimación precisa del parámetro poblacional y asumiendo una distribución normal, para realizar estimaciones de las dimensiones de los componentes y comunicar resultados.
Definición de variables:
X: Tiempo promedio del viaje en minutos. mu: Media poblacional del tiempo del viaje (dado como 28 minutos). sigma: Desviación estándar poblacional del tiempo del viaje (dado como 5 minutos). n: Número de viajes (en este caso, 40).
Tipo de probabilidad: Estamos interesados en la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos. Esto se refiere a una probabilidad de cola derecha (mayor que), por lo que utilizaremos la distribución normal.
# Instalar y cargar ggplot2 si no está ya instalado
# install.packages("ggplot2")
library(ggplot2)
# Datos
mu <- 28
sigma <- 5
n <- 40
X <- 30
# Cálculo del z-score
z_obs <- (X - mu) / (sigma / sqrt(n))
# Cálculo de la probabilidad
probabilidad <- 1 - pnorm(z_obs)
# Resultado
cat("La probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos es aproximadamente", round(probabilidad, 4), "\n")
La probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos es aproximadamente 0.0057
# Crear un data frame para ggplot
data <- data.frame(
x = seq(mu - 4 * sigma / sqrt(n), mu + 4 * sigma / sqrt(n), length.out = 100)
)
data$y <- dnorm(data$x, mean = mu, sd = sigma / sqrt(n))
# Crear el gráfico con ggplot2
ggplot(data, aes(x = x, y = y)) +
geom_line(color = "blue", linewidth = 1) + # Línea de la densidad de probabilidad
geom_ribbon(data = subset(data, x > X), aes(ymin = 0, ymax = y), fill = "green", alpha = 0.5) + # Área sombreada
geom_vline(xintercept = X, color = "red", linetype = "dashed", linewidth = 1) + # Línea vertical en X
labs(
title = "Distribución Normal del Tiempo Promedio del Viaje",
x = "Tiempo Promedio del Viaje (minutos)",
y = "Densidad de Probabilidad"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5),
axis.title = element_text(size = 12),
axis.text = element_text(size = 10)
)
# Datos
media1 <- 80
media2 <- 75
desviacion1 <- 5
desviacion2 <- 3
n1 <- 25
n2 <- 36
diferencia_minima <- 3.4
diferencia_maxima <- 5.9
# Diferencia entre medias muestrales
diferencia <- media1 - media2
# Desviación estándar de la diferencia
sigma_d <- sqrt((desviacion1^2 / n1) + (desviacion2^2 / n2))
# Puntuaciones Z
z_score_min <- (diferencia_minima - diferencia) / sigma_d
z_score_max <- (diferencia_maxima - diferencia) / sigma_d
# Probabilidad
probabilidad <- pnorm(z_score_max) - pnorm(z_score_min)
# Resultado
cat("La probabilidad de que la media muestral calculada de las 25 mediciones exceda la media muestral calculada de las 36 mediciones por lo menos 3.4 pero menos de 5.9 es aproximadamente", round(probabilidad, 4), "\n")
## La probabilidad de que la media muestral calculada de las 25 mediciones exceda la media muestral calculada de las 36 mediciones por lo menos 3.4 pero menos de 5.9 es aproximadamente 0.7134
# Graficar la distribución normal
# Crear un rango de valores x
x <- seq(diferencia - 4 * sigma_d, diferencia + 4 * sigma_d, length.out = 100)
# Calcular la densidad de probabilidad
y <- dnorm(x, mean = diferencia, sd = sigma_d)
# Crear el gráfico
plot(x, y, type = "l", lwd = 2, ylab = "Densidad de Probabilidad", xlab = "Diferencia de Medias Muestrales",
main = "Distribución Normal de la Diferencia entre Medias Muestrales")
# Sombrear el área de interés
polygon(c(diferencia_minima, x[x > diferencia_minima & x < diferencia_maxima], diferencia_maxima),
c(0, y[x > diferencia_minima & x < diferencia_maxima], 0), col = "green", border = NA)
# Agregar líneas verticales en diferencia_minima y diferencia_maxima
abline(v = diferencia_minima, col = "red", lwd = 2, lty = 2)
abline(v = diferencia_maxima, col = "red", lwd = 2, lty = 2)
# Datos
sigma_sq <- 8
n <- 20
sample_variance <- 20
# Estadística de prueba Chi-Cuadrado
chi_squared_statistic <- (n - 1) * sample_variance / sigma_sq
# Valores críticos para una prueba bilateral al 5% de significancia
alpha <- 0.05
critical_value_low <- qchisq(alpha / 2, df = n - 1)
critical_value_high <- qchisq(1 - alpha / 2, df = n - 1)
# Comparar el estadístico de prueba con los valores críticos
cat("Estadístico de prueba Chi-Cuadrado:", round(chi_squared_statistic, 2), "\n")
Estadístico de prueba Chi-Cuadrado: 47.5
cat("Valor crítico bajo:", round(critical_value_low, 2), "\n")
Valor crítico bajo: 8.91
cat("Valor crítico alto:", round(critical_value_high, 2), "\n")
Valor crítico alto: 32.85
if (chi_squared_statistic < critical_value_low || chi_squared_statistic > critical_value_high) {
cat("Rechazamos la hipótesis nula. La varianza poblacional ha cambiado.\n")
} else {
cat("No rechazamos la hipótesis nula. La varianza poblacional parece ser 8.\n")
}
Rechazamos la hipótesis nula. La varianza poblacional ha cambiado.
# Datos
media_muestra <- 174.5
desviacion_estandar <- 6.9
n <- 50
nivel_confianza <- 0.98
# Valor crítico Z para un nivel de confianza del 98%
valor_critico <- qnorm((1 + nivel_confianza) / 2)
# Error estándar
error_estandar <- desviacion_estandar / sqrt(n)
# Intervalo de confianza
intervalo_inferior <- media_muestra - valor_critico * error_estandar
intervalo_superior <- media_muestra + valor_critico * error_estandar
# Tamaño del error estimado
tamanio_error <- (intervalo_superior - intervalo_inferior) / 2
# Resultados
cat("Conclusiones:\n")
Conclusiones:
cat("a) El intervalo de confianza al 98% para la estatura media de todos los estudiantes universitarios es [", round(intervalo_inferior, 2), ",", round(intervalo_superior, 2), "] centímetros.\n", sep = "")
a) El intervalo de confianza al 98% para la estatura media de todos los estudiantes universitarios es [172.23,176.77] centímetros.
cat("b) El tamaño del error estimado con un nivel de confianza del 98% es aproximadamente ", round(tamanio_error, 2), " centímetros.\n", sep = "")
b) El tamaño del error estimado con un nivel de confianza del 98% es aproximadamente 2.27 centímetros.
Definición de variables:
x: La media muestral de los diámetros. t: El valor crítico de la distribución t de Student para un nivel de confianza del 99% y los grados de libertad correspondientes. s: La desviación estándar de la muestra. n: El tamaño de la muestra.
# Datos de la muestra
diametros <- c(1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03)
n <- length(diametros)
xbar <- mean(diametros)
s <- sd(diametros)
# Valor crítico t para un nivel de confianza del 99%
t_critical <- qt(0.995, df = n - 1)
# Margen de error
margen_error <- t_critical * (s / sqrt(n))
# Límites del intervalo
limite_inferior <- xbar - margen_error
limite_superior <- xbar + margen_error
# Resultado
cat("Intervalo de confianza del 99% para la media del diámetro:", "\n")
Intervalo de confianza del 99% para la media del diámetro:
## Intervalo de confianza del 99% para la media del diámetro:
cat("Límite inferior:", limite_inferior, "\n")
Límite inferior: 0.9780956
## Límite inferior: 0.9780956
cat("Límite superior:", limite_superior, "\n")
Límite superior: 1.033016
## Límite superior: 1.033016
Definición de variables:
(H_0): Hipótesis nula. En este caso, (H_0) afirma que la edad media poblacional (()) es igual a 25 años.
(H_1): Hipótesis alternativa. (H_1) afirma que la edad media poblacional (()) es diferente de 25 años.
(): Nivel de significancia (dado como 0.05).
Datos proporcionados:
Tamaño de la muestra ((n)): 40 alumnos.
Media muestral (({x})): 22.5 años.
Desviación estándar poblacional (()): 4.5 años.
Fórmula para la prueba de hipótesis:
Usaremos una prueba t de una muestra para comparar la media muestral con la hipótesis nula: [t=(x ‾-μ)/(σ/√n)]
Cálculo del estadístico (t): [t=(22.5-25)/(4.5/√40)]
Cálculo del valor crítico y p-valor:
Usaremos la función t.test en R para obtener el p-valor.
# Datos
n <- 40
xbar <- 22.5
mu <- 25
sigma <- 4.5
# Cálculo del estadístico t
t_statistic <- (xbar - mu) / (sigma / sqrt(n))
# Valor crítico de t para nivel de confianza del 95% (dos colas)
t_critical <- qt(0.975, df = n - 1)
# Resultado
cat("Estadístico t:", t_statistic, "\n")
Estadístico t: -3.513642
## Estadístico t: -3.513642
cat("Valor crítico de t (95%):", t_critical, "\n")
Valor crítico de t (95%): 2.022691
## Valor crítico de t (95%): 2.022691
# Decisión
if (abs(t_statistic) > t_critical) {
cat("Rechazamos la hipótesis nula. La edad promedio es diferente de 25 años.\n")
} else {
cat("No rechazamos la hipótesis nula. No hay suficiente evidencia para afirmar que la edad promedio es diferente de 25 años.\n")
}
Rechazamos la hipótesis nula. La edad promedio es diferente de 25 años.
# Datos
n <- 25
S2 <- 12
sigma2 <- 10
# Cálculo del estadístico chi-cuadrado
chi_square <- ((n - 1) * S2) / sigma2
# Valor crítico chi-cuadrado para nivel de confianza del 95% (unilateral)
chi_critical <- qchisq(0.95, df = n - 1)
# Resultado
cat("Estadístico chi-cuadrado:", chi_square, "\n")
Estadístico chi-cuadrado: 28.8
## Estadístico chi-cuadrado: 28.8
cat("Valor crítico chi-cuadrado (95%):", chi_critical, "\n")
Valor crítico chi-cuadrado (95%): 36.41503
## Valor crítico chi-cuadrado (95%): 36.41503
# Decisión
if (chi_square < chi_critical) {
cat("No rechazamos la hipótesis nula. La varianza de las calificaciones es igual a 10.\n")
} else {
cat("Rechazamos la hipótesis nula. La varianza de las calificaciones es diferente de 10.\n")
}
No rechazamos la hipótesis nula. La varianza de las calificaciones es igual a 10.
## No rechazamos la hipótesis nula. La varianza de las calificaciones es igual a 10.
# Datos del grupo sin encapsulado
grupo_sin_encapsulado <- c(19.8, 12.7, 13.2, 16.9, 10.6, 18.8, 11.1, 14.3, 17.0, 12.5)
# Datos del grupo con encapsulado
grupo_con_encapsulado <- c(24.9, 22.8, 23.6, 22.1, 20.4, 21.6, 21.8, 22.5)
# Prueba de igualdad de varianzas
resultado_prueba <- var.test(x = grupo_sin_encapsulado, y = grupo_con_encapsulado)
# Mostrar resultados
cat("Resultados de la prueba de igualdad de varianzas:\n")
Resultados de la prueba de igualdad de varianzas:
cat("Estadístico F:", resultado_prueba$statistic, "\n")
Estadístico F: 5.657436
cat("P-valor:", resultado_prueba$p.value, "\n")
P-valor: 0.03244971
cat("Intervalo de confianza (95%): [", resultado_prueba$conf.int[1], ",", resultado_prueba$conf.int[2], "]\n")
Intervalo de confianza (95%): [ 1.172959 , 23.74452 ]
# Interpretación
if (resultado_prueba$p.value < 0.05) {
cat("\nConclusión: Rechazamos la hipótesis nula.\n")
cat("Las varianzas no son iguales entre los dos grupos.\n")
} else {
cat("\nConclusión: No hay suficiente evidencia para rechazar la hipótesis nula.\n")
cat("Las varianzas podrían ser iguales entre los dos grupos.\n")
}
Conclusión: Rechazamos la hipótesis nula.
Las varianzas no son iguales entre los dos grupos.
El análisis de la probabilidad de que el tiempo medio de viaje exceda los 30 minutos, utilizando la distribución normal muestral, facilita la planificación efectiva de horarios y recursos. Esta evaluación permite ajustar los tiempos y recursos de manera que se minimicen los retrasos o se optimice el uso de recursos basándose en las probabilidades calculadas.
Determinar la probabilidad de que la diferencia entre las medias muestrales se ubique dentro de un intervalo específico brinda información sobre la variabilidad y precisión de las estimaciones de la media. Este análisis es crucial para comprender la dispersión entre las muestras y realizar comparaciones precisas entre distintos grupos o tratamientos.
Comparar la varianza muestral con una varianza poblacional establecida permite validar o cuestionar la consistencia de la varianza propuesta. Una discrepancia significativa puede indicar que la varianza poblacional establecida no refleja la realidad, lo que podría llevar a una revisión de los criterios de variabilidad en las calificaciones.
El intervalo de confianza del 98% proporciona un rango dentro del cual se espera que se encuentre la media de estaturas de toda la población universitaria. Este análisis ayuda a entender la precisión de la estimación de la media, ofreciendo un margen de error dentro del cual es probable que se ubique el valor verdadero de la media poblacional.
Calcular un intervalo de confianza para la media del diámetro de las piezas metálicas ayuda a determinar si la máquina está produciendo piezas conforme a las especificaciones requeridas. Este intervalo es útil para asegurar la calidad y conformidad del producto manufacturado.
La prueba de hipótesis llevada a cabo para evaluar si la media de la edad de los estudiantes se aparta significativamente del valor esperado de 25 años proporciona evidencia sobre posibles diferencias en la población estudiantil. Un resultado significativo sugiere que la media de la edad puede ser distinta de la esperada, lo que puede tener implicaciones para la planificación y las políticas institucionales.
Comparar las varianzas de resistencia a la tracción entre dos grupos de cables permite evaluar si el encapsulado tiene un impacto notable en la resistencia de los cables. Este análisis proporciona evidencia sobre si las varianzas de las dos poblaciones son significativamente diferentes, lo que puede indicar la efectividad del encapsulado en mejorar la resistencia.
Las pruebas de hipótesis se emplean para evaluar afirmaciones sobre parámetros poblacionales y tomar decisiones basadas en los resultados obtenidos, como el valor p y los intervalos de confianza. Estos resultados ayudan a decidir si se debe rechazar o no una hipótesis nula, facilitando la toma de decisiones fundamentadas en evidencia estadística.
Los intervalos de confianza ofrecen rangos plausibles dentro de los cuales se espera que se encuentre un parámetro poblacional desconocido. Estos intervalos son esenciales para comprender la precisión y fiabilidad de las estimaciones basadas en muestras.
Los conceptos de probabilidad y distribuciones, como la binomial y la normal, son fundamentales para modelar y analizar eventos aleatorios. Estos conceptos permiten calcular probabilidades y realizar inferencias sobre eventos basados en modelos probabilísticos.