set.seed(123) # Para generar datos aleatorios consistentes
estados <- c("Alabama", "Alaska", "Arizona", "Arkansas", "California", "Colorado", "Connecticut",
"Delaware", "Florida", "Georgia", "Hawaii", "Idaho", "Illinois", "Indiana", "Iowa",
"Kansas", "Kentucky", "Louisiana", "Maine", "Maryland", "Massachusetts", "Michigan",
"Minnesota", "Mississippi", "Missouri", "Montana", "Nebraska", "Nevada", "New Hampshire",
"New Jersey", "New Mexico", "New York", "North Carolina", "North Dakota", "Ohio",
"Oklahoma", "Oregon", "Pennsylvania", "Rhode Island", "South Carolina", "South Dakota",
"Tennessee", "Texas", "Utah", "Vermont", "Virginia", "Washington", "West Virginia",
"Wisconsin", "Wyoming")
En EE. UU la seguridad víal presenta grandes fallas debido al consumo de alcohol, ya que eeste es el causante de constante accidentes de transito donde se encuentra involucrado el consumo de alcohol. Conducir bajo un estado de alicoramiento no solo perjudica la salud de la persona, también, se ponen en riesgo otras vidas que al final, no tienen la culpa de la irresponsabilidad de los demás, pero aún así, terminando pagando las consecuencias de sus actos.
En el análisis estadístico que se realizará a lo largo de este proyecto, se estudiarán diferentes variables, que nos van a permitir tener identificar cuales son los estados que presentan un mayor consumo en EE. UU, para poder realizar análisis bivariados, la relación entre el consumo de alcohol y las muertes al volante por el mismo, la correlación entre variables, etc. Se realizarán intervalos de confianza y pruebas de hipótesis para validar los resultados y obtener así, valores más precisos sobre las diferentes problematicas a las que se enfrentan.hist(Datos$`Gallons of Ethanol per Capita`,
col = "#f85a69",
xlab = "Gallons of Ethanol per Cápita",
main = "",
xlim = c(min(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE),
max(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE)))
boxplot(Datos$`Gallons of Ethanol per Capita`,
col = "#f85a69",
horizontal = TRUE,
xlab = "Gallons of Ethanol per Capita",
main = "",
ylim = c(min(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE),
max(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE)))
ggplot(Datos, aes(y = `Gallons of Ethanol per Capita`)) +
geom_boxplot(fill="#78ebe2") +
labs(y = "Gallons of Ethanol per Cápita") +
theme_minimal()
Descripción: El gráfico presenta una distribución más o menos central, en donde la mayoría de los estados se mantienen en un rango de consumo entre los 2 a 3 gallones de etanol, sin embargo, hay presencia de valores atípicos, los cuales están sobre los 4 galones de etanol per cápita, esto nos indica que algunos de los estados estudiados presentan un mayor consumo de etanol en comparación a los otros.
Esto nos permite observar los extremos que se presentan en el consumo de alcohol per cápita, el cual, puede estar ligado a diferentes factores como sociales o incluso, culturales.ggplot(Datos, aes(y = `Driving Fatalities Involving Alcohol (Percentage)`)) +
geom_boxplot(fill="#91ce50") +
labs(y = "Driving Fatalities Involving Alcohol (%)") +
theme_minimal()
Descripción: Este gráfico nos muestra la tasa de muertes relacionadas con el consumo de etanol es alrededor del 25% y 30% en los diferentes estados, sin embargo, hay presencia de un valor atípico mayor al 40% el cual nos indica que uno de los 50 estados de EE. UU presenta un mayor grado de mortalidad en accidentes de transito donde el alcohol se ve involucrado.
La fatalidad de estos accidentes incrementa la inseguridad víal, por lo que se debe tener en cuenta los resultados para poder identifcar el problema principal, como la falta de regularización y así se podrá realizar algo respecto al problema principal.plot(Datos$`Excessive Drinking rate (Percentage)`,Datos$`Driving Fatalities Involving Alcohol (Percentage)`, xlab="Excessive Drinking rate",ylab="Driving Fatalities Involving Alcohol")
Descripción: La gráfica representa la relación entre el consumo de alcohol per cápita y las muertes relacionadas es esencial para comprender la magnitud del problema.
En este diagrama de dispersión se puede observar una correlación moderada entre las variables de muertes al volante relacionadas con el consumo de alcohol al volante y el consumo excesivo del mismo. Se puede evidenciar que hay unos valores más altos, lo que nos indica que, en el caso de esos estados, la tasa de mortalidad de mucho más alta.ggplot(Datos, aes(x = `Gallons of Ethanol per Capita`, y = `Driving Fatalities Involving Alcohol (Percentage)`)) +
geom_point(color = "#1b1521") +
geom_smooth(method = "lm", se = FALSE, color = "#EB1003") +
labs( x = "Gallons of Ethanol per Cápita", y = "Driving Fatalities Involving Alcohol (%)") +
theme_minimal()
Datos$porc = ifelse(Datos$`Excessive Drinking rate (Percentage)` > 15, 1, 0)
boxplot(Datos$`Gallons of Ethanol per Capita` ~ Datos$porc, main = "",
xlab = "Excessive Drinking rate > 15% (1=Yes, 0=No)",
ylab = "Gallons of Ethanol per Capita", col = "#005bc5")
indicadores <- Datos %>%
summarize(
Media_del_Consumo = mean(`Gallons of Ethanol per Capita`, na.rm = TRUE),
Mediana_del_Consumo = median(`Gallons of Ethanol per Capita`, na.rm = TRUE),
Desviacion_Estandar_del_Consumo = sd(`Gallons of Ethanol per Capita`, na.rm = TRUE),
Minimo_del_Consumo = min(`Gallons of Ethanol per Capita`, na.rm = TRUE),
Maximo_del_Consumo = max(`Gallons of Ethanol per Capita`, na.rm = TRUE),
Media_de_Muertes = mean(`Driving Fatalities Involving Alcohol (Percentage)`, na.rm = TRUE),
Mediana_de_Muertes = median(`Driving Fatalities Involving Alcohol (Percentage)`, na.rm = TRUE),
Desviacion_Estandar_de_Muertes = sd(`Driving Fatalities Involving Alcohol (Percentage)`, na.rm = TRUE),
Minimo_de_Muertes = min(`Driving Fatalities Involving Alcohol (Percentage)`, na.rm = TRUE),
Maximo_de_Muertes = max(`Driving Fatalities Involving Alcohol (Percentage)`, na.rm = TRUE)
)
indicadores
library(maps)
library(ggplot2)
library(dplyr)
#colnames(Datos)
Datos$region <- tolower(Datos$`State Name`)
us_map <- map_data("state")
map_data_alcohol <- merge(us_map, Datos, by = "region", all.x = TRUE)
ggplot(map_data_alcohol, aes(x = long, y = lat, group = group, fill = `Gallons of Ethanol per Capita`)) +
geom_polygon(color = "#050000") +
coord_fixed(1.3) +
scale_fill_gradient(low = "#fbb498", high = "#2321b9") +
labs(x = "Longitud", y = "Latitud", main = "", fill = "Gallons of Ethanol per Capita") +
theme_minimal()
Descripción: En este mapa de calor geográfico, se representa visualmente cuales son los estados con mayor consumo de etanol per cápita.
Con un color más intenso se pueden observar los estados donde se presenta mayor consumo de alcohol y con una tonalidad menos intensa, los estados donde se consume en menor proporción, finalmente, los que se mantienen en una tonalidad media son los que están dentro del promedio. Esto nos permite tener una idea más clara sobre cómo se distribuye el consumo de etanol por estado en EE. UU.media_galones <- mean(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE)
desviacion_galones <- sd(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE)
n <- sum(!is.na(Datos$`Gallons of Ethanol per Capita`))
error_estandar <- desviacion_galones / sqrt(n)
valor_critico <- qt(0.975, df = n - 1)
limite_inferior <- media_galones - valor_critico * error_estandar
limite_superior <- media_galones + valor_critico * error_estandar
hist(Datos$`Gallons of Ethanol per Capita`,
xlim = c(0, max(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE)),
col = "#E1BFE6",
main = "",
freq = FALSE,
ylab = "Density",
xlab = "Gallons of Ethanol per Capita")
lines(density(Datos$`Gallons of Ethanol per Capita`, na.rm = TRUE), col = "#EB1003", lty = 2, lwd = 2)
abline(v = limite_inferior, col = "#1509EB", lty = 2, lwd = 2)
abline(v = limite_superior, col = "#1509EB", lty = 2, lwd = 2)
cat("Intervalo de confianza al 95% para el consumo de alcohol per cápita: [",
round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
## Intervalo de confianza al 95% para el consumo de alcohol per cápita: [ 2.38 , 2.71 ]
qqnorm(Datos$`Gallons of Ethanol per Capita`)
qqline(Datos$`Gallons of Ethanol per Capita`, col= "#EB1003", lty=2)
library(knitr)
shapiro_test_result <- shapiro.test(Datos$`Gallons of Ethanol per Capita`)
kable(data.frame(
Estadístico = shapiro_test_result$statistic,
Valor_p = shapiro_test_result$p.value
), caption = "")
| Estadístico | Valor_p | |
|---|---|---|
| W | 0.8937594 | 0.0003009 |
t_test_result <- t.test(Datos$`Gallons of Ethanol per Capita`, mu = 10)
t_test_df <- data.frame(
Estadístico = round(t_test_result$statistic, 3),
Grados_de_libertad = t_test_result$parameter,
Valor_p = round(t_test_result$p.value, 3),
Intervalo_de_confianza = paste0("[", round(t_test_result$conf.int[1], 3), ", ", round(t_test_result$conf.int[2], 3), "]"),
Media_muestral = round(t_test_result$estimate, 3)
)
knitr::kable(t_test_df, caption = "")
| Estadístico | Grados_de_libertad | Valor_p | Intervalo_de_confianza | Media_muestral | |
|---|---|---|---|---|---|
| t | -91.394 | 49 | 0 | [2.378, 2.706] | 2.542 |
proporcion <- mean(Datos$`Driving Fatalities Involving Alcohol (Percentage)` / 100)
n <- length(Datos$`Driving Fatalities Involving Alcohol (Percentage)`)
z <- qnorm(0.975)
error_proporcion <- sqrt((proporcion * (1 - proporcion)) / n)
intervalo_proporcion_inf <- proporcion - z * error_proporcion
intervalo_proporcion_sup <- proporcion + z * error_proporcion
hist(Datos$`Driving Fatalities Involving Alcohol (Percentage)` / 100,
col = "#E1BFE6",
main = "",
xlim = c(0, 1),
freq = FALSE,
ylab = "Density",
xlab = "Driving Fatalities Involving Alcohol (Percentage)")
lines(density(Datos$`Driving Fatalities Involving Alcohol (Percentage)` / 100, na.rm = TRUE),
col = "#EB1003", lty = 2, lwd = 2)
abline(v = intervalo_proporcion_inf, col = "#1509EB", lty = 2, lwd = 2)
abline(v = intervalo_proporcion_sup, col = "#1509EB", lty = 2, lwd = 2)
cat("Intervalo de confianza al 95% para la proporción de muertes por accidentes de tránsito relacionados con el alcohol: [",
round(intervalo_proporcion_inf, 3), ",", round(intervalo_proporcion_sup, 3), "]\n")
## Intervalo de confianza al 95% para la proporción de muertes por accidentes de tránsito relacionados con el alcohol: [ 0.164 , 0.415 ]
qqnorm(Datos$`Driving Fatalities Involving Alcohol (Percentage)`)
qqline(Datos$`Driving Fatalities Involving Alcohol (Percentage)`, col= "#e4211b", lty=2)
library(knitr)
shapiro_test_result <- shapiro.test(Datos$`Driving Fatalities Involving Alcohol (Percentage)`)
kable(data.frame(
Estadístico = shapiro_test_result$statistic,
Valor_p = shapiro_test_result$p.value
), caption = "")
| Estadístico | Valor_p | |
|---|---|---|
| W | 0.9769086 | 0.4301896 |
t_test_result <- t.test(Datos$`Driving Fatalities Involving Alcohol (Percentage)`, mu = 10)
t_test_df <- data.frame(
Estadístico = t_test_result$statistic,
Grados_de_libertad = t_test_result$parameter,
Valor_p = t_test_result$p.value,
Intervalo_de_confianza = paste0("[", round(t_test_result$conf.int[1], 2), ", ", round(t_test_result$conf.int[2], 2), "]"),
Media_muestral = t_test_result$estimate
)
knitr::kable(t_test_df, caption = "")
| Estadístico | Grados_de_libertad | Valor_p | Intervalo_de_confianza | Media_muestral | |
|---|---|---|---|---|---|
| t | 22.61285 | 49 | 0 | [27.25, 30.62] | 28.934 |
1. Intervalo de Confianza para la Proporción de Estados con Consumo de Alcohol Mayor a 2.5 Galones
proporcion_altaconsumo <- mean(Datos$`Gallons of Ethanol per Capita` > 2.5, na.rm = TRUE)
n_altaconsumo <- sum(!is.na(Datos$`Gallons of Ethanol per Capita`))
z <- qnorm(0.975)
error_proporcion_altaconsumo <- sqrt((proporcion_altaconsumo * (1 - proporcion_altaconsumo)) / n_altaconsumo)
intervalo_inf_altaconsumo <- proporcion_altaconsumo - z * error_proporcion_altaconsumo
intervalo_sup_altaconsumo <- proporcion_altaconsumo + z * error_proporcion_altaconsumo
barplot(table(Datos$`Gallons of Ethanol per Capita` > 2.5),
col = c("#c4594b", "#f0b96b"),
main = "",
xlab = "Consumo Alto (más de 2.5 galones)",
ylab = "Número de Estados",
ylim = c(0, max(table(Datos$`Gallons of Ethanol per Capita` > 2.5))))
abline(h = proporcion_altaconsumo, col = "#1509EB", lty = 2, lwd = 2)
abline(h = intervalo_inf_altaconsumo, col = "#1509EB", lty = 2, lwd = 2)
abline(h = intervalo_sup_altaconsumo, col = "#1509EB", lty = 2, lwd = 2)
cat("Intervalo de confianza al 95% para la proporción de estados con consumo de alcohol mayor a 2.5 galones: [",
round(intervalo_inf_altaconsumo, 3), ",", round(intervalo_sup_altaconsumo, 3), "]\n")
## Intervalo de confianza al 95% para la proporción de estados con consumo de alcohol mayor a 2.5 galones: [ 0.302 , 0.578 ]
p0 <- 0.5
z <- (proporcion_altaconsumo - p0) / sqrt(p0 * (1 - p0) / n_altaconsumo)
p_value <- 2 * pnorm(-abs(z))
cat("Valor p de la prueba de hipótesis:", p_value, "\n")
## Valor p de la prueba de hipótesis: 0.3961439
library(knitr)
resultado_t <- t.test(Datos$`Gallons of Ethanol per Capita`, mu = 4)
kable(data.frame(
Estadístico = resultado_t$statistic,
Grados_de_libertad = resultado_t$parameter,
Valor_p = resultado_t$p.value,
"Intervalo de confianza al 95%" = paste0("[", round(resultado_t$conf.int[1], 3), ", ", round(resultado_t$conf.int[2], 3), "]"),
"Media muestral" = mean(Datos$`Gallons of Ethanol per Capita`)
), caption = "")
| Estadístico | Grados_de_libertad | Valor_p | Intervalo.de.confianza.al.95. | Media.muestral | |
|---|---|---|---|---|---|
| t | -17.86509 | 49 | 0 | [2.378, 2.706] | 2.5422 |
En los diferentes análisis realizados a lo largo del proyecto, fue posible observar una clara relación entre el consumo de etanol per cápita en EE. UU. y su tasa de mortalidad en accidentes de tránsito debido al consumo excesivo del mismo. Los hallazgos evidenciaron una variabilidad significativa en el consumo entre los estados, ya que algunos presentaron tasas de consumo mucho más altas. Esto no solo se respalda con los análisis de los gráficos, sino que también concuerda con la visualización geográfica, la cual confirma los diferentes patrones entre estados.
Estos hallazgos son importantes, ya que, al estar respaldados por una serie de diferentes análisis, se pueden comenzar a implementar diversas estrategias para reducir el consumo excesivo de etanol, y así, promover conductas más saludables y conscientes en la población, aunque no se pueda erradicar totalmente, ya que por lo general, siempre habrá un consumo mínimo en alguno de los diferentes estados.
Por otro lado, es importante tener en cuenta que los últimos hallazgos serán cruciales para poder identificar el problema y coemznar a implementar diferentes estrategias de regulación, políticas y campañas, para poder así, aumentar la seguridad víal y que otros países tomen esto como ejemplo para comenzar a implementarlo y así asegurar la seguridad de la población, al menos en su mayoría.