##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
El conjunto de datos murders documenta los asesinatos
por armas de fuego en los Estados Unidos correspondientes al año
2010. La información fue recopilada originalmente por
la Oficina Federal de Investigaciones (FBI) a través de
sus Informes Uniformes de Criminalidad (Uniform Crime Reports -
UCR), junto con datos poblacionales del Censo de los
Estados Unidos de 2010.
De acuerdo con la documentación del paquete, los datos fueron extraídos de reportes públicos (incluyendo Wikipedia) y han sido preprocesados y simplificados por Rafael A. Irizarry. Este procesamiento consistió en la limpieza y estructuración de los datos en un formato tidy (ordenado), facilitando su uso para fines educativos y de análisis estadístico en R, eliminando la complejidad de los archivos originales del FBI.
Citación del autor del paquete: Irizarry, R. A. (2019). Introduction to Data Science: Data Analysis and Prediction Algorithms with R. CRC Press.
| Variable | Descripción |
|---|---|
state |
Nombre oficial del estado de los Estados Unidos. |
abb |
Abreviatura alfabética del estado correspondiente. |
region |
Región geográfica a la que pertenece el estado (Northeast, South, North Central, West). |
population |
Población total del estado registrada en el año 2010. |
total |
Número absoluto de asesinatos por arma de fuego contabilizados. |
# Escriba el código R aquí para cargar su archivo de datos
data("murders")
# Se calcula la tasa de asesinatos por cada 100,000 habitantes para análisis posteriores
murders <- murders %>% mutate(rate = total / population * 100000)
# Escriba el código R aquí para crear su primer gráfico
ggplot(murders, aes(x = population/10^6, y = total, label = abb)) +
geom_point(aes(color = region), size = 3) +
geom_text(nudge_y = 10, size = 3.5) +
labs(title = "Relación entre Población y Total de Asesinatos",
x = "Población (Millones)",
y = "Total de Asesinatos") +
theme_minimal()
En este primer gráfico se plantea una dispersión que relaciona las
variables de población estatal (expresada en millones) con
el número total de asesinatos. La finalidad es identificar
la correlación entre las dimensiones demográficas y delictivas. Como es
de esperarse, se observa una clara tendencia positiva: a mayor tamaño
poblacional, se incrementa de manera generalizada el número absoluto de
asesinatos. Por lo que, la agrupación por colores permite notar que
varios estados de la región Sur presentan cifras elevadas en relación
con su volumen de habitantes.
# Escriba el código R aquí para crear su segundo gráfico
ggplot(murders, aes(x = total)) +
geom_histogram(binwidth = 50, fill = "pink", color = "white") +
labs(title = "Distribución del Total de Asesinatos a Nivel Nacional",
x = "Asesinatos Totales",
y = "Frecuencia (Número de Estados)") +
theme_minimal()
Este histograma describe la distribución de frecuencias de la
variable total de asesinatos. El objetivo es visualizar la
concentración de la violencia a nivel nacional. El hallazgo principal
radica en la fuerte asimetría positiva (sesgo a la derecha) de la
distribución. La abrumadora mayoría de los estados reportan menos de 200
incidentes anuales, agrupándose a la izquierda del gráfico. La cola
extendida hacia la derecha revela la existencia de valores atípicos que
corresponden a estados con gran densidad poblacional, los cuales alteran
el promedio general.
# Escriba el código R aquí para crear su tercer gráfico
ggplot(murders, aes(x = region, y = rate, fill = region)) +
geom_boxplot(alpha = 0.8) +
labs(title = "Dispersión de la Tasa de Asesinatos por Región Geográfica",
x = "Región",
y = "Tasa de Asesinatos (por 100k hab.)") +
theme_minimal() +
theme(legend.position = "none")
Se implementó un diagrama de caja para evaluar la dispersión, los
valores atípicos y las tendencias centrales entre las distintas
regiones. Al evaluar las tasas relativas en lugar de los
totales, se concluye formalmente que la región Sur posee la mediana más
alta, sugiriendo un nivel base de violencia mayor. Por el contrario, el
Noreste presenta la menor variabilidad y las tasas más bajas de la
muestra.
# Escriba el código R aquí para crear su cuarto gráfico
murders %>%
arrange(desc(rate)) %>%
head(10) %>%
ggplot(aes(x = reorder(abb, rate), y = rate)) +
geom_col(fill = "gray") +
coord_flip() +
labs(title = "Top 10 Estados con Mayor Tasa Relativa de Asesinatos",
x = "Estado (Abreviatura)",
y = "Tasa de Asesinatos (por 100,000 habitantes)") +
theme_minimal()
Este gráfico de barras horizontales aísla los diez territorios con la
mayor incidencia de violencia estandarizada, utilizando la función
reorder para una lectura jerárquica clara. El uso de la
tasa relativa es un enfoque estadísticamente más robusto que totalizar
los casos absolutos. Se demuestra empíricamente que estados o distritos
con poblaciones menores pueden encabezar las métricas de criminalidad
(destacando a D.C. y Luisiana), mitigando el ruido estadístico que
introducen estados gigantes como California o Texas en un conteo
simple.