## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Descripción de los datos

El conjunto de datos murders documenta los asesinatos por armas de fuego en los Estados Unidos correspondientes al año 2010. La información fue recopilada originalmente por la Oficina Federal de Investigaciones (FBI) a través de sus Informes Uniformes de Criminalidad (Uniform Crime Reports - UCR), junto con datos poblacionales del Censo de los Estados Unidos de 2010.

De acuerdo con la documentación del paquete, los datos fueron extraídos de reportes públicos (incluyendo Wikipedia) y han sido preprocesados y simplificados por Rafael A. Irizarry. Este procesamiento consistió en la limpieza y estructuración de los datos en un formato tidy (ordenado), facilitando su uso para fines educativos y de análisis estadístico en R, eliminando la complejidad de los archivos originales del FBI.

Citación del autor del paquete: Irizarry, R. A. (2019). Introduction to Data Science: Data Analysis and Prediction Algorithms with R. CRC Press.

Tabla resumen de variables:

Variable	Descripción
`state`	Nombre oficial del estado de los Estados Unidos.
`abb`	Abreviatura alfabética del estado correspondiente.
`region`	Región geográfica a la que pertenece el estado (Northeast, South, North Central, West).
`population`	Población total del estado registrada en el año 2010.
`total`	Número absoluto de asesinatos por arma de fuego contabilizados.

Visualizaciones de datos

# Escriba el código R aquí para cargar su archivo de datos
data("murders")

# Se calcula la tasa de asesinatos por cada 100,000 habitantes para análisis posteriores
murders <- murders %>% mutate(rate = total / population * 100000)

Gráfico 1: Dispersión

# Escriba el código R aquí para crear su primer gráfico
ggplot(murders, aes(x = population/10^6, y = total, label = abb)) +
  geom_point(aes(color = region), size = 3) +
  geom_text(nudge_y = 10, size = 3.5) +
  labs(title = "Relación entre Población y Total de Asesinatos",
       x = "Población (Millones)",
       y = "Total de Asesinatos") +
  theme_minimal()

En este primer gráfico se plantea una dispersión que relaciona las variables de población estatal (expresada en millones) con el número total de asesinatos. La finalidad es identificar la correlación entre las dimensiones demográficas y delictivas. Como es de esperarse, se observa una clara tendencia positiva: a mayor tamaño poblacional, se incrementa de manera generalizada el número absoluto de asesinatos. Por lo que, la agrupación por colores permite notar que varios estados de la región Sur presentan cifras elevadas en relación con su volumen de habitantes.

Gráfico 2: Histograma

# Escriba el código R aquí para crear su segundo gráfico
ggplot(murders, aes(x = total)) +
  geom_histogram(binwidth = 50, fill = "pink", color = "white") +
  labs(title = "Distribución del Total de Asesinatos a Nivel Nacional",
       x = "Asesinatos Totales",
       y = "Frecuencia (Número de Estados)") +
  theme_minimal()

Este histograma describe la distribución de frecuencias de la variable total de asesinatos. El objetivo es visualizar la concentración de la violencia a nivel nacional. El hallazgo principal radica en la fuerte asimetría positiva (sesgo a la derecha) de la distribución. La abrumadora mayoría de los estados reportan menos de 200 incidentes anuales, agrupándose a la izquierda del gráfico. La cola extendida hacia la derecha revela la existencia de valores atípicos que corresponden a estados con gran densidad poblacional, los cuales alteran el promedio general.

Gráfico 3: Diagrama de Caja por Regiones

# Escriba el código R aquí para crear su tercer gráfico
ggplot(murders, aes(x = region, y = rate, fill = region)) +
  geom_boxplot(alpha = 0.8) +
  labs(title = "Dispersión de la Tasa de Asesinatos por Región Geográfica",
       x = "Región",
       y = "Tasa de Asesinatos (por 100k hab.)") +
  theme_minimal() +
  theme(legend.position = "none")

Se implementó un diagrama de caja para evaluar la dispersión, los valores atípicos y las tendencias centrales entre las distintas regiones. Al evaluar las tasas relativas en lugar de los totales, se concluye formalmente que la región Sur posee la mediana más alta, sugiriendo un nivel base de violencia mayor. Por el contrario, el Noreste presenta la menor variabilidad y las tasas más bajas de la muestra.

Gráfico 4: Ranking de Tasa Relativa de Asesinatos

# Escriba el código R aquí para crear su cuarto gráfico
murders %>%
  arrange(desc(rate)) %>%
  head(10) %>%
  ggplot(aes(x = reorder(abb, rate), y = rate)) +
  geom_col(fill = "gray") +
  coord_flip() +
  labs(title = "Top 10 Estados con Mayor Tasa Relativa de Asesinatos",
       x = "Estado (Abreviatura)",
       y = "Tasa de Asesinatos (por 100,000 habitantes)") +
  theme_minimal()

Este gráfico de barras horizontales aísla los diez territorios con la mayor incidencia de violencia estandarizada, utilizando la función reorder para una lectura jerárquica clara. El uso de la tasa relativa es un enfoque estadísticamente más robusto que totalizar los casos absolutos. Se demuestra empíricamente que estados o distritos con poblaciones menores pueden encabezar las métricas de criminalidad (destacando a D.C. y Luisiana), mitigando el ruido estadístico que introducen estados gigantes como California o Texas en un conteo simple.

Proyecto: Resumen del dataset murders del paquete dslabs

Sofia Quintana