## 'data.frame': 51 obs. of 5 variables:
## $ state : chr "Alabama" "Alaska" "Arizona" "Arkansas" ...
## $ abb : chr "AL" "AK" "AZ" "AR" ...
## $ region : Factor w/ 4 levels "Northeast","South",..: 2 4 4 2 4 4 1 2 2 2 ...
## $ population: num 4779736 710231 6392017 2915918 37253956 ...
## $ total : num 135 19 232 93 1257 ...
## state abb region population
## Length:51 Length:51 Northeast : 9 Min. : 563626
## Class :character Class :character South :17 1st Qu.: 1696962
## Mode :character Mode :character North Central:12 Median : 4339367
## West :13 Mean : 6075769
## 3rd Qu.: 6636084
## Max. :37253956
## total
## Min. : 2.0
## 1st Qu.: 24.5
## Median : 97.0
## Mean : 184.4
## 3rd Qu.: 268.0
## Max. :1257.0
## [1] 51 5
El conjunto de datos murders contiene información sobre la cantidad total de asesinatos en los distintos estados de Estados Unidos, junto con la población y la región geográfica a la que pertenecen.
Estos datos permiten analizar la distribución de la violencia entre estados, asimismo permiten comparar niveles de criminalidad utilizando tanto valores absolutos como relativos. Para obtener mejores resultados, se calcula una nueva variable denominada rate, la cual representa la tasa de asesinatos por cada 100,000 habitantes.
Plantilla de tabla resumen:
| Variable | Descripción |
|---|---|
| state | Nombre del estado |
| abb | Abreviatura del estado |
| region | Región geográfica del estado |
| population | Población total del estado |
| total | Número total de asesinatos |
| rate | Tasa de asesinatos por cada 100,000 habitantes |
# Cargar archivo de datos
data("murders")
# Variable para hacer el rate cada 100,000 habitantes
murders <- murders %>%
mutate(rate = total / population * 100000)
# Agrupo por region
region_data <- murders %>%
group_by(region) %>%
summarise(avg_rate = mean(rate))
# TOp 10 descendiente
top10 <- murders %>%
arrange(desc(rate)) %>%
head(10)
# Código R de primer gráfico
ggplot(murders, aes(x = total, y = rate, color = region)) +
geom_point(size = 3) +
labs(
title = "Relación entre asesinatos totales y tasa de asesinatos",
x = "Total de asesinatos",
y = "Tasa de asesinatos",
color = "Región"
) +
theme_minimal()
En esta gráfica se representan las variables total (número total de asesinatos) en el eje X y rate (tasa de asesinatos por cada 100,000 habitantes) en el eje Y, diferenciadas por región. Estas variables se eligieron para comparar los valores absolutos de asesinatos con una medida relativa que toma en cuenta el tamaño de la población.
Se observa que no existe una relación directa entre ambas variables, ya que algunos estados con altos valores absolutos no necesariamente presentan tasas elevadas. Esto se debe a que la tasa depende del tamaño de la población.
Por ejemplo, un estado con una población muy grande puede tener un número alto de asesinatos, pero al calcular la tasa, su nivel relativo de criminalidad puede ser menor que el de un estado con menos población pero más casos en proporción. Si no se utiliza la tasa, se podría concluir erróneamente que el estado más poblado es el más violento.
# Código R para segundo gráfico
ggplot(top10, aes(x = reorder(state, rate), y = rate, fill = region)) +
geom_bar(stat = "identity") +
coord_flip() +
labs(
title = "Top 10 estados con mayor tasa de asesinatos",
x = "Estado",
y = "Tasa de asesinatos (por 100,000 habitantes)",
fill = "Región"
) +
theme_minimal()
En esta gráfica se representan los estados con mayor tasa de asesinatos (rate), mostrando en el eje X los estados y en el eje Y la tasa de asesinatos por cada 100,000 habitantes. Esta selección permite identificar de forma clara cuáles son los estados con mayores niveles relativos de criminalidad.
Se observa que varios de los estados con mayor tasa pertenecen a la región Sur, lo que sugiere la existencia de patrones geográficos en los niveles de violencia. La información principal que se busca destacar es que ciertos estados presentan valores significativamente más altos en comparación con otros, lo que permite enfocar el análisis en los casos más críticos.
A partir del análisis del conjunto de datos murders, se aplicaron diversas técnicas vistas en clase, como la exploración de datos, transformación de variables y visualización mediante gráficos. Inicialmente, se realizó una inspección del dataset para comprender la estructura, tipos de variables y posibles valores faltantes.
Posteriormente, se creó una nueva variable denominada rate, que representa la tasa de asesinatos por cada 100,000 habitantes, permitiendo realizar comparaciones más adecuadas entre estados con diferentes tamaños de población. Esta transformación fue clave para mejorar la interpretación de los datos.
Mediante el uso de gráficas de dispersión y diagramas de barras, se logró identificar que no existe una relación directa entre el número total de asesinatos y la tasa de asesinatos. Además, se observó que varios de los estados con mayores tasas pertenecen a la región Sur, lo que sugiere la existencia de patrones geográficos en los niveles de violencia.
En conclusión, el uso de técnicas de análisis exploratorio de datos permitió comprender mejor la información disponible y extraer conclusiones relevantes, demostrando la importancia de transformar y visualizar los datos correctamente antes de interpretarlos.