tarea 15

Este análisis utiliza el método de clúster jerárquico con el criterio de enlace de Ward para identificar grupos de municipios en Puerto Rico según su población en los años 2010 y 2022.

suppressPackageStartupMessages(library(dendextend))
# Cargar librerías 
library(readxl)
library(dendextend)

#Leer los datos desde el archivo Excel
datos <- read_excel("/Users/gabrielapadilla/Downloads/Bases de datos-20250204/Poblacion2010_2022 (1).xlsx")

#Seleccionar solo las columnas numéricas para el análisis
poblacion <- datos[, c("Pob_2010", "Pob_2022")]

#Escalar los datos
poblacion_esc <- scale(poblacion)

#Calcular las distancias y aplicar método de agrupación jerárquica
distancias <- dist(poblacion_esc)
jerarq <- hclust(distancias, method = "ward.D2")

#Visualizar el dendrograma
plot(jerarq, labels = datos$Municipios, main = "Dendrograma de Municipios de PR\n(según población 2010 y 2022)", xlab = "", sub = "", cex = 0.6, las = 2)

Análisis del clúster jerárquico: Al mirar el dendrograma que se generó, se pueden ver varios grupos de municipios que tienen cosas en común, ya sea por su cantidad de población o por cómo ha cambiado esa población entre el 2010 y el 2022. Por ejemplo, municipios como San Juan, Bayamón, Carolina y Ponce se agrupan juntos porque tienen poblaciones grandes y son más urbanos. En cambio, otros municipios como Maricao, Culebra o Jayuya, que tienen menos población, también se agrupan entre ellos porque comparten ese mismo perfil. También se pueden notar otros grupos de municipios que están en un punto medio, que quizás han tenido cambios parecidos en su población, como una baja o mantenerse estables. Este tipo de análisis ayuda a entender mejor cómo están organizados los municipios y puede servir para tomar decisiones sobre políticas públicas, recursos y planificación. En resumen, el análisis de clúster jerárquico nos permitió ver similitudes entre municipios que no se notaban a simple vista, y eso nos da una forma más clara y estratégica de entender cómo está distribuida la población en Puerto Rico.

Este análisis utiliza el método de particionamiento k-means para agrupar canguros según medidas de su mandíbula. Se usaron tres variables numéricas y se formaron tres grupos, reflejando posibles diferencias entre especies.

# Selecciona un mirror CRAN
chooseCRANmirror(graphics = FALSE, ind = 1)
# Instalar y cargar libreria
install.packages("faraway")

## 
## The downloaded binary packages are in
##  /var/folders/17/dvlxxy895txc903kdy2z4_xw0000gn/T//RtmpUXFkHS/downloaded_packages

library(faraway)

data(kanga)

# Seleccionar solo columnas 17 a 19 (mandíbula)
kanga_mandibula <- kanga[, 17:19]

# Eliminar filas con NA
kanga_mandibula <- na.omit(kanga_mandibula)

#Escalar los datos:
kanga_esc <- scale(kanga_mandibula)

# Usar k = 3 ya que hay 3 especies
set.seed(123)
km <- kmeans(kanga_esc, centers = 3, nstart = 25)

# Ver resultados
table(km$cluster)

## 
##  1  2  3 
## 72 28 36

#Visualizar los clusters
library(ggplot2)
library(cluster)

# Para visualizar en 2D con PCA
clusplot(kanga_esc, km$cluster, color=TRUE, shade=TRUE, labels=2, lines=0)

Análisis: En este análisis se aplicó el método de particionamiento k-means con k = 3, ya que la base de datos contiene medidas de la mandíbula de canguros pertenecientes a tres especies diferentes. Primero se eliminaron las observaciones con datos incompletos y luego se estandarizaron las variables para asegurar que todas tuvieran el mismo peso en la agrupación. Los resultados del modelo mostraron tres grupos distintos formados a partir de las medidas mandibulares, lo cual se refleja claramente en el gráfico generado. Esto sugiere que este método puede ayudar a diferenciar entre especies basándose solo en algunas características físicas. Esta técnica es útil para clasificar datos cuando no se tienen las etiquetas de los grupos, y permite descubrir patrones o estructuras ocultas dentro de los datos.

tarea 15

Gabriela I. Padilla Maymó

2025-05-12