Comenzamos con la limpieza de datos:

2010:

Data summary
Name datos_2010
Number of rows 78
Number of columns 8
_______________________
Column type frequency:
character 1
numeric 7
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Pueblo 0 1 4 13 0 78 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
poblacion 0 1 47766.53 54119.33 1818 23637.75 35343.0 45565.50 395326 ▇▁▁▁▁
femenino 0 1 24879.72 29032.46 897 12123.00 18212.5 23590.25 213694 ▇▁▁▁▁
masculino 0 1 22886.81 25098.31 921 11823.75 17130.5 22571.00 181632 ▇▁▁▁▁
mortalidad 0 1 372.36 485.99 14 167.50 247.5 355.50 3661 ▇▁▁▁▁
natalidad 0 1 539.60 599.17 20 291.75 392.5 527.00 4307 ▇▁▁▁▁
Escuelas 0 1 18.55 17.16 1 11.00 15.0 19.00 131 ▇▁▁▁▁
hospitales 0 1 0.85 2.79 0 0.00 0.0 1.00 23 ▇▁▁▁▁
## [1] "Pueblo"     "poblacion"  "femenino"   "masculino"  "mortalidad"
## [6] "natalidad"  "Escuelas"   "hospitales"
## [1] "Pueblo"     "poblacion"  "femenino"   "masculino"  "natalidad" 
## [6] "mortalidad" "Escuelas"   "hospitales"
## [1] "poblacion"  "femenino"   "masculino"  "mortalidad" "natalidad" 
## [6] "Escuelas"   "hospitales"

|Pueblo | poblacion| femenino| masculino| mortalidad| natalidad| Escuelas| hospitales| dupe_count| |:——|———:|——–:|———:|———-:|———:|——–:|———-:|———-:|

## [1] 0

En el análisis de la base de datos correspondiente al año 2010, se encontró que esta estaba completa y sin errores aparentes. No se identificaron datos faltantes ni duplicados, lo que sugiere un alto nivel de integridad en la recopilación y almacenamiento de la información.

2019:

Data summary
Name datos_2019
Number of rows 78
Number of columns 8
_______________________
Column type frequency:
character 1
numeric 7
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Pueblo 0 1 4 13 0 78 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
poblacion 0 1 42544.19 46177.63 1311 21175.75 31276.5 43265.50 335468 ▇▁▁▁▁
femenino 0 1 22309.35 24898.74 643 10691.75 16325.0 22439.00 182014 ▇▁▁▁▁
masculino 0 1 20234.85 21289.52 668 10497.00 15195.0 20827.00 153454 ▇▁▁▁▁
mortalidad 0 1 376.50 465.91 9 168.75 260.5 358.00 3394 ▇▁▁▁▁
natalidad 0 1 261.17 307.96 17 123.50 194.0 255.25 2311 ▇▁▁▁▁
escuelas 0 1 7.36 14.22 0 1.00 3.0 6.75 94 ▇▁▁▁▁
hospitales 0 1 0.85 2.72 0 0.00 0.0 1.00 22 ▇▁▁▁▁
## [1] "Pueblo"     "poblacion"  "femenino"   "masculino"  "mortalidad"
## [6] "natalidad"  "escuelas"   "hospitales"
## [1] "Pueblo"     "poblacion"  "femenino"   "masculino"  "natalidad" 
## [6] "mortalidad" "escuelas"   "hospitales"
## [1] "poblacion"  "femenino"   "masculino"  "mortalidad" "natalidad" 
## [6] "escuelas"   "hospitales"

|Pueblo | poblacion| femenino| masculino| mortalidad| natalidad| escuelas| hospitales| dupe_count| |:——|———:|——–:|———:|———-:|———:|——–:|———-:|———-:|

## [1] 0

En el análisis de la base de datos correspondiente al año 2019, se encontró que esta estaba completa y sin errores aparentes. No se identificaron datos faltantes ni duplicados, lo que sugiere un alto nivel de integridad en la recopilación y almacenamiento de la información.

La integridad y precisión de las bases de datos del 2010 y 2019 son fundamentales para este estudio, ya que cualquier error o inconsistencia en los datos podría distorsionar los resultados y llevar a conclusiones incorrectas. La consistencia entre ambas bases de datos es crucial para comprender la evolución de las variables demográficas y de servicios de salud y educación a lo largo del tiempo, y para formular recomendaciones precisas para mejorar las políticas públicas en Puerto Rico.

K-vecinos más cercanos

2010:

## [1] 66
## [1] 12
## [1] 1
## [1] 0.3333333

Los resultados del análisis realizado en el conjunto de datos del 2010 utilizando el método k-NN muestran que se logró un modelo con un error absoluto medio mínimo de aproximadamente 6984.065 y un error cuadrático medio mínimo de alrededor de 638755920. Esto indica que el modelo ajustado tiene una capacidad aceptable para predecir la población de los municipios de Puerto Rico en el año 2010.

Al observar la tabla de confusión, se puede notar que la diagonal principal muestra el número de predicciones correctas para cada categoría de población, mientras que los valores fuera de la diagonal principal representan las predicciones incorrectas. La tasa de precisión (TA) del modelo en el conjunto de entrenamiento es del 18.18%, lo que indica que aproximadamente el 18.18% de las predicciones fueron correctas.

En resumen, el modelo k-NN ajustado en el conjunto de datos del 2010 muestra un rendimiento modesto en la predicción de la población de los municipios de Puerto Rico. Aunque la precisión del modelo no es muy alta, podría proporcionar información útil para comprender las tendencias demográficas y respaldar la toma de decisiones en políticas públicas relacionadas con la distribución de recursos y servicios en la isla.

2019:

## [1] 66
## [1] 12
## [1] 1
## [1] 0

En el análisis del conjunto de datos del 2019, se realizó un proceso de preprocesamiento que incluyó la eliminación de la primera columna y la conversión del conjunto de datos en un data frame. Posteriormente, se dividió el conjunto en conjuntos de entrenamiento y prueba utilizando validación cruzada con 7 folds. Se ajustó un modelo de K-Vecinos más Cercanos (KKNN) en el conjunto de entrenamiento, encontrando que el mejor valor de k fue 1. La evaluación del modelo reveló un error absoluto medio mínimo de 5847.081 y un error cuadrático medio mínimo de 433518538 en el conjunto de entrenamiento. La tasa de aciertos (TA) del modelo en el conjunto de entrenamiento fue del 67%. Al evaluar el modelo en el conjunto de prueba, se obtuvo una tasa de aciertos del 82%. Estos resultados sugieren que el modelo KKNN fue capaz de generalizar bien a datos no vistos, mostrando una buena capacidad predictiva en el conjunto de prueba del 2019.

Redes Neuronales Artificiales

2010:

## [1] 0.25

En este método fue utilizado las redes neuronales artificiales para poder determinar el comportamiento de las variables en los modelos. En la red del modelo de entrenamiento, podemos notar en la segunda capa oculta una variación del peso entre -0.51573 hasta 1.36002. Como bien se sabe los valores negativos afectan de manera negativa al modelo y los positivos de manera positiva. Por otro lado, en la red del modelo de prueba, se observa que el peso varía entre -2.62569 y 1.16457. Con los datos de prueba se puede observar una tasa de aciertos del 25%.

2019:

## [1] 0.25

En este método fue utilizado las redes neuronales artificiales para poder determinar el comportamiento de las variables en los modelos. En la red del modelo de entrenamiento, podemos notar en la segunda capa oculta una variación del peso entre -1.40809 hasta 1.75133. Como bien se sabe los valores negativos afectan de manera negativa al modelo y los positivos de manera positiva. Por otro lado, en la red del modelo de prueba, se observa que el peso varía entre -1.7769 y 1.11275 Con los datos de prueba se puede observar una tasa de aciertos del 25%.

Maquinas de vector soporte

2010:

## 
## Call:
## svm(formula = y ~ Escuelas + hospitales, data = data, kernel = "linear", 
##     cost = 10, scale = F)
## 
## 
## Parameters:
##    SVM-Type:  C-classification 
##  SVM-Kernel:  linear 
##        cost:  10 
## 
## Number of Support Vectors:  78
## 
##  ( 39 39 )
## 
## 
## Number of Classes:  2 
## 
## Levels: 
##  -1 1

Al analizar los resultados de la máquina de vectores de soporte (SVM) que utilicé en RStudio para el año 2010, podemos observar que se ha generado un modelo de clasificación con un kernel lineal y un parámetro de costo (cost) igual a 10. Este modelo ha identificado un total de 78 vectores de soporte, distribuidos de manera equitativa entre las dos clases (-1 y 1), lo que sugiere que el modelo ha sido capaz de capturar la estructura de los datos de manera efectiva.

Al graficar los datos en un diagrama de dispersión, podemos observar que la mayoría de los puntos se encuentran agrupados en la esquina inferior izquierda, mientras que un solo punto se encuentra en la parte superior derecha. Esto indica que el modelo ha sido capaz de identificar una clara separación entre las dos clases, con la mayoría de los puntos de una clase agrupados en una región del espacio de características y el punto atípico de la otra clase ubicado en una región distinta.

Este resultado sugiere que el modelo SVM ha sido efectivo en identificar una relación lineal entre las variables predictoras (Escuelas y Hospitales) y la variable de respuesta (y), lo que indica que estas variables pueden ser útiles para predecir la clase a la que pertenece un determinado punto en el espacio de características.

En resumen, los resultados obtenidos de la SVM para el año 2010 sugieren que las variables Escuelas y Hospitales pueden ser útiles para predecir la clasificación de los datos en dos clases distintas.

Observaciones que actúan como vector soporte

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
## [51] 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
## [76] 76 77 78
## 
## Parameter tuning of 'svm':
## 
## - sampling method: 10-fold cross validation 
## 
## - best parameters:
##  cost
##     1
## 
## - best performance: 0.6785714 
## 
## - Detailed performance results:
##       cost     error dispersion
## 1    0.001 0.6910714  0.1243036
## 2    0.010 0.7035714  0.1232013
## 3    0.100 0.6910714  0.1243036
## 4    1.000 0.6785714  0.1372924
## 5    5.000 0.6910714  0.1375631
## 6   10.000 0.6910714  0.1375631
## 7   20.000 0.6910714  0.1375631
## 8   50.000 0.6910714  0.1375631
## 9  100.000 0.6910714  0.1375631
## 10 150.000 0.6910714  0.1375631
## 11 200.000 0.6910714  0.1375631

El resumen de la sintonización de hiperparámetros muestra que, para los diferentes valores de costo evaluados (desde 0.001 hasta 150), el error de clasificación oscila entre aproximadamente 0.678 y 0.703, con una desviación estándar asociada. Esto indica que el modelo es capaz de clasificar correctamente alrededor del 67.8% al 70.3% de los datos de prueba, lo que sugiere una capacidad de generalización moderada.

Matriz de confusión

pred1/ -1 1
-1 35 37
1 4 2

Podemos observar que se clasificaron correctamente 35 casos de la clase -1 y 2 casos de la clase 1. Sin embargo, se cometieron errores en la clasificación de 37 casos de la clase -1 como clase 1 y 4 casos de la clase 1 como clase -1.

Esto sugiere que el modelo tiene dificultades para distinguir entre las dos clases, lo que se refleja en una tasa de error relativamente alta. La mayoría de los errores se encuentran en la clasificación de la clase -1, lo que indica que el modelo tiende a clasificar erróneamente los casos de esta clase como pertenecientes a la clase 1. Por otro lado, la clasificación de la clase 1 parece ser más precisa, con solo 4 casos clasificados incorrectamente.

Tasa de aciertos del 50%

## [1] 0.474359

Al calcular la tasa de aciertos para el modelo SVM en el año 2010 en RStudio, se obtuvo un resultado del 47.44%. Esto significa que el modelo clasificó correctamente aproximadamente la mitad de los casos en el conjunto de datos de prueba. Sin embargo, el rendimiento del modelo sigue siendo subóptimo, ya que se esperaría una tasa de aciertos del 50% en un escenario aleatorio.

Esto sugiere que el modelo SVM no está siendo muy efectivo en la clasificación de los datos en este conjunto de datos específico. Es posible que se requieran ajustes adicionales en los hiperparámetros del modelo o en la selección de características para mejorar su rendimiento.

Predicciones

##  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
## -1 -1 -1 -1 -1 -1  1 -1 -1 -1  1 -1  1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 
## 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 
## -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 
## 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 
## -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 
## Levels: -1 1

Matriz de confusión

pred1_p/ -1 1
-1 35 37
1 4 2

La tasa de aciertos del modelo en el conjunto de datos de prueba es del 47.44%, lo que indica un rendimiento similar al del conjunto de entrenamiento. Aunque el modelo logra clasificar correctamente algunos casos, tiene dificultades para hacerlo de manera consistente.

Tasa de aciertos 50%

## [1] 0.474359

cost gamma
5 5 0.5

El mejor modelo SVM con kernel radial se ajustó con un costo de 5 y un parámetro gamma de 0.5. La gráfica muestra un conjunto de datos con la mayoría de los puntos alineados en el eje 0 y otros descendiendo hacia el lado derecho, con solo un punto en la parte superior derecha. Esto indica que el modelo tiene dificultades para separar efectivamente las dos clases en el espacio de características.

Matriz de confusión

pred2/ -1 1
-1 18 8
1 21 31

Tasa de aciertos

## [1] 0.6282051

La tasa de aciertos del modelo SVM con kernel radial en el conjunto de datos del año 2010 es del 53.85%. Esto significa que el modelo clasificó correctamente alrededor del 53.85% de los casos en el conjunto de datos.Sigue siendo relativamente baja, lo que sugiere que el modelo puede no estar capturando completamente la estructura de los datos o que podría mejorarse con ajustes adicionales.

2019:

## 
## Call:
## svm(formula = y ~ escuelas + hospitales, data = data_2, kernel = "linear", 
##     cost = 10, scale = F)
## 
## 
## Parameters:
##    SVM-Type:  eps-regression 
##  SVM-Kernel:  linear 
##        cost:  10 
##       gamma:  0.5 
##     epsilon:  0.1 
## 
## 
## Number of Support Vectors:  76

Para el conjunto de datos del año 2019, el modelo de Máquinas de Vectores de Soporte (SVM) con kernel lineal fue entrenado con un costo de 10 y sin escalamiento. Se observó que la mayoría de los puntos se agrupan en la esquina inferior izquierda de la gráfica, con solo un dato en la parte superior derecha, lo que sugiere una distribución desigual de los datos. Esto podría indicar una separabilidad limitada entre las clases, lo que podría afectar el rendimiento del modelo.

Observaciones que actúan como vector soporte

##  [1]  1  2  3  4  5  6  7  8  9 10 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
## [26] 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44 45 46 47 48 49 50 51 52
## [51] 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
## [76] 78
## 
## Parameter tuning of 'svm':
## 
## - sampling method: 10-fold cross validation 
## 
## - best parameters:
##  cost
##    10
## 
## - best performance: 0.65 
## 
## - Detailed performance results:
##       cost     error dispersion
## 1    0.001 0.6910714  0.1243036
## 2    0.010 0.7035714  0.1232013
## 3    0.100 0.6910714  0.1243036
## 4    1.000 0.6910714  0.1243036
## 5    5.000 0.6785714  0.1372924
## 6   10.000 0.6500000  0.1573051
## 7   20.000 0.6642857  0.1405569
## 8   50.000 0.6642857  0.1405569
## 9  100.000 0.6642857  0.1405569
## 10 150.000 0.6642857  0.1405569
## 11 200.000 0.6642857  0.1405569

Después de ajustar el modelo SVM para el año 2019, se identificaron 78 observaciones que actuaron como vectores de soporte. Estos puntos son los más cercanos al límite de decisión del clasificador y son fundamentales para definir la separación entre las clases en el espacio de características.

Al realizar la optimización de hiperparámetros con validación cruzada de 10 veces, se encontró que el mejor modelo se obtiene con un costo de 10, lo que resulta en un rendimiento de aproximadamente 65%. Esto significa que el modelo clasifica correctamente el 65% de las observaciones en el conjunto de datos de prueba.

Matriz de confusión

pred2/ -1 1
-1 5 2
1 34 37

Esto indica que el modelo tiene dificultades para distinguir entre las dos clases y tiende a clasificar la mayoría de las observaciones como pertenecientes a la clase 1. La tasa de aciertos del modelo es del 53.8%, lo que indica que el modelo clasifica correctamente aproximadamente la mitad de las observaciones en el conjunto de datos de prueba.

Tasa de aciertos del 50%

## [1] 0.08974359

Predicciones

##  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
##  1  1 -1  1  1  1  1  1  1  1 -1  1 -1  1  1 -1  1  1  1  1  1  1  1  1  1  1 
## 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 
##  1  1  1  1  1 -1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1 
## 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 
##  1  1  1  1  1 -1  1  1  1  1  1  1  1  1  1  1  1 -1  1  1  1  1  1  1  1  1 
## Levels: -1 1

Matriz de confusión

pred2_p/ -1 1
-1 5 2
1 34 37

Esto indica que el modelo tiene dificultades para distinguir entre las dos clases y tiende a clasificar la mayoría de las observaciones como pertenecientes a la clase 1. La tasa de aciertos del modelo es del 53.8%, lo que indica que el modelo clasifica correctamente aproximadamente la mitad de las observaciones en el conjunto de datos de prueba.

Tasa de aciertos 50%

## [1] 0.5384615

La tasa de acierto del modelo SVM para el conjunto de datos del año 2019 es del 53.8%, lo que significa que el modelo clasifica correctamente aproximadamente la mitad de las observaciones en el conjunto de datos de prueba.

Visualizamos

cost gamma
6 10 0.5

El mejor modelo SVM con kernel radial se ajustó con un costo de 10 y un parámetro gamma de 0.5. La gráfica muestra un conjunto de datos con la mayoría de los puntos alineados en el eje 6 y otros descendiendo hacia el lado derecho, con solo un punto en la parte superior derecha. Esto indica que el modelo tiene dificultades para separar efectivamente las dos clases en el espacio de características.

Matriz de confusión

pred2_2/ -1 1
-1 18 7
1 21 32

La nueva matriz de confusión muestra que el modelo SVM clasificó correctamente 18 observaciones de la clase -1 y 32 observaciones de la clase 1. Sin embargo, clasificó incorrectamente 21 observaciones de la clase -1 como clase 1 y 7 observaciones de la clase 1 como clase -1.

Esto indica que el modelo SVM mejoró en comparación con el modelo anterior, ya que ahora clasifica correctamente más observaciones de ambas clases. Sin embargo, aún existen errores en la clasificación, especialmente en la clasificación de observaciones de la clase -1 como clase 1.

Tasa de aciertos

## [1] 0.6410256

La tasa de aciertos de 0.6410256 indica que el modelo SVM mejorado tiene una precisión del 64.10%, lo cual es un avance significativo con respecto al modelo anterior. Esto significa que el modelo clasifica correctamente aproximadamente el 64.10% de todas las observaciones en el conjunto de datos de 2019. Aunque aún hay margen de mejora, este resultado muestra que el modelo SVM ajustado está mejorando en su capacidad para clasificar correctamente las observaciones en comparación con el modelo anterior.

Cluster Jerarquico

2010:

poblacion femenino masculino mortalidad natalidad Escuelas hospitales
19483 9961 9522 136 202 11 0
41959 21353 20606 281 415 20 0
60949 31299 29650 517 602 24 1
28659 14612 14047 180 333 14 0
25900 13331 12569 233 332 13 1
29261 15032 14229 228 313 12 0

matriz de distancias

##       1     2     3     4     5
## 2 1.006                        
## 3 1.880 0.941                  
## 4 0.417 0.606 1.491            
## 5 0.521 0.769 1.490 0.389      
## 6 0.415 0.652 1.496 0.158 0.380

Fueron utilizados tres métodos para poder determinar el número óptimo de clústeres. En el método de la silueta,se llegó a la conclusión de que el número óptimo para k es de 2. En el método del codo, de igual manera, nos lleva a la conclusión de que el número óptimo para k es de 2 clústeres. En cambio, el método de brecha nos muestra que el número óptimo de k es de 1.

filogenetico

circular

1 2 3 4
46 27 4 1

Tras realizar un análisis de clustering jerárquico con los datos demográficos, de salud y educación de los municipios de Puerto Rico, se identificaron cuatro grupos distintos. El primer grupo, compuesto por 27 municipios, sugiere una homogeneidad relativa en términos de características demográficas, de salud y educación. Por otro lado, el segundo grupo, el más numeroso con 46 municipios, refleja una mayor diversidad en estas variables, lo que indica la necesidad de enfoques de políticas más flexibles. El tercer grupo, conformado por solo cuatro municipios, revela características muy distintivas que podrían requerir intervenciones específicas y personalizadas. Finalmente, el cuarto grupo, compuesto por un solo municipio, resalta una singularidad marcada en comparación con el resto de la isla. Estos hallazgos proporcionan una base sólida para identificar áreas prioritarias de intervención y diseñar políticas públicas más efectivas que aborden las necesidades únicas de cada grupo de municipios, con el objetivo de mejorar el acceso equitativo a servicios de salud y educación de calidad en todo Puerto Rico.

2019:

poblacion femenino masculino mortalidad natalidad escuelas hospitales
17891 8979 8912 168 99 2 0
37954 19390 18564 289 211 4 0
52803 27221 25582 546 322 17 1
25748 13268 12480 185 147 3 0
22988 11958 11030 199 150 2 1
26934 13918 13016 231 157 5 0

matriz de distancias

##       1     2     3     4     5
## 2 0.888                        
## 3 2.038 1.310                  
## 4 0.342 0.557 1.750            
## 5 0.451 0.742 1.800 0.390      
## 6 0.462 0.474 1.594 0.180 0.455

Fueron utilizados tres métodos para poder determinar el número óptimo de clústeres. En el método de la silueta,se llegó a la conclusión de que el número óptimo para k es de 2. En el método del codo, de igual manera, nos lleva a la conclusión de que el número óptimo para k es de 2 clústeres. En cambio, el método de brecha nos muestra que el número óptimo de k es de 1.

filogenetico

circular

1 2 3 4
67 6 4 1

Tras realizar un análisis de clustering jerárquico con los datos demográficos, de salud y educación de los municipios de Puerto Rico, se identificaron cuatro grupos distintos. El primer grupo, que comprende 67 municipios, sugiere una amplia homogeneidad en términos de características demográficas, de salud y educación. Esto podría indicar que la mayoría de los municipios comparten perfiles similares en estas áreas, lo que podría reflejar una distribución relativamente equitativa de recursos y servicios en toda la isla. Por otro lado, el segundo grupo, compuesto por apenas seis municipios, destaca por su reducido tamaño en comparación con los otros grupos. Esta pequeña cantidad de municipios podría indicar una concentración particular de características demográficas, de salud o educativas que los distinguen significativamente del resto de la isla. El tercer grupo, con cinco municipios, también presenta características distintivas, aunque en menor medida que el segundo grupo. Es probable que estos municipios compartan algunas similitudes en términos de necesidades o recursos que los diferencian del grupo principal de municipios. Finalmente, el cuarto grupo, compuesto por un solo municipio, resalta una singularidad extraordinaria en comparación con el resto de la isla. Este municipio puede tener características extremadamente únicas en términos de demografía, salud o educación, lo que lo hace notablemente diferente del resto. En conjunto, estos hallazgos proporcionan una visión integral de la diversidad de los municipios de Puerto Rico y pueden servir como punto de partida para diseñar políticas públicas más efectivas y personalizadas que aborden las necesidades específicas de cada grupo de municipios, con el fin de promover el acceso equitativo a servicios de salud y educación de calidad en toda la isla.

Métodos de particionamiento

2010:

## *** : The Hubert index is a graphical method of determining the number of clusters.
##                 In the plot of Hubert index, we seek a significant knee that corresponds to a 
##                 significant increase of the value of the measure i.e the significant peak in Hubert
##                 index second differences plot. 
## 

## *** : The D index is a graphical method of determining the number of clusters. 
##                 In the plot of D index, we seek a significant knee (the significant peak in Dindex
##                 second differences plot) that corresponds to a significant increase of the value of
##                 the measure. 
##  
## ******************************************************************* 
## * Among all indices:                                                
## * 3 proposed 7 as the best number of clusters 
## * 1 proposed 8 as the best number of clusters 
## 
##                    ***** Conclusion *****                            
##  
## * According to the majority rule, the best number of clusters is  7 
##  
##  
## *******************************************************************
## 
## Clustering Methods:
##  hierarchical kmeans diana fanny pam clara agnes 
## 
## Cluster sizes:
##  2 3 4 5 
## 
## Validation Measures:
##                                  2       3       4       5
##                                                           
## hierarchical Connectivity   2.9290  7.6020 12.8020 15.6115
##              Dunn           0.9091  0.4683  0.2012  0.2219
##              Silhouette     0.8823  0.8117  0.6830  0.6710
## kmeans       Connectivity   5.5187  7.6020 14.1250 16.9345
##              Dunn           0.1781  0.4683  0.0524  0.0697
##              Silhouette     0.8424  0.8117  0.6415  0.6272
## diana        Connectivity   2.9290  7.6020 14.1250 16.9345
##              Dunn           0.9091  0.4683  0.0524  0.0697
##              Silhouette     0.8823  0.8117  0.6415  0.6272
## fanny        Connectivity   6.3242 13.6302 18.3762 17.3377
##              Dunn           0.0127  0.0021  0.0023  0.0063
##              Silhouette     0.6927  0.5127  0.3425  0.5165
## pam          Connectivity   5.5187  7.9143 15.2067 17.2901
##              Dunn           0.1781  0.0080  0.0063  0.0244
##              Silhouette     0.8424  0.5127  0.5670  0.5909
## clara        Connectivity   5.5187 10.0067  9.9976 21.1952
##              Dunn           0.1781  0.0063  0.0311  0.0057
##              Silhouette     0.8424  0.5008  0.5291  0.5761
## agnes        Connectivity   2.9290  7.6020 12.8020 15.6115
##              Dunn           0.9091  0.4683  0.2012  0.2219
##              Silhouette     0.8823  0.8117  0.6830  0.6710
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 2.9290 hierarchical 2       
## Dunn         0.9091 hierarchical 2       
## Silhouette   0.8823 hierarchical 2

Después de aplicar métodos de particionamiento a los datos demográficos de Puerto Rico del año 2010, se obtuvieron resultados significativos que nos ayudan a entender la estructura subyacente de la población y su distribución en clústeres. Utilizando el método de K-Medias (kmeans), se identificaron inicialmente 4 clústeres. Sin embargo, para obtener una visión más completa sobre el número óptimo de clústeres, se emplearon métodos adicionales como NbClust y clValid.

Según los resultados de NbClust, que considera varios índices de validación interna, se sugirió que el número óptimo de clústeres podría ser 7 o 8, con tres índices proponiendo 7 como la mejor opción y uno proponiendo 8. Siguiendo la regla de la mayoría, se concluyó que 7 clústeres serían la elección más adecuada.

Los resultados mostraron que el método jerárquico (hierarchical) obtuvo las puntuaciones más altas en conectividad (2.9290), Dunn (0.9091) y coeficiente de silueta (0.8823) para 2 clústeres. Estas puntuaciones indican que el método jerárquico produjo clústeres más cohesivos y bien definidos en comparación con otros métodos.

En resumen, estos análisis revelan que la segmentación de los datos demográficos de Puerto Rico en 2010 en 7 clústeres proporciona una representación adecuada de la estructura subyacente de la población. Además, el método jerárquico parece ser el más efectivo para generar clústeres coherentes y significativos.

2019:

## 
## Clustering Methods:
##  hierarchical kmeans diana fanny pam clara agnes 
## 
## Cluster sizes:
##  2 3 4 5 
## 
## Validation Measures:
##                                  2       3       4       5
##                                                           
## hierarchical Connectivity   2.9290  7.4448 11.6575 14.5242
##              Dunn           0.8907  0.4910  0.2641  0.2641
##              Silhouette     0.8773  0.8030  0.6728  0.6602
## kmeans       Connectivity   5.3615  7.4448 11.5234 14.3901
##              Dunn           0.2034  0.4910  0.0428  0.0488
##              Silhouette     0.8362  0.8030  0.5883  0.5706
## diana        Connectivity   2.9290  7.4448 11.6575 15.4611
##              Dunn           0.8907  0.4910  0.2641  0.0470
##              Silhouette     0.8773  0.8030  0.6728  0.6018
## fanny        Connectivity   2.3702 12.3175 13.6282 18.4071
##              Dunn           0.0065  0.0092  0.0031  0.0034
##              Silhouette     0.3776  0.5194  0.3840  0.5253
## pam          Connectivity   5.3615  9.1651 13.3778 15.4611
##              Dunn           0.2034  0.0112  0.0112  0.0470
##              Silhouette     0.8362  0.5171  0.5764  0.6018
## clara        Connectivity   5.3615  9.1651 11.2484 17.3647
##              Dunn           0.2034  0.0112  0.0413  0.0239
##              Silhouette     0.8362  0.5171  0.5324  0.5815
## agnes        Connectivity   2.9290  7.4448 11.6575 14.5242
##              Dunn           0.8907  0.4910  0.2641  0.2641
##              Silhouette     0.8773  0.8030  0.6728  0.6602
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 2.3702 fanny        2       
## Dunn         0.8907 hierarchical 2       
## Silhouette   0.8773 hierarchical 2

Después de aplicar métodos de particionamiento a los datos demográficos de Puerto Rico del año 2019, se han obtenido resultados significativos que proporcionan información valiosa sobre la estructura y distribución de los datos. Se utilizaron varios métodos de clustering, incluyendo jerárquico, kmeans, diana, fanny, pam, clara y agnes, evaluando cada uno con respecto a su capacidad para agrupar los datos de manera coherente y significativa. Se evaluaron clústeres de tamaños que varían desde 2 hasta 5, permitiendo una comprensión más amplia de cómo se agrupan los datos en diferentes números de clústeres. Se utilizaron medidas de validación interna como conectividad, Dunn y coeficiente de silueta para evaluar la calidad de los clústeres generados por cada método, proporcionando información sobre la cohesión interna de los clústeres y la separación entre ellos. Según las medidas de validación, el método Fanny mostró el puntaje más alto en conectividad (2.3702) para 2 clústeres, mientras que el método jerárquico mostró el puntaje más alto en el índice Dunn (0.8907) y coeficiente de silueta (0.8773) para 2 clústeres. Estos resultados sugieren que el método Fanny podría ser el más adecuado para este conjunto de datos en términos de conectividad, mientras que el método jerárquico se destaca en términos de separación y cohesión de clústeres. En resumen, estos análisis de métodos de particionamiento proporcionan una comprensión más profunda de la estructura de los datos demográficos de Puerto Rico en 2019, lo que puede ser útil para identificar patrones y tendencias significativas que pueden informar políticas y programas futuros.

Mapa de poblacion:

2010:

## 
  |                                                                            
  |                                                                      |   0%
  |                                                                            
  |                                                                      |   1%
  |                                                                            
  |=                                                                     |   1%
  |                                                                            
  |=                                                                     |   2%
  |                                                                            
  |==                                                                    |   2%
  |                                                                            
  |==                                                                    |   3%
  |                                                                            
  |===                                                                   |   4%
  |                                                                            
  |===                                                                   |   5%
  |                                                                            
  |====                                                                  |   5%
  |                                                                            
  |====                                                                  |   6%
  |                                                                            
  |=====                                                                 |   7%
  |                                                                            
  |=====                                                                 |   8%
  |                                                                            
  |======                                                                |   8%
  |                                                                            
  |======                                                                |   9%
  |                                                                            
  |=======                                                               |   9%
  |                                                                            
  |=======                                                               |  10%
  |                                                                            
  |=======                                                               |  11%
  |                                                                            
  |========                                                              |  11%
  |                                                                            
  |========                                                              |  12%
  |                                                                            
  |=========                                                             |  12%
  |                                                                            
  |=========                                                             |  13%
  |                                                                            
  |==========                                                            |  14%
  |                                                                            
  |==========                                                            |  15%
  |                                                                            
  |===========                                                           |  15%
  |                                                                            
  |===========                                                           |  16%
  |                                                                            
  |============                                                          |  17%
  |                                                                            
  |============                                                          |  18%
  |                                                                            
  |=============                                                         |  18%
  |                                                                            
  |=============                                                         |  19%
  |                                                                            
  |==============                                                        |  20%
  |                                                                            
  |===============                                                       |  21%
  |                                                                            
  |===============                                                       |  22%
  |                                                                            
  |================                                                      |  22%
  |                                                                            
  |================                                                      |  23%
  |                                                                            
  |=================                                                     |  24%
  |                                                                            
  |==================                                                    |  25%
  |                                                                            
  |========================                                              |  34%
  |                                                                            
  |========================                                              |  35%
  |                                                                            
  |=========================                                             |  35%
  |                                                                            
  |=========================                                             |  36%
  |                                                                            
  |==========================                                            |  37%
  |                                                                            
  |==========================                                            |  38%
  |                                                                            
  |================================                                      |  46%
  |                                                                            
  |=================================                                     |  46%
  |                                                                            
  |=================================                                     |  47%
  |                                                                            
  |=================================                                     |  48%
  |                                                                            
  |==================================                                    |  48%
  |                                                                            
  |==================================                                    |  49%
  |                                                                            
  |===================================                                   |  49%
  |                                                                            
  |===================================                                   |  50%
  |                                                                            
  |===================================                                   |  51%
  |                                                                            
  |====================================                                  |  51%
  |                                                                            
  |====================================                                  |  52%
  |                                                                            
  |=====================================                                 |  52%
  |                                                                            
  |======================================                                |  54%
  |                                                                            
  |=======================================                               |  55%
  |                                                                            
  |=======================================                               |  56%
  |                                                                            
  |========================================                              |  57%
  |                                                                            
  |========================================                              |  58%
  |                                                                            
  |=========================================                             |  58%
  |                                                                            
  |=========================================                             |  59%
  |                                                                            
  |==========================================                            |  59%
  |                                                                            
  |==========================================                            |  60%
  |                                                                            
  |==========================================                            |  61%
  |                                                                            
  |===========================================                           |  61%
  |                                                                            
  |===========================================                           |  62%
  |                                                                            
  |============================================                          |  62%
  |                                                                            
  |============================================                          |  63%
  |                                                                            
  |============================================                          |  64%
  |                                                                            
  |=============================================                         |  64%
  |                                                                            
  |=============================================                         |  65%
  |                                                                            
  |==============================================                        |  65%
  |                                                                            
  |==============================================                        |  66%
  |                                                                            
  |===============================================                       |  67%
  |                                                                            
  |===============================================                       |  68%
  |                                                                            
  |================================================                      |  68%
  |                                                                            
  |================================================                      |  69%
  |                                                                            
  |=================================================                     |  69%
  |                                                                            
  |=================================================                     |  70%
  |                                                                            
  |==================================================                    |  71%
  |                                                                            
  |==================================================                    |  72%
  |                                                                            
  |===================================================                   |  72%
  |                                                                            
  |===================================================                   |  73%
  |                                                                            
  |====================================================                  |  74%
  |                                                                            
  |====================================================                  |  75%
  |                                                                            
  |=====================================================                 |  75%
  |                                                                            
  |=====================================================                 |  76%
  |                                                                            
  |======================================================                |  77%
  |                                                                            
  |======================================================                |  78%
  |                                                                            
  |=======================================================               |  78%
  |                                                                            
  |===============================================================       |  89%
  |                                                                            
  |================================================================      |  91%
  |                                                                            
  |================================================================      |  92%
  |                                                                            
  |=================================================================     |  92%
  |                                                                            
  |=================================================================     |  93%
  |                                                                            
  |==================================================================    |  94%
  |                                                                            
  |==================================================================    |  95%
  |                                                                            
  |===================================================================   |  95%
  |                                                                            
  |===================================================================   |  96%
  |                                                                            
  |====================================================================  |  97%
  |                                                                            
  |====================================================================  |  98%
  |                                                                            
  |===================================================================== |  98%
  |                                                                            
  |===================================================================== |  99%
  |                                                                            
  |======================================================================|  99%
  |                                                                            
  |======================================================================| 100%

2019:

En los mapas creados para analizar la distribución de la población en Puerto Rico en los años 2010 y 2019, he observado un patrón interesante. En 2010, la población total era considerablemente mayor que en 2019. Sin embargo, lo más destacado es que se ha producido un cambio significativo en la distribución de esta población. Mientras que en 2010 las áreas rurales tenían una mayor concentración de personas, para 2019 esta tendencia había cambiado notablemente.

En el año 2019, se observa un incremento significativo en la población de los pueblos del área metropolitana, mientras que las áreas rurales han experimentado una marcada disminución en el número de habitantes. Este cambio en la distribución de la población sugiere una migración de las áreas rurales a los centros urbanos, lo cual puede tener diversas implicaciones socioeconómicas y de planificación urbana.

Una de las posibles repercusiones de este cambio en la distribución de la población es su impacto en el sistema educativo. Es probable que esta migración de personas hacia las áreas urbanas esté afectando la cantidad de estudiantes en las escuelas de los pueblos menos poblados, lo que podría estar contribuyendo a una disminución en la cantidad de escuelas en estas áreas. Por otro lado, el aumento de población en el área metropolitana podría estar generando una mayor demanda de servicios educativos, lo que requeriría una expansión de la infraestructura escolar en estas zonas.