2. Metodología para el procesamiento de la información

2.1 Analisis de Componentes Principales

Para entender la relación de las variables derivadas de la recopilación de datos se hace uso de la técnica de Análisis de Componentes Principales ACP, con el fin de obtener información de la interdependencia de las variables analizadas.

Posterior a la obtención de componentes principales, utilizaremos los resultados para modelar Clúster sobre las entidades federativas, con el proposito de describir la naturaleza del fenómeno vulnerabilidad de acuerdo a los factores considerados por World Vision.

2.1.1 Estandarización de la información

Se utilizo la siguiente formúla para estandarizar la información con el objetivo de que los datos sean escalados a una unidad de medida comparable.

                                 X' = x-median(x)/(Q3-Q1)

Requerimiento para PCA (Princiapal Componentent Analisys)

2.1.2 Analisis de correlacion

Realizamos pruebas de correlacion de Spearman para datos multivariados para valores que no cumplen la prueba de normalidad multivariante para una muestra reducida de 32 observaciones con 16 variables.

Esquema 3. Rangos de correlación

La siguiente gráfica muestra la correlación que encontramos entre las 16 variables analizadas,donde los cuadros pintados con mayor intesidad de tanto de color azul como rojo muestran una correlacion alta, mientras que para aquellos cuadros donde la correlacion es baja o nula la intesidad del color es mas tenue.

Los hallazgos principales de este cuadro se centran la region intermedia del cuadrado donde las cargas de color son mas uniformes.

2.1.3 Criterios y dimensiones de las componentes

A continuación se muestra una serie de tecnicas que ayudan a establecer con que cantidad de componentes principales se debe trabajar.

1.- Criterio del codo

2.- Criterio de la varianza 80% min

Este segundo criterio muestra que a partir de la proporcion acumulativa de la varianza alcanza en la componente 3 un valor superior al 80% e incluso podríamos estar considerando una cuarta componente ya que todas recogen cerca del 90% de toda la información de las variables.

## Importance of components:
##                           PC1    PC2     PC3     PC4     PC5    PC6     PC7
## Standard deviation     2.5655 1.4684 0.95601 0.85407 0.73556 0.5811 0.46400
## Proportion of Variance 0.5517 0.1807 0.07661 0.06114 0.04535 0.0283 0.01805
## Cumulative Proportion  0.5517 0.7324 0.80902 0.87016 0.91551 0.9438 0.96186
##                            PC8     PC9    PC10    PC11    PC12
## Standard deviation     0.40057 0.37461 0.25323 0.23547 0.18633
## Proportion of Variance 0.01345 0.01176 0.00537 0.00465 0.00291
## Cumulative Proportion  0.97531 0.98707 0.99244 0.99709 1.00000

3.- Criterio del eigenvale

El gráfico de sedimentación muestra de manera clara la cantidad de componentes principales con las que se debe trabajar, en este caso son 3.

2.1.4 Correlacion entre variables y componentes

La siguiente tabla muestra la correlación entre las variables dentro de las 2 componentes principales.

##                              [,1]       [,2]
## In..percapita          -0.1187073  0.6371636
## Cyberacoso              0.5643746 -0.1261950
## Desocupacion.NNA        1.2559022  0.3805791
## Actividades.peligrosas  0.9688982 -0.6019985
## Migracion              -0.1878686  0.5332045
## Trata                  -0.1705086  0.5783920
## Homicidios              0.7698603  0.1212281
## Vuln.ingresos           0.7541573  0.2886580
## Vuln.carencias          0.9582750  0.2072234
## Defuncion.de.NNA        1.0115867  0.2413864
## Presencia.de.Carteles   0.4204121  0.1870622
## Poblacion.analfabeta    0.6237767 -0.6115492

La representación de los 3 componentes con impactos (+) y (-) por variable.

2.2 Representación gráfica de los clústers

La representación bidimensional de las primeras dos componentes muestra la distribución y agrupamiento de algunas entidades, se pueden distinguir algunos grupos bien definidos como Puebla,Guerrero, Oaxaca, Veracruz y Puebla, que vendrían siendo Estados colindantes o de los cuales comparten delimintación geográfica.

2.2.1 Loanding plot

Gráficando la contribución de las variables en las coordenadas de las componentes principales, observamos una relación muy grande con la pobreza extrema en NNA, actividades peligrosas y población de 15 años y más analfabeta.

2.2.2 Biplot

3. Análisis de Clúster

3.1 Analisis del ACP y representación gráfica

Analisis de la primer componente, caracteristicas y ranking

El cluster resultado por medio de la tecnica de kameans para 3 cluster da el siguiente resultado

res.nbclust <- NbClust(new,distance = "euclidean",min.nc = 2,
                       max.nc = 9,method = "complete",index = "all")

## *** : The Hubert index is a graphical method of determining the number of clusters.
##                 In the plot of Hubert index, we seek a significant knee that corresponds to a 
##                 significant increase of the value of the measure i.e the significant peak in Hubert
##                 index second differences plot. 
## 

## *** : The D index is a graphical method of determining the number of clusters. 
##                 In the plot of D index, we seek a significant knee (the significant peak in Dindex
##                 second differences plot) that corresponds to a significant increase of the value of
##                 the measure. 
##  
## ******************************************************************* 
## * Among all indices:                                                
## * 10 proposed 2 as the best number of clusters 
## * 7 proposed 3 as the best number of clusters 
## * 1 proposed 4 as the best number of clusters 
## * 3 proposed 8 as the best number of clusters 
## * 3 proposed 9 as the best number of clusters 
## 
##                    ***** Conclusion *****                            
##  
## * According to the majority rule, the best number of clusters is  2 
##  
##  
## *******************************************************************
factoextra::fviz_nbclust(res.nbclust)+theme_minimal()+
  ggtitle("NbClust's optimal number of cluster")+theme_classic()
## Warning in if (class(best_nc) == "numeric") print(best_nc) else if
## (class(best_nc) == : la condición tiene longitud > 1 y sólo el primer elemento
## será usado
## Warning in if (class(best_nc) == "matrix") .viz_NbClust(x, print.summary, : la
## condición tiene longitud > 1 y sólo el primer elemento será usado
## Warning in if (class(best_nc) == "numeric") print(best_nc) else if
## (class(best_nc) == : la condición tiene longitud > 1 y sólo el primer elemento
## será usado
## Warning in if (class(best_nc) == "matrix") {: la condición tiene longitud > 1 y
## sólo el primer elemento será usado
## Among all indices: 
## ===================
## * 2 proposed  0 as the best number of clusters
## * 10 proposed  2 as the best number of clusters
## * 7 proposed  3 as the best number of clusters
## * 1 proposed  4 as the best number of clusters
## * 3 proposed  8 as the best number of clusters
## * 3 proposed  9 as the best number of clusters
## 
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is  2 .

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.