En este documento, encontrará el desarrollo del Taller No. 3 del curso MÉTODOS CUANTITATIVOS PARA EL ANÁLISIS DE INFORMACIÓN del Programa Maestría en Analítica e Inteligencia de Negocios.
Taller No. 3 - Análisis de Componentes Principales + Cluster.
Análisis del problema.
Promedios y desviación de todas las variables del problema.
## Agricultura ExplotaciOn Industrias EnergIa ConstrucciOn Comercio
## Promedio 1346932 1594480 1171266 357963 995705 2594859
## Desviación 883372 3536736 1237353 293834 440326 2212833
## InformaciOn Financieras Inmobiliarias Profesionales AdmPUblica
## Promedio 270287 399617 881769 627230 2432517
## Desviación 250321 447502 758347 604394 470116
## ArtIsticas Impuestos
## Promedio 237346 985173
## Desviación 211963 906991
Las variables con mayor promedio son:
Las variables con mayor desviación son:
Análisis Univariado Del Problema
A continuación presentamos los gráficos que nos ilustran la distribución de cada variable de una manera más simplificada, utilizando los valores de los cuartiles, los extremos (el mínimo y el máximo) y valores raros o outliers.
Dos de las tres variables analizadas anteriormente presentan asimetría, especialmente la variable “Explotación”, que a su vez presenta el mayor promedio entre ellas. Los valores “atípicos” de las dos primeras variables corresponden a departamentos como Casanare, Meta y Arauca principalmente. Esto podría afectar la estructura de correlación de las variables.
Para éstas tres variables la variable “Comercio” presenta el mayor promedio entre ellas y a su vez unos vaolres atípicos muy lejanos de la media. En esta variable los valores atípicos peretencen a dos departametnos:San Adrés, Providencia y Santa Catalina y Bogotá, D.C. Lo tendremos en cuenta en los análisis PCA.
Para éstas tres variables la variable “Financieras” presenta un promedio muy superior a las otras dos, sobretodo ante la variable “Inmobiliarias” que es la de más bajo promedio. L región de Bogotá D.C. se presenta como un dato atípico por la diferencia frente al resto de zonas. Esto podría afectar la estructura de correlación de las variables.
Para éstas tres variables su promedio no es muy cercano entre sí, sobretodo de la variable “Artísticas”s que es la de más bajo promedio. De manera contundente la región de Bogotá se sigue presentando como dato atípico, Por tanto nos puede estar sugiriendo un tratamiento diferencial para esta región. En los análisis PCA serán consideradas estas conclusiones.
Para ésta última variable se presentan como datos atípicos, las regiones de Santander y Bogotá D.C. En los análisis PCA serán consideradas estas conclusiones.
Análisis Bivariado de la Correlación
En el siguiente gráfico de correlaciones se evidencian, efectivamente, las regiones que en cada variable se consideraban como valores atípicos, afectando, entonces, la estructura de correlaciones, que es el insumo base del PCA.
Pruebas de Hipotesis
En el siguiente gráfico los coeficientes y su significancia son calculados sin considerar la variable impuesto. El método sugiere que mientras más elíptica sea la figura mayor correlación existe entre las variables
Análisis del Componentes Principales.
No se hace ninguna modificación en las escalas de valoración
Componentes
De acuerdo con el criterio de varianza explicada, en las 3 primeras componentes principales se acumula casi el 80% de la variabilidad observada. Se puede observar que a partir de la 3a componente los valores propios decaen lentamente.
Coeficientes estimados
Se observa que en la primera componente casi todos los coeficientes son positivos. De acuerdo con lo anterior, esta componente suma, ponderadamente y en sentido positivo, el destacado desempeño de la región en la mayoría de las actividades económicas analizadas. Por lo cual esta componente es una estructura latente que mide el desempeño general de la región. En las otras dos componentes los coeficientes son, mayoritariamente, negativos.
En el gráfico anterior se observa la representación/caracterización de los individuos en el espacio de los factores.
Los dos siguientes son los gráficos bivariados de las proyecciones.
Representación simultánea de regiones y variables
La representación simultanea permite afinar la interpretación. Este diagrama es de gran valor contrastar la ubicación de las regiones con la dirección de las variables. Podemos notar que la regiones de Arauca, Casanare y Meta van en la misma dirección del vector “Explotación”, esto se puede comprobar revisando los registros de éstas tres regiones y constatar que fueron las más altas en ésa área económica.
Observamos que a una relación lineal, casi obvia, entre la componente principal 1 y el aporte en cuanto a generación de impuestos.
Clusters
Para realizar el Clustering, utilizamos el algoritmo K-means, el cual está diseñado para minimizar la variación interna de los clusters. Opciones: Repetir el algoritmo, variando k, con diferentes puntos iniciales y seleccionar solución con menor SSE.
Realizando las iteraciones se determina que se conforman 5 clusters.
En esta imagen se combinan entonces el método K-Means con PCA. Los dos componentes graficados representan 84% de la variabilidad de los datos, por lo que es más que suficiente trabajar con estos dos elementos.
La gráfica permita visualizar la conformación de 5 clústers, los clusters representan o asocian los sectores económicos del país. Dos de ellos son regiones “únicas”, como Bogotá y San Andrés, por sus valores extremos en algunas variables. Un tercer clúster conformado por las regiones que poseen valores grandes en la variable “Exploración”. Con esta imagen se evidencia que hay cierto grado de conflicto entre los clusters 1 y 5, ya que tienen cierta área solapada entre ambos.