En este documento, encontrará el desarrollo del Taller No. 3 del curso MÉTODOS CUANTITATIVOS PARA EL ANÁLISIS DE INFORMACIÓN del Programa Maestría en Analítica e Inteligencia de Negocios.

Taller No. 3 - Análisis de Componentes Principales + Cluster.

Análisis del problema.

Promedios y desviación de todas las variables del problema.

##            Agricultura ExplotaciOn Industrias EnergIa ConstrucciOn Comercio
## Promedio       1346932     1594480    1171266  357963       995705  2594859
## Desviación      883372     3536736    1237353  293834       440326  2212833
##            InformaciOn Financieras Inmobiliarias Profesionales AdmPUblica
## Promedio        270287      399617        881769        627230    2432517
## Desviación      250321      447502        758347        604394     470116
##            ArtIsticas Impuestos
## Promedio       237346    985173
## Desviación     211963    906991

Las variables con mayor promedio son:

Las variables con mayor desviación son:

Análisis Univariado Del Problema

A continuación presentamos los gráficos que nos ilustran la distribución de cada variable de una manera más simplificada, utilizando los valores de los cuartiles, los extremos (el mínimo y el máximo) y valores raros o outliers.

Dos de las tres variables analizadas anteriormente presentan asimetría, especialmente la variable “Explotación”, que a su vez presenta el mayor promedio entre ellas. Los valores “atípicos” de las dos primeras variables corresponden a departamentos como Casanare, Meta y Arauca principalmente. Esto podría afectar la estructura de correlación de las variables.

Para éstas tres variables la variable “Comercio” presenta el mayor promedio entre ellas y a su vez unos vaolres atípicos muy lejanos de la media. En esta variable los valores atípicos peretencen a dos departametnos:San Adrés, Providencia y Santa Catalina y Bogotá, D.C. Lo tendremos en cuenta en los análisis PCA.

Para éstas tres variables la variable “Financieras” presenta un promedio muy superior a las otras dos, sobretodo ante la variable “Inmobiliarias” que es la de más bajo promedio. L región de Bogotá D.C. se presenta como un dato atípico por la diferencia frente al resto de zonas. Esto podría afectar la estructura de correlación de las variables.

Para éstas tres variables su promedio no es muy cercano entre sí, sobretodo de la variable “Artísticas”s que es la de más bajo promedio. De manera contundente la región de Bogotá se sigue presentando como dato atípico, Por tanto nos puede estar sugiriendo un tratamiento diferencial para esta región. En los análisis PCA serán consideradas estas conclusiones.

Para ésta última variable se presentan como datos atípicos, las regiones de Santander y Bogotá D.C. En los análisis PCA serán consideradas estas conclusiones.

Análisis Bivariado de la Correlación

En el siguiente gráfico de correlaciones se evidencian, efectivamente, las regiones que en cada variable se consideraban como valores atípicos, afectando, entonces, la estructura de correlaciones, que es el insumo base del PCA.

Pruebas de Hipotesis

En el siguiente gráfico los coeficientes y su significancia son calculados sin considerar la variable impuesto. El método sugiere que mientras más elíptica sea la figura mayor correlación existe entre las variables

Análisis del Componentes Principales.

No se hace ninguna modificación en las escalas de valoración

Componentes

De acuerdo con el criterio de varianza explicada, en las 3 primeras componentes principales se acumula casi el 80% de la variabilidad observada. Se puede observar que a partir de la 3a componente los valores propios decaen lentamente.

Coeficientes estimados

Se observa que en la primera componente casi todos los coeficientes son positivos. De acuerdo con lo anterior, esta componente suma, ponderadamente y en sentido positivo, el destacado desempeño de la región en la mayoría de las actividades económicas analizadas. Por lo cual esta componente es una estructura latente que mide el desempeño general de la región. En las otras dos componentes los coeficientes son, mayoritariamente, negativos.

En el gráfico anterior se observa la representación/caracterización de los individuos en el espacio de los factores.

Los dos siguientes son los gráficos bivariados de las proyecciones.

Representación simultánea de regiones y variables

La representación simultanea permite afinar la interpretación. Este diagrama es de gran valor contrastar la ubicación de las regiones con la dirección de las variables. Podemos notar que la regiones de Arauca, Casanare y Meta van en la misma dirección del vector “Explotación”, esto se puede comprobar revisando los registros de éstas tres regiones y constatar que fueron las más altas en ésa área económica.

Observamos que a una relación lineal, casi obvia, entre la componente principal 1 y el aporte en cuanto a generación de impuestos.

Clusters

Para realizar el Clustering, utilizamos el algoritmo K-means, el cual está diseñado para minimizar la variación interna de los clusters. Opciones: Repetir el algoritmo, variando k, con diferentes puntos iniciales y seleccionar solución con menor SSE.

Realizando las iteraciones se determina que se conforman 5 clusters.

En esta imagen se combinan entonces el método K-Means con PCA. Los dos componentes graficados representan 84% de la variabilidad de los datos, por lo que es más que suficiente trabajar con estos dos elementos.

La gráfica permita visualizar la conformación de 5 clústers, los clusters representan o asocian los sectores económicos del país. Dos de ellos son regiones “únicas”, como Bogotá y San Andrés, por sus valores extremos en algunas variables. Un tercer clúster conformado por las regiones que poseen valores grandes en la variable “Exploración”. Con esta imagen se evidencia que hay cierto grado de conflicto entre los clusters 1 y 5, ya que tienen cierta área solapada entre ambos.