Logo UV


ANÁLISIS NO SUPERVISADO

Daniel Fernando Buitron - 1925967
Julian Bedoya Jaramillo - 1926444
Leony Ordoñez Martinez - 1925713

Introducción

En el presente trabajo se hizo uso de la base de datos del Departamento Administrativo Nacional de Estadística (DANE) para clasificar individuos con base en su comportamiento en cuanto a los gastos que tienen, enfatizando los gastos asociados a alimentación, transporte y comunicaciones. Esta clasificación se realiza por la metodología de análisis no supervisado ACP (Análisis de Componentes Principales) y una Clusterización por Ward (jerarquía) posterior a ello, empleando el lenguaje de programación R.

Contexto

Se trabajó con la base de datos formada a partir de los datos de la Encuesta Nacional de Ingresos y Gastos, realizada por el DANE de 2006 y 2007. Durante el desarrollo del trabajo, se trabajó con las siguientes variables, extraídas del documento GastosVivienda:

Variables:

Durante el desarrollo de trabajo se trabajó con la base de datos

  • X07320101 – Pasaje Bus, buseta o colectivo (Bus)

  • X11110301 – Gaseosa y otros refrescos (Gaseosa)

  • X11110102 – Almuerzos completos (Almuerzo)

  • X11110200 – Bebidas calientes en cafeterías y similares (BebCaliente)

  • X11110405 – Onces, medias nuevas, media mañana (Onces)

  • X11110404 – Productos de salsamentaria y fritanga (Fritanga)

  • X11110306 – Agua mineral (familiar) (Agua)

  • X07320103 – Taxi Urbano (Taxi)

  • X07220100 – Gasolina corriente y extra (Gasolina)

  • X08300203 – Pago de llamadas por minuto desde celular en la calle (Llamadas)

  • X11110101 – Desayunos completos (Desayunos)

  • X11110302 – Jugos naturales (Jugos)

  • X11110600 – Servicio de alojamiento en moteles y residencias (Hospedaje)

  • X11110412 – Pago de alimentos recibidos por personas de 3 años y más en el plantel (ComidaAd)

  • X07320105 – Otro transporte urbano, pirata, bicitaxi, mototaxi, funicular, teleférico (TransAlt)

  • X02200101 – Cigarrillos con filtro (Cigarrillos)

  • X11110411 – Valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años (ComidaInf)

  • X11110401 – Helados, paletas, conos y similares (Helados)

En donde encontramos la codificación, la descripción y el nombre asignado a cada una de las variables.

Estas variables describen en su mayoría los gastos básicos que tuvo una persona promedio durante ese periodo de tiempo, enfocado en los perceptores de ingresos y gastos cotidianos, como alimentos, tanto los principales como los consumidos por fuera del hogar, transporte, bien sea tradicional o no, y comunicaciones

Metodología

En esta práctica busca emplear técnicas de análisis no supervisado sobre una base de datos de consumo en la población colombiana, con el fin de plantear un análisis exploratorio de dichos datos. Para ello, se usará el lenguaje de programación R, en el entorno de desarrollo integrado, R estudio.

Librerías Empleadas

tidyverse: Esta biblioteca fue utilizada para la manipulación, visualización y análisis de datos. Facilitó la preparación y exploración de los datos, asegurando que estuvieran en un formato adecuado para el análisis y la construcción de los modelos.

readxl: Se recurrió a esta biblioteca para importar datos de hojas de cálculo de Microsoft Excel a R. Esto permitió incorporar los datos relevantes para el estudio que se encontraban en archivos Excel.

FactoMineR: Su uso se centra en técnicas para entender como diferentes variables se relacionan entre sí en un conjunto de datos complejos. En esta ocasión se usó para el análisis de componentes principales.

factoextra: Esta liberia funciona como un complemento gráfico de la librería FactoMineR. Ayuda a la visualización e interpretación de los resultados obtenidos en técnicas de análisis multivariado.

dendextend: Su uso se enfoca en la manipulación y visualización de gráficos que representan estructuras de tipo jerárquico, dendogramas. Empleados principalmente en clustering o agrupamiento.

FactoClass: Esta librería permite ejecutar técnicas de clasificación supervisada y no supervisada, esta última la clasificación de interés en este análisis de datos multivariados.

psych: Una librería usada para el análisis estadístico; estadísticas descriptivas correlaciones, análisis de fiabilidad, entre otros.

Manejo De La Base De Datos

Iniciamos con un tratamiento de la base de datos, se seleccionaron 1500 registros de los 20000 existentes, con el fin de mejorar el rendimiento y velocidad de los análisis. Además de, dado un problema en la base de datos, se reemplazaron los números negativos por 0, con el fin de ser más preciso en el análisis general.

PCA

Con la base de datos lista, se procede con el análisis de componentes principales, PCA por sus siglas en ingles. El PCA es una conocida técnica estadística que, ante un conjunto de datos, reduce su dimensionalidad, conservando a su vez la mayor cantidad de datos.

El ACP crea o encuentra nuevas variables, llamadas componentes principales, que son combinaciones lineales de las variables originales, las cuales explican la mayor variabilidad posible de los datos; el primer componente explica la mayor parte de la variabilidad de los datos, y se va reduciendo en las demás componentes.

Este proceso, al reducir la dimensionalidad de los datos, facilita la visualización y comprensión de la estructura subyacente, así como la identificación de patrones y relaciones dentro de los datos.

Clusterización Ward

Habiendo definido una serie de componentes principales, se emplea el método de Clusterización, el cual consiste en la agrupación de datos en clusters en base a la similitud entre observaciones, minimizando la varianza dentro de cada uno de ellos.

El resultado final de este método es una jerarquía de clusters, un dendograma, que muestra como se agrupan las observaciones en distintos niveles de similitud.

En conjunto con el análisis PCA y la Clusterización Ward, se emplearon herramientas para la visualización de los resultados, gráficos del PCA y C. Ward y como último resultado una representación gráfica de los clusters en el espacio de los componentes principales, un plano cartesiano.

Análisis Descriptivo

A continuación se presenta una serie de datos estadísticos que buscan describir el comportamiento de las variables seleccionadas.

Primeramente, la Tabla 1 muestra los cálculos de medias, desviaciones estándar, medianas, valores máximos y mínimos.

Tabla 1 - Estadística Descriptiva

##                   mean         sd     median min        max
## Bus          2676.0857  1289.1607  2464.4580   0  20000.000
## Gaseosa      1299.1066   767.7990  1100.3812   0   8040.796
## Almuerzo     5231.4392  5824.3681  4000.0000   0  83000.000
## BebCaliente   811.1596   570.8033   691.8941   0   7000.000
## Onces        2197.6999  3010.5804  1360.6708   0  36115.352
## Fritanga     1062.2832   788.1216   905.8692   0   8842.769
## Agua          734.5424   641.7224   600.0000   0  15000.000
## Taxi         5582.5487  3688.4960  4946.8819   0  42579.994
## Gasolina    14848.7652 12897.3694 13437.7975   0 191230.541
## Llamadas     1705.2200  1951.6561  1203.4859   0  24542.461
## Desayunos    2955.4890  1577.1531  2598.9276   0  21605.591
## Jugos        1359.9371   678.7068  1217.2600 200   7984.167
## Hospedaje   11302.7374  9031.0786 10645.0940   0 123836.033
## ComidaAd     1152.1429  1714.3684   752.3069   0  25000.000
## TransAlt     2960.1525  2806.4444  2589.3248   0  40000.000
## Cigarrillos  1094.3747   698.0440   946.2930   0   9050.000
## ComidaInf    1184.2586   961.5164   944.5944   0  10762.640
## Helados      2234.7176  2286.7843  1783.8629   0  30258.696

De los datos presentados anteriormente, podemos determinar las variables que, en promedio, son las que representan el mayor gasto de los hogares colombianos. El Gráfico 1 muestra el gasto promedio por variable.

Gráfico 1 - Gasto Medio

como se puede observar, el gasto medio más alto de los hogares colombianos es en gasolina, seguidamente de hospedaje, taxi y almuerzo. Además, se destaca que los valores mínimos corresponden a cigarrillos, fritanga, bebidas calientes y agua.

Ahora, es importante detectar si existe alguna correlación entre las variables seleccionadas. Para ello, el Gráfico 2 muestra el nivel de correlación entre las 4 variables que más generan gasto.

Gráfico 2 - Correlación Entre Variables

Como se puede apreciar, a medida que aumenta el gasto en cada variable, aumenta el gasto en las demás variables. Aunque, se puede aclarar que este comportamiento no se aprecia tanto entre las variables Taxi y Almuerzo, dado que a medida que aumenta el tamaño del círculo (Almuerzo), pocas veces se aclara la tonalidad de azul que representa a Taxi.

Esto puede dar una idea de que, la clasificación que se puede realizar a los individuos de la base de datos, es por estrato socioeconómico.

Resultados

Análisis De Componentes Principales

Una vez realizada la preparación de la base datos, se procedió a usar la función PCA() para realizar el análisis de componentes principales. Esta función nos arroja las siguientes dimenciones o componentes principales. El Gráfico 3 muestra el resultado obtenido, así como la capacidad descriptiva de cada componente para la base de datos.

Gráfico 3 - Componentes Principales

A partir de los resultados anteriores, se ha decidido trabajar con los componentes o dimenciones 1, 2 y 3. Dado que con éstas dimensiones, se logra describir más del 80% de la varianza de la base datos. La Tabla 2 muestra el porcentaje de descriptividad de cada componente de la base de datos elegido.

Tabla 2 - Componentes Principales Elegidos

# Componente Variance % Acumulado
1 Dim. 1 61.20% 61.20%
2 Dim. 2 11.14% 72.34%
3 Dim. 3 9.72% 82.07%

A continuación, puede observar los gráficos que relacionan las tres dimensiones con las variables de la base de datos. Recuerde que, entre más cerca esté el vector de un eje y entre más alejado esté del centro del plano cartesiono, mayor será la contribución de la variable en la dimensión correspondiente.

Dimensiones 1 y 2

Gráfico 4

En el gráfico se puede apreciar cómo las variables tienen a tener una contribución uniforme (entre 5% y 7%) en la cmbinación de las dimensiones 1 y 2. Asimismo, puede distinguirse que las variables Almuerzos y TransAlt sólo tienen una contribución cercana al 3% y Hospedaje tiene una contribución baja, cercana al 1%.

Dimensiones 1 y 3

Gráfico 5

En el gráfico se puede apreciar cómo las variables tienden a tener una contribución uniforme (entre 4% y 7%) en la combinación de las dimensiones 1 y 3, exceptuando la variable Bus, cuya contribución es la más baja (alrededor del 1%).

Dimensiones 2 y 3

Gráfico 6

En el gráfico se puede observar como las variables Taxi y Bus tienen una contribución media alta (alrededor del 20%) a la combinación de las dimensiones 2 y 3. Por otra parte, las variables Hospedaje y Gasolina tienen una contribución media en este apartado (alrededor del 13%). Finalizando, la variable Helado tiene una contribución media baja (cerca del 7%) y las demás contribuyen mínimamente (alrededor del 2.5%).

Contribución De Variables

Ahora bien, cada una de esta dimensiones o componentes son constituídas por una combinación lineal todas las variables de la base de datos. La elección de las variables más representativas se basó en lograr una contribución acumulada de al menos un 50% de la dimensión. La Tabla XX detalla las variables seleccionadas en cada dimensión, así como sus contribuciones dentro de la misma.

Tabla 3 - Variables Elegidas Por Dimensión

Dim Variable Contribución Acumulado por Dim.
1 ComidaInf 8.39% 8.39%
1 Desayunos 7.83% 16.22%
1 Llamadas 7.50% 23.72%
1 Onces 7.49% 31.21%
1 Cigarrilos 7.49% 38.70%
1 Jugos 7.12% 45.82%
1 Fritanga 7.06% 52.88%
2 Bus 41.62% 41.62%
2 Taxi 23.21% 64.83%
3 Hospedaje 27.16% 27.16%
3 Helado 14.56% 41.72%
3 Taxi 12.65% 54.37%

Asignación De Nombres - Dimensiones

  1. Dimensión 1: Se ha considerado que esta dimensión está compuesta mayormente por variables relacionadas a alimentos consumidos por fuera del hogar, además, incluye las variables de llamadas y cigarrillos, por lo que se puede pensar que en esta dimensión, las salidas a comer implican invitaciones entre varias personas que buscan un momento de compartir comiendo y fumando. Por ello, se ha decidido denominar a esta dimensión como Parche de amigos.

  2. Dimensión 2: Se ha considerado que esta dimensión está compuesta únicamente por variables de gastos en Bus y Taxi, que son medios de transporte, por ende, se ha decidido llamar a esta dimensión como Transporte.

  3. Dimensión 3: Se ha considerado que esta dimensión está compuesta por las variables Hospedaje, Helado y Taxi, encontrando relación entre un viaje en taxi para llegar a un hotel o motel y en algún momento consumir un helado para pasar el tiempo, por ello, se ha decidido denominar esta dimensión como Vacaciones.

Clusters

Una vez implementada la librería FactoClass para la clusterización, se decidió establecer la cantidad de clusters en 4, debido a la forma del árbol de jerarquía mostrado. El Gráfico 7 muestra la custerización de los individuos en el árbol de jerarquía.

Gráfico 7 - Árbol De Clusterización

ASC

Los clusters presentan una clasificación enfocada, como se espera, en el gasto que tiene la población. Con base a los resultados de la media del clúster y la media global, podemos observar una diferencia entre la población, enfocada en su nivel de gasto, que, a interpretación propia, se relacionó con el nivel de adquisitivo de la población.

Con esto en mente, se caracterizó a los clusters como niveles adquisitivos, pues hay un incremento en los gastos a nivel general.

  • Clúster 1 (C1): Poder adquisitivo bajo

  • Clúster 2 (C2): Poder adquisitivo medio bajo

  • Clúster 4 (C4): Poder adquisitivo medio alto

  • Clúster 3 (C3): Poder adquisitivo alto

Ahora bien, considerando la posición de los clústeres en el plano cartesiano de los componentes principales; 1, Parche con Amigos; 2, Transporte y 3; Viaje, tenemos que:

Plano, componente 1 y 2:

Aquí se interpreta que tanto C4 y C3 representan alta positiva en el componente 1, por lo que tienen mayores gastos en las variables que contribuyen al componente, parche con amigos, pero no influyen en el componente 2, Transporte.

Para el caso de C1, se encuentra en la parte negativa del componente 1, y una parte se encuentra en la parte negativa del componente 2. Interpretando un gasto menor a la media para estos dos componentes, pero su influencia es alta en ambos

Por último, tenemos a C2, este tiene una influencia mayormente positiva para el componente 1 y en cuanto al componente 2, influye en gran medida tanto positiva y negativamente.

Plano, componente 1 y 3:

La posición de los clusters es semejante a la presentada en el plano del componente 1 y 2, por lo que su interpretación es igual, considerando el cambio en su lectura, pues el componente 2 (Trasporte) es cambiado por el componente 3 (Viajes).

Plano, componente 2 y 3:

Debido a la baja cantidad de variables en estas dimensiones, además de compartir la variable Taxi, el comportamiento vectorial del plano hace que los clusters no logren distinguirse de forma precisa. Por lo cual, a partir de este plano no se puede realizar conclusiones.

Conlusiones

Gracias al trabajo realizado, y haciendo uso del lenguaje de programación R fue posible generar una clasificación creando 3 componentes principales, asociados a diferentes comportamientos basados en los gastos de los individuos. Asimismo, a partir de la clasificación dada se diseñaron 4 clusters, relacionados al poder adquisitivo de los individuos correspondientes a cada uno de ellos. Además, se evidencia que los clusters que se denominaron como de “Poder adquisitivo bajo” tienen una mayor densidad poblacional, contrastando con los de “Poder adquisitivo alto” que tienen una menor.

Referencias

  1. DANE