ANÁLISIS NO SUPERVISADO
Daniel Fernando Buitron - 1925967
Julian Bedoya
Jaramillo - 1926444
Leony Ordoñez Martinez - 1925713
En el presente trabajo se hizo uso de la base de datos del Departamento Administrativo Nacional de Estadística (DANE) para clasificar individuos con base en su comportamiento en cuanto a los gastos que tienen, enfatizando los gastos asociados a alimentación, transporte y comunicaciones. Esta clasificación se realiza por la metodología de análisis no supervisado ACP (Análisis de Componentes Principales) y una Clusterización por Ward (jerarquía) posterior a ello, empleando el lenguaje de programación R.
Se trabajó con la base de datos formada a partir de los datos de la Encuesta Nacional de Ingresos y Gastos, realizada por el DANE de 2006 y 2007. Durante el desarrollo del trabajo, se trabajó con las siguientes variables, extraídas del documento GastosVivienda:
Variables:
Durante el desarrollo de trabajo se trabajó con la base de datos
X07320101 – Pasaje Bus, buseta o colectivo (Bus)
X11110301 – Gaseosa y otros refrescos (Gaseosa)
X11110102 – Almuerzos completos (Almuerzo)
X11110200 – Bebidas calientes en cafeterías y similares (BebCaliente)
X11110405 – Onces, medias nuevas, media mañana (Onces)
X11110404 – Productos de salsamentaria y fritanga (Fritanga)
X11110306 – Agua mineral (familiar) (Agua)
X07320103 – Taxi Urbano (Taxi)
X07220100 – Gasolina corriente y extra (Gasolina)
X08300203 – Pago de llamadas por minuto desde celular en la calle (Llamadas)
X11110101 – Desayunos completos (Desayunos)
X11110302 – Jugos naturales (Jugos)
X11110600 – Servicio de alojamiento en moteles y residencias (Hospedaje)
X11110412 – Pago de alimentos recibidos por personas de 3 años y más en el plantel (ComidaAd)
X07320105 – Otro transporte urbano, pirata, bicitaxi, mototaxi, funicular, teleférico (TransAlt)
X02200101 – Cigarrillos con filtro (Cigarrillos)
X11110411 – Valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años (ComidaInf)
X11110401 – Helados, paletas, conos y similares (Helados)
En donde encontramos la codificación, la descripción y el nombre asignado a cada una de las variables.
Estas variables describen en su mayoría los gastos básicos que tuvo una persona promedio durante ese periodo de tiempo, enfocado en los perceptores de ingresos y gastos cotidianos, como alimentos, tanto los principales como los consumidos por fuera del hogar, transporte, bien sea tradicional o no, y comunicaciones
En esta práctica busca emplear técnicas de análisis no supervisado sobre una base de datos de consumo en la población colombiana, con el fin de plantear un análisis exploratorio de dichos datos. Para ello, se usará el lenguaje de programación R, en el entorno de desarrollo integrado, R estudio.
– tidyverse: Esta biblioteca fue utilizada para la manipulación, visualización y análisis de datos. Facilitó la preparación y exploración de los datos, asegurando que estuvieran en un formato adecuado para el análisis y la construcción de los modelos.
– readxl: Se recurrió a esta biblioteca para importar datos de hojas de cálculo de Microsoft Excel a R. Esto permitió incorporar los datos relevantes para el estudio que se encontraban en archivos Excel.
– FactoMineR: Su uso se centra en técnicas para entender como diferentes variables se relacionan entre sí en un conjunto de datos complejos. En esta ocasión se usó para el análisis de componentes principales.
– factoextra: Esta liberia funciona como un complemento gráfico de la librería FactoMineR. Ayuda a la visualización e interpretación de los resultados obtenidos en técnicas de análisis multivariado.
– dendextend: Su uso se enfoca en la manipulación y visualización de gráficos que representan estructuras de tipo jerárquico, dendogramas. Empleados principalmente en clustering o agrupamiento.
– FactoClass: Esta librería permite ejecutar técnicas de clasificación supervisada y no supervisada, esta última la clasificación de interés en este análisis de datos multivariados.
– psych: Una librería usada para el análisis estadístico; estadísticas descriptivas correlaciones, análisis de fiabilidad, entre otros.
Manejo De La Base De Datos
Iniciamos con un tratamiento de la base de datos, se seleccionaron 1500 registros de los 20000 existentes, con el fin de mejorar el rendimiento y velocidad de los análisis. Además de, dado un problema en la base de datos, se reemplazaron los números negativos por 0, con el fin de ser más preciso en el análisis general.
Con la base de datos lista, se procede con el análisis de componentes principales, PCA por sus siglas en ingles. El PCA es una conocida técnica estadística que, ante un conjunto de datos, reduce su dimensionalidad, conservando a su vez la mayor cantidad de datos.
El ACP crea o encuentra nuevas variables, llamadas componentes principales, que son combinaciones lineales de las variables originales, las cuales explican la mayor variabilidad posible de los datos; el primer componente explica la mayor parte de la variabilidad de los datos, y se va reduciendo en las demás componentes.
Este proceso, al reducir la dimensionalidad de los datos, facilita la visualización y comprensión de la estructura subyacente, así como la identificación de patrones y relaciones dentro de los datos.
Habiendo definido una serie de componentes principales, se emplea el método de Clusterización, el cual consiste en la agrupación de datos en clusters en base a la similitud entre observaciones, minimizando la varianza dentro de cada uno de ellos.
El resultado final de este método es una jerarquía de clusters, un dendograma, que muestra como se agrupan las observaciones en distintos niveles de similitud.
En conjunto con el análisis PCA y la Clusterización Ward, se emplearon herramientas para la visualización de los resultados, gráficos del PCA y C. Ward y como último resultado una representación gráfica de los clusters en el espacio de los componentes principales, un plano cartesiano.
A continuación se presenta una serie de datos estadísticos que buscan describir el comportamiento de las variables seleccionadas.
Primeramente, la Tabla 1 muestra los cálculos de medias, desviaciones estándar, medianas, valores máximos y mínimos.
Tabla 1 - Estadística Descriptiva
## mean sd median min max
## Bus 2676.0857 1289.1607 2464.4580 0 20000.000
## Gaseosa 1299.1066 767.7990 1100.3812 0 8040.796
## Almuerzo 5231.4392 5824.3681 4000.0000 0 83000.000
## BebCaliente 811.1596 570.8033 691.8941 0 7000.000
## Onces 2197.6999 3010.5804 1360.6708 0 36115.352
## Fritanga 1062.2832 788.1216 905.8692 0 8842.769
## Agua 734.5424 641.7224 600.0000 0 15000.000
## Taxi 5582.5487 3688.4960 4946.8819 0 42579.994
## Gasolina 14848.7652 12897.3694 13437.7975 0 191230.541
## Llamadas 1705.2200 1951.6561 1203.4859 0 24542.461
## Desayunos 2955.4890 1577.1531 2598.9276 0 21605.591
## Jugos 1359.9371 678.7068 1217.2600 200 7984.167
## Hospedaje 11302.7374 9031.0786 10645.0940 0 123836.033
## ComidaAd 1152.1429 1714.3684 752.3069 0 25000.000
## TransAlt 2960.1525 2806.4444 2589.3248 0 40000.000
## Cigarrillos 1094.3747 698.0440 946.2930 0 9050.000
## ComidaInf 1184.2586 961.5164 944.5944 0 10762.640
## Helados 2234.7176 2286.7843 1783.8629 0 30258.696
De los datos presentados anteriormente, podemos determinar las variables que, en promedio, son las que representan el mayor gasto de los hogares colombianos. El Gráfico 1 muestra el gasto promedio por variable.
Gráfico 1 - Gasto Medio
como se puede observar, el gasto medio más alto de los hogares colombianos es en gasolina, seguidamente de hospedaje, taxi y almuerzo. Además, se destaca que los valores mínimos corresponden a cigarrillos, fritanga, bebidas calientes y agua.
Ahora, es importante detectar si existe alguna correlación entre las variables seleccionadas. Para ello, el Gráfico 2 muestra el nivel de correlación entre las 4 variables que más generan gasto.
Gráfico 2 - Correlación Entre Variables
Como se puede apreciar, a medida que aumenta el gasto en cada variable, aumenta el gasto en las demás variables. Aunque, se puede aclarar que este comportamiento no se aprecia tanto entre las variables Taxi y Almuerzo, dado que a medida que aumenta el tamaño del círculo (Almuerzo), pocas veces se aclara la tonalidad de azul que representa a Taxi.
Esto puede dar una idea de que, la clasificación que se puede realizar a los individuos de la base de datos, es por estrato socioeconómico.
Una vez realizada la preparación de la base datos, se procedió a usar la función PCA() para realizar el análisis de componentes principales. Esta función nos arroja las siguientes dimenciones o componentes principales. El Gráfico 3 muestra el resultado obtenido, así como la capacidad descriptiva de cada componente para la base de datos.
Gráfico 3 - Componentes Principales
A partir de los resultados anteriores, se ha decidido trabajar con los componentes o dimenciones 1, 2 y 3. Dado que con éstas dimensiones, se logra describir más del 80% de la varianza de la base datos. La Tabla 2 muestra el porcentaje de descriptividad de cada componente de la base de datos elegido.
Tabla 2 - Componentes Principales Elegidos
| # | Componente | Variance % | Acumulado |
|---|---|---|---|
| 1 | Dim. 1 | 61.20% | 61.20% |
| 2 | Dim. 2 | 11.14% | 72.34% |
| 3 | Dim. 3 | 9.72% | 82.07% |
A continuación, puede observar los gráficos que relacionan las tres dimensiones con las variables de la base de datos. Recuerde que, entre más cerca esté el vector de un eje y entre más alejado esté del centro del plano cartesiono, mayor será la contribución de la variable en la dimensión correspondiente.
Gráfico 4
En el gráfico se puede apreciar cómo las variables tienen a tener una contribución uniforme (entre 5% y 7%) en la cmbinación de las dimensiones 1 y 2. Asimismo, puede distinguirse que las variables Almuerzos y TransAlt sólo tienen una contribución cercana al 3% y Hospedaje tiene una contribución baja, cercana al 1%.
Gráfico 5
En el gráfico se puede apreciar cómo las variables tienden a tener una contribución uniforme (entre 4% y 7%) en la combinación de las dimensiones 1 y 3, exceptuando la variable Bus, cuya contribución es la más baja (alrededor del 1%).
Gráfico 6
En el gráfico se puede observar como las variables Taxi y Bus tienen una contribución media alta (alrededor del 20%) a la combinación de las dimensiones 2 y 3. Por otra parte, las variables Hospedaje y Gasolina tienen una contribución media en este apartado (alrededor del 13%). Finalizando, la variable Helado tiene una contribución media baja (cerca del 7%) y las demás contribuyen mínimamente (alrededor del 2.5%).
Ahora bien, cada una de esta dimensiones o componentes son constituídas por una combinación lineal todas las variables de la base de datos. La elección de las variables más representativas se basó en lograr una contribución acumulada de al menos un 50% de la dimensión. La Tabla XX detalla las variables seleccionadas en cada dimensión, así como sus contribuciones dentro de la misma.
Tabla 3 - Variables Elegidas Por Dimensión
| Dim | Variable | Contribución | Acumulado por Dim. |
|---|---|---|---|
| 1 | ComidaInf | 8.39% | 8.39% |
| 1 | Desayunos | 7.83% | 16.22% |
| 1 | Llamadas | 7.50% | 23.72% |
| 1 | Onces | 7.49% | 31.21% |
| 1 | Cigarrilos | 7.49% | 38.70% |
| 1 | Jugos | 7.12% | 45.82% |
| 1 | Fritanga | 7.06% | 52.88% |
| 2 | Bus | 41.62% | 41.62% |
| 2 | Taxi | 23.21% | 64.83% |
| 3 | Hospedaje | 27.16% | 27.16% |
| 3 | Helado | 14.56% | 41.72% |
| 3 | Taxi | 12.65% | 54.37% |
Una vez implementada la librería FactoClass para la clusterización, se decidió establecer la cantidad de clusters en 4, debido a la forma del árbol de jerarquía mostrado. El Gráfico 7 muestra la custerización de los individuos en el árbol de jerarquía.
Gráfico 7 - Árbol De Clusterización
Los clusters presentan una clasificación enfocada, como se espera, en el gasto que tiene la población. Con base a los resultados de la media del clúster y la media global, podemos observar una diferencia entre la población, enfocada en su nivel de gasto, que, a interpretación propia, se relacionó con el nivel de adquisitivo de la población.
Con esto en mente, se caracterizó a los clusters como niveles adquisitivos, pues hay un incremento en los gastos a nivel general.
Clúster 1 (C1): Poder adquisitivo bajo
Clúster 2 (C2): Poder adquisitivo medio bajo
Clúster 4 (C4): Poder adquisitivo medio alto
Clúster 3 (C3): Poder adquisitivo alto
Ahora bien, considerando la posición de los clústeres en el plano cartesiano de los componentes principales; 1, Parche con Amigos; 2, Transporte y 3; Viaje, tenemos que:
Plano, componente 1 y 2:
Aquí se interpreta que tanto C4 y C3 representan alta positiva en el componente 1, por lo que tienen mayores gastos en las variables que contribuyen al componente, parche con amigos, pero no influyen en el componente 2, Transporte.
Para el caso de C1, se encuentra en la parte negativa del componente 1, y una parte se encuentra en la parte negativa del componente 2. Interpretando un gasto menor a la media para estos dos componentes, pero su influencia es alta en ambos
Por último, tenemos a C2, este tiene una influencia mayormente positiva para el componente 1 y en cuanto al componente 2, influye en gran medida tanto positiva y negativamente.
Plano, componente 1 y 3:
La posición de los clusters es semejante a la presentada en el plano del componente 1 y 2, por lo que su interpretación es igual, considerando el cambio en su lectura, pues el componente 2 (Trasporte) es cambiado por el componente 3 (Viajes).
Plano, componente 2 y 3:
Debido a la baja cantidad de variables en estas dimensiones, además de compartir la variable Taxi, el comportamiento vectorial del plano hace que los clusters no logren distinguirse de forma precisa. Por lo cual, a partir de este plano no se puede realizar conclusiones.
Gracias al trabajo realizado, y haciendo uso del lenguaje de programación R fue posible generar una clasificación creando 3 componentes principales, asociados a diferentes comportamientos basados en los gastos de los individuos. Asimismo, a partir de la clasificación dada se diseñaron 4 clusters, relacionados al poder adquisitivo de los individuos correspondientes a cada uno de ellos. Además, se evidencia que los clusters que se denominaron como de “Poder adquisitivo bajo” tienen una mayor densidad poblacional, contrastando con los de “Poder adquisitivo alto” que tienen una menor.