Análisis No Supervisado

Introducción

En un esfuerzo para registrar información sobre el monto y la distribución de los gastos de los hogares colombianos, el DANE realizó durante los años 2006 y 2007 la Encuesta Nacional de Ingresos y Gastos con una cobertura para 23 ciudades capitales del país, además de capturar información en San Andrés, el eje bananero y zonas rurales. Originalmente, la encuesta se enfoca en el presupuesto familiar; por esto se indaga por los ingresos y los gastos del hogar, y por otras variables clasificatorias y de control, como las características generales, educativas y económicas de las personas. Es así como el estudio considera variables como el lugar de compra, evaluando los sitios donde se acostumbra a adquirir los diferentes bienes y servicios, o la frecuencia de compra. Sin embargo, para el presente estudio se centra en el Formulario No. 4 urbano o Cuaderno de Gastos Diarios Personales, formulario con variables que engloban los gastos diarios personales realizados por cada uno de los miembros del hogar que reciben un ingreso, conocidos como “perceptores de ingresos”. Se consideran gastos personales aquellos gastos de menudeo o de bolsillo que las personas hacen muy frecuentemente, como son los gastos en alimentos consumidos fuera del hogar, transporte, comunicaciones, bebidas, entre otros.

El uso de las técnicas de aprendizaje no supervisado nos permite establecer estructuras o relaciones ocultas entre los datos, para una mayor comprensión de su variabilidad. Habiendo hecho esta agrupación, podremos deducir la situación económica de las viviendas, así como las características y patrones de consumo de los hogares en Colombia. Las clases creadas por el algoritmo y su respectiva interpretación son de gran importancia en el trabajo de registrar situaciones socioeconómicas de la época en pro de compararlas con épocas anteriores o actuales, algo que comúnmente se hace con el Índice de Precios al Consumidor. También, identificar una clase predominante o única, es de gran utilidad cuando, por ejemplo, se quieren desarrollar proyectos, políticas públicas e incluso, la introducción de una nueva industria.

De la base a disposición, con 20.000 registros completos, se toma una muestra de 2.000 registros aleatorios y 18 variables cuantitativas, donde la unidad básica de análisis son las viviendas.

Metodología

Arendizaje no supervisado

El aprendizaje no supervisado es un enfoque en estadística y aprendizaje automático donde el algoritmo se entrena sobre un conjunto de datos que no está etiquetado ni categorizado previamente. A diferencia del aprendizaje supervisado, donde se proporcionan ejemplos de entrada y salida esperada para que el modelo aprenda la relación entre ellos, en el aprendizaje no supervisado, el algoritmo tiene que descubrir patrones, estructuras o relaciones en los datos por sí mismo. Existen varias técnicas de aprendizaje no supervisado, para este trabajo utilizaremos el Análisis de Componentes Principales (PCA) y el método de Clusterización.

Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales es una técnica de reducción de la dimensión que describe la información de un conjunto de variables observadas mediante un conjunto de variables más pequeño (las componentes principales) que son combinaciones lineales de las variables de partida. El objetivo principal es crear nuevas variables o componentes que logran describir a un individuo según su ubicación en estos. Así, en etapas posteriores se pueden simplificar los criterios de decisión para la clasificación de la población. Como premisa se busca que la mayor cantidad de información quede contenida en el menor número posible de componentes.

Cómo se obtiene:

Se descomponen linealmente las variables originales Xn en nuevas componentes Pq, de manera que la variable original está multiplicada por unos coeficientes fn que proporcionan la puntuación de la variable en el componente respectivo. Para crear los componentes se utiliza la matriz de covarianza, pues en este caso todas las variables tienen la misma unidad de medida en pesos colombianos. Los coeficientes f son los vectores propios asociados a los valores propios más representativos de la matriz de covarianza, que van en la dirección de la componente q (la puntuación de las n variables en la componente principal q).

P1=f11X1+f21X2+ . . .+fn1Xn

P2=f12X1+f22X2+ . . .+fn2Xn . . . Pq=f1qX1+f2qX2+ . . .+fnqXn

Primero se estandarizan las variables haciendo que su media sea cero, y su desviación estándar 1. Se hace un proceso de maximización para que la primera componente explique la máxima varianza posible, lo que se hace buscando el número de factores f que maximicen la varianza. Las nuevas dimensiones se calculan de la misma manera, teniendo en cuenta que deben ser ortogonales para garantizar la no correlación entre componentes.

Finalmente, se seleccionó el número de componentes principales para explicar un determinado porcentaje de varianza.

Clusterización – Ward, Agrupamiento jerárquico

Joe H. Ward realizó la primera descripción de este método en 1963, el cual consiste en una lista de combinaciones posibles de acuerdo a la distancia entre los puntos. Se forman niveles de jerarquías, de manera que se inicia agrupando los dos puntos con la distancia más corta, luego se observan los siguientes puntos con la distancia más corta, y si su separación es menor a la distancia entre la pareja anterior, se forma una nueva pareja, de lo contrario, se agrupa el punto más cercano al primer grupo creado. El proceso continúa hasta que se agrupan todos los puntos en el nivel de jerarquía más alto.

Se basa en un criterio clásico de suma de cuadrados, En cada paso se fusionan los dos clústeres que producen la suma de cuadrados dentro de clúster (variabilidad within o intra-clústeres) mínima entre todas las posibles, las particiones que se obtienen fusionando dos clústeres del paso previo. En este contexto, ‘suma de cuadrados dentro’ refiere a la suma de las distancias al cuadrado de las observaciones del clúster respecto de la media de las observaciones del mismo clúster. ’’siendo grupos que minimizan la dispersión dentro del grupo en cada fusión binaria.

Estadística descriptiva

Para tener una primera idea de cómo son los datos de la base estudiada, se realizó el siguiente análisis estadístico descriptivo de las variables, con la pretensión de visualizar la distribución y comportamiento de estas variables a través de gráficos que representan el promedio, la desviación, y el valor máximo y mínimo de cada una.

Variables

Pasajes.BBC = Pasaje en bus, buseta y colectivo.
Gaseosas = Gaseosa y otros refrescos.
Almuerzos = Almuerzos completos.
Bebidas.cafeterias = Bebidas calientes en cafeterías y similares: Tinto, café con leche, chocolate, té, bebida achocolatada caliente, leche, agua de panela, agua aromática, avena caliente y similares.
Onces = Onces, medias, nuevas, media mañana, algo, entredía, recreo.
Productos.salsamentaria = Productos de salsamentaria y fritanga: chorizos, jamones, rellenas y similares.
Agua.mineral = Agua mineral (familiar).
Taxi.urbano = Taxi urbano.
Gasolina = Gasolina corriente y extra.
Llamadas.minutos = Pago de llamadas por minuto desde celular en la calle a cualquier destino.
Desayunos = Desayunos completos.
Jugos.naturales = Jugos naturales.
Alojamiento = Servicios de alojamiento en moteles y residencias.
Pago.alimentos.plantel = Pago de alimentos recibidos por personas de 3 años y más en el plantel.
Otro.transporte.urbano = Otro transporte urbano: servicio pirata, bicitaxi, mototaxi, funicular, teleférico, etc.
Cigarrillos.filtro = Cigarrillos con filtro.
CostoAlimentos.3años =Valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años.
Helados = Helados, paletas, conos y similares.

Figura 1. : Diagrama de cajas de la distribución de variables.

Tabla 1. : Datos descriptivos de las variables.

Figura 2. : Media de las variables.

Con base en los anteriores gráficos y la tabla de los datos descriptivos, se observa una amplia dispersión en los gastos, evidenciada por las desviaciones estándar significativas en muchas de las variables, lo que sugiere que no tienen una tendencia en el consumo. Mientras que algunas categorías, como Gasolina (14505.63) y Alojamiento (11320.86), muestran una alta media, además de su alta desviación estándar de 12128.69 y 8399.17 respectivamente, otras como Agua.mineral (731.33) y Bebidas.cafeterias (828.86) tienen medias relativamente bajas y presentan una menor desviación estándar en sus datos (528.72 y 637.19 respectivamente), indicando que tienen una mayor consistencia en los montos gastados. Por otro lado, los valores máximos, que son considerablemente más altos que las medias en algunas categorías, indican la existencia de gastos excepcionales o atípicos en estas variables. En cambio, la presencia de valores mínimos de cero en varias categorías sugiere la ausencia de gastos en ciertos hogares. En conclusión, esto muestra la diversidad en los hábitos de gasto de los hogares colombianos, con ciertas áreas de gastos más consistentes y otras más variables, lo que refleja diferencias en prioridades y necesidades en el contexto del consumo diario.

Resultados

Para visualizar los resultados del análisis de componentes principales (PCA), se creó un gráfico de barras que muestra la varianza explicada por cada componente principal. Al representarlos gráficamente, podemos observar el porcentaje de contribución de cada componente principal o dimensión a la variabilidad total de los datos. Esto nos ayuda a decidir qué dimensiones tomar en función de la cantidad de varianza que explican.

Figura 2. : Representación de las Dimesiones.

Tabla 2. : Datos de la varianza explicada.

Para la selección de las dimensiones se hizo un análisis de las 4 primeras presentes en el gráfico, observando las variables con mayor porcentaje de contribución a la formación de cada dimensión.

Tabla 3. : Variables representativas de la dimensión 1.

Tabla 4. : Variables representativas de la dimensión 2.

Como se puede apreciar, las variables de contribución más importantes para la dimensión 1 se engloban en los gastos realizados para la alimentación. Por otra parte, la dimensión 2 recoge aquellas variables de gastos en la necesidad de transporte, ya sea particular o público. Entonces, debido a que, por ejemplo, en la dimensión 3 vuelven influir variables de transporte, y en la dimensión cuatro se reparte la influencia entre variables de transporte alimentación, decidimos que estas últimas no son lo suficientemente claras y optamos por elegir los primeros dos factores, que en conjunto nos ayudan a explicar el 71.40 % de la varianza de la base de datos de nuestro análisis. A continuación su denominación y sus variables de influencia:

Dimensión 1: Estilo de vida y Salud

Ya que la variación de las 13 variables más representativas en esta dimensión (90.95% explicación), representan hábitos de consumo que influyen directamente en la salud de las personas. Un ejemplo de ello se presenta cuando comparamos el consumo de una gaseosa, con su alto contenido de azúcar, con el de agua mineral. Mientras el primero puede relacionarse a riesgos en la salud, el segundo representa una elección más saludable. Siguiendo con el análisis, tener acceso a almuerzos y desayunos de calidad, preferir jugos naturales e invertir en alimentos para niños, indican un compromiso con una alimentación adecuada y un bienestar general. Por el contrario, el hábito de fumar se percibe como un indicador de un estilo de vida poco saludable, al igual que el consumo de productos de salsamentaria y fritanga, o de helados. Además, es muy importante considerar el contexto temporal de la encuesta, pues para 2006 sólo las personas de altos recursos poseían sus propios celulares, mientras que la gran mayoría debía recurrir a comprar minutos en la calle. Con una diferencia socioeconómica de este tipo, es posible que aquellos con suficientes recursos disfrutaran de experiencias en cafeterías y restaurantes finos, mientras que otros, con menos opciones, optarán por comidas rápidas y pequeños placeres como una gaseosa, un cigarrillo o un café en el negocio de la esquina.

Dimensión 2: Acceso a transporte

Con base en las 4 primeras variables que más influyen y una explicación del 90.32% de la segunda componente, se denominó Capacidad de accesos a transporte, haciendo referencia a la capacidad de las personas para utilizar y disponer de los distintos medios de transporte, pudiendo ser este influenciado por factores como la condición económica de la persona. Aquellos con mayores recursos económicos tienen la posibilidad de transportarse en vehículos propios o taxis urbanos, teniendo una mayor flexibilidad y comodidad en sus desplazamientos. Por otro lado, aquellos con recursos más limitados regularmente emplean medios de transporte público, como autobuses, buses, colectivos y sistemas integrados.

Figura 3. : Circulo de correlación.

Figura 4. : Representación de individuos y variables en las dimensiones.

En la dimensión 2, hacia arriba se encuentran quienes prefieren el servicio público tradicional, como lo es el taxi, el bus, buseta y colectivo, mientras que hacia abajo se encuentran quienes tienen la necesidad de comprar gasolina para su carro, u optan por otras opciones como el mototaxi, teleférico, entre otros. La longitud de las flechas indica que tan bien representadas las variables por la dimensión, el ángulo entre ellas explica su nivel de correlación En la dimensión 1, hacia la izquierda, los más alejados son quienes gastan en onces (comidas intermedias), en alimentos para niños menores de 3 años, en desayunos… Mientras, un poco más a la derecha, quienes gastan en bebidas de cafetería, comidas rápidas, helado, gaseosas.

Agrupamiento Jerárquico

Con la creación de jerarquías, el algoritmo arrojó un listado de combinaciones posibles de acuerdo a la jerarquía de las distancias entre los puntos para determinar los Clusters. El algoritmo busca dos puntos con la distancia más corta y los agrupa, luego se toma la siguiente pareja con la distancia más corta y, si esta es menor a la separación con respecto al centroide de la primera pareja, se conforma un nuevo grupo, de lo contrario, se agrupa el punto más cercano a la primera pareja. Así, se forman agrupaciones hasta llegar a la jerarquía más alta, es decir, todo el conjunto de datos. Las agrupaciones se observan en el siguiente dendrograma:

Figura 5. : Selección del número de Closters.

De acuerdo a los niveles jerárquicos observados en el anterior gráfico, se tomó la decisión de clasificar al conjunto de datos dentro de 5 agrupaciones, pues se consideró que era necesario realizar la distinción entre los dos Clusters formados desde la izquierda, los cuales representan la mayoría de las observaciones. Seguido a lo anterior, se procedió a agregar la nueva variable de clase a la base de datos inicial, y además, se graficó el plano formado por las dimensiones elegidas, en el cual se visualiza la distribución de las viviendas dentro de cada clase como su ubicación misma dentro del plano.

Figura 6. : Distribución de clases en las dimensiones.

Análisis de clases

Definición de capacidad de consumo

La capacidad de consumo se refiere a la habilidad y poder adquisitivo que tiene una persona, familia o sociedad para adquirir bienes y servicios. Se relaciona estrechamente con los ingresos disponibles, el nivel de ahorro y la propensión a gastar dinero en productos y servicios. Esta capacidad está influenciada por diversos factores, como el ingreso económico, el acceso al crédito, el nivel de empleo, los impuestos, las políticas gubernamentales, la confianza del consumidor y las condiciones económicas generales. Una alta capacidad de consumo en una sociedad puede indicar un mayor nivel de bienestar y desarrollo económico, mientras que una capacidad de consumo reducida puede indicar dificultades financieras, menor acceso a bienes y servicios o problemas económicos en general. Es un indicador importante para evaluar la salud económica de un país y entender los patrones de gasto de los individuos y las comunidades.

Con base en este concepto y los resultados del proceso de Clusterización, se han identificado cinco grupos con diferente nivel de gasto en la adquisición de bienes y servicios. Estos grupos han sido categorizados con base en sus patrones de consumo y comportamientos financieros.

Clases

Clase 1.

Tabla 5. : Caracterización de clase 1.

Capacidad de consumo baja

Es la clase donde sus promedios están por debajo de la media global, indicándonos que son las viviendas con la menor capacidad de gasto o poca satisfacción en las necesidades de gastos personales. Aunque la variable que representa el mayor promedio de gasto en la clase es Gasolina, su promedio es muy bajo respecto a las demás clases, lo que indica una deficiente capacidad de acceso a transporte. También, son pocos los gastos en las variables que permiten tener un adecuado estilo de vida y salud, ejemplo de esto es que en promedio él gastó en almuerzos es de $3256,75; un alimento “barato” que no posee un alto nivel de nutrientes. Esta clase representa más del 50 % del total de las viviendas estudiadas, lo que evidencia la tendencia social a que la gran mayoría de las personas son de pocos ingresos, y en consecuencia, tienen la menor capacidad de consumo.

Clase 2.

Tabla 6. : Caracterización de clase 2.

Capacidad de consumo Media

A diferencia de las demás clases, aquí no hace presencia la variable de gasto en gasolina, lo que indica que es un grupo de personas sin carro particular y que generalmente opta por el transporte público, en especial el taxi, para sus recorridos necesarios (Su capacidad de acceso a transporte es media). Por otra parte, el gasto en alimentación consta principalmente de desayunos, comida ligera, bebidas de cafetería, gaseosas, helados, entre otros; y al predominar este tipo de variables, podemos deducir que no se contribuye mucho a una buena alimentación, por lo tanto, el estilo de vida y salud tiene un nivel moderado. Deduciendo así que la capacidad de consumo de este grupo de hogares es media

Clase 3.

Tabla 7. : Caracterización de clase 3.

Capacidad de consumo Media-Alta

Para la clase 3 muestra promedios relativamente superiores en comparación con la media global de estas categorías, indicando una capacidad de gatos más elevada y mayor satisfacción en las necesidades de gastos personales y tener un nivel de vida más alto. El gasto promedio en gasolina y uso del taxi urbano son relativamente altos en esta clase, esto indica que el transportarse y movilidad es una prioridad dentro de sus gastos. En almuerzos, comidas intermedias y desayunos, lo que nos indica un gasto significativo y priorizado, seguramente en alimentos de mayor costo y, por tanto, de mejor calidad y beneficio para su calidad de vida. Concluyendo así que este grupo tiene una capacidad de adquisición de bienes y servicios media-alta.

Clase 4.

Tabla 8. : Caracterización de clase 4.

Capacidad de consumo Alta

Es aquí donde los gastos en las diferentes variables empiezan a separarse de la media global, evidenciándose una notable diferencia en el valor promedio de gastos en las diferentes variables, con una tendencia al crecimiento respecto a la media global, lo que indica que las personas pertenecientes a esta clase tienen una buena capacidad de acceso al transporte (distancias más largas), también se puede interpretar que en esta clase se destina una mayor cantidad de dinero a la alimentación, relacionado con el almuerzo, desayuno, jugos naturales y demás, estos son de una mejor calidad, y, por tanto, contribuyen a tener un buen nivel de Estilo de vida y Salud.

Clase 5.

Tabla 9. : Caracterización de clase 5.

Capacidad de consumo superior

La clase 5 está conformada por viviendas con un superior índice de gasto en gasolina, infiriendo así que estas se transportan en carro particular o privado debido a una mayor capacidad económica. Sin embargo, también presentan gastos excesivamente elevados en el uso de taxi urbano, otros medios de transporte urbano, pago de llamadas por minuto y alojamiento, lo que sugiere que este grupo tiende a desplazarse constantemente y hacer uso frecuente de medios de comunicación y alojamiento debido a su estilo de vida o temas laborales. Además, estas viviendas, en comparación con las otras clases, tienen un nivel notablemente elevado de inversión en alimentación, como lo son almuerzos, desayunos, y comidas intermedias, debido a que la calidad de los alimentos suele estar estrechamente relacionada con su precio, los alimentos de mejor calidad y con mayor valor nutricional tienden a ser más costosos en comparación con opciones de alimentos más procesados y menor calidad pero más económicos. Aquellos con una mayor capacidad económica para adquirir alimentos de mejor calidad llevan un estilo de vida más activo y saludable.

De manera general, esta es una clase exclusiva, con tan solo 9 registros, lo que tan solo representa el 0,045% de la población estudiada, además de que la media de las variables es excesivamente alta en comparación con la media global. Lo que indica que estas viviendas tienen una capacidad alta para adquirir bienes y servicios de consumo.

Gráficos de la distribución de las clases

Después de analizar las clases, se decidió visualizar la distribución de los datos de las variables dentro de cada clase mediante un gráfico de cajas, lo que permitió observar la dispersión y tendencias de manera gráfica. Además, se optó por representar la frecuencia de cada clase a través de un gráfico de barras, brindando una perspectiva clara y visual de la distribución de los datos en cada categoría.

Figura 7. : Distribución de los datos de cada variable dentro de las clases.

Figura 8. : Frecuencia clases.

Conclusiones

I.

En el caso de PCA, esta metodología es de gran utilidad para poder simplificar y explicar las diferentes estructuras de una base de datos compleja. Además, es de gran ayuda para establecer las categorizaciones en las diferentes clases de cada una de las viviendas estudiadas, pudiendo darles un nombre y una respectiva caracterización. El algoritmo fue útil para obtener una visión clara de las dimensiones clave que explican la complejidad de las variables en solo dos dimensiones, llamadas, Estilo de Vida y Salud y Capacidad de Acceso a Transporte, las cuales explican el 71,40% de la varianza total. Estos resultados son fundamentales para comprender los factores que afectan los patrones de gastos en estilo de vida, comodidad y movilidad.

II.

En el caso de agrupamiento jerárquico, nos proporcionó una valiosa información sobre la organización interna de los datos que no pueden ser evidentes inicialmente y como se relacionan estos elementos entre sí, a diferentes niveles de detalle. Se logró mediante la división de los hogares en 5 clases distintas con base en sus patrones de consumo y comportamientos financieros.

III.

A nivel macroeconómico, la clasificación de las personas según su capacidad de gasto también puede ser utilizada para analizar patrones económicos y tendencias en diferentes regiones. Incluir a cada uno de los individuos dentro de una clasificación que mide la capacidad de consumo de diferentes grupos de personas, es de gran utilidad en la segmentación de un mercado (por conducta, demográfica y geográfica). Una situación hipotética en la que el presente estudio se realiza para los habitantes de la ciudad de cali, nos permite por ejemplo concluir que la iniciativa de una nueva bomba de gasolina es seguramente viable. Siguiendo el mismo hilo, el estudio servirá como base para una empresa, para luego determinar en qué zonas de la ciudad se encuentran aquellos individuos con capacidad de consumo alta, para ubicar un restaurante que brinde desayunos, almuerzos, jugos naturales, comidas ligeras y bebidas de cafetería.

Referencias bibliográficas

Universitat de València. (s.f.). Análisis cluster. [Página web]. Recuperado el 18 de noviembre de 2023, de https://www.uv.es/ceaces/multivari/cluster/CLUSTER2.htm#:~:text=El%20an%C3%A1lisis%20cluster%20es%20un,la%20clasificaci%C3%B3n%20de%20los%20individuos.
Arteaga, J. (2018). Análisis de componentes principales (PCA) en R. [Página web]. Recuperado el 18 de noviembre de 2023, de https://rpubs.com/Joaquin_AR/287787
Barandica, J. (2019, 3 de septiembre). Análisis supervisado y no supervisado. [Página web]. Recuperado el 18 de noviembre de 2023, de https://www.joaquibarandica.com/post/ansupervised/
Departamento Administrativo Nacional de Estadística. (s.f.). Catálogo de datos. [Página web]. Recuperado el 18 de noviembre de 2023, de https://microdatos.dane.gov.co/index.php/catalog/204
Romero, L. (2017). Análisis de cluster en R. [Página web]. Recuperado el 19 de noviembre de 2023, de https://rpubs.com/lhromeroj/analisisdeclusterR