Introducción

La comprensión detallada de los patrones de gastos e ingresos en una economía es esencial para entender su funcionamiento y su impacto en los hogares y la sociedad en general. El presupuesto ha sido declarado un instrumento sumamente importante para gestionar las finanzas familiares y personales, ya que sirve como fuente para saber en qué se gasta el dinero de nuestros ingresos. Esta información nos permite dar prioridad a lo realmente necesario, eliminando gastos no productivos y así poder ahorrar para posibles contingencias futuras o para adquirir bienes que beneficien nuestro futuro.

En el caso de Colombia, los primeros esfuerzos documentados para medir ingresos y gastos se remontan a las investigaciones realizadas por la Contraloría General de la República en los períodos de 1937-1940 y 1945-1947. Estos estudios se centraron en ciudades clave como Bogotá, Medellín, Barranquilla, Bucaramanga y Manizales. A lo largo del tiempo, se han llevado a cabo diferentes estudios, incluyendo la Encuesta de Presupuestos Familiares en 1967 por el DANE en colaboración con el Centro de Estudios de Desarrollo Económico (CEDE) de la Universidad de los Andes. Estos esfuerzos han sido fundamentales para comprender la dinámica económica y social del país.

En el marco de este análisis, nos enfocaremos en la base de datos proporcionada por el DANE, que contiene 19 variables cuantitativas relacionadas con los gastos promedio de viviendas en pesos colombianos en una variedad de productos y servicios, incluyendo almuerzos, snacks, gasolina, tipos de transporte utilizado, entre otros. Estos datos representan una valiosa oportunidad para profundizar en la comprensión de los hábitos de consumo y la distribución del gasto entre los hogares colombianos.

El análisis no supervisado es crucial en este contexto. Esta técnica, a través de métodos como el clustering y el análisis de componentes principales, permite descubrir patrones ocultos en los datos sin necesitar etiquetas predefinidas. En este sentido, el análisis no supervisado facilitará la segmentación basada en perfiles de gastos similares, lo que ayudará a entender similitudes y diferencias entre economías. Además, al reducir la dimensionalidad de los datos, este enfoque permite identificar las variables más relevantes en los patrones de gastos, ofreciendo apoyo clave para la toma de decisiones estratégicas en políticas económicas, comerciales e incluso familiares. Además, se busca explorar y comprender la relación entre estos patrones de gastos y otros indicadores económicos. Para abordar este análisis, se ha seleccionado un conjunto representativo de 1000 registros de la base de datos para trabajar de manera más detallada en la segmentación y el estudio de los gastos personales, los cuales desempeñan un papel significativo en el comportamiento económico de los hogares.

Metodología

El proceso metodológico para desarrollar un modelo de análisis no supervisado en R, con el fin de analizar los patrones de gastos en Colombia, se divide en varias etapas.

  1. Carga y preprocesamiento de datos: Se lee el archivo Excel “gastos_vivienda.xlsx” y se almacena en el dataframe gastos_vivienda. Se realiza una exploración inicial y limpieza de datos para abordar los valores faltantes. Los datos se copian al dataframe gastos y se filtran los valores negativos, sustituyéndolos por cero.

  2. Selección de variables pertinentes: Se eligen las variables relevantes relacionadas con los gastos. Se toma una muestra aleatoria de 1000 del dataframe gastos, excluyendo la primera columna, y se almacena en gastos_sample. Se selecciona un subconjunto de entrenamiento de 900 datos de los 1000 existentes.

  3. Análisis de Componentes Principales (PCA): Se utiliza PCA (prcomp) para reducir la dimensionalidad de los datos, identificando las principales fuentes de variabilidad en los patrones de gastos en el conjunto de datos de entrenamiento gastos.train. Se escala las variables para el análisis y se visualizan los resultados del PCA mediante diversas funciones de visualización del paquete factoextra.

  4. Análisis de agrupamiento: Se aplica el método de clustering utilizando FactoClass con parámetros específicos. Se visualizan los resultados del clustering mediante gráficos de individuos, variables y conjuntos. Se calculan las medias de varias variables por cada cluster obtenido y se almacenan en el dataframe media_cluster.

  5. Interpretación de resultados: Es crucial interpretar los clusters y componentes principales para extraer información sobre los patrones de gastos e ingresos en Colombia. Se generan conclusiones sobre las similitudes y diferencias entre los segmentos identificados, y se proponen recomendaciones sobre posibles estrategias económicas basadas en estos hallazgos.

Esta metodología proporciona una estructura clara para el análisis de patrones de gastos en Colombia, desde la preparación de datos hasta la interpretación de resultados y la formulación de conclusiones y recomendaciones.

Variables utilizadas

Descripción y comportamiento

Las variables proporcionadas en la base de datos representan los gastos promedio de las viviendas en diversos productos y servicios. Estas son fundamentales para comprender los ingresos y gastos en Colombia por varias razones:

  • Patrones de consumo: Permiten estudiar los patrones de consumo de los hogares colombianos. Analizar qué productos o servicios se adquieren con mayor frecuencia o en mayor cantidad proporciona una visión detallada de las preferencias de consumo de la población.

  • Nivel de vida: El tipo de gastos que realizan los hogares refleja su nivel de vida. Los gastos en alimentos, transporte, comunicaciones, entre otros, son indicadores clave para evaluar el nivel de ingresos y la calidad de vida de la población.

  • Impacto económico y social: Los datos sobre gastos e ingresos tienen un impacto directo en la economía y en la sociedad. El comportamiento de los gastos en distintas categorías a lo largo del tiempo puede revelar tendencias económicas. Por ejemplo, cambios en los patrones de gastos pueden indicar variaciones en la economía, cambios en el poder adquisitivo de la población o impactos de políticas económicas específicas.

  • Segmentación de mercados: Estos datos son útiles para segmentar mercados e identificar grupos de consumidores con hábitos de gasto similares.

Con base a lo anterior, con fines de interpretar de manera conjunta las variables, se agruparon en 4 categorías cualitativas de gastos: gastos en transporte, gastos en alimentación, gastos en consumos ocasionales y otros gastos variados.

Gastos en transporte

En los diagramas de cajas correspondientes a los gastos promedios en transporte, se observa que la mayor variabilidad en las viviendas se presenta en la compra de gasolina. Sin embargo, este factor está relacionado con el uso de transportes que haya en cada hogar.

Se evidencia que el transporte donde se presenta mayor variabilidad es en los taxis. Además, se presenta una asimetría hacia la derecha debido a que la mediana está por debajo del promedio, es decir, presentan una distribución con sesgo positivo. En cuanto al gasto destinado a pasajes de bus, se presenta variabilidad en los valores. Se puede inferir que existe una gran cantidad de valores atípicos y es por eso que su rango es bastante extenso. Además, presenta una distribución con sesgo positivo. Para otros transportes, se observa que la mediana está por encima del promedio, lo que indica una distribución hacia la izquierda, es decir, una asimetría negativa.

Gastos en alimentación

En cuanto a los gastos de alimentación, se observa una mayor variabilidad en los gastos de almuerzos completos y desayunos completos en comparación con las otras variables. Ambas presentan una distribución con sesgo positivo, es decir, una asimetría hacia la derecha, y sus rangos presentan brechas significativas.

Para las bebidas en cafeterías, los jugos naturales y los embutidos, se evidencia una menor variabilidad en los gastos. Sin embargo, la dispersión de valores atípicos es notoria, lo que indica que hay excepciones en los hogares. En algunos hogares se invierte más en adquirir este tipo de alimentos. Además, estas variables también presentan una asimetría positiva, lo que indica una distribución con sesgo positivo.

Gastos en consumos ocasionales

En cuanto a los gastos para consumos ocasionales, se observa una mayor variabilidad en los gastos de snacks y helados. Estos siguen una distribución con sesgo positivo, es decir, una asimetría hacia la derecha. Presentan valores de gastos atípicos, lo que indica que hay hogares que gastan más en estos productos en comparación con otros que gastan menos.

Por otra parte, los gastos en gaseosa y agua mineral presentan una menor dispersión de los datos, con valores atípicos que indican que hay gastos superiores por encima de la mediana. Esto corrobora la consistencia de los gastos, es decir, que los hogares mantienen una tendencia similar al destinar sus ingresos en estos tipos de productos. Su distribución también presenta una asimetría positiva.

Otros gastos variados

Existen gastos que no se relacionan entre sí, pero que son evidentes dentro de algunos hogares, los cuales son necesarios dependiendo de las necesidades que tengan las personas que conforman el hogar. Para este caso, se observan los diagramas de cajas para los pagos y valores de alimentos, servicios en residencias, ventas de minutos y cigarrillos filtro.

  • Pago de alimentos en planteles educativos: Se observa una menor variabilidad en los gastos, es decir, que los hogares destinan valores de pago similares.

  • Imputaciones por alimentos: La variabilidad es menor, lo que podría indicar que son valores imputados que tienen un valor específico y quizá repetitivo para los hogares dependiendo de sus ingresos.

  • Servicios de residencias: Presenta una variabilidad bastante grande, lo que puede indicar que algunos hogares destinan sus ingresos a este tipo de servicios mientras que otros no. La mayor parte de los gastos se ubica por debajo de la mediana, lo que indica que estos valores siguen una misma similitud entre ellos pero poca consistencia.

  • Ventas por minutos: Se observa poca variabilidad en los valores, y la mayor parte de estos se ubica por debajo de la mediana, lo que indica que siguen un mismo patrón de gastos y presentan consistencia en estos valores.

  • Cigarrillos filtro: Presentan una variabilidad mínima, lo que indica que estos siguen una misma tendencia en cuanto a gasto y además corroborando la consistencia de los datos. Podría inferirse que los hogares presentan un hábito no cambiante respecto al consumo de este producto.

En todas las variables se presenta una asimetría positiva debido a que la mediana está por debajo del promedio.

Matriz de resumen

Entendido, aquí está una descripción mejorada:

La matriz de resumen tiene como objetivo mostrar el comportamiento de las variables analizadas. Su propósito principal es identificar dos medidas de tendencia central, como la media y la mediana, que ofrecen una visión general de la distribución de los gastos.

Además, esta matriz proporciona el rango de los gastos correspondientes a cada vivienda, mostrando los valores máximos y mínimos. Estos indicadores ofrecen información sobre la variabilidad de los gastos dentro de cada grupo preestablecido, permitiendo comprender la dispersión de los datos.

La matriz se presenta agrupada en cuatro grupos previamente establecidos. Este enfoque de agrupación facilita la comparación entre los distintos conjuntos y permite observar las diferencias en los comportamientos de gastos entre estos grupos identificados.

Gastos en transporte

##         pasaje_bus      taxi   gasolina otros_transportes
## Min.         0.000     0.000      0.000             0.000
## 1st Qu.   2000.250  3897.909   8969.556          1733.234
## Median    2426.335  4992.884  13433.242          2646.521
## Mean      2668.813  5684.308  15070.433          2988.640
## 3rd Qu.   3028.340  6350.789  17052.139          3287.261
## Max.     16000.000 33286.050 150000.000         29225.906

Gastos en alimentación

##           gaseosa     snack   helados agua_mineral
## Min.     100.0000     0.000     0.000       0.0000
## 1st Qu.  898.8243   700.000  1005.907     469.7117
## Median  1151.8249  1451.999  1716.119     619.3485
## Mean    1315.9485  2162.207  2149.391     732.3163
## 3rd Qu. 1500.0000  2581.686  2675.368     834.8373
## Max.    7000.0000 20715.346 17289.575   10000.0000

Gastos en consumos adicionales

##         almuerzos_completos bebidas_cafeterias desayunos_completos
## Min.                  0.000           45.42203            252.7771
## 1st Qu.            3000.000          537.04739           2189.4490
## Median             4000.000          709.64870           2663.6794
## Mean               5180.731          800.42368           2963.8778
## 3rd Qu.            5610.777          905.54006           3177.6399
## Max.              54359.121         5000.00000          15000.0000
##         jugos_narurales embutidos
## Min.              0.000    0.0000
## 1st Qu.        1025.134  638.9613
## Median         1232.464  897.0425
## Mean           1354.107 1037.7602
## 3rd Qu.        1500.000 1166.6667
## Max.           8000.000 6000.0000

Otros gastos variados

##         pago_alimentos_plantel valor_imputados_alimentos venta_minutos
## Min.                    0.0000                    0.0000         0.000
## 1st Qu.               266.7039                  713.7474       736.895
## Median                762.5257                 1000.0000      1260.108
## Mean                 1120.0439                 1184.2928      1721.390
## 3rd Qu.              1234.7371                 1347.3248      2016.520
## Max.                20000.0000                 6482.9237     12722.008
##         servicios_residencias cigarrillos_filtro
## Min.                    0.000             0.0000
## 1st Qu.              8527.711           781.4816
## Median              10960.867           963.8918
## Mean                11543.950          1092.0526
## 3rd Qu.             12732.648          1199.8050
## Max.                95868.880          5166.6796

Análisis de componentes principales

El Análisis de Componentes Principales (PCA, por sus siglas en inglés) es una técnica utilizada en estadística para realizar un análisis exploratorio de un conjunto de dato y reducir su dimensionalidad, conservando la mayor cantidad posible de información.

El objetivo principal del PCA es transformar un conjunto de variables posiblemente correlacionadas en un nuevo conjunto de variables no correlacionadas, llamados factores o componentes principales. Estos componentes son combinaciones lineales de las variables originales y se ordenan en función de la cantidad de varianza que explican en los datos.

Para realizar una análisis de componentes principales, inicialmente se debe normalizar los datos y crear una matriz de correlación para identificar como las variables se relacionan entre sí.

Gráficos del PCA

Varianza explicada

Tras aplicar el PCA, se obtienen 18 componentes con distintas proporciones de varianza explicada. Existen diversos métodos para determinar el número óptimo de componentes a utilizar. Uno de ellos es el criterio del porcentaje de varianza explicada.

Este criterio implica graficar la varianza explicada en función de cada componente y buscar el punto en el que la curva se estabiliza. Este punto equilibra la reducción de dimensionalidad con la cantidad de varianza explicada. En este contexto específico, se optará por utilizar 5 componentes, logrando un equilibrio entre reducción de la complejidad y la capacidad para explicar la variabilidad presente en los datos.

Individuos

El gráfico muestra la distribución de los individuos de entrenamiento en relación con dos componentes principales, representados en los ejes X e Y, los cuales explican alrededor de el 54% y el 13% de la variabilidad de los datos, respectivamente.

La codificación de colores de los puntos en el gráfico se basa en el cuadrado del coseno de los ángulos formados por los vectores de datos y los ejes principales. Esta medida, el cuadrado del coseno, proporciona información sobre la calidad de la representación de cada individuo en el plano principal.

Variables

El gráfico representa las variables en relación con dos componentes principales. En este gráfico, los colores de las flechas están asociados con las contribuciones de las variables al PCA.

Las contribuciones de las variables son medidas de la importancia de cada una en la construcción de los componentes principales. Estas contribuciones revelan el grado de influencia o peso que cada variable tiene en la formación de los ejes principales del PCA.

Individuos y variables

El gráfico representa la disposición de los individuos y las variables en relación con los componentes principales. Esta representación es útil para visualizar la calidad de la representación de los individuos y las variables en todo el plano generado por los componentes principales.

Esta visualización proporciona una perspectiva general de cómo los individuos y las variables se distribuyen en el espacio definido por los componentes principales, permitiendo evaluar la coherencia y la estructura de los datos en relación con estos componentes fundamentales.

Individuos vs valores reales

Se procede a seleccionar un subconjunto de datos de prueba que contiene los 100 datos faltantes del conjunto de entrenamiento inicial. Utilizando los componentes obtenidos previamente, se lleva a cabo la predicción de las coordenadas del conjunto de prueba en el espacio definido por estos componentes.

Posteriormente, se añaden al gráfico previo que representa a los individuos, los datos del conjunto de prueba. Esta adición tiene como objetivo comparar visualmente los valores predichos con los valores reales en el espacio de los componentes obtenidos.

Esta comparación entre los datos de entrenamiento y los datos de prueba en el mismo espacio permitirá evaluar la capacidad predictiva del modelo y verificar su rendimiento al predecir valores para datos no vistos previamente durante el entrenamiento.

Resultados

Dendograma

Un dendrograma es la representación gráfica de un árbol de agrupamiento jerárquico que organiza las observaciones en grupos según sus similitudes. Resulta útil para visualizar la estructura de los clusters identificados. En este caso, se identificaron y seleccionaron 4 secciones del dendrograma, las cuales representan los clusters elegidos.

Gráfico de centroides

Al añadir una columna que indique el cluster al que pertenece cada individuo, se puede generar un gráfico que simplifica la interpretación del modelo. Esta representación visual permite una identificación más clara de cómo se distribuyen los individuos en los distintos clusters, facilitando así la comprensión de la segmentación realizada por el modelo de agrupamiento.

Medias por cluster

Además, para comprender el significado de los componentes del modelo, es útil analizar las medias de cada cluster generado. A continuación se presentan estas medias organizadas de acuerdo con los grupos establecidos cualitativamente. Esta información permite entender cómo varían los valores promedio de las variables en cada cluster identificado, brindando una visión más clara de las características distintivas de cada grupo.

Transporte

Alimentación

Consumos ocasionales

Otros gastos variados

Interpretación

Al analizar el gráfico de variables previamente presentado, se observa que la mayoría de las variables están principalmente influenciadas por el primer componente (eje x). Sin embargo, algunas variables también muestran sensibilidad al segundo componente (eje y), como taxi, pasaje de bus, otros transportes, gasolina y servicios de residencias.

Al profundizar en la interpretación de las medias del grupo de gastos en transporte, se nota que en el cluster 3, las medias de las variables bus y taxi son más altas que en los otros clusters. Por otro lado, se observa que las variables otros transportes y gasolina tienen medias mucho más altas en el cluster 4. Esto sugiere una relación entre las variables taxi y bus y otros transportes y gasolina, ya que sus medias siguen una tendencia similar a lo largo de los clusters.

Las demás variables, al ser altamente sensibles al eje x, tienden a aumentar su media a medida que el cluster aumenta. Respecto a servicios residencias, su incremento sigue la tendencia de aumento general, pero dado el comportamiento del grupo otros transportes y gasolina en el último cluster, se registra un incremento significativo también en servicios residenciales. Por lo tanto, su interpretación puede ser ambivalente, dependiendo de si se enfoca más en la influencia del componente 1 o el componente 2.

Componentes

Este análisis, junto con la orientación de las variables y la posición de los centroides, nos brinda una predicción sobre los componentes del modelo.

El primer componente podría referirse a personas con mayor capacidad adquisitiva, reflejada en mayores gastos en necesidades de primera y segunda categoría, desde alimentación hasta la compra de cigarrillos. Este componente tiende a aumentar en dirección a valores más negativos, es decir, -1.0.

Por otro lado, el segundo componente podría estar relacionado con el medio de transporte utilizado. Un valor de +1.0 podría indicar el uso de transporte particular, lo que se refleja en la sensibilidad a otros transportes y gasolina. En contraste, un valor de -1.0 podría asociarse con el uso del transporte público, representado por variables como taxi y bus.

Clusters

Ahora interpretemos los 4 clusters creados por el modelo.

  • Primer cluster: Este grupo comprende a los consumidores con menor poder adquisitivo en comparación con los demás tipos encontrados. Por esta razón, priorizan la adquisición de bienes o servicios básicos por encima de otros gastos.

  • Segundo cluster: Son aquellos consumidores con un poder adquisitivo ligeramente superior al primer grupo. En él se encuentran personas que utilizan tanto el transporte público como un vehiculo particular, sin que esto repercuta positiva ni negativamente en sus otros gastos.

  • Tercer cluster: Son aquellos consumidores con mejor poder adquisitivo. Suelen desplazarse en transporte público, taxi u otros medios. Reducen sus gastos en transporte para destinarlos a otros aspectos, como la alimentación.

  • Cuarto cluster: Es aquel tipo de consumidor con el mejor poder adquisitivo estudiado por el modelo. Hace referencia a aquellos que utilizan transporte privado y además suelen tener un gasto mayor en la industria hotelera y de turismo por sus elevados ingresos. Es el grupo con menor representación en el modelo.

Conclusiones

  • Los distintos grupos de consumidores se diferencian principalmente por sus gastos en alimentación y transporte, considerados como necesidades primarias, y por gastos más esporádicos y variados, identificados como necesidades secundarias.

  • Se observa un incremento en los gastos relacionados con las necesidades secundarias en el grupo de consumidores con mayor capacidad adquisitiva.

  • Existe una notable distinción entre dos grupos de consumidores, aquellos que optan por vehículo privado y aquellos que utilizan predominantemente el transporte público. Sin embargo, los consumidores que confían más en el transporte público invierten cantidades similares a los que poseen vehículo privado, especialmente en áreas como alimentación. Esto sugiere una reasignación de gastos para equilibrar las necesidades.

  • Se puede interpretar que los grupos de consumidores 1 y 2 quizás no sean predichos con tanta precisión como los grupos 3 y 4. Esto se evidencia al notar que sus valores se encuentran más cercanos al origen del plano, lo que indica que podrían tener comportamientos distintos si se consideran otras variables de gastos, como ropa, bebidas alcohólicas, entre otros.

Bibliografía

  1. Encuesta Nacional de Ingresos y Gastos - ENIG- 2006-2007. (s/f). Gov.co. Recuperado el 22 de noviembre de 2023, de https://microdatos.dane.gov.co/index.php/catalog/204/data-dictionary/F5?file_name=Ig_gsdp_gas_dia

  2. Joaqui-Barandica, P. (c) O. (2023, enero 1). Análisis de componentes principales. Github.io. https://juniorjb5.github.io/ClasesTD/3_Class_ACP/Class_3.html

  3. Hernández, J. N. (2006). Revisión de los determinantes macroeconómicos del consumo total de los hogares para el caso colombiano. Ensayos sobre politica economica, 52, 80–109. https://doi.org/10.32468/espe.5202

  4. Mercado Mejia, M., Angulo Pico, G., & Becerra Haya, O. (2022). Gasto en consumo de los hogares en Colombia: Un análisis por cuartiles. Cuadernos Latinoamericanos de Administración, 18(35). https://doi.org/10.18270/cuaderlam.v18i35.3835

  5. (S/f). Redalyc.org. Recuperado el 22 de noviembre de 2023, de https://www.redalyc.org/pdf/487/48735406003.pdf