Introducción

Se tiene como objetivo estudiar y analizar los gastos promedios en los hogares de los colombianos que reciben un ingreso en los años 2006 y 2007, con una base de datos proporcionada por el DANE (Departamento Administrativo Nacional de Estadística) llamada “Ig_gsdp_gas_dia”. Para este caso, se trabajó con una muestra de 1000 habitantes y 18 variables cuantitativas. A partir del análisis de datos no supervisados (Machine learning), se crearán escenarios llamados factores que se dan por las relaciones de las variables, además de clusters o conglomerados (agrupación de individuos que comparten cierta característica). Mediante este análisis la salida es incierta por lo tanto la máquina correlaciona las variables y con base en nuestra investigación, decide cuál es la mejor manera de agrupar cada clase.

Variables:

  1. Pasaje en bus, buseta y colectivo
  2. Gaseosas y otros refrescos
  3. Almuerzos completos
  4. Bebidas calientes en cafeterías y similares: Tinto, café con leche, chocolate, té, bebida achocolatada caliente, leche, agua de panela, agua aromática, avena caliente y similares
  5. Onces, medias nueves, media mañana, algo, entredía, recreo
  6. Productos de salsamentaria y fritanga: chorizos, jamones, rellenas y similares
  7. Agua mineral (familiar)
  8. Taxi urbano
  9. Gasolina corriente y extra
  10. Pago de llamadas por minuto desde celular en la calle a cualquier destino
  11. Desayunos completos
  12. Jugos naturales
  13. Servicios de alojamiento en moteles y residencias
  14. Pago de alimentos recibidos por personas de 3 años y más en el plantel
  15. Otros transporte urbano: servicio pirata, bicitaxi, mototaxi, funicular, telesfésrico, etc.
  16. Cigarrillos con filtro
  17. Valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años
  18. Helados, paletas, conos y similares

Metodología

El aprendizaje no supervisado, utiliza algoritmos de machine learning para agrupar en clusters un conjunto de datos sin etiquetar. A diferencia del supervisado, que es en el que se etiquetan los conjuntos de datos. Estos algoritmos permitirán descubrir patrones, similitudes y diferencias.

Un concepto importante que se debe tener en cuenta es “Análisis multivariado”, ya que esta técnica ayudará a analizar múltiples variables simultáneamente. Esto, con el objetivo de encontrar grupos, patrones o relaciones entre las variables. Este método suele usarse para predecir el comportamiento de ciertas variables a partir de otras.

Otros conceptos importantes utilizados para el desarrollo del trabajo:

  • Análisis de componentes principales (ACP): Tiene como objetivo el análisis multivariado y en específico la identificación y extracción de variables latentes no correlacionadas a partir de las variables originales. Este método estadístico transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas y su objetivo es el análisis, es reducir la dimensionalidad en la cual se expresa el conjunto original de variables.

  • Clusters: Es una técnica que sirve para clasificar una cantidad de observaciones de manera que, cada grupo debe ser homogéneo respecto a las 18 variables utilizadas, además, cada observación contenida en un grupo debe ser parecida a todas las que están incluidas en el grupo. Una segunda condición es que, todos los grupos deben ser lo más distintos posibles, unos de otros respecto a las variables utilizadas. Es un método no supervisado ya que en el proceso se ignora la variable de respuesta que indica a qué grupo pertenece realmente a cada observación.

Descripción de variables

Para cada una de las variables anteriormente mencionadas se realizó una estadistica descriptiva donde de puede observar datos como la media, mediana, varianza, desviación estándar, los cuartiles, además de sus maximos y minimos

Pasajebus

El precio del transporte público en 2006 era de 1600 pesos dependiendo de la ubicación. Por lo general las personas utilizan este medio de transporte para movilizarse a sus trabajos, estudios, entre otros, aproximadamente dos veces al día.

Tabla 1: Pasaje de bus
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
2754.374 2522.102 1651704 1285.187 2069.804 2522.102 3085.714 12000 0

Como se observa en la tabla, en promedio los habitantes gastan $2754.374 pesos en pasajes de bus. Algunos de los habitantes no gastan y otros pueden llegar a gastar hasta 12000 pesos, puede ser porque realiza varios viajes o también por la ciudad en que se encuentre y hasta donde se desplace, debido a que el precio cambia dependiendo del lugar.

Gaseosas

El consumo de gaseosas en los habitantes es muy común, muchos hogares prefieren estas bebidas por tiempo y su sabor refrescante. El precio en el año 2007 de la botella personal era de 1000 pesos, esto cambia respecto a la cantidad de ml que contenga el envase.

Tabla 2: Gaseosas y otros refrescos
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1284.881 1111.831 530474.3 728.3367 900 1111.831 1467.137 9000 100

En promedio, los individuos gastan $1284.881 pesos consumiendo gaseosas, los máximo que gastan son 9000 pesos, además cuenta con una desviación de los datos de 728.3367 pesos.

Almuerzos

El 67% de los habitantes de colombia gastan entre 2006-2007 en almuerzos de restaurantes, esto puede deberse a muchas situaciones como por tiempo, o porque se ven obligados por sus trabajos.

Tabla 3: Almuerzos completos
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
4993.641 4000 23906416 4889.419 2871.849 4000 5477.668 82000 0

En promedio, gastan $4993.641 pesos en almuerzos completos por fuera. Algunos no gastan en esta variable pero otros llegaban a gastar hasta 82000 pesos, un valor bastante elevado respecto al promedio.

Bebidasc

Tabla 4: Bebidas calientes en cafeterías y similares: Tinto, café con leche, chocolate, té, bebida achocolatada caliente, leche, agua de panela, agua aromática, avena caliente y similares
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
796.4977 700 248606.5 498.6046 523.9852 700 900.9926 5125 8.900467

En promedio, los habitantes en los años 2006-2007, gastan en bebidas calientes aproximadamente $817,8 . A pesar de que el precio es bajo, no significa que casi no se consuma. De hecho, para los colombianos, las bebidas calientes como el café, no pueden faltar en su día a día. Estas bebidas se encuentran en muchos puestos de calle y no son costosas.

Meriendas

Tabla 5: Onces, medias nueves, media mañana, algo, entredía, recreo
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
2120.541 1400 8298218 2880.663 700 1400 2631.001 46543.85 0

El gasto promedio de las personas que consumieron meriendas en los años 2006-2007, se calcula que es aproximadamente $2.274. El tipo de alimentos que entran en esta variable pueden ser frutas, verduras, productos lácteos, avena, cereales, etc. Este precio se debe a que en el año 2006 se registró un crecimiento del 0,23%.

Salsafri

Tabla 6: Productos de salsamentaria y fritanga: chorizos, jamones, rellenas y similares
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1066.103 911.8133 1398946 1182.77 652.5358 911.8133 1171.303 31000 0

Estos son productos que son consumidos frecuentemente en el hogar de los colombianos, ya sea por tradición o porque son productos que en los años 2006 y 2007 tendían a ser más económicos. Como se puede observar en la tabla, en esta variable hubo un gasto promedio de 1101.375, con un gasto máximo de 69435.96 y un gasto mínimo de $0 en toda la población.

Aguamin

Tabla 7: Agua mineral (familiar)
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
707.7409 608.1863 224774.5 474.1039 457.1673 608.1863 807.0606 4830.684 0

En el agua mineral, en los años 2006-2007 se gastó aproximadamente $74,3. Este gasto es muy bajo ya que, los colombianos no tienen dentro de sus preferencias el consumir agua de esta manera, la mayoría la consume directamente del grifo o algunos hogares cuentan con tipos de filtros.

Taxi

Tabla 8: Taxi urbano
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
5777.494 5012.595 14784056 3845.004 3848.009 5012.595 6500 60000 0

Durante los años 2006 y 2007 el uso del taxi urbano era uno de los medios de transporte más usados ya que en ese momento no habían buenos sistemas de transporte masivos, por ejemplo, en Cali el sistema Masivo Integrado de Occidente no empezó su funcionamiento sino hasta el año 2009. Como se puede observar obtuvo un promedio de 5741.887, con un máximo de 10000 y un mínimo de 21.41369.

Corrienteyex

El consumo de gasolina corriente y extra es muy frecuente puesto que una gran parte de la población colombiana cuenta con un vehículo propio. En el 2006 el precio del galón de gasolina rondaba los 6 mil pesos.

Tabla 9: Gasolina corriente y extra
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
14198.44 12999.15 112689993 10615.55 9239.291 12999.15 17052.14 151207.6 0

En promedio gastan $14198.44 pesos, algunos no gastan nada, de pronto porque no cuentan con algún vehículo, pero algunos que sí disponen, llegan a gastar maximo 151207.6 pesos, puede deberse al uso que le dan y la capacidad del tanque de gasolina del vehículo.

Llamadas

Alrededor de los años 2006 y 2007, empiezan a desaparecer los teléfonos públicos ya que aparecen los teléfonos celulares. Entonces las personas que no contaban con un celular o con un plan de minutos, compraban minutos en la calle a los denominados “Minuteros”.
Tabla 10: Pago de llamadas por minuto desde celular en la calle a cualquier destino
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1678.21 1307.589 2881891 1697.613 734.6739 1307.589 2076.319 19187.21 0

En la tabla se puede observar que los colombianos gastan en llamadas por minuto un promedio de 1742.714, con un máximo de 210678.3.

Desayunos completos

Tabla 11: Desayunos completos
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
2912.408 2625.948 1998056 1413.526 2191.2 2625.948 3128.6 20000 809.2351

En el año 2006-2007, los colombianos gastaron en promedio $3.002,9. Esto puede deberse a muchos factores, por ejemplo, algunas de las personas que salen de sus casas temprano prefieren comprar el desayuno y así ahorrar tiempo y cumplir con sus obligaciones. Este valor se aproxima a lo que gastaría una persona promedio.

Jugos naturales

De acuerdo a un estudio realizado por la Escuela de Nutrición de la Universidad de Tufts, en la ciudad de Boston, a cargo del profesor Gitanjali Singh, PH.D en epidemiología con una muestra de 187 países, demuestra que Colombia es el segundo país con mayor consumo de jugos naturales. Esto puede deberse a diversas causas, como el hecho de que Colombia es un país con mucha diversidad de climas que permite el cultivo de una gran diversidad de frutas.

Tabla 12: Jugos naturales
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1341.129 1229.68 355003.5 595.8217 1027.08 1229.68 1483.969 8300.269 174.25

Como se puede observar en la tabla, los gastos en consumo de jugos naturales tiene un promedio de 1341.129, cuenta con un máximo de 27000 y un mínimo de $0.

Alojamiento

Tabla 13: Servicios de alojamiento en moteles y residencias
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
11545.7 10883.6 139125303 11795.14 8181.591 10883.6 12699.49 240833.5 0

Los colombianos en los años 2006-2007 invirtieron aproximadamente $11.545,7. Es la segunda variable en la que más invierten después de gasolina. Un dato importante es que en el año 2006 fueron aprobadas 198 posadas en Boyacá, Santander, Atlántico, Antioquia, Huila, Tolima, Putumayo y Magdalena; debido al tema del turismo. El año 2006 fue el año en el que el sector del turísmo empezó a coger fuerza.

Pagoali

Tabla 14:Pago de alimentos recibidos por personas de 3 años y más en el plantel
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1062.279 737.5739 2192680 1480.77 250.4363 737.5739 1198.907 22482.01 0

Como se puede observar en la tabla, los colombianos gastaron en promedio 1062.279, con un gasto máximo de 240833.5.

Otrotrans

Tabla 15:Otros transporte urbano: servicio pirata, bicitaxi, mototaxi, funicular, telesfésrico, etc.
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
2874.559 2549.346 6186101 2487.187 1812.578 2549.346 3257.451 38971.39 0

Los colombianos gastaron aproximadamente $2.874 entre los años de estudio en otros transportes urbanos, esto se debe a que en Colombia, se puede decir que, el uso de estos medios es muy común y muy necesario para la personas de clase baja y media. Esta variable aún es muy representativa de los colombianos y es una variable que se usa con demasiada frecuencia.

Cigarrillosf

El consumo de cigarrillos es muy frecuente y durante el día las personas llegan a fumar más de tres, generando poco a poco un gasto en aumento. En 2007 el precio promedio de la cajetilla de cigarrillos rondaba entre los 1500 y los 3000 pesos, esto depende de la marca del cigarrillo.

Tabla 16:Cigarrillos con filtro
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1054.913 955.7039 341039.6 583.9859 768.0794 955.7039 1199.499 7932.627 0

Como se evidencia, en promedio gastan $1054.913 pesos en cigarrillos con filtro, algunos no consumen este elemento pero otros gastan hasta 7932.627 pesos, este es un valor considerablemente alto en comparación al promedio, además tiene una desviación de 583.9859.

valorali

Tabla 17:Valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
1155.496 980.7061 681743.8 825.6778 710.3046 980.7061 1322.277 9088.153 0

Esta variable hace referencia a la cuota alimentaria que se debería de pagar por niños menores de 3 años y el valor de este varía dependiendo del salario de la persona que va a pagar el valor imputado de alimentos, puede llegar a ser del 50% del salario. Entre los años 2006 y 2007 hubo un gasto promedio de 1155.496, con un gasto máximo de 7932.627 y un mínimo de $0.

Helados

Los helados son un producto que aunque haya frío o calor en el ambiente, está en el diario vivir de los Colombianos, es perfecto como plan para salir, disfrutar con otras personas. Además, la mayoría de individuos consumen este producto porque se antojan cuando lo ven en alguna tienda, supermercado, o lugar de distribución.

Tabla 18:Helados, paletas, conos y similares
Promedio Mediana Varianza Desviacion Cuartil1 Cuartil2 Cuartil3 Maximo Minimo
2185.938 1761.659 5465391 2337.818 977.6066 1761.659 2658.97 40144.1 0

En promedio gastan $2185.938 pesos, con un mínimo de cero, es decir que no gastan nada de sus ingresos en esto, y un máximo de 40144.1 pesos, valor excesivamente alto, pero se puede deber a que compran la gran cantidad de kg de este y la marca.

Diagrama génerico

La mayoría de los diagramas tienen muchos valores atípicos que se encuentran alejados, es decir, se salen del máximo y mínimo establecido, cabe resaltar que cada uno de ellos tienen una escala de medición diferente, además la mayoría presentan una cantidad significativa de datos entre el segundo y tercer cuartil, existiendo casos de excepción como lo son las variables de alojamiento y corrienteyex.

Resultados

Histograma

Respecto al gráfico de barras, se observa que el porcentaje de explicación de las variables se encuentra en su mayoría en la dimensión 1, con más del 40%. Mientras más dimensiones, disminuye el porcentaje de explicación en cada una de ellas y su relevancia, por consiguiente, como en las dimensiones 1 y 2 es donde se encuentran los datos con mayor representación, se escogió únicamente dos dimensiones para el análisis de los factores.

Conformación de las dimensiones

Este gráfico ayuda a analizar las variables que contribuyen a cada factor, a partir de las variables que mejor se explican en cada dimensión y las que casi no tienen relevancia. Por ejemplo, como se observa, la variable valorali es bien explicada por la dimensión 1 y la mayoría de las variables se explican en la dimensión 1, las que están de color mas naranja son las que mejor representada se encuentran. Las variables como pasajebus y corrienteyex no son tan bien explicadas en ninguna de las dos dimensiones.

Se puede observar que la dimensión 2 no representa tan bien a las variables, se puede decir que solo representa a las variables Taxi, Pasajebus y Alojamiento y a la única que le da una mejor explicación es a la variable Taxi.

En la siguiente tabla se presenta el valor por el que esta representado cada variable en las dimensiones de consumo diario y gastos en servicios.

## Dim.1 Dim.2 
##   100   100

Dimensión 1 (Consumo diario): Lo que se pudo observar en la dimensión 1, es que de manera general representa bastante bien a los gastos diarios, por lo tanto, al factor 1 se le llamará consumo diario.

Dimensión 2 (Gastos en servicios): Lo que se observa en común en la dimensión 2, es que representa a las variables que son servicios, por lo tanto, el factor 2 se llamará gastos en servicios.

Selección de clusters

Para determinar la cantidad de cluster en la que se agruparán los individuos con características similares, por la cantidad de datos no fue factible el dendograma. Por lo que por decisión propia se seleccionaron 4 clusters.

## The number of retained axes for factorial analysis is  2 
## 
## The number of axes for clustering is  2
## Look the histogram of 25 indexes 
## Partition in  4  clusters

En la tabla se observa cada uno de los individuos y el cluster que se le fue asignado por sus característica.

Visualización gráfica de la agrupación por clusters

Como la cantidad de individuos es muy extensa, de forma gráfica se muestran como fueron agrupados.

De la gráfica de los clusters, se observa que el cluster 1 es opuesto a todos los clusters; esto se puede confirmar mediante el resultado de los clusters, ya que como se observa en la tabla, las variables de la clase 1 tienen signo negativo y las demás son positivas. A partir del origen hacia la izquierda se tienen valores positivos y hacia la derecha se tienen los valores negativos, esto se puede interpretar a partir de las siguientes tablas y se les puede dar nombre a los clusters dependiendo de sus resultados:

Tablas de los clusters

Cluster 1

De la clase 1 se puede observar que, la media global es mayor a la media de la clase; por tanto, se puede concluir que la clase 1 conformada por 716 individuos, son un grupo que gasta menos en las variables mostradas en la tabla, a diferencia de toda la población. Las variables más representativas según el test value son: alojamiento, pasaje en bus, buseta y colectivo, taxi y otros transportes, por lo tanto el cluster se llamara gastos en movilidad y hospedaje.

Cluster 2

De la clase dos se puede observar que la media de la clase siempre es mayor que la media global; de ahí se puede analizar que este cluster conformado por 246 individuos consumen en mayor cantidad los productos y servicios mostrados en la tabla, es decir que, teniendo la población total, los individuos no gastan tanto dinero en esas variables. Al observar el test value en el cluster 2 se puede inferir que las variables más representativas son llamadas por minuto, bebidas calientes, jugos, valor imputado de alimentos a menores de 3 años y cigarrillos con filtro, por lo que este cluster se va a llamar gastos habituales.

Cluster 3

En la tercera clase la media global siempre es menor que la media de la clase; es decir que, la población de la clase 3 que está conformado por 36 individuos, consume o gasta más en las variables mostradas, y teniendo en cuenta toda la población, los individuos no gastan tanto en eso, por lo que se puede decir que el grupo se caracteriza por consumir en mayor cantidad esos productos o servicios. De acuerdo al test value las variables más representativas de este cluster son: desayunos completos, Valor de alimentos imputados a menores de tres años, Jugos naturales, Bebidas calientes y Agua mineral. Por lo tanto el nombre del cluster 3 es gastos alimenticios.

Cluster 4

En esta cuarta clase se observa que en todas las variables la media global es menor o inferior que la media de la clase; por lo tanto este grupo de dos individuos se caracteriza por consumir o gastar mucho más en las variables de la tabla, además, se puede analizar que esta clase es muy fuerte ya que la diferencia entre estas medias es muy grande. Por consiguiente, las variables más fuertes según el test value son: salsamentaria y fritanga, y onces, medias nueves, media mañana, algo, entredía, recreo. En esta clase, se gasta más en productos de salsamentaria y meriendas, que en gasolina corriente y extra, jugos y desayunos, de modo que se nombra gastos adicionales.

Conclusiones

Respecto a los resultados

  1. Teniendo en cuenta todas las clases y los datos obtenidos de la tabla, se puede decir que la clase 4 es un grupo que tiene una mayor diferencia entre la media global y la media de la clase, comparándola con las otras clases, siendo más caracterizada. Sin embargo, esta clase está compuesta solamente por dos individuos, entonces por esto se puede entender porqué la diferencia es tan grande y el porqué en la gráfica de los clusters se aleja tanto de la otras clases.

  2. A pesar de que los individuos del cluster 1 gastan menos en movilidad y transporte que el resto de la población, siguen prefiriendo gastar más en servicios que en gastos diarios. De manera general, ellos casi no gastan en nada, por lo que serían los más ahorradores.

  3. Así como en el ACP, en el clustering tampoco se tomaron en cuenta las variables que menos se representaron en la dimensión 1 de ACP (alojamiento, bebidasc, taxi, pasajebus y almuerzos) confirmando de esta manera que los individuos que casi no gastan en estas variables son los dos individuos que se agruparon en el cluster 4.

  4. En el cluster 3, las principales variables están bien representadas por la dimensión 1 de consumo diario, es por lo que se puede concluir que los individuos agrupados en este cluster, suelen gastar más en consumos diarios.

Respecto a la descripción

  1. Uno de los análisis en general de todas las variables es que, se puede calcular que el mayor gasto promedio de los hogares de Colombia es el de gasolina corriente y extra. Este gasto tiene múltiples causas, por ejemplo, un mal mantenimiento del vehículo tiene un impacto directo en el consumo de combustible y este lo eleva significativamente; otro motivo es que su cálculo se basa en la cotización internacional del petróleo, además del porcentaje de los impuestos por galón de gasolina.

  2. Otro análisis que se puede obtener de las tablas de las descriptivas es que, los colombianos gastan menos dinero en agua mineral (familiar). Esto puede ser causado por diversos factores, por ejemplo, los colombianos no exigen dentro de sus preferencias productos de altas condiciones de naturalidad y que sea “mineral” como en otros países donde denominan el agua de esa manera.