Se tiene como objetivo estudiar y analizar los gastos promedios en los hogares de los colombianos que reciben un ingreso en los años 2006 y 2007, con una base de datos proporcionada por el DANE (Departamento Administrativo Nacional de Estadística) llamada “Ig_gsdp_gas_dia”. Para este caso, se trabajó con una muestra de 1000 habitantes y 18 variables cuantitativas. A partir del análisis de datos no supervisados (Machine learning), se crearán escenarios llamados factores que se dan por las relaciones de las variables, además de clusters o conglomerados (agrupación de individuos que comparten cierta característica). Mediante este análisis la salida es incierta por lo tanto la máquina correlaciona las variables y con base en nuestra investigación, decide cuál es la mejor manera de agrupar cada clase.
Variables:
El aprendizaje no supervisado, utiliza algoritmos de machine learning para agrupar en clusters un conjunto de datos sin etiquetar. A diferencia del supervisado, que es en el que se etiquetan los conjuntos de datos. Estos algoritmos permitirán descubrir patrones, similitudes y diferencias.
Un concepto importante que se debe tener en cuenta es “Análisis multivariado”, ya que esta técnica ayudará a analizar múltiples variables simultáneamente. Esto, con el objetivo de encontrar grupos, patrones o relaciones entre las variables. Este método suele usarse para predecir el comportamiento de ciertas variables a partir de otras.
Otros conceptos importantes utilizados para el desarrollo del trabajo:
Análisis de componentes principales (ACP): Tiene como objetivo el análisis multivariado y en específico la identificación y extracción de variables latentes no correlacionadas a partir de las variables originales. Este método estadístico transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas y su objetivo es el análisis, es reducir la dimensionalidad en la cual se expresa el conjunto original de variables.
Clusters: Es una técnica que sirve para clasificar una cantidad de observaciones de manera que, cada grupo debe ser homogéneo respecto a las 18 variables utilizadas, además, cada observación contenida en un grupo debe ser parecida a todas las que están incluidas en el grupo. Una segunda condición es que, todos los grupos deben ser lo más distintos posibles, unos de otros respecto a las variables utilizadas. Es un método no supervisado ya que en el proceso se ignora la variable de respuesta que indica a qué grupo pertenece realmente a cada observación.
Para cada una de las variables anteriormente mencionadas se realizó una estadistica descriptiva donde de puede observar datos como la media, mediana, varianza, desviación estándar, los cuartiles, además de sus maximos y minimos
El precio del transporte público en 2006 era de 1600 pesos dependiendo de la ubicación. Por lo general las personas utilizan este medio de transporte para movilizarse a sus trabajos, estudios, entre otros, aproximadamente dos veces al día.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 2754.374 | 2522.102 | 1651704 | 1285.187 | 2069.804 | 2522.102 | 3085.714 | 12000 | 0 |
Como se observa en la tabla, en promedio los habitantes gastan $2754.374 pesos en pasajes de bus. Algunos de los habitantes no gastan y otros pueden llegar a gastar hasta 12000 pesos, puede ser porque realiza varios viajes o también por la ciudad en que se encuentre y hasta donde se desplace, debido a que el precio cambia dependiendo del lugar.
El consumo de gaseosas en los habitantes es muy común, muchos hogares prefieren estas bebidas por tiempo y su sabor refrescante. El precio en el año 2007 de la botella personal era de 1000 pesos, esto cambia respecto a la cantidad de ml que contenga el envase.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1284.881 | 1111.831 | 530474.3 | 728.3367 | 900 | 1111.831 | 1467.137 | 9000 | 100 |
En promedio, los individuos gastan $1284.881 pesos consumiendo gaseosas, los máximo que gastan son 9000 pesos, además cuenta con una desviación de los datos de 728.3367 pesos.
El 67% de los habitantes de colombia gastan entre 2006-2007 en almuerzos de restaurantes, esto puede deberse a muchas situaciones como por tiempo, o porque se ven obligados por sus trabajos.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 4993.641 | 4000 | 23906416 | 4889.419 | 2871.849 | 4000 | 5477.668 | 82000 | 0 |
En promedio, gastan $4993.641 pesos en almuerzos completos por fuera. Algunos no gastan en esta variable pero otros llegaban a gastar hasta 82000 pesos, un valor bastante elevado respecto al promedio.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 796.4977 | 700 | 248606.5 | 498.6046 | 523.9852 | 700 | 900.9926 | 5125 | 8.900467 |
En promedio, los habitantes en los años 2006-2007, gastan en bebidas calientes aproximadamente $817,8 . A pesar de que el precio es bajo, no significa que casi no se consuma. De hecho, para los colombianos, las bebidas calientes como el café, no pueden faltar en su día a día. Estas bebidas se encuentran en muchos puestos de calle y no son costosas.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 2120.541 | 1400 | 8298218 | 2880.663 | 700 | 1400 | 2631.001 | 46543.85 | 0 |
El gasto promedio de las personas que consumieron meriendas en los años 2006-2007, se calcula que es aproximadamente $2.274. El tipo de alimentos que entran en esta variable pueden ser frutas, verduras, productos lácteos, avena, cereales, etc. Este precio se debe a que en el año 2006 se registró un crecimiento del 0,23%.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1066.103 | 911.8133 | 1398946 | 1182.77 | 652.5358 | 911.8133 | 1171.303 | 31000 | 0 |
Estos son productos que son consumidos frecuentemente en el hogar de los colombianos, ya sea por tradición o porque son productos que en los años 2006 y 2007 tendían a ser más económicos. Como se puede observar en la tabla, en esta variable hubo un gasto promedio de 1101.375, con un gasto máximo de 69435.96 y un gasto mínimo de $0 en toda la población.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 707.7409 | 608.1863 | 224774.5 | 474.1039 | 457.1673 | 608.1863 | 807.0606 | 4830.684 | 0 |
En el agua mineral, en los años 2006-2007 se gastó aproximadamente $74,3. Este gasto es muy bajo ya que, los colombianos no tienen dentro de sus preferencias el consumir agua de esta manera, la mayoría la consume directamente del grifo o algunos hogares cuentan con tipos de filtros.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 5777.494 | 5012.595 | 14784056 | 3845.004 | 3848.009 | 5012.595 | 6500 | 60000 | 0 |
Durante los años 2006 y 2007 el uso del taxi urbano era uno de los medios de transporte más usados ya que en ese momento no habían buenos sistemas de transporte masivos, por ejemplo, en Cali el sistema Masivo Integrado de Occidente no empezó su funcionamiento sino hasta el año 2009. Como se puede observar obtuvo un promedio de 5741.887, con un máximo de 10000 y un mínimo de 21.41369.
El consumo de gasolina corriente y extra es muy frecuente puesto que una gran parte de la población colombiana cuenta con un vehículo propio. En el 2006 el precio del galón de gasolina rondaba los 6 mil pesos.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 14198.44 | 12999.15 | 112689993 | 10615.55 | 9239.291 | 12999.15 | 17052.14 | 151207.6 | 0 |
En promedio gastan $14198.44 pesos, algunos no gastan nada, de pronto porque no cuentan con algún vehículo, pero algunos que sí disponen, llegan a gastar maximo 151207.6 pesos, puede deberse al uso que le dan y la capacidad del tanque de gasolina del vehículo.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1678.21 | 1307.589 | 2881891 | 1697.613 | 734.6739 | 1307.589 | 2076.319 | 19187.21 | 0 |
En la tabla se puede observar que los colombianos gastan en llamadas por minuto un promedio de 1742.714, con un máximo de 210678.3.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 2912.408 | 2625.948 | 1998056 | 1413.526 | 2191.2 | 2625.948 | 3128.6 | 20000 | 809.2351 |
En el año 2006-2007, los colombianos gastaron en promedio $3.002,9. Esto puede deberse a muchos factores, por ejemplo, algunas de las personas que salen de sus casas temprano prefieren comprar el desayuno y así ahorrar tiempo y cumplir con sus obligaciones. Este valor se aproxima a lo que gastaría una persona promedio.
De acuerdo a un estudio realizado por la Escuela de Nutrición de la Universidad de Tufts, en la ciudad de Boston, a cargo del profesor Gitanjali Singh, PH.D en epidemiología con una muestra de 187 países, demuestra que Colombia es el segundo país con mayor consumo de jugos naturales. Esto puede deberse a diversas causas, como el hecho de que Colombia es un país con mucha diversidad de climas que permite el cultivo de una gran diversidad de frutas.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1341.129 | 1229.68 | 355003.5 | 595.8217 | 1027.08 | 1229.68 | 1483.969 | 8300.269 | 174.25 |
Como se puede observar en la tabla, los gastos en consumo de jugos naturales tiene un promedio de 1341.129, cuenta con un máximo de 27000 y un mínimo de $0.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 11545.7 | 10883.6 | 139125303 | 11795.14 | 8181.591 | 10883.6 | 12699.49 | 240833.5 | 0 |
Los colombianos en los años 2006-2007 invirtieron aproximadamente $11.545,7. Es la segunda variable en la que más invierten después de gasolina. Un dato importante es que en el año 2006 fueron aprobadas 198 posadas en Boyacá, Santander, Atlántico, Antioquia, Huila, Tolima, Putumayo y Magdalena; debido al tema del turismo. El año 2006 fue el año en el que el sector del turísmo empezó a coger fuerza.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1062.279 | 737.5739 | 2192680 | 1480.77 | 250.4363 | 737.5739 | 1198.907 | 22482.01 | 0 |
Como se puede observar en la tabla, los colombianos gastaron en promedio 1062.279, con un gasto máximo de 240833.5.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 2874.559 | 2549.346 | 6186101 | 2487.187 | 1812.578 | 2549.346 | 3257.451 | 38971.39 | 0 |
Los colombianos gastaron aproximadamente $2.874 entre los años de estudio en otros transportes urbanos, esto se debe a que en Colombia, se puede decir que, el uso de estos medios es muy común y muy necesario para la personas de clase baja y media. Esta variable aún es muy representativa de los colombianos y es una variable que se usa con demasiada frecuencia.
El consumo de cigarrillos es muy frecuente y durante el día las personas llegan a fumar más de tres, generando poco a poco un gasto en aumento. En 2007 el precio promedio de la cajetilla de cigarrillos rondaba entre los 1500 y los 3000 pesos, esto depende de la marca del cigarrillo.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1054.913 | 955.7039 | 341039.6 | 583.9859 | 768.0794 | 955.7039 | 1199.499 | 7932.627 | 0 |
Como se evidencia, en promedio gastan $1054.913 pesos en cigarrillos con filtro, algunos no consumen este elemento pero otros gastan hasta 7932.627 pesos, este es un valor considerablemente alto en comparación al promedio, además tiene una desviación de 583.9859.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 1155.496 | 980.7061 | 681743.8 | 825.6778 | 710.3046 | 980.7061 | 1322.277 | 9088.153 | 0 |
Esta variable hace referencia a la cuota alimentaria que se debería de pagar por niños menores de 3 años y el valor de este varía dependiendo del salario de la persona que va a pagar el valor imputado de alimentos, puede llegar a ser del 50% del salario. Entre los años 2006 y 2007 hubo un gasto promedio de 1155.496, con un gasto máximo de 7932.627 y un mínimo de $0.
Los helados son un producto que aunque haya frío o calor en el ambiente, está en el diario vivir de los Colombianos, es perfecto como plan para salir, disfrutar con otras personas. Además, la mayoría de individuos consumen este producto porque se antojan cuando lo ven en alguna tienda, supermercado, o lugar de distribución.
| Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|
| 2185.938 | 1761.659 | 5465391 | 2337.818 | 977.6066 | 1761.659 | 2658.97 | 40144.1 | 0 |
En promedio gastan $2185.938 pesos, con un mínimo de cero, es decir que no gastan nada de sus ingresos en esto, y un máximo de 40144.1 pesos, valor excesivamente alto, pero se puede deber a que compran la gran cantidad de kg de este y la marca.
La mayoría de los diagramas tienen muchos valores atípicos que se encuentran alejados, es decir, se salen del máximo y mínimo establecido, cabe resaltar que cada uno de ellos tienen una escala de medición diferente, además la mayoría presentan una cantidad significativa de datos entre el segundo y tercer cuartil, existiendo casos de excepción como lo son las variables de alojamiento y corrienteyex.
Respecto al gráfico de barras, se observa que el porcentaje de explicación de las variables se encuentra en su mayoría en la dimensión 1, con más del 40%. Mientras más dimensiones, disminuye el porcentaje de explicación en cada una de ellas y su relevancia, por consiguiente, como en las dimensiones 1 y 2 es donde se encuentran los datos con mayor representación, se escogió únicamente dos dimensiones para el análisis de los factores.
Este gráfico ayuda a analizar las variables que contribuyen a cada factor, a partir de las variables que mejor se explican en cada dimensión y las que casi no tienen relevancia. Por ejemplo, como se observa, la variable valorali es bien explicada por la dimensión 1 y la mayoría de las variables se explican en la dimensión 1, las que están de color mas naranja son las que mejor representada se encuentran. Las variables como pasajebus y corrienteyex no son tan bien explicadas en ninguna de las dos dimensiones.
Se puede observar que la dimensión 2 no representa tan bien a las variables, se puede decir que solo representa a las variables Taxi, Pasajebus y Alojamiento y a la única que le da una mejor explicación es a la variable Taxi.
En la siguiente tabla se presenta el valor por el que esta representado cada variable en las dimensiones de consumo diario y gastos en servicios.
## Dim.1 Dim.2
## 100 100
Dimensión 1 (Consumo diario): Lo que se pudo observar en la dimensión 1, es que de manera general representa bastante bien a los gastos diarios, por lo tanto, al factor 1 se le llamará consumo diario.
Dimensión 2 (Gastos en servicios): Lo que se observa en común en la dimensión 2, es que representa a las variables que son servicios, por lo tanto, el factor 2 se llamará gastos en servicios.
Para determinar la cantidad de cluster en la que se agruparán los individuos con características similares, por la cantidad de datos no fue factible el dendograma. Por lo que por decisión propia se seleccionaron 4 clusters.
## The number of retained axes for factorial analysis is 2
##
## The number of axes for clustering is 2
## Look the histogram of 25 indexes
## Partition in 4 clusters
En la tabla se observa cada uno de los individuos y el cluster que se le fue asignado por sus característica.
Como la cantidad de individuos es muy extensa, de forma gráfica se muestran como fueron agrupados.
De la gráfica de los clusters, se observa que el cluster 1 es opuesto a todos los clusters; esto se puede confirmar mediante el resultado de los clusters, ya que como se observa en la tabla, las variables de la clase 1 tienen signo negativo y las demás son positivas. A partir del origen hacia la izquierda se tienen valores positivos y hacia la derecha se tienen los valores negativos, esto se puede interpretar a partir de las siguientes tablas y se les puede dar nombre a los clusters dependiendo de sus resultados:
De la clase 1 se puede observar que, la media global es mayor a la media de la clase; por tanto, se puede concluir que la clase 1 conformada por 716 individuos, son un grupo que gasta menos en las variables mostradas en la tabla, a diferencia de toda la población. Las variables más representativas según el test value son: alojamiento, pasaje en bus, buseta y colectivo, taxi y otros transportes, por lo tanto el cluster se llamara gastos en movilidad y hospedaje.
De la clase dos se puede observar que la media de la clase siempre es mayor que la media global; de ahí se puede analizar que este cluster conformado por 246 individuos consumen en mayor cantidad los productos y servicios mostrados en la tabla, es decir que, teniendo la población total, los individuos no gastan tanto dinero en esas variables. Al observar el test value en el cluster 2 se puede inferir que las variables más representativas son llamadas por minuto, bebidas calientes, jugos, valor imputado de alimentos a menores de 3 años y cigarrillos con filtro, por lo que este cluster se va a llamar gastos habituales.
En la tercera clase la media global siempre es menor que la media de la clase; es decir que, la población de la clase 3 que está conformado por 36 individuos, consume o gasta más en las variables mostradas, y teniendo en cuenta toda la población, los individuos no gastan tanto en eso, por lo que se puede decir que el grupo se caracteriza por consumir en mayor cantidad esos productos o servicios. De acuerdo al test value las variables más representativas de este cluster son: desayunos completos, Valor de alimentos imputados a menores de tres años, Jugos naturales, Bebidas calientes y Agua mineral. Por lo tanto el nombre del cluster 3 es gastos alimenticios.
En esta cuarta clase se observa que en todas las variables la media global es menor o inferior que la media de la clase; por lo tanto este grupo de dos individuos se caracteriza por consumir o gastar mucho más en las variables de la tabla, además, se puede analizar que esta clase es muy fuerte ya que la diferencia entre estas medias es muy grande. Por consiguiente, las variables más fuertes según el test value son: salsamentaria y fritanga, y onces, medias nueves, media mañana, algo, entredía, recreo. En esta clase, se gasta más en productos de salsamentaria y meriendas, que en gasolina corriente y extra, jugos y desayunos, de modo que se nombra gastos adicionales.
Teniendo en cuenta todas las clases y los datos obtenidos de la tabla, se puede decir que la clase 4 es un grupo que tiene una mayor diferencia entre la media global y la media de la clase, comparándola con las otras clases, siendo más caracterizada. Sin embargo, esta clase está compuesta solamente por dos individuos, entonces por esto se puede entender porqué la diferencia es tan grande y el porqué en la gráfica de los clusters se aleja tanto de la otras clases.
A pesar de que los individuos del cluster 1 gastan menos en movilidad y transporte que el resto de la población, siguen prefiriendo gastar más en servicios que en gastos diarios. De manera general, ellos casi no gastan en nada, por lo que serían los más ahorradores.
Así como en el ACP, en el clustering tampoco se tomaron en cuenta las variables que menos se representaron en la dimensión 1 de ACP (alojamiento, bebidasc, taxi, pasajebus y almuerzos) confirmando de esta manera que los individuos que casi no gastan en estas variables son los dos individuos que se agruparon en el cluster 4.
En el cluster 3, las principales variables están bien representadas por la dimensión 1 de consumo diario, es por lo que se puede concluir que los individuos agrupados en este cluster, suelen gastar más en consumos diarios.
Uno de los análisis en general de todas las variables es que, se puede calcular que el mayor gasto promedio de los hogares de Colombia es el de gasolina corriente y extra. Este gasto tiene múltiples causas, por ejemplo, un mal mantenimiento del vehículo tiene un impacto directo en el consumo de combustible y este lo eleva significativamente; otro motivo es que su cálculo se basa en la cotización internacional del petróleo, además del porcentaje de los impuestos por galón de gasolina.
Otro análisis que se puede obtener de las tablas de las descriptivas es que, los colombianos gastan menos dinero en agua mineral (familiar). Esto puede ser causado por diversos factores, por ejemplo, los colombianos no exigen dentro de sus preferencias productos de altas condiciones de naturalidad y que sea “mineral” como en otros países donde denominan el agua de esa manera.