En el tejido social y económico de Colombia, las dinámicas cotidianas de las familias se ven moldeadas por una diversidad de factores que influyen en sus patrones de gasto. Estas variables, que abarcan desde gastos esenciales hasta gastos que satisfacen necesidades no tan prioritarias reflejan cierta complejidad en la vida moderna y las prioridades en los hogares colombianos.
En un país caracterizado por su rica diversidad cultural y geográfica, los gastos de las familias revelan no solo sus necesidades básicas sino también sus distintas preferencias y estilos de vida los cuales coexisten mutuamente.
Entre los gastos esenciales se encuentran los que suplen la necesidad de transportarse en cuidades donde la movilidad urbana y rural desempeñan un papel importante en la vida diaria.
Uno de los principales gastos y probablemente uno de los que acaparan la mayoria del presupuesto en la mayoria de las facmilias es el consumo de alimentos que incluye almuerzos, desayunos, meriendas y los alimentos para los infantes.
En cuanto al consumo de bebidas se destacan los jugos naturales, bebidas calientes y agua mineral como elementos de preferencia. Por otro lado, el gasto en salsamentarias refleja la atención a las necesidades específicas de cada miembro de la familia.
Dentro del presupuesto familiar también se observa que hay un espacio reservado para gastos indulgentes y pequeños lujos como lo son helados y cigarrillos.
Tambien se ha de tener en cuenta el gasto en alojamiento ya que es uno de los gastos principales y mas necesarion en cada familia, ya sea que este sea de alto o bajo valor todos han de tener un minimo gasto en esta area
Otros gastos como saldo de celular evidencian la creciente importancia de la conectividad en la era digital.
El uso de algoritmos de aprendizaje no supervisado se presenta como una herramienta útil para analizar los gastos de las familias colombianas. Mediante el uso de clusters se pueden identificar patrones y relaciones ocultas entre las diversas variables sin depender de datos de salida. En el contexto de consumo familiar, el aprendizaje no supervisado se convierte en una ayuda eficaz para segmentar grupos de individuos que comparten caracterísitcas similares en términos de sus hábitos de gasto.
Para la realizacion de este estudio y futura seleccion de grupos divididos por los anteriores gastos mencionados se recurrira al modelo de aprendizaje no supervisado, usandose R como herramienta principal para ejecutar todos las funciones y la generacion de graficos que permitiran visualizar de una manera mas amigable todos los numeros y datos arrojados por dichas funciones.
En primer lugar se hace la conversion de las variables a componentes principales, los cuales son combinaciones lineales de las variables originales y están diseñadas de manera específica para que no estén correlacionadas entre sí.
Con esto se puede reducir la dimensionalidad de los datos, lo cual permite explicar una mayor cantidad de datos con un numero reducido de componentes necesarias, facilitando el trabajo a la hora del analisis de datos.
En este proyecto se han usado funciones tales como prcomp() la cual permite directamente convertir todas las variables disponibles en la base original en componentes y a su vez los deja organizados de mayor a menor influencia, lo que significa que el primero sera aquel que tiene mas influencia a la hora de explicar los datos.
Posteriormente se aplica la tecnica de Clusterizacion la cual permite agrupar a los individuos en la base de datos en diferentes categorias, las cuales permitiran explicar como se relacionan entre sí y poder asignarles un nombre para identificarlos.
R calcula la distancia entre cada uno de los puntos y los agrupa jerarquicamente para conseguir los grupos dependiendo del numero de estos que necesitemos, toma a los datos mas cercanos y los relaciona en conjuntos para luego hacer un analisis y mostrar que caracteristicas tiene cada conjunto, con estas caracteristicas se puede hacer el analisis y decidir que nombre y relacion tiene cada uno.
Las variables seleccionadas para el trabajo de investigación pueden ser divididas las siguientes categorías:
Incluye el gasto destinado a los desplazamientos en transporte público por bus. Representa una parte esencial de la movilidad diaria, siendo una variable clave para entender la accesibilidad y dependencia del transporte público en los individuos colombianos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 2098 2481 2767 3034 20000
Respecto a la base de datos podemos ver que el minimo que las familias pagan es 0, lo cual implicaria que se transportan a pie o utilizan otro medio de transporte siendo este por ejemplo los taxis o un carro particular, gastos que se tendrán en cuenta en las siguientes variables.
Se puede observar que el maximo que se gasta es de 20000, siendo este un solo caso, familia en la cual probablemente todos se desplazan en bus y mas de una vez al dia.
Por ultimo podemos ver que el promedio de gasto en estos pasajes es de 2767, lo cual es un numero razonable para pasajes en bus en cualquier ciudad.
Como se puede evidenciar en el histograma la mayor cantidad de familias se encuentran en el rango entre 1900 y 2700.
Representa el gasto en servicios de taxi. Indica la dependencia de un servicio de transporte publico pero mas exclusivo y revela la frecuencia y ocasiones en las que se elige este medio.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 3710 4914 5658 6238 60000
Respecto a la base de datos podemos ver que el minimo que las familias pagan es 0, lo cual implicaria que se transportan a pie o utilizan otro medio de transporte siendo este por ejemplo los buses o carros particulares.
Se puede observar que el maximo que se gasta es de 60000, siendo este un solo caso, familia en la cual probablemente todos se desplazan en taxi, recorren grandes distancias y usen el medio mas de una vez al dia.
Por ultimo podemos ver que el promedio de gasto en estos pasajes es de 5658, lo cual es un numero razonable de gasto en taxi, siendo superior al bus pero se mantiene bajo.
Como se puede evidenciar en el histograma la mayor cantidad de familias se encuentran en el rango entre 2500 y 6500.
Gasto asociado a combustible para vehículos. Ofrece observaciones sobre la movilidad personal, patrones de viaje y potencialmente la relación entre el gasto en gasolina y otros gastos de transporte.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 8782 12987 13867 16695 80000
Respecto a la base de datos podemos ver que el minimo que los individuos pagan es 0, lo cual implicaria que se transportan a pie o utilizan otro medio, por ejemplo los medios de transporte publico antes mencionados, tambien cabe resaltar que a comparacion de las anteriores, en esta variable hay una mayor cantidad de familias gastando menos del promedio.
Se puede observar que el maximo que se gasta es de 80000, siendo este un solo caso, familia en la cual probablemente se usan solo vehiculos particulares, se viaja mucho y son de alto consumo.
Por ultimo podemos ver que el promedio de gasto en estos pasajes es de 13867, lo cual es un numero razonable de gasto en gasolina teniendo en cuenta el año en el que se realizo el estudio.
Como se puede evidenciar en el histograma la mayor cantidad de familias se encuentran en el rango entre 9000 y 17000.
Incluye gastos en transportes distintos al bus o taxi. Permite entender el gasto en opciones de movilidad adicionales, como servicios de transporte compartido, bicicletas, entre otros, y revela la diversidad de opciones de transporte utilizadas por los individuos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 1639 2494 2691 3160 20000
Respecto a la base de datos podemos ver que el minimo que los individuos pagan es 0, lo cual implicaria que se transportan a pie o utilizan otro medio, por ejemplo los medios de transporte publico antes mencionados, tambien cabe resaltar que al igual que la anterior, en esta variable hay una mayor cantidad de familias gastando menos del promedio.
Se puede observar que el maximo que se gasta es de 20000, siendo este un solo caso, familia en la cual probablemente se usan solo transportes no convencionales.
Por ultimo podemos ver que el promedio de gasto en estos pasajes es de 2691, este valor permite evidenciar que estos metodos de transporte son baratos y poca gente paga de mas por ellos.
Como se puede evidenciar en el histograma la mayor cantidad de familias se encuentran en el rango entre 1750 y 3250.
Gasto general en productos alimenticios. Engloba una amplia variedad de compras alimenticias, proporcionando información sobre las preferencias alimenticias generales y posibles cambios en patrones los de compra.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 278 718 1162 1294 16009
Respecto a la base de datos podemos ver que el minimo que los individuos pagan es 0, lo cual implicaria que estas personas no gastan en alimentos fuera del hogar y por ende solo comen en casa.
Se puede observar que el maximo que se gasta es de 16009, lo cual probablemente signifique que compra de su bolsillo para llevar algo que falte en casa o para alimentarse durante el dia
Por ultimo podemos ver que el promedio de gasto es de 1162.
Como se puede evidenciar en el histograma la mayor cantidad de individuos se encuentran en el rango entre 0 y 1250.
Refleja el gasto en la primera comida del día. Proporciona información sobre hábitos de desayuno y preferencias alimenticias.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 2168 2574 2957 3099 16315
Como se puede apreciar en el histograma una gran parte de los individuos prefieren desayunar por fuera, generando un promedio de 2957 pesos gastados en desayunos salidos de su propio bolsillo.
Tambien se puede apreciar que hay una poca cantidad que prefiere desayunar en casa para no gastar de su plata o directamente no desayunar, y otros individuos que gastan hasta 16315 pesos en el desayuno.
Gasto en almuerzos por cuenta del individuo. Proporciona información valiosa sobre elecciones alimenticias diarias y destaca la importancia cultural del almuerzo en la familia colombiana.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 3000 3971 5465 5587 60000
Se puede apreciar que una gran parte de los individuos parece ser que compran su almuerzo por fuera, generandonos un promedio de 5465 pesos, lo cual no es mucho pero dado el tiempo de realizacion del estudio puede significar que comian lo suficiente.
Por otra parte estan de nuevo aquellos que no gastan dinero en el almuerzo ya sea porque lo preparan desde casa o nuevamente no comen, tambien estan aquellos que gastan hasta 60000 en un solo almuerzo, lo cual nos puede empezar a dar una idea de que clase de individuo es.
Regleja el gasto en alimentos de pequeñas cantidades entre comidas principales. Entrega información sobre hábitos de refrigerios en los hogares colombianos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 641 1225 2079 2376 30000
Se puede apreciar que existe un promedio de 2079 pesos gastados en meriendas, ya sea una comida en la tarde o cualquier bocadillo comprado entre comidas.
Aun así se puede apreciar que hay una gran cantidad de personas que gastan menos o nada en estas meriendas, y existen algunas que gastan hasta 30000 pesos en tales comidas.
Indica el gasto en alimentos destinados a niños, Proporciona infromación sobre elecciones alimenticias para personas en etapa de desarrollo.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 697.6 932.0 1171.6 1263.7 9176.1
Incluye el gasto en productos típicos de fritanguería y artículos de salsamentaria y adheresos. Esta variable complementa a la anterior con información sobre snacks y productos locales que son populares en Colombia.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 639.9 885.9 1062.3 1174.4 10000.0
Podemos observar como aunque el gasto no es muy grande, aun así hay un promedio de 1062 pesos gastados ya sea en fritanga o alguna salsamentaria.
De nuevo hay quienes se restringen y no gastan nada de su plata en estas cosas, como tambien los hay quienes gastan hasta 10000 pesos.
Indica el gasto en agua embotellada o mineral.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 450.1 600.0 717.7 809.3 10000.0
Facilmente se puede apreciar que no es mucho el gasto en esta variable en particular, con una media de 717 pesos, podemos evidenciar que las personas no compran agua para tomar durante el dia y si compran es poca.
Las personas que gastan hasta 10000 pesos en agua mineral podrían ser consideradas posibles atletas o siguiendo una rigurosa dieta que no los permite beber otras opciones.
Gasto en bebidas refrescantes. Refleja los hábitos de consumo en bebidas que a menudo son compartidas en reuniones familiares y sociales, revelando preferencias y tendencias en el consumo de bebidas.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 866.7 1103.4 1322.1 1454.1 10000.0
A diferencia del agua, aca se puede apreciar un incremento en la media de gasto en refrescos, dandonos a conocer que las personas probablemente prefieran refrescos con sabores y azucares antes que agua plana.
Estan igualmente aquellos que no gastan en bebidas durante el dia y aquellos que gastan hasta 10000 pesos en bebidas, probablemente por ser alguien que sea muy activo y necesite hidratarse pero no le gusta el agua.
Gasto en bebidas como el café, te u otras bebidas calientes. Refleja las preferencias de bebidas que contribuyen a la rutina diaria, mostrando la importancia de momentos de pausa o socialización.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.96 539.34 700.00 808.77 900.00 6000.00
Refleja el gasto en jugos hechos con frutas de manera casera. Indica preferencias por obciones de bebidas naturales y saludables, ofreciendo entendimiento sobre elecciones conscientes de alimentación
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 1026 1228 1361 1500 6757
Gasto en productos helados. Revela preferencias en opciones de postres y productos congelados.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 1000 1677 2330 2747 26337
Se puede apreciar un gasto promedio considerable, 2330 pesos gastados en helado, con un maximo de 26337 nos puede indicar que probablemente las personas se encuentran principalmente en lugares calidos que los hace optar por este posre, como en todos los casos hay quienes no gastan nada en esto, ya sea por ahorrar o porque directamente no tienen posibilidad de comprarlo.
Representa el gasto en productos derivados del tabaco.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 766.5 928.8 1066.6 1149.7 6761.7
Representa el gasto en alojamiento sacado del bolsillo de las personas, ya sea porque necesitan salir de su casa o tal vez viven del dia a dia.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 7840 10755 11226 12473 240833
Podemos ver un minimo de 0 pesos, esto indicandonos que son personas que no necesitan disponer de su plata para hospedaje, ya sea porque viven con algun pariente o porque no tienen un lugar en el cual quedarse.
Con un promedio de 11226 y con la mayoria de individuos ubicados entre 9000 y 13000 podriamos asumir que existen muchas personas que cuentan su hospedaje como un gasto de bolsillo, probablemente tambien se tengan en cuenta moteles u hoteles a los cuales han tenido que asistir por diversas razones.
Llega a un maximo de 240833 siendo estas probablemente personas con mucho poder adquisitivo que se hospedan en hoteles de lujo o cuentan sus arriendos dia a dia.
Indica el gasto en recargas de saldo para servicios móviles. Muestra lo importante que es la conectividad en la vida diaria y puede proporcionar informacione sobre patrones de uso y preferencias en servicios.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 672 1148 1651 2000 15713
Se hizo uso de este gráfico principalmente con el objetivo de ver con más facilidad la cantidad de clústeres óptimos que se debía manejar dentro del análisis dando como resultado dos, siendo los suficientes para explicar el modelo.
El siguiente metodo es una técnica lineal que nos permite eliminar redundancia de datos, y así mismo, reducir la dimensionalidad de la base.
Como ya se había estipulado, estas dimensiones estan ordenadas desde las mas influyente a la hora de explicar los datos hasta la que menos influye, con esto en mente se puede apreciar que con solo la primera dimension ya se puede explicar mas de un 60% de los datos, lo cual nos permite escoger solo dos dimensiones para explicar un 73% de la base.
Ya que estos dos factores o dimensiones tienen una mejor posibilidad de ser explicados, se procede a escogerlos unicamente, ya que los siguientes tienen un nivel de complejidad superior y no nos aportan lo suficiente a la influencia a la hora de seleccionar los conjuntos.
Para los resultados del método de análisis de componentes principales, se tomó la decisión de no realizar gráfico de individuos, dado que la cantidad de datos no permitirían la visualización adecuada del mismo.
Por este lado, tenemos el gráfico que representa de la contribución de cada variable a los factores seleccionados, es decir, el número uno y el número dos.
Dada la complejidad del grafico y lo estrecho que estan los datos se presenta abajo la contribucion de cada una de las variables en una lista numerica que permite la visualizacion mas facil de los datos.
Se puede apreciar que son muchas las variables que estan contribuyendo al factor uno, las principales siendo: el alimento a infantes y los desayunos, lo cual nos permite inferir que estos individuos se diferencian en que unos gastan mas en comida que los otros, aun así hay que tener en cuenta que muchas variables estan contribuyendo lo cual nos daría a pensar que simplemente estan separados entre los que gastan mucha plata y los que casi no gastan.
Para la segunda dimension podemos apreciar una contribucion mas directa de ciertos factores mas relacionados, siendo estos los de transporte, por el grafico podemos apreciar que a un lado estan ubicados aquellos que gastan mas plata en bus o en taxi y al otro aquellos que gastan mas plata en gasolina u otros medios de transporte.
## Dim.1 Dim.2
## pasaje_bus 0.6428754 31.027515639
## refrescos 7.1180043 0.312766651
## almuerzo 5.2752158 0.134591728
## bebidas_calientes 6.4358046 0.005775190
## el_algo 7.3029126 0.422727520
## salsamentaria_fritanga 7.3774407 0.364734787
## agua_mineral 6.4517420 0.006415813
## taxi 1.5306225 27.310657810
## gasolina 3.0357528 16.145047298
## miutos_celular 7.4976963 1.294351178
## desayuno 7.8207698 0.031919534
## jugos_naturales 7.5448116 0.957773927
## alojamiento 0.2162070 4.836388048
## pago_alimentos 7.2477328 1.670557523
## otros_transporte 2.2742519 13.693463224
## cigarrillos 7.6962257 1.235546505
## alimentos_infantes 8.2598579 0.087597433
## helados 6.2720761 0.462170192
Con los dos factores antes seleccionados (los dos primeros) se hace el dendrograma para que los individuos queden divididos, aunque al ser 1000 datos no se puedan visualizar exactamente se puede apreciar donde estan los cortes.
Aca se pueden ver los individuos ya divididos en cada conjunto gracias a la ayuda de las componentes (factores 1 y 2), los cuales se explicaran en la siguiente sección.
Se le denomino a dicho factor como “Individuos relacionados con consumo de alimentos”.Este componente representa características originales que están fuertemente asociadas con las preferencias y comportamientos alimenticios de los individuos en la base de datos. Las características que contribuyen significativamente a este factor podrían incluir variables como: el tipo de alimentos consumidos (fritanga, bedidas calientes, desayuno, meriendas), la frecuencia de comidas fuera de casa, las preferencias dietéticas, las compras de dichos alimentos, entre otras. En resumen, este factor permite capturar la variabilidad en los datos que están relacionados con las decisiones y hábitos alimenticios de cada uno de los individuos en la muestra seleccionada, lo que sugiere que podría ser un factor importante a considerar en futuros análisis o aplicaciones relacionadas con la alimentación.”
Aun así cabe destacar que es un factor muy distribuido en sus contribuciones por cada variable, ya que casi todas tienen un impacto muy similiar, de ahí que su descripcion sea algo densa y compleja a la hora de entender, de cualquier forma las variables que mas parecen contribuir son las alimenticias, razon por la cual fueron las que escogimos para explicarlo.
La denominación dada a este factor fue “Individuos separados por tipo de transporte que usan”, donde dicho grupo de individuos se caracteriza por patrones de movilidad y elecciones de transporte que varían entre sus miembros. Este grupo incluye individuos que suelen utilizar principalmente vehículos particulares u otros medios no listados, y por el lado contrario aquellos que usan transporte publico, denominado como taxis o buses.
Al ver la caracterizacion del primer grupo se puede notar como estos individuos parecen tener una calidad de vida “inferior” por el hecho de que tienen un gasto menor al promedio de toda la poblacion del estudio, facilmente podrían ser calificados como los “pobres” o “individuos de bajos recursos”, pero si se mira a la realidad, existen muchas personas que simplemente no gastan su dinero ya que necesitan ahorrar, para invertir en microempresas, simplemente son personas que prefieren ser ahorradoras o diferentes situaciones que no necesariamente los ponen en la clase economica baja, así que el mejor clasificador para este grupo debería ser “Personas que gastan poco”
Contrariamente al Grupo 1, el Grupo 2 nos presenta una serie de individuos cuyos promedios en gastos son bastante superiores a la media, podemos notar como facilmente los numero se pueden cuadripilcar a la media de la poblacion total del estudio (en el caso de los alimentos para los infantes por ejemplo), esto no implica que estas familias sean necesariamente de mayor estrato que las anteriores, aunque probablemente si estan gastando tanto dinero no sean familias en un nivel economico tan bajo,
Con este grupo podríamos identificar individuos en casas donde habitan mas niños que en el promedio, individuos que se tengan que desplazar grandes distancias en carro por cuestiones laborales, etc. Lo cual nos deja con que el nombre mas apropiado para este grupo sería el contrario al del grupo 1, es este caso siendo “Personas que gastan mucho”
Analizando la diferenciación más especifica se tiene como primer punto aquella variable con una media altamente significativa, en este caso es la variable “Gasolina” donde por un lado en el Grupo 2 tiene una media de 34217 siendo casi el triple de lo que se tiene como media en el Grupo 1 12952. Por otro lado, otra variable que presenta una alta influencia es “alimentos_infantes” donde en el Grupo 2 presenta una media del cuadruple del Grupo 2, dándonos una posible predicción de que dicho grupo de individuos que pertencen a ella tienen hijos y necesitan comprar constantemente alimentos para ellos, además, se puede decir que esta misma variable se puede relacionar con “pago_alimentos” siendo casi el triple la media en el Grupo 2.
Gracias al modelo de aprendizaje no supervisado, se han logrado identificar dos grupos. El primer grupo representado por aquellos individuos que no tienen gastos tan grandes y el segundo representado por los individuos que gastan demasiado.
Teniendo en cuenta lo anterior podemos deducir que el grupo 1 probablemente no tenga un núcleo familiar tan extenso a comparación del segundo grupo, esto debido principalmente a la variable alimenticia dirigida a los infantes, donde como ya se explico anteriormente en el segundo grupo se cuadriplica al compararla con el primero, tambien incluyendo variables como lo es el alojamiento ya que una familia mas extensa incurriria en gastos de alojamiento mayores.
Comparacion de codigos originales con nombres de variables: https://microdatos.dane.gov.co/index.php/catalog/204/data-dictionary/F5?file_name=Ig_gsdp_gas_dia