Introducción

En el ámbito del análisis de datos que hemos venido desarrollando en el curso de Gestión de Datos en la Universidad del Valle, puede resultar interesante explorar cómo los individuos gestionan sus gastos cotidianos, específicamente los gastos de bolsillo. Este estudio busca arrojar luz sobre los patrones de gastos diarios de los colombianos, examinando la base de datos GastosVivienda proporcionada por el área de Gestión de Datos de la Universidad del Valle, que contiene un conjunto de datos, originario del archivo Ig_gsdp_gas_dia del DANE, que tiene como objetivo registrar los gastos personales realizados por los perceptores de ingresos en cada hogar. La metodología usada para analizar esta información se basa en técnicas de Aprendizaje No Supervisado, específicamente el Análisis de Componentes Principales (ACP) y la agrupación mediante Clusters o Conglomerados, con las mismas se explora la relación entre variables, y se clasifica de manera natural las observaciones en grupos similares. El enfoque principal de este trabajo es comprender la interrelación de las variables en juego, ofreciendo interpretaciones significativas de los resultados obtenidos. Este análisis pretende contribuir al entendimiento de los hábitos de gasto de los colombianos, proporcionando resultados y comparaciones entre las técnicas. El presente trabajo se ha desarrollado utilizando el entorno y lenguaje de programación R, se espera así, que este informe sirva como una fuente de información relevante y un recurso útil para mostrar la interpretación que se puede dar de los resultados brindados por con técnicas de aprendizaje no supervisado.

Descripción de variables

Originalmente la recolección de datos viene dada por el Dane a traves del formulario Ig_gsdp_gas_dia, según el Dane (2017).

“El propósito de este formulario es registrar los gastos personales, realizados por cada uno de los miembros del hogar que reciben un ingreso, conocidos como perceptores de ingresos. Se consideran gastos personales aquellos gastos de menudeo o de bolsillo que las personas hacen muy frecuentemente, como son los gastos en alimentos consumidos fuera del hogar, transporte, comunicaciones, entre otros. La información sobre gastos personales debe ser tomada únicamente para los perceptores de la unidad de gasto, es decir, no deben diligenciar este formulario el servicio doméstico y los pensionistas.”

El formulario se registro día a día, y durante 7 días consecutivos, con todos los gastos diarios personales del perceptor, esto incluyendo los bienes y servicios adquiridos por él en una forma diferente a la compra como: traídos de la finca o producidos por el hogar, tomados de un negocio del hogar, recibidos como pago por trabajo, regalo, trueque o intercambio y otra.

La base de datos originaria (Ig_gsdp_gas_dia) y la entregada en el ámbito académico (GastosVivienda) contiene 19 variables incluyendo la variable vivienda que será después excluida debido a que no proporciona datos de clasificación, a continuación las variables originarias y su renombramiento.

De los 20000 datos que se tiene para el análisis, para motivos de nuestro trabajo usaremos solo mil de estos, además, originalmente la base de datos tiene valores negativos que reemplazamos como cero.

Los individuos de estudio corresponden originalmente a hogares y las variables contienen los gastos diarios personales que los perceptores de ingresos adquieren en la semana de referencia que tuvo el estudio del DANE.

Según el DANE unidad de gasto corresponde a “una persona o grupo de personas que atienden sus propios gastos, que comparten vivienda y tienen un fondo común para satisfacer sus necesidades esenciales (gastos en alimentación,servicios de vivienda, equipamiento y otros gastos del hogar)”. La unidad de gasto puede ser equivalente al hogar o un hogar puede estar compuesto por varias unidades de gasto (se excluyen pensionistas, trabajadores y el servicio doméstico y sus hijos).

Según el DANE los perceptores de ingreso “son todas las personas de 10 años y más que reciben ingresos periódicos por trabajo o por otra fuente además de las personas que aún sin trabajar manifestaron recibir ingresos periódicos por otras fuentes en los períodos de referencia respectivos.”

A continuación el análisis de las variables anteriormente mencionadas , con diagramas de cajas y tablas de estadísticas descriptivas., que nos indican principalmente los rangos en los que se encuentran los promedios monetarios del gasto que tienen los perceptores de ingreso en las variables.

Pasajes

Código: 07320101

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de pasaje en bus, buseta y colectivo que tienen los perceptores de ingresos.

Renombramiento: Pasajes

2000 COP y 4000 COP pero también vemos muchos individuos que pueden llegar a un gasto de 12000 COP, ampliaremos esto en la siguiente tabla.

Estadísticas Descriptivas

Estadisticas descriptivas - Pasajes
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
2754.374 2522.102 0 12000 1285.187 2069.804 2522.102 3085.714

Podemos observar que existe gasto promedio monetario en pasajes de bus, buseta y colectivo de 2754.374 COP, y que el gasto puede estar oscilando alrededor de 2522.102 COP, según el contexto de los años 2006-2007, este gasto es mayor a pagar un solo pasaje de bus, buseta y colectivo. .

Refrescos

Código: 11110301

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario de gaseosa y otros refrescos que tienen los perceptores de ingresos.

Renombramiento: Refrescos

En este diagrama de cajas podemos observar que los individuos tienen principalmente un gasto entre 0 COP y un poco más de 2000 COP que corresponde al rango en el que se encuentran principalmente los individuos con respecto al gasto promedio monetario en de gaseosa y otros refrescos.

Estadísticas Descriptivas

Estadisticas descriptivas - Refrescos
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1284.881 1111.831 100 9000 728.3367 900 1111.831 1467.137

Podemos observar que existe un máximo de gasto promedio en el gasto promedio monetario en pasajes de bus, buseta y colectivo de 9000 COP, pero el gasto promedio es de 1284.881 COP, el cual indica para la época, un gasto alto en cuanto a este tipo de bebidas, bebidas que son principalmente consumidas en el dia a dia, para acompañar otro tipo de alimentos, tanto así que uno de los individuos se sitúa en un gasto máximo de 9000 COP.

Almuerzos

Código: 11110102

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de almuerzos completos que tienen los perceptores de ingresos.

Renombramiento: Almuerzos

Podemos observar que el rango de gasto de los individuos es bastante bajo pero la escala es amplia a comparación de los otros diagramas vistos, el gasto en almuerzos parece ser una variable que impacta en el bolsillo de los individuos analizados, aunque existen muchos datos atípicos así que ampliamos la información a continuación.

Estadísticas Descriptivas

Estadisticas descriptivas - Almuerzos
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
4993.641 4000 0 82000 4889.419 2871.849 4000 5477.668

En la tabla ya podemos apreciar que el gasto promedio de almuerzos completos es de 4993.641 COP, además los individuos no tienen un comportamiento muy demarcado con respecto a lo que se gasta en almuerzos, siendo que el 50% de los individuos gasta 4000 COP en almuerzos, pero pueden gastar más o menos 4889.419 COP, por lo cual este es bastante variable, además existe un valor máximo de gasto de 82000 COP el cual es excesivamente elevado incluso para la época actual, pero así concluimos que la variable almuerzos tiene una importancia alta en el tema de gastos personales.

BebidasCalientes

Código: 11110200

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de bebidas calientes en cafeterías y similares: Tinto, café con leche, chocolate, té, bebida achocolatada caliente, leche, agua de panela, agua aromática, avena caliente y similares que tienen los perceptores de ingresos.

Renombramiento: BebidasCalientes

Observamos que el gasto monetario promedio en bebidas calientes es bastante bajo, por lo tanto en cuanto a gastos personales no tiene una alta incidencia, siendo el rango de gasto entre 0 COP y 1000 COP.

Estadísticas Descriptivas

Estadisticas descriptivas - BebidasCalientes
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
796.4977 700 8.900467 5125 498.6046 523.9852 700 900.9926

Podemos observar que nuestra anterior conclusión es cierta, y además, el máximo sigue siendo un gasto bajo correspondiente a 5125 COP, de igual manera sabemos que este tipo de producto es muy consumido a nivel nacional pero por compra individual para la época parece que no se gastaba mucho en ello por fuera del hogar..

Onces

Código: 11110405

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio onces, medias nueves, media mañana, algo, entre día, recreo, que tienen los perceptores de ingresos.

Renombramiento: Onces

Observemos que aunque el rango parece ser bajo, se mira así por la escala, donde se evidencia un individuo que tiene un gasto por encima de 40000 COP, nos conviene así ampliar la información en la tabla.

Estadísticas Descriptivas

Estadisticas descriptivas - Onces
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
2120.541 1400 0 46543.85 2880.663 700 1400 2631.001

El rango de gasto monetario promedio de los individuos corresponde a valores que están alrededor de 2000 COP, es un gasto bajo pero sabemos que está muy presente en el dia a dia de los individuos aunque existen gastos de 0 COP, y se puede observar que existe un individuo con un gasto de 46543.85 COP, al cual quizás le es bastante necesario este tipo de consumible, pero no es el comportamiento general.

Salsamentaria

Código: 11110404

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de productos de salsamentaria y fritanga: chorizos, jamones, rellenas y similares que tienen los perceptores de ingresos.

Renombramiento: Salsamentaria

El diagrama nos muestra una información que no es tan clara de ver a simple vista, debido a que existe una escala muy amplia por un individuo con un gasto inusual, pero los datos se concentran en la escala de 0 COP a 5000 COP, en ese rango se encuentra el gasto monetario promedio de los individuos el cual es bajo.

Estadísticas Descriptivas

Estadisticas descriptivas - Salsamentaria
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1066.103 911.8133 0 31000 1182.77 652.5358 911.8133 1171.303

Podemos corroborar que el gasto monetario promedio en salsamentaria y fritanga es bastante bajo, estando alrededor de 1000 COP, así que no tiene una incidencia alta en gastos personales.

AguaMin

Código: 11110306

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de agua mineral (familiar) que tienen los perceptores de ingresos.

Renombramiento: AguaMin

Podemos apreciar que el rango de gastos monetarios promedio está en el rango de 0 a $1000, a pesar de que existe una cantidad considerable de individuos que se salen de este rango, este es bajo en cuanto a gastos personales.

Estadísticas Descriptivas

Estadisticas descriptivas - AguaMin
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
707.7409 608.1863 0 4830.684 474.1039 457.1673 608.1863 807.0606

Tal y como se expresó anteriormente, el gasto monetario promedio en agua mineral es bastante bajo, tiene poca incidencia en los gastos personales de los individuos, porque existe un gasto de este recurso como tal más enfocado a los servicios con los cuenta cada hogar.

Taxi

Código: 07320103

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de taxi urbano que tienen los perceptores de ingresos.

Renombramiento: Taxi

En el diagrama de cajas podemos observar una escala grande, pero el gasto monetario promedio ronda entre 0 COP y 10000 COP, con puntos una cantidad considerable de individuos que también gastan hasta 20000 COP en taxi urbano, lo cual es un gasto grande en gastos personales.

Estadísticas Descriptivas

Estadisticas descriptivas - Taxi
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
5777.494 5012.595 0 60000 3845.004 3848.009 5012.595 6500

Podemos observar que es un gasto que oscila alrededor de 5012 COP, se llega a gastar 3845 COP más o menos sobre el valor de 5000 COP, y existe un máximo gasto de 60000 COP, el cual es bastante grande así que es una variable que tiene un gasto con considerable incidencia en gastos personales.

Gasolina

Código: 07220100

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio gasolina corriente y extra que tienen los perceptores de ingresos.

Renombramiento: Gasolina

En el diagrama de cajas podemos observar que el gasto se mantiene por debajo de 50000 COP, a continuación vamos a ver que tan grande es para el bolsillo de los individuos.

Estadísticas Descriptivas

Estadisticas descriptivas - Gasolina
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
14198.44 12999.15 0 151207.6 10615.55 9239.291 12999.15 17052.14

Podemos observar que el gasto promedio es de 14198.44 COP el cual es muy grande a comparación de otras variables estudiadas.

Pllamadas

Código: 08300203

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio del pago de llamadas por minuto desde el celular en la calle a cualquier destino que tienen los perceptores de ingresos.

Renombramiento: Pllamadas

Podemos observar que el gasto oscila entre 0 COP y 5000 COP, con muchos individuos que también pueden llegar a gastar hasta 10000 COP, es interesante mirar la tabla que corresponde a las estadísticas de este gasto para determinar qué tanto peso tiene en los gastos personales.

Estadísticas Descriptivas

Estadisticas descriptivas - Pllamadas
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1678.21 1307.589 0 19187.21 1697.613 734.6739 1307.589 2076.319

Podemos observar que el gasto es realmente bajo, siendo el promedio 1678.21 COP, por lo cual esta variable realmente no incide mucho en los gastos personales de los individuos.

Desayunos

Código: 11110101

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de desayunos completos que tienen los perceptores de ingresos.

Renombramiento: Desayunos

Podemos observar que el gasto de desayunos es bajo, pero en el gráfico presente es difícil analizar esta información así que pasaremos al análisis en tablas.

Estadísticas Descriptivas

Estadisticas descriptivas - Desayunos
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
2912.408 2625.948 809.2351 20000 1413.526 2191.2 2625.948 3128.6

Aquí ya podemos presenciar como el gasto de desayunos oscila alrededor de 2625.948 COP, siendo en promedio lo que se gasta en desayunos un valor de 2912.408 COP, el cual es bajo en cuanto a gastos personales.

JugosN

Código: 11110302

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de jugos naturales que tienen los perceptores de ingresos.

Renombramiento: JugosN

Podemos observar que existe al parecer un gasto bastante bajo en jugos naturales, los individuos de manera general gastan menos de 2000 COP en jugos naturales, aunque existen unos que pueden gastar un poco más.

Estadísticas Descriptivas

Estadisticas descriptivas - JugosN
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1341.129 1229.68 174.25 8300.269 595.8217 1027.08 1229.68 1483.969

Podemos observar en la tabla que el gasto de jugos naturales en promedio es de 1341.129 COP el cual es bastante bajo, teniendo en cuenta también que el gasto máximo corresponde a 8300.269 COP, así que no es una variable con gran peso en gastos personales.

Alojamiento

Código: 11110600

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de servicios de alojamiento en moteles y residencias que tienen los perceptores de ingresos.

Renombramiento: Alojamiento

Se puede observar que el diagrama tiene una escala grande a comparación de las otras variables estudiadas, incluso resulta difícil mirar alrededor de qué valor se encuentra el gasto promedio en servicios de alojamiento.

Estadísticas Descriptivas

Estadisticas descriptivas - Alojamiento
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
11545.7 10883.6 0 240833.5 11795.14 8181.591 10883.6 12699.49

Observamos que en realidad el gasto en servicios de alojamiento es bastante bajo, siendo en promedio de 11545 COP, el cual incluso es bajo dentro del propio contexto de servicios de alojamiento, aunque existen casos inusuales, y existe un gasto máximo asi de 240833.5 COP.

Alimentos

Código: 11110412

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de pago de alimentos recibidos por personas de 3 años y más en el plantel que tienen los perceptores de ingresos.

Renombramiento: Alimentos

Se puede apreciar que el gasto de pago de alimentos recibidos por personas de 3 años y más en el plantel de los individuos es bastante bajo, es una variable que parece que representa poca incidencia dentro de los gastos personales.

Estadísticas Descriptivas

Estadisticas descriptivas - Alimentos
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1062.279 737.5739 0 22482.01 1480.77 250.4363 737.5739 1198.907

Este gasto es bastante bajo según lo dicho por los datos de la tabla, siendo el gasto promedio de pago de alimentos recibidos por personas de 3 años y más en el plantel 1062.279 COP y hay individuos que de hecho ni siquiera gastan en esto.

TransporteUrbano

Código: 07320105

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de otros transportes urbanos: servicio pirata, bici taxi, mototaxi, funicular, teleférico, etc. que tienen los perceptores de ingresos.

Renombramiento: TransporteUrbano

Aquí existe un comportamiento importante de notar, y es que el gasto de transporte urbano parece oscilar entre 0 COP y 40000 COP que corresponde a un gasto grande, pero lo mejor es observar más a detalle en qué rango detallado se encuentra el gasto de los individuos en transporte urbano.

Estadísticas Descriptivas

Estadisticas descriptivas - TransporteUrbano
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
2874.559 2549.346 0 38971.39 2487.187 1812.578 2549.346 3257.451

El gasto promedio en transporte urbano de los individuos corresponde a 2874 COP, no es tan grande como se esperaba, pero puede existir un gasto máximo de 38971.39 COP.

CigarrillosF

Código: 02200101

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de cigarrillos con filtro que tienen los perceptores de ingresos.

Renombramiento: CigarrillosF

Podemos notar que el rango de este gasto es bastante bajo, estando entre 0 COP y 2000 COP, a continuación ampliaremos la información en la tabla.

Estadísticas Descriptivas

Estadisticas descriptivas - CigarrillosF
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1054.913 955.7039 0 7932.627 583.9859 768.0794 955.7039 1199.499

Podemos observar que este caso es bastante bajo, siendo el gasto promedio monetario en cigarrillos con filtro de 1054.913 COP.

VIalimentos

Código: 11110411

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años que tienen los perceptores de ingresos.

Renombramiento: VIalimentos

El gasto monetario promedio de valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años parece ser también bastante bajo, estando en un rango de 0 COP a un poco más de 2000 COP.

Estadísticas Descriptivas

Estadisticas descriptivas - VIalimentos
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
1155.496 980.7061 0 9088.153 825.6778 710.3046 980.7061 1322.277

Podemos ver que el gasto promedio es de $1155.496, confirmando que el gasto es bastante bajo.

Helados

Código: 11110401

Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de helados, paletas, conos y similares que tienen los perceptores de ingresos.

Renombramiento: Helados

Para esta variable parece existir una escala amplia, por lo cual no es fácil visualizar a simple vista que nos quiere decir el gráfico, pero sabemos que el rango de gasto general corresponde a un valor menor a 10000 COP, con individuos que pueden llegar a gastar más de ello.

Estadísticas Descriptivas

Estadisticas descriptivas - Helados
Media Mediana Minimo Maximo DesEst Cuartil1 Cuartil2 Cuartil3
2185.938 1761.659 0 40144.1 2337.818 977.6066 1761.659 2658.97

Ahora podemos ver que en realidad el gasto promedio en helados, paletas, conos y similares es bajo, correspondiendo a en promedio un valor de 2185.938 COP.

Metodologia

Para el presente trabajo se utilizó una metodología que consta del uso del método de aprendizaje no supervisado, específicamente dos de sus técnicas que corresponden a Análisis de Componentes Principales (ACP) y la agrupación mediante Clusters o Conglomerados.

Aprendizaje No Supervisado

En el área de Gestión de Datos de la Universidad del Valle hemos visto que el aprendizaje no supervisado es una de las formas en que Machine Learning donde se tienen datos sin etiquetar que el algoritmo tiene que entender por sí mismo, y agruparlos según las consideraciones que tenga la técnica empleada por el algoritmo. Entonces en resumen el aprendizaje no supervisado es cuando no hay categorización o etiquetado de los datos y el algoritmo los agrupará según sus similitudes, encontrando estructuras y patrones ocultos en datos sin etiquetar, para que después nosotros hagamos un puro análisis de la respuesta del algoritmo.

ACP

El Análisis de Componentes Principales (ACP) es una técnica que tiene como objetivo transformar el conjunto de variables originales que tengo en un nuevo conjunto de variables denominadas componentes principales, estas componentes principales se caracterizan por estar no correlacionadas entre sí, y se ordenan por la cantidad de varianza original que describen, técnica muy usada por ello para reducir la dimensionalidad de un conjunto de datos.

Clusters

El término clustering corresponde a las técnicas para encontrar subgrupos o clusters en conjunto de datos. Para hacer un cluster se buscan particiones en las que las observaciones sean similares entre sí. El clustering busca encontrar subgrupos homogéneos en las observaciones.

En este caso se usó la técnica correspondiente al algoritmo K-Means o K-Medias, donde se parte de un conjunto de registros u observaciones que se agrupan a través de la definición de centroides, de tal manera que que su distancia al centroide de cada grupo sea mínima (o la similitud con respecto al centroide sea máxima).

Resultados

A continuación los resultados obtenidos a través de las respuestas de los algoritmos con nuestro análisis. Los algoritmos no tienen una salida definida al ser técnicas de aprendizaje no supervisado por lo cual, influye mucho el análisis hecho en las respuestas del algoritmo.

ACP

A continuación presentamos la información proporcionada por el algoritmo.

Porcentaje de varianza según los Componentes Principales

Lo primero que nos brinda el algoritmo corresponde a un gráfico que muestra la proporción de varianza explicada por cada componente principal, es importante comprender la cantidad de varianza explicada por cada componente, debido a que esto nos brindara la selección del número de componentes a analizar, a continuación los porcentajes específicos de cada componente.

En este caso decidimos trabajar con 2 componentes principales, explicando así una varianza del 69.11% del conjunto de datos original, además facilita el análisis gráfico de las componentes al ser solamente dos y a continuación pasaremos a ello.

Visualización de las componentes principales

En este caso generamos un diagrama que muestra la contribución de cada variable a las componentes principales del ACP, coloreando las variables segun su contribución, que sea de color anarajando corresponde a una gran contribucion a la componente principal de la que mas cerca este y un color azul corresponde a una baja contribución a la componente principal, en este caso es fundamental conocer las contribuciones de cada variable a las dimensiones principales del APC.

Podemos notar que para la primera componente las variables que más incidencia tienen en la misma son VIalimentos, CigarrillosF, Pllamadas, AguaMin y Onces por lo que hemos decidido nombrarla como Bienes de Consumo, porque corresponde más a gastos correspondientes a la compra de productos que consumo, tomando en cuenta que el pago de llamadas por minuto desde celular en la calle a cualquier destino se puede ver como un bien de consumo adquirido y gastado en el momento y no es el más incidente en el mundo tan grande de servicios, y las caracteristicas en comun de las variables corresponde a bienes, bienes que se consumen por el ciudadano en el dia a dia.

Podemos notar que la segunda componente corresponde a Gasto en servicios de transporte y alojamiento, debido a que las variables que tienen más incidencia corresponden a Taxi, Alojamiento, Pasajes, Transporte Urbano y Almuerzos, considerando que almuerzos corresponde a almuerzos completos adquiridos en restaurantes por lo cual lo consideramos como un servicio.

Clusters

## The number of retained axes for factorial analysis is  2 
## 
## The number of axes for clustering is  2
## Look the histogram of 25 indexes 
## Partition in  2  clusters

Usamos ahora un método de clustering después de realizar el ACP en nuestros datos.

Distribución de Clusters

Aquí tenemos la gráfica de la clasificación de grupos en el espacio de las componentes principales, para ver cómo se dividen y se comportan.

Resultados de la incidencia de las variables en cada cluster

Cluster 1

Cluster 2
Test.Value Class.Mean Frequency Global.Mean
Pasajes -4.994 2705.411 945 2754.374
Alojamiento -5.570 11044.443 945 11545.699
Taxi -9.736 5491.895 945 5777.494
TransporteUrbano -10.800 2669.640 945 2874.559
Gasolina -11.295 13283.710 945 14198.441
Salsamentaria -15.311 927.948 945 1066.103
Helados -18.192 1861.474 945 2185.938
Almuerzos -18.553 4301.586 945 4993.641
BebidasCalientes -18.703 725.353 945 796.498
Onces -19.000 1702.979 945 2120.541
Pllamadas -19.972 1419.558 945 1678.210
Refrescos -20.217 1172.547 945 1284.881
Alimentos -20.234 833.700 945 1062.279
AguaMin -20.668 632.987 945 707.741
CigarrillosF -20.802 962.236 945 1054.913
JugosN -20.876 1246.236 945 1341.129
Desayunos -21.883 2676.430 945 2912.408
VIalimentos -22.420 1014.272 945 1155.496

Para el primer cluster decidimos nombrarlo como Personas con gastos moderados en Alojamiento y Transporte, debido a que las variables que más representan esta clase corresponden a alojamiento y pasajes y además se encuentra que es opuesta al resto de clases, aunque los promedios de las variables de la clase no superan a los globales por ende decidimos decir que son gastos, además en si estas personas parecen no ser consumistas en cualquier aspecto.

Cluster 2

Cluster 2
Test.Value Class.Mean Frequency Global.Mean
VIalimentos 22.420 3581.989 55 1155.496
Desayunos 21.883 6966.941 55 2912.408
JugosN 20.876 2971.577 55 1341.129
CigarrillosF 20.802 2647.287 55 1054.913
AguaMin 20.668 1992.142 55 707.741
Alimentos 20.234 4989.666 55 1062.279
Refrescos 20.217 3214.985 55 1284.881
Pllamadas 19.972 6122.316 55 1678.210
Onces 19.000 9295.027 55 2120.541
BebidasCalientes 18.703 2018.894 55 796.498
Almuerzos 18.553 16884.413 55 4993.641
Helados 18.192 7760.814 55 2185.938
Salsamentaria 15.311 3439.845 55 1066.103
Gasolina 11.295 29915.178 55 14198.441
TransporteUrbano 10.800 6395.443 55 2874.559
Taxi 9.736 10684.598 55 5777.494
Alojamiento 5.570 20158.179 55 11545.699
Pasajes 4.994 3595.649 55 2754.374

Para el cluster número 2 decidimos brindarle el nombre de Personas que tienen Altos en Comunicación y Consumibles debido a que observamos los altos gastos en comunicación (llamadas) y consumibles (VIalimentos, desayunos, jugosn, cigarrillos, aguamin, etc.). Los individuos en este cluster tienden a gastar más en comunicación y productos consumibles, además la media de la clase es mucho más alta en todas las variables que la media global de las mismas, lo que nos dice que son las personas más

Conclusiones

Para este trabajo tenemos diferentes conclusiones con respecto a la naturaleza de la base de datos, y las respuestas de los algoritmos analizados por nosotros para brindar un resultado.

Lo que podemos concluir de la base de datos es que es un buen recurso y que muestra cierta realidad en cuanto al consumo de ciertos bienes y servicios básicos de Colombia, y además nos da una mirada al pasado en contexto, debido al año en el que se ubica la base de datos que corresponde a los años 200-2007, así que es un buen ejercicio para el análisis del comportamiento que tenemos como ciudadanos y que tanta es la diferencia entre la población en cuanto al gasto, lo cual puede mostrar diferentes perspectivas y comportamientos.

En cuanto al proceso de respuesta de los algoritmos, tenemos muy buenas respuestas de R y facilidad para recolectar diferentes datos y agrupaciones, la técnica de aprendizaje no supervisado es bastante compleja en el sentido de que los resultados entregados dependen del análisis humano que se haga, independientemente de cómo sean las agrupaciones entregadas por las diferentes técnicas, el análisis corresponde al personal humano que sabe el contexto y que quiere decir así la respuesta del algoritmo.

En cuanto al análisis hecho, tenemos que los hogares encuestados son bastante diversos, y que por ende existe una variabilidad bastante grande entre ellos, esto se nota en las agrupaciones que se hicieron tanto en las componentes principales como en los clusters, y también en las desviaciones estándar que se encuentran en las tablas descriptivas, por ende se hace mucho más difícil clasificar los hogares. A nivel general con respecto a las agrupaciones que hicimos vemos que ciertos grupos parecen estar conformados por personas consumistas y otros por personas que tienen gastos moderados, que también puede marcar una diferencia socioeconómica y de capacidad de adquisición por los miembros de los hogares que pertenecen a perceptores de gastos o la cantidad de los mismos por hogar así se hizo más engorrosa la clasificación de dichos hogares y consideramos que el nombramiento de dimensiones y clusters que se hizo fue el más apropiado, teniendo en cuenta que principalmente para ello tuvimos en cuenta las variables que más aportan tanto a dimensiones como a clusters.