En el ámbito del análisis de datos que hemos venido desarrollando en el curso de Gestión de Datos en la Universidad del Valle, puede resultar interesante explorar cómo los individuos gestionan sus gastos cotidianos, específicamente los gastos de bolsillo. Este estudio busca arrojar luz sobre los patrones de gastos diarios de los colombianos, examinando la base de datos GastosVivienda proporcionada por el área de Gestión de Datos de la Universidad del Valle, que contiene un conjunto de datos, originario del archivo Ig_gsdp_gas_dia del DANE, que tiene como objetivo registrar los gastos personales realizados por los perceptores de ingresos en cada hogar. La metodología usada para analizar esta información se basa en técnicas de Aprendizaje No Supervisado, específicamente el Análisis de Componentes Principales (ACP) y la agrupación mediante Clusters o Conglomerados, con las mismas se explora la relación entre variables, y se clasifica de manera natural las observaciones en grupos similares. El enfoque principal de este trabajo es comprender la interrelación de las variables en juego, ofreciendo interpretaciones significativas de los resultados obtenidos. Este análisis pretende contribuir al entendimiento de los hábitos de gasto de los colombianos, proporcionando resultados y comparaciones entre las técnicas. El presente trabajo se ha desarrollado utilizando el entorno y lenguaje de programación R, se espera así, que este informe sirva como una fuente de información relevante y un recurso útil para mostrar la interpretación que se puede dar de los resultados brindados por con técnicas de aprendizaje no supervisado.
Originalmente la recolección de datos viene dada por el Dane a traves del formulario Ig_gsdp_gas_dia, según el Dane (2017).
“El propósito de este formulario es registrar los gastos personales, realizados por cada uno de los miembros del hogar que reciben un ingreso, conocidos como perceptores de ingresos. Se consideran gastos personales aquellos gastos de menudeo o de bolsillo que las personas hacen muy frecuentemente, como son los gastos en alimentos consumidos fuera del hogar, transporte, comunicaciones, entre otros. La información sobre gastos personales debe ser tomada únicamente para los perceptores de la unidad de gasto, es decir, no deben diligenciar este formulario el servicio doméstico y los pensionistas.”
El formulario se registro día a día, y durante 7 días consecutivos, con todos los gastos diarios personales del perceptor, esto incluyendo los bienes y servicios adquiridos por él en una forma diferente a la compra como: traídos de la finca o producidos por el hogar, tomados de un negocio del hogar, recibidos como pago por trabajo, regalo, trueque o intercambio y otra.
La base de datos originaria (Ig_gsdp_gas_dia) y la entregada en el ámbito académico (GastosVivienda) contiene 19 variables incluyendo la variable vivienda que será después excluida debido a que no proporciona datos de clasificación, a continuación las variables originarias y su renombramiento.
De los 20000 datos que se tiene para el análisis, para motivos de nuestro trabajo usaremos solo mil de estos, además, originalmente la base de datos tiene valores negativos que reemplazamos como cero.
Los individuos de estudio corresponden originalmente a hogares y las variables contienen los gastos diarios personales que los perceptores de ingresos adquieren en la semana de referencia que tuvo el estudio del DANE.
Según el DANE unidad de gasto corresponde a “una persona o grupo de personas que atienden sus propios gastos, que comparten vivienda y tienen un fondo común para satisfacer sus necesidades esenciales (gastos en alimentación,servicios de vivienda, equipamiento y otros gastos del hogar)”. La unidad de gasto puede ser equivalente al hogar o un hogar puede estar compuesto por varias unidades de gasto (se excluyen pensionistas, trabajadores y el servicio doméstico y sus hijos).
Según el DANE los perceptores de ingreso “son todas las personas de 10 años y más que reciben ingresos periódicos por trabajo o por otra fuente además de las personas que aún sin trabajar manifestaron recibir ingresos periódicos por otras fuentes en los períodos de referencia respectivos.”
A continuación el análisis de las variables anteriormente mencionadas , con diagramas de cajas y tablas de estadísticas descriptivas., que nos indican principalmente los rangos en los que se encuentran los promedios monetarios del gasto que tienen los perceptores de ingreso en las variables.
Código: 07320101
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de pasaje en bus, buseta y colectivo que tienen los perceptores de ingresos.
Renombramiento: Pasajes
2000 COP y 4000 COP pero también vemos muchos individuos que pueden llegar a un gasto de 12000 COP, ampliaremos esto en la siguiente tabla.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 2754.374 | 2522.102 | 0 | 12000 | 1285.187 | 2069.804 | 2522.102 | 3085.714 |
Podemos observar que existe gasto promedio monetario en pasajes de bus, buseta y colectivo de 2754.374 COP, y que el gasto puede estar oscilando alrededor de 2522.102 COP, según el contexto de los años 2006-2007, este gasto es mayor a pagar un solo pasaje de bus, buseta y colectivo. .
Código: 11110301
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario de gaseosa y otros refrescos que tienen los perceptores de ingresos.
Renombramiento: Refrescos
En este diagrama de cajas podemos observar que los individuos tienen principalmente un gasto entre 0 COP y un poco más de 2000 COP que corresponde al rango en el que se encuentran principalmente los individuos con respecto al gasto promedio monetario en de gaseosa y otros refrescos.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1284.881 | 1111.831 | 100 | 9000 | 728.3367 | 900 | 1111.831 | 1467.137 |
Podemos observar que existe un máximo de gasto promedio en el gasto promedio monetario en pasajes de bus, buseta y colectivo de 9000 COP, pero el gasto promedio es de 1284.881 COP, el cual indica para la época, un gasto alto en cuanto a este tipo de bebidas, bebidas que son principalmente consumidas en el dia a dia, para acompañar otro tipo de alimentos, tanto así que uno de los individuos se sitúa en un gasto máximo de 9000 COP.
Código: 11110102
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de almuerzos completos que tienen los perceptores de ingresos.
Renombramiento: Almuerzos
Podemos observar que el rango de gasto de los individuos es bastante bajo pero la escala es amplia a comparación de los otros diagramas vistos, el gasto en almuerzos parece ser una variable que impacta en el bolsillo de los individuos analizados, aunque existen muchos datos atípicos así que ampliamos la información a continuación.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 4993.641 | 4000 | 0 | 82000 | 4889.419 | 2871.849 | 4000 | 5477.668 |
En la tabla ya podemos apreciar que el gasto promedio de almuerzos completos es de 4993.641 COP, además los individuos no tienen un comportamiento muy demarcado con respecto a lo que se gasta en almuerzos, siendo que el 50% de los individuos gasta 4000 COP en almuerzos, pero pueden gastar más o menos 4889.419 COP, por lo cual este es bastante variable, además existe un valor máximo de gasto de 82000 COP el cual es excesivamente elevado incluso para la época actual, pero así concluimos que la variable almuerzos tiene una importancia alta en el tema de gastos personales.
Código: 11110200
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de bebidas calientes en cafeterías y similares: Tinto, café con leche, chocolate, té, bebida achocolatada caliente, leche, agua de panela, agua aromática, avena caliente y similares que tienen los perceptores de ingresos.
Renombramiento: BebidasCalientes
Observamos que el gasto monetario promedio en bebidas calientes es bastante bajo, por lo tanto en cuanto a gastos personales no tiene una alta incidencia, siendo el rango de gasto entre 0 COP y 1000 COP.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 796.4977 | 700 | 8.900467 | 5125 | 498.6046 | 523.9852 | 700 | 900.9926 |
Podemos observar que nuestra anterior conclusión es cierta, y además, el máximo sigue siendo un gasto bajo correspondiente a 5125 COP, de igual manera sabemos que este tipo de producto es muy consumido a nivel nacional pero por compra individual para la época parece que no se gastaba mucho en ello por fuera del hogar..
Código: 11110405
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio onces, medias nueves, media mañana, algo, entre día, recreo, que tienen los perceptores de ingresos.
Renombramiento: Onces
Observemos que aunque el rango parece ser bajo, se mira así por la escala, donde se evidencia un individuo que tiene un gasto por encima de 40000 COP, nos conviene así ampliar la información en la tabla.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 2120.541 | 1400 | 0 | 46543.85 | 2880.663 | 700 | 1400 | 2631.001 |
El rango de gasto monetario promedio de los individuos corresponde a valores que están alrededor de 2000 COP, es un gasto bajo pero sabemos que está muy presente en el dia a dia de los individuos aunque existen gastos de 0 COP, y se puede observar que existe un individuo con un gasto de 46543.85 COP, al cual quizás le es bastante necesario este tipo de consumible, pero no es el comportamiento general.
Código: 11110404
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de productos de salsamentaria y fritanga: chorizos, jamones, rellenas y similares que tienen los perceptores de ingresos.
Renombramiento: Salsamentaria
El diagrama nos muestra una información que no es tan clara de ver a simple vista, debido a que existe una escala muy amplia por un individuo con un gasto inusual, pero los datos se concentran en la escala de 0 COP a 5000 COP, en ese rango se encuentra el gasto monetario promedio de los individuos el cual es bajo.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1066.103 | 911.8133 | 0 | 31000 | 1182.77 | 652.5358 | 911.8133 | 1171.303 |
Podemos corroborar que el gasto monetario promedio en salsamentaria y fritanga es bastante bajo, estando alrededor de 1000 COP, así que no tiene una incidencia alta en gastos personales.
Código: 11110306
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de agua mineral (familiar) que tienen los perceptores de ingresos.
Renombramiento: AguaMin
Podemos apreciar que el rango de gastos monetarios promedio está en el rango de 0 a $1000, a pesar de que existe una cantidad considerable de individuos que se salen de este rango, este es bajo en cuanto a gastos personales.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 707.7409 | 608.1863 | 0 | 4830.684 | 474.1039 | 457.1673 | 608.1863 | 807.0606 |
Tal y como se expresó anteriormente, el gasto monetario promedio en agua mineral es bastante bajo, tiene poca incidencia en los gastos personales de los individuos, porque existe un gasto de este recurso como tal más enfocado a los servicios con los cuenta cada hogar.
Código: 07320103
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de taxi urbano que tienen los perceptores de ingresos.
Renombramiento: Taxi
En el diagrama de cajas podemos observar una escala grande, pero el gasto monetario promedio ronda entre 0 COP y 10000 COP, con puntos una cantidad considerable de individuos que también gastan hasta 20000 COP en taxi urbano, lo cual es un gasto grande en gastos personales.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 5777.494 | 5012.595 | 0 | 60000 | 3845.004 | 3848.009 | 5012.595 | 6500 |
Podemos observar que es un gasto que oscila alrededor de 5012 COP, se llega a gastar 3845 COP más o menos sobre el valor de 5000 COP, y existe un máximo gasto de 60000 COP, el cual es bastante grande así que es una variable que tiene un gasto con considerable incidencia en gastos personales.
Código: 07220100
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio gasolina corriente y extra que tienen los perceptores de ingresos.
Renombramiento: Gasolina
En el diagrama de cajas podemos observar que el gasto se mantiene por debajo de 50000 COP, a continuación vamos a ver que tan grande es para el bolsillo de los individuos.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 14198.44 | 12999.15 | 0 | 151207.6 | 10615.55 | 9239.291 | 12999.15 | 17052.14 |
Podemos observar que el gasto promedio es de 14198.44 COP el cual es muy grande a comparación de otras variables estudiadas.
Código: 08300203
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio del pago de llamadas por minuto desde el celular en la calle a cualquier destino que tienen los perceptores de ingresos.
Renombramiento: Pllamadas
Podemos observar que el gasto oscila entre 0 COP y 5000 COP, con muchos individuos que también pueden llegar a gastar hasta 10000 COP, es interesante mirar la tabla que corresponde a las estadísticas de este gasto para determinar qué tanto peso tiene en los gastos personales.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1678.21 | 1307.589 | 0 | 19187.21 | 1697.613 | 734.6739 | 1307.589 | 2076.319 |
Podemos observar que el gasto es realmente bajo, siendo el promedio 1678.21 COP, por lo cual esta variable realmente no incide mucho en los gastos personales de los individuos.
Código: 11110101
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de desayunos completos que tienen los perceptores de ingresos.
Renombramiento: Desayunos
Podemos observar que el gasto de desayunos es bajo, pero en el gráfico presente es difícil analizar esta información así que pasaremos al análisis en tablas.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 2912.408 | 2625.948 | 809.2351 | 20000 | 1413.526 | 2191.2 | 2625.948 | 3128.6 |
Aquí ya podemos presenciar como el gasto de desayunos oscila alrededor de 2625.948 COP, siendo en promedio lo que se gasta en desayunos un valor de 2912.408 COP, el cual es bajo en cuanto a gastos personales.
Código: 11110302
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de jugos naturales que tienen los perceptores de ingresos.
Renombramiento: JugosN
Podemos observar que existe al parecer un gasto bastante bajo en jugos naturales, los individuos de manera general gastan menos de 2000 COP en jugos naturales, aunque existen unos que pueden gastar un poco más.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1341.129 | 1229.68 | 174.25 | 8300.269 | 595.8217 | 1027.08 | 1229.68 | 1483.969 |
Podemos observar en la tabla que el gasto de jugos naturales en promedio es de 1341.129 COP el cual es bastante bajo, teniendo en cuenta también que el gasto máximo corresponde a 8300.269 COP, así que no es una variable con gran peso en gastos personales.
Código: 11110600
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de servicios de alojamiento en moteles y residencias que tienen los perceptores de ingresos.
Renombramiento: Alojamiento
Se puede observar que el diagrama tiene una escala grande a comparación de las otras variables estudiadas, incluso resulta difícil mirar alrededor de qué valor se encuentra el gasto promedio en servicios de alojamiento.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 11545.7 | 10883.6 | 0 | 240833.5 | 11795.14 | 8181.591 | 10883.6 | 12699.49 |
Observamos que en realidad el gasto en servicios de alojamiento es bastante bajo, siendo en promedio de 11545 COP, el cual incluso es bajo dentro del propio contexto de servicios de alojamiento, aunque existen casos inusuales, y existe un gasto máximo asi de 240833.5 COP.
Código: 11110412
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de pago de alimentos recibidos por personas de 3 años y más en el plantel que tienen los perceptores de ingresos.
Renombramiento: Alimentos
Se puede apreciar que el gasto de pago de alimentos recibidos por personas de 3 años y más en el plantel de los individuos es bastante bajo, es una variable que parece que representa poca incidencia dentro de los gastos personales.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1062.279 | 737.5739 | 0 | 22482.01 | 1480.77 | 250.4363 | 737.5739 | 1198.907 |
Este gasto es bastante bajo según lo dicho por los datos de la tabla, siendo el gasto promedio de pago de alimentos recibidos por personas de 3 años y más en el plantel 1062.279 COP y hay individuos que de hecho ni siquiera gastan en esto.
Código: 07320105
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de otros transportes urbanos: servicio pirata, bici taxi, mototaxi, funicular, teleférico, etc. que tienen los perceptores de ingresos.
Renombramiento: TransporteUrbano
Aquí existe un comportamiento importante de notar, y es que el gasto de transporte urbano parece oscilar entre 0 COP y 40000 COP que corresponde a un gasto grande, pero lo mejor es observar más a detalle en qué rango detallado se encuentra el gasto de los individuos en transporte urbano.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 2874.559 | 2549.346 | 0 | 38971.39 | 2487.187 | 1812.578 | 2549.346 | 3257.451 |
El gasto promedio en transporte urbano de los individuos corresponde a 2874 COP, no es tan grande como se esperaba, pero puede existir un gasto máximo de 38971.39 COP.
Código: 02200101
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de cigarrillos con filtro que tienen los perceptores de ingresos.
Renombramiento: CigarrillosF
Podemos notar que el rango de este gasto es bastante bajo, estando entre 0 COP y 2000 COP, a continuación ampliaremos la información en la tabla.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1054.913 | 955.7039 | 0 | 7932.627 | 583.9859 | 768.0794 | 955.7039 | 1199.499 |
Podemos observar que este caso es bastante bajo, siendo el gasto promedio monetario en cigarrillos con filtro de 1054.913 COP.
Código: 11110411
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años que tienen los perceptores de ingresos.
Renombramiento: VIalimentos
El gasto monetario promedio de valor imputado de alimentos que pagaría a precios de mercado para menores de 3 años parece ser también bastante bajo, estando en un rango de 0 COP a un poco más de 2000 COP.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 1155.496 | 980.7061 | 0 | 9088.153 | 825.6778 | 710.3046 | 980.7061 | 1322.277 |
Podemos ver que el gasto promedio es de $1155.496, confirmando que el gasto es bastante bajo.
Código: 11110401
Definición (Ig_gsdp_gas_dia): Esta variable corresponde al gasto monetario promedio de helados, paletas, conos y similares que tienen los perceptores de ingresos.
Renombramiento: Helados
Para esta variable parece existir una escala amplia, por lo cual no es fácil visualizar a simple vista que nos quiere decir el gráfico, pero sabemos que el rango de gasto general corresponde a un valor menor a 10000 COP, con individuos que pueden llegar a gastar más de ello.
Estadísticas Descriptivas
| Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|
| 2185.938 | 1761.659 | 0 | 40144.1 | 2337.818 | 977.6066 | 1761.659 | 2658.97 |
Ahora podemos ver que en realidad el gasto promedio en helados, paletas, conos y similares es bajo, correspondiendo a en promedio un valor de 2185.938 COP.
Para el presente trabajo se utilizó una metodología que consta del uso del método de aprendizaje no supervisado, específicamente dos de sus técnicas que corresponden a Análisis de Componentes Principales (ACP) y la agrupación mediante Clusters o Conglomerados.
Aprendizaje No Supervisado
En el área de Gestión de Datos de la Universidad del Valle hemos visto que el aprendizaje no supervisado es una de las formas en que Machine Learning donde se tienen datos sin etiquetar que el algoritmo tiene que entender por sí mismo, y agruparlos según las consideraciones que tenga la técnica empleada por el algoritmo. Entonces en resumen el aprendizaje no supervisado es cuando no hay categorización o etiquetado de los datos y el algoritmo los agrupará según sus similitudes, encontrando estructuras y patrones ocultos en datos sin etiquetar, para que después nosotros hagamos un puro análisis de la respuesta del algoritmo.
El Análisis de Componentes Principales (ACP) es una técnica que tiene como objetivo transformar el conjunto de variables originales que tengo en un nuevo conjunto de variables denominadas componentes principales, estas componentes principales se caracterizan por estar no correlacionadas entre sí, y se ordenan por la cantidad de varianza original que describen, técnica muy usada por ello para reducir la dimensionalidad de un conjunto de datos.
El término clustering corresponde a las técnicas para encontrar subgrupos o clusters en conjunto de datos. Para hacer un cluster se buscan particiones en las que las observaciones sean similares entre sí. El clustering busca encontrar subgrupos homogéneos en las observaciones.
En este caso se usó la técnica correspondiente al algoritmo K-Means o K-Medias, donde se parte de un conjunto de registros u observaciones que se agrupan a través de la definición de centroides, de tal manera que que su distancia al centroide de cada grupo sea mínima (o la similitud con respecto al centroide sea máxima).
A continuación los resultados obtenidos a través de las respuestas de los algoritmos con nuestro análisis. Los algoritmos no tienen una salida definida al ser técnicas de aprendizaje no supervisado por lo cual, influye mucho el análisis hecho en las respuestas del algoritmo.
A continuación presentamos la información proporcionada por el algoritmo.
Lo primero que nos brinda el algoritmo corresponde a un gráfico que muestra la proporción de varianza explicada por cada componente principal, es importante comprender la cantidad de varianza explicada por cada componente, debido a que esto nos brindara la selección del número de componentes a analizar, a continuación los porcentajes específicos de cada componente.
En este caso decidimos trabajar con 2 componentes principales, explicando así una varianza del 69.11% del conjunto de datos original, además facilita el análisis gráfico de las componentes al ser solamente dos y a continuación pasaremos a ello.
En este caso generamos un diagrama que muestra la contribución de cada variable a las componentes principales del ACP, coloreando las variables segun su contribución, que sea de color anarajando corresponde a una gran contribucion a la componente principal de la que mas cerca este y un color azul corresponde a una baja contribución a la componente principal, en este caso es fundamental conocer las contribuciones de cada variable a las dimensiones principales del APC.
Podemos notar que para la primera componente las variables que más incidencia tienen en la misma son VIalimentos, CigarrillosF, Pllamadas, AguaMin y Onces por lo que hemos decidido nombrarla como Bienes de Consumo, porque corresponde más a gastos correspondientes a la compra de productos que consumo, tomando en cuenta que el pago de llamadas por minuto desde celular en la calle a cualquier destino se puede ver como un bien de consumo adquirido y gastado en el momento y no es el más incidente en el mundo tan grande de servicios, y las caracteristicas en comun de las variables corresponde a bienes, bienes que se consumen por el ciudadano en el dia a dia.
Podemos notar que la segunda componente corresponde a Gasto en servicios de transporte y alojamiento, debido a que las variables que tienen más incidencia corresponden a Taxi, Alojamiento, Pasajes, Transporte Urbano y Almuerzos, considerando que almuerzos corresponde a almuerzos completos adquiridos en restaurantes por lo cual lo consideramos como un servicio.
## The number of retained axes for factorial analysis is 2
##
## The number of axes for clustering is 2
## Look the histogram of 25 indexes
## Partition in 2 clusters
Usamos ahora un método de clustering después de realizar el ACP en nuestros datos.
Aquí tenemos la gráfica de la clasificación de grupos en el espacio de las componentes principales, para ver cómo se dividen y se comportan.
|
Para el primer cluster decidimos nombrarlo como Personas con gastos moderados en Alojamiento y Transporte, debido a que las variables que más representan esta clase corresponden a alojamiento y pasajes y además se encuentra que es opuesta al resto de clases, aunque los promedios de las variables de la clase no superan a los globales por ende decidimos decir que son gastos, además en si estas personas parecen no ser consumistas en cualquier aspecto.
|
Para el cluster número 2 decidimos brindarle el nombre de Personas que tienen Altos en Comunicación y Consumibles debido a que observamos los altos gastos en comunicación (llamadas) y consumibles (VIalimentos, desayunos, jugosn, cigarrillos, aguamin, etc.). Los individuos en este cluster tienden a gastar más en comunicación y productos consumibles, además la media de la clase es mucho más alta en todas las variables que la media global de las mismas, lo que nos dice que son las personas más
Para este trabajo tenemos diferentes conclusiones con respecto a la naturaleza de la base de datos, y las respuestas de los algoritmos analizados por nosotros para brindar un resultado.
Lo que podemos concluir de la base de datos es que es un buen recurso y que muestra cierta realidad en cuanto al consumo de ciertos bienes y servicios básicos de Colombia, y además nos da una mirada al pasado en contexto, debido al año en el que se ubica la base de datos que corresponde a los años 200-2007, así que es un buen ejercicio para el análisis del comportamiento que tenemos como ciudadanos y que tanta es la diferencia entre la población en cuanto al gasto, lo cual puede mostrar diferentes perspectivas y comportamientos.
En cuanto al proceso de respuesta de los algoritmos, tenemos muy buenas respuestas de R y facilidad para recolectar diferentes datos y agrupaciones, la técnica de aprendizaje no supervisado es bastante compleja en el sentido de que los resultados entregados dependen del análisis humano que se haga, independientemente de cómo sean las agrupaciones entregadas por las diferentes técnicas, el análisis corresponde al personal humano que sabe el contexto y que quiere decir así la respuesta del algoritmo.
En cuanto al análisis hecho, tenemos que los hogares encuestados son bastante diversos, y que por ende existe una variabilidad bastante grande entre ellos, esto se nota en las agrupaciones que se hicieron tanto en las componentes principales como en los clusters, y también en las desviaciones estándar que se encuentran en las tablas descriptivas, por ende se hace mucho más difícil clasificar los hogares. A nivel general con respecto a las agrupaciones que hicimos vemos que ciertos grupos parecen estar conformados por personas consumistas y otros por personas que tienen gastos moderados, que también puede marcar una diferencia socioeconómica y de capacidad de adquisición por los miembros de los hogares que pertenecen a perceptores de gastos o la cantidad de los mismos por hogar así se hizo más engorrosa la clasificación de dichos hogares y consideramos que el nombramiento de dimensiones y clusters que se hizo fue el más apropiado, teniendo en cuenta que principalmente para ello tuvimos en cuenta las variables que más aportan tanto a dimensiones como a clusters.