La satisfacción de la vida y la felicidad varía entre países [7] y juegan un papel importante en el desarrollo de un país. Sin embargo, no se logró determinar documentación o estudios relacionados sobre cómo se pueden predecir estos factores en Colombia dados unos parámetros. Por tal motivo, se propone el plantemiento, desarrollo, análisis y posterior productización de un modelo con el cual se busca predecir la satisfacción de niños y abuelos. Para lograr esto, se toma como base una encuesta realizada por el DANE en el 2020: Colombia - Encuesta Nacional de Calidad de Vida - ECV 2020. Esta investigación, según el DANE “Busca cuantificar y caracterizar las condiciones socioeconómicas de los hogares colombianos, con el fin de obtener la información necesaria para la actualización de indicadores sociales a nivel de viviendas, hogares y personas, y para la definición de políticas que permitan diseñar y ejecutar planes sociales.” (Metodologia ECV, 2009, p.17)
La estructura del estudio se planteó de la siguiente manera: se hizo una búsqueda exhaustiva sobre documentación para determinar cuáles de las variables que se tienen afectan de manera significativa la satisfacción. Después se planteó un modelo general, sin embargo al revisar las correlaciones entre las variables predictoras se dicidió partir ese modelo general en tres sub-modelos: satisfacción de salud, seguridad y trabajo. Para cada cada uno de estos también se realizó la búsqueda de documentación al respecto. Adicionalmente, se creó una página web para poder interactuar con los modelos. Finalmente, se obtuvieron los resultados y plantearon las conclusiones.
El Instituto Colombiano de Bienestar Familiar es una entidad que trabaja por la prevención y protección integral de la primera infancia, la niñez, la adolescencia y el bienestar general de las familias en Colombia, llegando a millones de colombianos mediante sus programas, estrategias y servicios de atención. En el marco de los objetivos de esta institución se encontró que el ICBF actualmente no cuenta con una herramienta para conocer en prospectiva, y de forma adecuada y efectiva la satisfacción general de vida tanto de niños como de adultos en la tercera edad. Es para ellos de vital importancia conocer esta información pues es un indicador fundamental a tener en cuenta a la hora de crear programas preventivos y de protección que tienen como objetivo el mejoramiento de vida de la población destinataria. Por esto se busca implementar en el ICBF tanto los 2 sub-modelos como el modelo de satisfacción general, para que sea usado por la institución en pro de mejorar futuros planeamientos en todo proyecto social que involucre niños y adultos de la tercera edad como población objetivo.
En primera instancia se planteó tomar a los niños en dos grupos, uno perteneciente a la primera infancia (0 a 5 años) y otro con aquellos niños con edad entre 6 y 12 años. Sin embargo, luego se decidió que se tomaría como niño la definición integrada en el codigo de infancia y adolesencia, donde se expone que “Para todos los efectos de esta ley son sujetos titulares de derechos todas las personas menores de 18 años. Sin perjuicio de lo establecido en el artículo 34 del Código Civil, se entiende por niño o niña las personas entre los 0 y los 12 años, y por adolescente las personas entre 12 y 18 años de edad”(Articulo 3).
Una vez adoptada esta definición se analizó cuantas observaciones de la ECV cumplían esta condición, resultando en un total de 56128 niños.
Para los abuelos, al igual que con los niños, se pensó inicialmente en tomar un rango de edad que abarcara la definición popular de este colectivo, los adultos de la tercera edad (mayores de 60 años). Sin embargo, luego se planteó tener en cuenta cuál es la definición literal de abuelo: personas con nietos; y mediante un sistema de grafos se logró determinar la cantidad de hombres y mujeres cumplían esta condición. Filtrandolos por su rango edad se observó que se tienen registrados un total de 1467 abuelos mayores de 60 años, y 1049 abuelos menores de 60 años.
Se observa que con la definición inicial se estaba omitiendo un total de 1049 observaciones, ademas, se observa que los abuelos resgitrados en la base de datos son relativamente pocos pues solo representan aproximadamente el 3% del total de personas.
Ante esta situación se toma la desicion trabajar únicamente con las personas de la tercera edad.
Inicialmente, se intentó englobar en un modelo a los abuelos y niños con el fin de predecir la satisfacción. Sin embargo, como lo ilustra la Figura 1, las variables objetivos que se seleccionaron no fueron respondidas, en su mayoría, por niños. Este comportamiento se asemeja con los resultados encontrados en [7], donde se puede observar que los abuelos y niños tienen diferentes definiciones de satisfacción y, por ende, diferentes factores que la influyen. Por esta razón, se decidió trabajar de forma independiente los modelos para los niños y abuelos.
De [1] y [2] se obtuvieron las variables para el modelo general. Se realizó un mapeo con las que se tenían en la base de datos del DANE y se eligieron las siguientes:
Cada una de estas variables mostraron correlación en los estudios realizados sobre factores que influyen en la satisfacción de la vida en abuelos. En [2] también mencionan variables que involucran relaciones sociales, sin embargo en la base de datos no se logró de terminar alguna asociación lógica para este tipo de variables.
Análogamente a la divergencia entre modelos para niños y abuelos, después de realizar un análisis de correlaciones entre todas las variables:
se llegó a la conclusión de partir el modelo en 4: uno para predecir la satisfacción en general; otro para la satisfacción de la salud; para la satisfacción en cuanto a seguridad; y, finalmente, para la satisfacción laboral.
A continuación se presenta cada modelo por separado.
Después de analizar la matriz de correlación general, se puede observar que las variables con mayor relación a la satisfacción son: SALUD_AUTOPERCIBIDA, SEGURIDAD_AUTOPERCIBIDA, NIVEL_DE_EDUCACION, COND_VIDA_DEL_HOGAR, TRABAJO_AUTOPERCIBIDO.
de las cuales se toma como variable objetivo la SATISFACCIÓN y como variables predictoras las demás.
Para predecir las satisfacción se utilizó la regresión lineal ya que este modelo fue el que mejor se acomodó a los datos. Para esto, se dividió los datos en entrenamiento (75%) y prueba (25%). Luego se entrena el modelo y finalmente se realizan las predicciones con los datos de prueba.
##
## Call:
## lm(formula = Y ~ ., data = train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.7241 -0.7557 0.0388 0.7737 7.1464
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.859374 0.034469 111.967 < 2e-16 ***
## X1 0.296308 0.002969 99.805 < 2e-16 ***
## X2 0.204260 0.002976 68.643 < 2e-16 ***
## X3 0.017679 0.003018 5.858 4.7e-09 ***
## X4 -0.264695 0.008683 -30.486 < 2e-16 ***
## X5 0.131768 0.002526 52.169 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.448 on 82163 degrees of freedom
## Multiple R-squared: 0.3965, Adjusted R-squared: 0.3964
## F-statistic: 1.079e+04 on 5 and 82163 DF, p-value: < 2.2e-16
Se presenta una gráfica de los Predichos vs Observados:
Además, las medidades de error son las siguientes:
Para determinar las variables predictoras de este modelo se tomó como base el estudio [4]. En este estudio, explican los factores que afectan en la satisfacción y calidad de la salud. Estas son las variables que se seleccionaron:
Análogamente, para predecir las satisfacción de seguridad se utilizó la regresión lineal ya que este modelo fue el que mejor se acomodó a los datos. Para esto, se devide los datos en entrenamiento (75%) y prueba (25%). Luego se entrena el modelo y finalmente se realizan las predicciones con los datos de prueba.
##
## Call:
## lm(formula = SATISFACCION ~ ., data = train_salud)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.1444 -1.0243 0.1668 1.1887 5.7506
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.420753 0.079567 130.968 < 2e-16 ***
## CALIDAD_EPS -0.157173 0.022567 -6.965 3.36e-12 ***
## ESTADO_SALUD -1.426687 0.019721 -72.343 < 2e-16 ***
## ESTRATO 0.021954 0.008358 2.627 0.00863 **
## REGIMEN -0.157869 0.012427 -12.704 < 2e-16 ***
## ENFERMEDAD_CRONICA 0.300661 0.024138 12.456 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.848 on 27607 degrees of freedom
## Multiple R-squared: 0.2271, Adjusted R-squared: 0.2269
## F-statistic: 1622 on 5 and 27607 DF, p-value: < 2.2e-16
## 'data.frame': 27613 obs. of 6 variables:
## $ SATISFACCION : int 8 10 7 1 3 4 9 5 6 6 ...
## $ CALIDAD_EPS : int 2 2 2 1 3 2 2 2 2 2 ...
## $ ESTADO_SALUD : int 2 2 3 4 3 3 2 3 2 2 ...
## $ ESTRATO : int 3 3 3 3 3 3 3 3 3 3 ...
## $ REGIMEN : num 0 0 0 2 0 2 2 0 0 2 ...
## $ ENFERMEDAD_CRONICA: int 2 2 2 1 1 1 2 2 2 2 ...
Se presenta una gráfica de los Predichos vs Observados:
Además, las medidades de error son las siguientes:
En este caso se la selección de variables se basó en [6]. Allí exploran los factores de seguridad en un barrio, además muestran problemas psicológicos que pueden influenciar en cómo percibe una persona la seguridad en un ambiente. Con base a los factores descritos allí y comparando las variables que se tienen en la base de datos, se escogieron las siguientes variables:
Por tal motivo, se decide eliminar las variables SEXO, ESTRATO, ES_CAMPESINO y CAI ya que no presentan un correlación significativa con la variable objetivo.
Aquí también la regresión lineal fue el modelo elegido para predecir la satisfacción. Para esto, se devide los datos en entrenamiento (75%) y prueba (25%). Luego se entrena el modelo y finalmente se realizan las predicciones con los datos de prueba.
##
## Call:
## lm(formula = SATISFACCION ~ ., data = train_seguridad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.1740 -0.8803 0.1944 1.3802 4.9497
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.333577 0.130701 71.412 <2e-16 ***
## ESTADO_CIVIL 0.037349 0.004186 8.922 <2e-16 ***
## NIVEL_DE_SEGURIDAD -1.423063 0.022829 -62.336 <2e-16 ***
## CONDICIONES_DE_VIDA_HOGAR -0.405692 0.011283 -35.956 <2e-16 ***
## OTRO_DELITO 0.036470 0.056879 0.641 0.521
## ROBO 0.335002 0.029988 11.171 <2e-16 ***
## LEE_ESCRIBE -0.185847 0.017446 -10.653 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.918 on 80538 degrees of freedom
## Multiple R-squared: 0.09038, Adjusted R-squared: 0.09031
## F-statistic: 1334 on 6 and 80538 DF, p-value: < 2.2e-16
Se presenta una gráfica de los Predichos vs Observados:
plot(test_seguridad$Y_Predict,test_seguridad$SATISFACCION,
main = c("Predichos (remendados) vs Observados","Validación"),
xlim = c(0,10), ylim = c(0,10),
las=1, xlab = "Valores predichos (remendados)",
ylab = "Valores observados")
Además, las medidades de error son las siguientes:
Finalmente, las características predictoras de la satisfacción del trabajo fueron obtenidas siguiendo [5]. Este estudio presenta unas variables relacionadas con la satisfacción laboral y correlaciones entre sí. Basados en estas variables, se buscaron los análogos en la base de datos que se tiene y se lograron de terminar las siguientes:
Sin embargo, si se observa la cantidad de abuelos que respondieron a las preguntas seleccionadas:
se puede determinar que la mayoría de estos no respondieron a las preguntas que se les hicieron sobre el trabajo. Este mismo procedimiento se repitió con variables diferentes, pero no se obtuvieron resultados distintos a los presentados. Por tal motivo, se decide no realizar un modelo de predicción para la satisfacción del trabajo en los abuelos. En primera instancia se pensó que este comportamiento se debía a que la mayoría de los abuelos estaban pensionados, pero si se observan los abuelos pensionados:
la gran mayoría de estos respondieron que no recibían algún tipo de pensión (2). Por tanto, se puede inferir que la mayoría de los abuelos no trabajan y tampoco reciben pensión, es decir, viven dependientes de sus familiares.
Separación de los datos en entrenamiento y prueba
Modelo de árbol de decisión
## SATISFACCION
## pred_Satisfaccion 0 1 2 3 4 5 6 7 8 9
## 3 0 1 5 27 28 9 7 0 0 0
## 4 2 20 56 449 1657 602 439 147 47 1
## 5 1 8 29 417 1531 846 737 324 138 8
## 6 0 1 1 21 51 14 73 51 48 3
## SATISFACCION
## pred_Satisfaccion 0 1 2 3 4 5 6 7 8 9
## 3 1 13 19 108 77 15 8 1 0 0
## 4 2 61 153 1494 4940 1728 1403 438 113 5
## 5 0 18 69 1255 4362 2693 2322 983 403 27
## 6 0 1 0 40 157 63 237 175 108 8
En lo consiguiente calculamos unas métricas para mejorar el arbol: Sacamos paso a paso una del los variables y miramos que impacto tiene cada.
Entrenamiento - MSE: 43.5018677
- MS: 812.0899228
- MAE: 5.3221355
Para las 10 categorías - MSE: 1.6411064
- MS: 22.0124682
- MAE: 0.9434894
- RMSE: 1.2810567
MSE_test <- mean((test_pred$SATISFACCION - test_pred$pred_Satisfaccion)^2)
MSE_cat_test <- mean((cat_test_pred$SATISFACCION - cat_test_pred$pred_Satisfaccion)^2)
MAE_test <- mean(abs(test_pred$SATISFACCION - test_pred$pred_Satisfaccion))
MAE_cat_test <- mean(abs(cat_test_pred$SATISFACCION - cat_test_pred$pred_Satisfaccion))
RMSE_test <- sqrt(mean((cat_test_pred$SATISFACCION - cat_test_pred$pred_Satisfaccion)^2))
Prueba - MSE: 44.7701053
- MAE: 5.3784412
Para las 10 categorías - MSE: 1.6941916
- MAE: 0.9592255
- RMSE: 1.3016111
Entrenamiento
# to factor
cat_train_pred$SATISFACCION = factor(cat_train_pred$SATISFACCION)
cat_train_pred$pred_Satisfaccion = factor(cat_train_pred$pred_Satisfaccion)
#reorder
cat_train_pred$pred_Satisfaccion = factor(cat_train_pred$pred_Satisfaccion,
levels=c(0,1,2,3,4,5,6,7,8,9))
#create confusion matrix
confusionMatrix(table(cat_train_pred))
## Confusion Matrix and Statistics
##
## SATISFACCION
## pred_Satisfaccion 0 1 2 3 4 5 6 7 8 9
## 0 0 0 0 0 0 0 0 0 0 0
## 1 0 0 0 0 0 0 0 0 0 0
## 2 0 0 0 0 0 0 0 0 0 0
## 3 1 13 19 108 77 15 8 1 0 0
## 4 2 61 153 1494 4940 1728 1403 438 113 5
## 5 0 18 69 1255 4362 2693 2322 983 403 27
## 6 0 1 0 40 157 63 237 175 108 8
## 7 0 0 0 0 0 0 0 0 0 0
## 8 0 0 0 0 0 0 0 0 0 0
## 9 0 0 0 0 0 0 0 0 0 0
##
## Overall Statistics
##
## Accuracy : 0.3395
## 95% CI : (0.3334, 0.3456)
## No Information Rate : 0.4058
## P-Value [Acc > NIR] : 1
##
## Kappa : 0.0771
##
## Mcnemar's Test P-Value : NA
##
## Statistics by Class:
##
## Class: 0 Class: 1 Class: 2 Class: 3 Class: 4 Class: 5
## Sensitivity 0.0000000 0.000000 0.00000 0.037280 0.5180 0.5986
## Specificity 1.0000000 1.000000 1.00000 0.993496 0.6135 0.5032
## Pos Pred Value NaN NaN NaN 0.446281 0.4779 0.2220
## Neg Pred Value 0.9998723 0.996043 0.98974 0.880084 0.6508 0.8411
## Prevalence 0.0001277 0.003957 0.01026 0.123277 0.4058 0.1914
## Detection Rate 0.0000000 0.000000 0.00000 0.004596 0.2102 0.1146
## Detection Prevalence 0.0000000 0.000000 0.00000 0.010298 0.4399 0.5163
## Balanced Accuracy 0.5000000 0.500000 0.50000 0.515388 0.5658 0.5509
## Class: 6 Class: 7 Class: 8 Class: 9
## Sensitivity 0.05970 0.00000 0.00000 0.000000
## Specificity 0.97174 1.00000 1.00000 1.000000
## Pos Pred Value 0.30038 NaN NaN NaN
## Neg Pred Value 0.83563 0.93204 0.97345 0.998298
## Prevalence 0.16894 0.06796 0.02655 0.001702
## Detection Rate 0.01009 0.00000 0.00000 0.000000
## Detection Prevalence 0.03357 0.00000 0.00000 0.000000
## Balanced Accuracy 0.51572 0.50000 0.50000 0.500000
Prueba
# to factor
cat_test_pred$SATISFACCION = factor(cat_test_pred$SATISFACCION)
cat_test_pred$pred_Satisfaccion = factor(cat_test_pred$pred_Satisfaccion)
#reorder
cat_test_pred$SATISFACCION = factor(cat_test_pred$SATISFACCION,
levels=c(0,1,2,3,4,5,6,7,8,9))
cat_test_pred$pred_Satisfaccion = factor(cat_test_pred$pred_Satisfaccion,
levels=c(0,1,2,3,4,5,6,7,8,9))
#create confusion matrix
confusionMatrix(table(cat_test_pred))
## Confusion Matrix and Statistics
##
## SATISFACCION
## pred_Satisfaccion 0 1 2 3 4 5 6 7 8 9
## 0 0 0 0 0 0 0 0 0 0 0
## 1 0 0 0 0 0 0 0 0 0 0
## 2 0 0 0 0 0 0 0 0 0 0
## 3 0 1 5 27 28 9 7 0 0 0
## 4 2 20 56 449 1657 602 439 147 47 1
## 5 1 8 29 417 1531 846 737 324 138 8
## 6 0 1 1 21 51 14 73 51 48 3
## 7 0 0 0 0 0 0 0 0 0 0
## 8 0 0 0 0 0 0 0 0 0 0
## 9 0 0 0 0 0 0 0 0 0 0
##
## Overall Statistics
##
## Accuracy : 0.3338
## 95% CI : (0.3233, 0.3444)
## No Information Rate : 0.4189
## P-Value [Acc > NIR] : 1
##
## Kappa : 0.0643
##
## Mcnemar's Test P-Value : NA
##
## Statistics by Class:
##
## Class: 0 Class: 1 Class: 2 Class: 3 Class: 4 Class: 5
## Sensitivity 0.0000000 0.000000 0.00000 0.029540 0.5072 0.5751
## Specificity 1.0000000 1.000000 1.00000 0.992738 0.6110 0.4954
## Pos Pred Value NaN NaN NaN 0.350649 0.4845 0.2095
## Neg Pred Value 0.9996153 0.996153 0.98833 0.885133 0.6323 0.8338
## Prevalence 0.0003847 0.003847 0.01167 0.117195 0.4189 0.1886
## Detection Rate 0.0000000 0.000000 0.00000 0.003462 0.2125 0.1085
## Detection Prevalence 0.0000000 0.000000 0.00000 0.009873 0.4385 0.5179
## Balanced Accuracy 0.5000000 0.500000 0.50000 0.511139 0.5591 0.5353
## Class: 6 Class: 7 Class: 8 Class: 9
## Sensitivity 0.05812 0.00000 0.00000 0.000000
## Specificity 0.97096 1.00000 1.00000 1.000000
## Pos Pred Value 0.27757 NaN NaN NaN
## Neg Pred Value 0.84302 0.93307 0.97012 0.998461
## Prevalence 0.16105 0.06693 0.02988 0.001539
## Detection Rate 0.00936 0.00000 0.00000 0.000000
## Detection Prevalence 0.03372 0.00000 0.00000 0.000000
## Balanced Accuracy 0.51454 0.50000 0.50000 0.500000
levels(cat_test_pred$SATISFACCION)
## [1] "0" "1" "2" "3" "4" "5" "6" "7" "8" "9"
[1] Ramírez Pérez, Mauricio; Lee Maturana, Sau-Lyn (2012). Factores asociados a la satisfacción vital en adultos mayores de 60 años. Polis (Santiago), 11(33), 407–428. doi:10.4067/s0718-65682012000300020
[2] Kutubaeva RZh (2019) Analysis of life satisfaction of the elderly population on the example of Sweden, Austria and Germany. Population and Economics 3(3): 102-116. https://doi.org/10.3897/popecon.3.e47192
[3] Palmore, E., Luikart, C. (1972). Health and Social Factors Related to Life Satisfaction. Journal of Health and Social Behavior, 13(1), 68–80. doi: 10.2307/2136974
[4] Naidu, Aditi (2009). Factors affecting patient satisfaction and healthcare quality. International Journal of Health Care Quality Assurance, 22(4), 366–381. doi:10.1108/09526860910964834
[5] ROBLES-GARCIA, Monica et al. Variables relacionadas con la satisfaccion laboral: un estudio transversal a partir del modelo EFQM. Gac Sanit [online]. 2005, vol.19, n.2, pp.127-134. ISSN 0213-9111
[6] Booth, Jaime; Ayers, Stephanie L.; and Marsiglia, Flavio F. (2012) “Perceived Neighborhood Safety and Psychological Distress: Exploring Protective Factors,” The Journal of Sociology & Social Welfare: Vol. 39 : Iss. 4 , Article 8. Available at: https://scholarworks.wmich.edu/jssw/vol39/iss4/
[7] https://ourworldindata.org/happiness-and-life-satisfaction