¿Qué explica la mortalidad infantil?
REPOSITORIO GITHUB: https://github.com/marcosaravia13/TRABAJO-FINAL.git
ANÁLISIS DE REGRESIÓN
Para el proceso de análisis de regresión, se tomó en consideración realziar tres diferentes modelos que invlocuren a las tres variables empleadas en el presente trabajo: Mortalidad infantil, número de habitantes con acceso al lavado de manos y la incidendia de tuberculosis por país. Para el análisis de regresión se han tomado en cuenta dos modelos de regresión simple que evalúe la relación explicativa entre las variables en pares y una regresión múltiple que tome en cuenta la totalidad de las variables. Asimismo, para los tres casos se ha tomado en cuenta como variable independiente a la tasa de mortalidad a nivel mundial.
El primer modelo de regresión simple evalúa la relaciónb entre la tasa de mortalidad y el acceso de las personas al servicio de lavado de manos. En el modelo encotnraremos que el p-value es menor a 0.05, por lo que se puede decir que no se puede negar que el modelo sea falso. Por lo tanto, no se rechaza la viabilidad del mismo y hay una relación de dependencia. Del mismo modo, se debe considerar que el R2 del modelo es de 0.5622.
En el segundo modelo, el cual toma en cuenta la relación entre la tasa de mortalidad y la incidencia de tuberculoisis, se observa que el p-value resulta ser, del mismo mod, meor a 0.05, por lo que se puede decir que no se puede negar que el modelo sea falso. Por lo tanto, no se rechaza la viabilidad del mismo y hay una relación de dependencia. Del mismo modo, se debe considerar que el R2 del modelo es de 0.1884. Sin embargo, es por ello que este modelo resulta ser menos explicativo que el primero.
No obstante, cuando se observa el tercer modelo, el cual involucra la totalidad de las variables, veremos que el pvalue es menor a 0.05 lo que impide rechazar la viabilidad del modelo, al mismo tiempo que muestra un rsquared maypr a los demás presentados (0.6) de forma positiva. Es decir, la relación del modelo es direta. Ello, además, se comprueba al observar la tabla anova.
TERCER MODELO: MODELO DE REGRESIÓN MÚLTIPLE
##
## ==================================================
## Dependent variable:
## ---------------------------
## mortality_rate
## --------------------------------------------------
## Constant 48.986***
## (3.450)
##
## handwashing -0.409***
## (0.044)
##
## incidence_tuberculosis 0.028***
## (0.009)
##
## --------------------------------------------------
## Observations 84
## R2 0.609
## Adjusted R2 0.599
## Residual Std. Error 12.054 (df = 81)
## F Statistic 63.096*** (df = 2; 81)
## ==================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
COMPARACIÓN DE LOS MODELOS
A partir de la información presentada, se evidencia que el mejor de los modelos presentados es el modelo de regresión MÚLTIPLE que involucra todas las variables.
##
## ============================================================================================
## Dependent variable:
## ---------------------------------------------------------------------
## mortality_rate
## (1) (2) (3)
## --------------------------------------------------------------------------------------------
## handwashing -0.451*** -0.409***
## (0.044) (0.044)
##
## incidence_tuberculosis 0.054*** 0.028***
## (0.012) (0.009)
##
## Constant 56.184*** 22.873*** 48.986***
## (2.695) (2.892) (3.450)
##
## --------------------------------------------------------------------------------------------
## Observations 84 84 84
## R2 0.562 0.188 0.609
## Adjusted R2 0.557 0.178 0.599
## Residual Std. Error 12.678 (df = 82) 17.261 (df = 82) 12.054 (df = 81)
## F Statistic 105.296*** (df = 1; 82) 19.033*** (df = 1; 82) 63.096*** (df = 2; 81)
## ============================================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
tanova=anova(reg1, reg2, reg3)
stargazer(tanova,type = "text", summary = F, title = "Table de Análisis")##
## Table de Análisis
## =================================================
## Res.Df RSS Df Sum of Sq F Pr(> F)
## -------------------------------------------------
## 1 82 13,179.650
## 2 82 24,432.440 0 -11,252.790
## 3 81 11,768.720 1 12,663.730 87.160 0
## -------------------------------------------------
** Los modelos de regresión simple (1ro y 2do) se encuentran en anexos. ** Los gráficos que permiten comprobar el modelo de regresión presentado se encuentran en la lista de anexos.
ANÁLISIS DE CONGLOMERADOS
Para poder realizar el análisis de conglomerados, así como el análisis factorial, se ha trabajado con una base de datos externa que ha sido unida a la ya existente.
PREPARACIÓN DE LA DATA PARA SER CLUSTERIZADA
DISTRIBUCIÓN DE LAS VARIABLES
Es evidente que por la propia naturaleza de la investigación, la distribución de las variables es independiente en cada una pues el insicador de medición en cada una de ellas ha sido trabajado de una manera diferente, por lo que es conveniente estandarizar las variables y realizar una mejor clusterización. Una vez que se han estandarizado, es posible trbajar la clusterización, pues se ha determinado un valor estánjdar de medición para todas las variables. Es importante notar, al mismo tiempo que, a partir de una examinación de las correlaciones dentro de la data presenta, se hace evidente la necesidad se establecer una monotonía en las variables, sin embargo, esta solo se realiza a la de handwashing, en tanto es mpas conveniente por los posteriores efectos del proceso.
** Cuadro de correlaciones en anexos.
CLUSTERIZACIÓN
Para poder realizar el procesod e clusterización es necesario, dentro de un marco confirmativo, tomar en cuenta las siluetas presentadas a partir de los gráficos, los cuales muestran como mjeor opción que la clusterización sería mejor reaziada a aprtir de 2 clusters. A su vez, se evidenció que a pesar de que la diferencia entre los modelos no sea significativa, pues fue de 0.1, el modelo DIANA no presenta elemntos no clusterizables, a diferencia de los modelos de PAM Y AGNES, que presentaban 2 elementos y 1 respectivamente. De acuerdo a ello, se observa que la mejor op´ción a utilizar corresponde a la clusterización por jerarquía divisible, es decir el método DIANA.
## cluster size ave.sil.width
## 1 1 35 0.51
## 2 2 36 0.51
En ese sentido, se observa en la siguiente proyección, los dos clusters seleccionados. Y, posteriormente, se observa el dendograma que permite visuizar las distnacias enntre los elementos de ambos clsuters.
## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.
ANÁLISIS FACTORIAL
ANÁLISIS FACTORIAL EXPLORATORIO
EXPLORACIÓN DE CORRELACIÓN
MATRIZ DE IDENTIDAD
cortest.bartlett(corMatrix,n=nrow(data_af))$p.value>0.05## [1] FALSE
MATRIZ SINGULAR
is.singular.matrix(corMatrix)## [1] FALSE
Se determina que, pro los datos dados, es posibel determinar un solo factor o concepto.
fa.parallel(data_af,fm = 'ML', fa = 'fa',correct = T)## Parallel analysis suggests that the number of factors = 1 and the number of components = NA
RESULTADO VISUAL
### APORTE DE LAS VARIABLES
## financial_flows incidence_tuberculosis water_services
## 0.002221696 0.148138435 0.694123667
## handwashing children_anemia mortality_rate
## 0.725742309 0.747089024 0.845478227
## life_expectancy_at_birth
## 0.927669288
## financial_flows incidence_tuberculosis water_services
## 1 1 1
## handwashing life_expectancy_at_birth children_anemia
## 1 1 1
## mortality_rate
## 1
ANÁLISIS FACTORIAL COMNFIRMATORIO
Se observa la relación de las variabels frente al concepto:
allParamCFA[allParamCFA$op=="=~",]## lhs op rhs est se z pvalue ci.lower
## 1 CONCEPTO =~ mortality_rate 0.933 0.089 10.538 0.000 0.760
## 2 CONCEPTO =~ handwashing -0.814 0.097 -8.380 0.000 -1.005
## 3 CONCEPTO =~ incidence_tuberculosis 0.425 0.114 3.716 0.000 0.201
## 4 CONCEPTO =~ life_expectancy_at_birth -0.961 0.087 -11.106 0.000 -1.131
## 5 CONCEPTO =~ water_services -0.795 0.098 -8.088 0.000 -0.988
## 6 CONCEPTO =~ financial_flows -0.060 0.120 -0.498 0.618 -0.294
## 7 CONCEPTO =~ children_anemia 0.863 0.094 9.187 0.000 0.679
## ci.upper std.lv std.all std.nox
## 1 1.107 0.933 0.940 0.940
## 2 -0.624 -0.814 -0.820 -0.820
## 3 0.650 0.425 0.428 0.428
## 4 -0.791 -0.961 -0.968 -0.968
## 5 -0.602 -0.795 -0.801 -0.801
## 6 0.175 -0.060 -0.060 -0.060
## 7 1.047 0.863 0.869 0.869
PRUEBAS DE CONFIRMACIÓN
CHISQUARE
allFitCFA[c("chisq", "df", "pvalue")] # pvalue>0.05## $chisq
## [1] 48.90087
##
## $df
## [1] 14
##
## $pvalue
## [1] 9.316829e-06
TUCKER LEWI
allFitCFA$tli # > 0.90## [1] 0.8692637
RAIZ DEL ERROR
allFitCFA[c('rmsea.ci.lower','rmsea' ,'rmsea.ci.upper')] # 0.05 en el Int de Conf?## $rmsea.ci.lower
## [1] 0.1318651
##
## $rmsea
## [1] 0.1873807
##
## $rmsea.ci.upper
## [1] 0.2459012
scorescfa=normalize(lavPredict(cfa_fit),
method = "range",
margin=2, # by column
range = c(0, 10))ANEXOS
MODELOS DE REGRESIÓN DEL 1ER Y 2DO MODELO:
PRIMER MODELO
##
## Call:
## lm(formula = Modelo1, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.788 -7.634 -0.598 5.803 34.097
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 56.18366 2.69533 20.84 < 2e-16 ***
## data$handwashing -0.45066 0.04392 -10.26 2.28e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.68 on 82 degrees of freedom
## Multiple R-squared: 0.5622, Adjusted R-squared: 0.5569
## F-statistic: 105.3 on 1 and 82 DF, p-value: 2.278e-16
SEGUNDEO MODELO
##
## Call:
## lm(formula = modelo2, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.425 -13.517 -2.323 11.652 41.030
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.87264 2.89176 7.910 1.05e-11 ***
## data$incidence_tuberculosis 0.05435 0.01246 4.363 3.71e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.26 on 82 degrees of freedom
## Multiple R-squared: 0.1884, Adjusted R-squared: 0.1785
## F-statistic: 19.03 on 1 and 82 DF, p-value: 3.711e-05
1.GRÁFICOS PARA LA COMPROBACIÓN DEL MODELO CREADO:
1.1.LINEALIDAD
1.2.HOMOCEDASTICIDAD
1.3.NORMALIDAD DE LOS RESIDUOS
##
## Shapiro-Wilk normality test
##
## data: reg3$residuals
## W = 0.95125, p-value = 0.003055
1.4.CASOS INFLUYENTES
1.5. MULTICOLINEALIDAD
VIF(reg3)## data$handwashing data$incidence_tuberculosis
## 1.101665 1.101665
2.Correlaciones
## mortality_rate handwashing incidence_tuberculosis
## mortality_rate 1.00000000 0.73232965 0.4120236
## handwashing 0.73232965 1.00000000 0.2867876
## incidence_tuberculosis 0.41202358 0.28678758 1.0000000
## life_expectancy_at_birth -0.91791945 -0.78352074 -0.4594266
## water_services -0.71686974 -0.79602078 -0.3338098
## financial_flows -0.04580455 -0.07385698 0.2058427
## children_anemia 0.83044545 0.76512942 0.2120364
## pam -0.77018190 -0.87198342 -0.3537471
## agnes -0.74205632 -0.87251114 -0.2059563
## diana -0.74736433 -0.89175907 -0.2676405
## dim1 0.90166062 0.91012372 0.4236734
## dim2 0.02308534 -0.12345773 0.8396105
## life_expectancy_at_birth water_services
## mortality_rate -0.9179195 -0.71686974
## handwashing -0.7835207 -0.79602078
## incidence_tuberculosis -0.4594266 -0.33380984
## life_expectancy_at_birth 1.0000000 0.76638160
## water_services 0.7663816 1.00000000
## financial_flows 0.0722974 0.14848064
## children_anemia -0.8283879 -0.71581646
## pam 0.8246694 0.79404270
## agnes 0.8179708 0.84583457
## diana 0.8087313 0.83473467
## dim1 -0.9368463 -0.88713061
## dim2 -0.0608919 0.05874326
## financial_flows children_anemia pam agnes
## mortality_rate -0.04580455 0.83044545 -0.77018190 -0.7420563
## handwashing -0.07385698 0.76512942 -0.87198342 -0.8725111
## incidence_tuberculosis 0.20584272 0.21203639 -0.35374710 -0.2059563
## life_expectancy_at_birth 0.07229740 -0.82838790 0.82466937 0.8179708
## water_services 0.14848064 -0.71581646 0.79404270 0.8458346
## financial_flows 1.00000000 0.03060143 0.12213542 0.1950178
## children_anemia 0.03060143 1.00000000 -0.75546609 -0.7466818
## pam 0.12213542 -0.75546609 1.00000000 0.9189189
## agnes 0.19501783 -0.74668181 0.91891892 1.0000000
## diana 0.20363749 -0.74641202 0.94519490 0.9722005
## dim1 -0.07247259 0.89029964 -0.90024444 -0.8940398
## dim2 0.43647500 -0.13116424 0.05009829 0.2101091
## diana dim1 dim2
## mortality_rate -0.7473643 9.016606e-01 2.308534e-02
## handwashing -0.8917591 9.101237e-01 -1.234577e-01
## incidence_tuberculosis -0.2676405 4.236734e-01 8.396105e-01
## life_expectancy_at_birth 0.8087313 -9.368463e-01 -6.089190e-02
## water_services 0.8347347 -8.871306e-01 5.874326e-02
## financial_flows 0.2036375 -7.247259e-02 4.364750e-01
## children_anemia -0.7464120 8.902996e-01 -1.311642e-01
## pam 0.9451949 -9.002444e-01 5.009829e-02
## agnes 0.9722005 -8.940398e-01 2.101091e-01
## diana 1.0000000 -9.010423e-01 1.585470e-01
## dim1 -0.9010423 1.000000e+00 -8.981457e-17
## dim2 0.1585470 -8.981457e-17 1.000000e+00
3. SELECCIÓN DE CULSTERIZACIÓN POR PAM, AGNES Y DIANA, RESPEDCTIVAMENTE:
Siluetas de los tres métodos correspondientes:
## cluster size ave.sil.width
## 1 1 37 0.47
## 2 2 34 0.54
## cluster size ave.sil.width
## 1 1 34 0.52
## 2 2 37 0.49
## cluster size ave.sil.width
## 1 1 35 0.51
## 2 2 36 0.51
4.DATOS MAL CLAUSTERIZADOS
## poorPAM poorAGNES poorDIANA
## 1 Pakistan Timor-Leste <NA>
## 2 South Africa <NA> <NA>
table(data_clus$diana,data_clus$agnes,dnn = c('Division','Aglomeracion'))## Aglomeracion
## Division 1 2
## 1 34 1
## 2 0 36