¿Qué explica la mortalidad infantil?

REPOSITORIO GITHUB: https://github.com/marcosaravia13/TRABAJO-FINAL.git

ANÁLISIS DE REGRESIÓN

Para el proceso de análisis de regresión, se tomó en consideración realziar tres diferentes modelos que invlocuren a las tres variables empleadas en el presente trabajo: Mortalidad infantil, número de habitantes con acceso al lavado de manos y la incidendia de tuberculosis por país. Para el análisis de regresión se han tomado en cuenta dos modelos de regresión simple que evalúe la relación explicativa entre las variables en pares y una regresión múltiple que tome en cuenta la totalidad de las variables. Asimismo, para los tres casos se ha tomado en cuenta como variable independiente a la tasa de mortalidad a nivel mundial.

El primer modelo de regresión simple evalúa la relaciónb entre la tasa de mortalidad y el acceso de las personas al servicio de lavado de manos. En el modelo encotnraremos que el p-value es menor a 0.05, por lo que se puede decir que no se puede negar que el modelo sea falso. Por lo tanto, no se rechaza la viabilidad del mismo y hay una relación de dependencia. Del mismo modo, se debe considerar que el R2 del modelo es de 0.5622.

En el segundo modelo, el cual toma en cuenta la relación entre la tasa de mortalidad y la incidencia de tuberculoisis, se observa que el p-value resulta ser, del mismo mod, meor a 0.05, por lo que se puede decir que no se puede negar que el modelo sea falso. Por lo tanto, no se rechaza la viabilidad del mismo y hay una relación de dependencia. Del mismo modo, se debe considerar que el R2 del modelo es de 0.1884. Sin embargo, es por ello que este modelo resulta ser menos explicativo que el primero.

No obstante, cuando se observa el tercer modelo, el cual involucra la totalidad de las variables, veremos que el pvalue es menor a 0.05 lo que impide rechazar la viabilidad del modelo, al mismo tiempo que muestra un rsquared maypr a los demás presentados (0.6) de forma positiva. Es decir, la relación del modelo es direta. Ello, además, se comprueba al observar la tabla anova.

TERCER MODELO: MODELO DE REGRESIÓN MÚLTIPLE

## 
## ==================================================
##                            Dependent variable:    
##                        ---------------------------
##                              mortality_rate       
## --------------------------------------------------
## Constant                        48.986***         
##                                  (3.450)          
##                                                   
## handwashing                     -0.409***         
##                                  (0.044)          
##                                                   
## incidence_tuberculosis          0.028***          
##                                  (0.009)          
##                                                   
## --------------------------------------------------
## Observations                       84             
## R2                                0.609           
## Adjusted R2                       0.599           
## Residual Std. Error         12.054 (df = 81)      
## F Statistic              63.096*** (df = 2; 81)   
## ==================================================
## Note:                  *p<0.1; **p<0.05; ***p<0.01

COMPARACIÓN DE LOS MODELOS

A partir de la información presentada, se evidencia que el mejor de los modelos presentados es el modelo de regresión MÚLTIPLE que involucra todas las variables.

## 
## ============================================================================================
##                                                 Dependent variable:                         
##                        ---------------------------------------------------------------------
##                                                   mortality_rate                            
##                                  (1)                    (2)                    (3)          
## --------------------------------------------------------------------------------------------
## handwashing                   -0.451***                                     -0.409***       
##                                (0.044)                                       (0.044)        
##                                                                                             
## incidence_tuberculosis                                0.054***               0.028***       
##                                                       (0.012)                (0.009)        
##                                                                                             
## Constant                      56.184***              22.873***              48.986***       
##                                (2.695)                (2.892)                (3.450)        
##                                                                                             
## --------------------------------------------------------------------------------------------
## Observations                     84                      84                     84          
## R2                              0.562                  0.188                  0.609         
## Adjusted R2                     0.557                  0.178                  0.599         
## Residual Std. Error       12.678 (df = 82)        17.261 (df = 82)       12.054 (df = 81)   
## F Statistic            105.296*** (df = 1; 82) 19.033*** (df = 1; 82) 63.096*** (df = 2; 81)
## ============================================================================================
## Note:                                                            *p<0.1; **p<0.05; ***p<0.01

tanova=anova(reg1, reg2, reg3)
stargazer(tanova,type = "text", summary = F, title = "Table de Análisis")

## 
## Table de Análisis
## =================================================
##   Res.Df    RSS     Df  Sum of Sq    F    Pr(> F)
## -------------------------------------------------
## 1   82   13,179.650                              
## 2   82   24,432.440 0  -11,252.790               
## 3   81   11,768.720 1  12,663.730  87.160    0   
## -------------------------------------------------

** Los modelos de regresión simple (1ro y 2do) se encuentran en anexos. ** Los gráficos que permiten comprobar el modelo de regresión presentado se encuentran en la lista de anexos.

ANÁLISIS DE CONGLOMERADOS

Para poder realizar el análisis de conglomerados, así como el análisis factorial, se ha trabajado con una base de datos externa que ha sido unida a la ya existente.

PREPARACIÓN DE LA DATA PARA SER CLUSTERIZADA

DISTRIBUCIÓN DE LAS VARIABLES

Es evidente que por la propia naturaleza de la investigación, la distribución de las variables es independiente en cada una pues el insicador de medición en cada una de ellas ha sido trabajado de una manera diferente, por lo que es conveniente estandarizar las variables y realizar una mejor clusterización. Una vez que se han estandarizado, es posible trbajar la clusterización, pues se ha determinado un valor estánjdar de medición para todas las variables. Es importante notar, al mismo tiempo que, a partir de una examinación de las correlaciones dentro de la data presenta, se hace evidente la necesidad se establecer una monotonía en las variables, sin embargo, esta solo se realiza a la de handwashing, en tanto es mpas conveniente por los posteriores efectos del proceso.

** Cuadro de correlaciones en anexos.

CLUSTERIZACIÓN

Para poder realizar el procesod e clusterización es necesario, dentro de un marco confirmativo, tomar en cuenta las siluetas presentadas a partir de los gráficos, los cuales muestran como mjeor opción que la clusterización sería mejor reaziada a aprtir de 2 clusters. A su vez, se evidenció que a pesar de que la diferencia entre los modelos no sea significativa, pues fue de 0.1, el modelo DIANA no presenta elemntos no clusterizables, a diferencia de los modelos de PAM Y AGNES, que presentaban 2 elementos y 1 respectivamente. De acuerdo a ello, se observa que la mejor op´ción a utilizar corresponde a la clusterización por jerarquía divisible, es decir el método DIANA.

##   cluster size ave.sil.width
## 1       1   35          0.51
## 2       2   36          0.51

En ese sentido, se observa en la siguiente proyección, los dos clusters seleccionados. Y, posteriormente, se observa el dendograma que permite visuizar las distnacias enntre los elementos de ambos clsuters.

## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.

ANÁLISIS FACTORIAL

ANÁLISIS FACTORIAL EXPLORATORIO

EXPLORACIÓN DE CORRELACIÓN

MATRIZ DE IDENTIDAD

cortest.bartlett(corMatrix,n=nrow(data_af))$p.value>0.05

## [1] FALSE

MATRIZ SINGULAR

is.singular.matrix(corMatrix)

## [1] FALSE

Se determina que, pro los datos dados, es posibel determinar un solo factor o concepto.

fa.parallel(data_af,fm = 'ML', fa = 'fa',correct = T)

## Parallel analysis suggests that the number of factors =  1  and the number of components =  NA

RESULTADO VISUAL

### APORTE DE LAS VARIABLES

##          financial_flows   incidence_tuberculosis           water_services 
##              0.002221696              0.148138435              0.694123667 
##              handwashing          children_anemia           mortality_rate 
##              0.725742309              0.747089024              0.845478227 
## life_expectancy_at_birth 
##              0.927669288

##          financial_flows   incidence_tuberculosis           water_services 
##                        1                        1                        1 
##              handwashing life_expectancy_at_birth          children_anemia 
##                        1                        1                        1 
##           mortality_rate 
##                        1

ANÁLISIS FACTORIAL COMNFIRMATORIO

Se observa la relación de las variabels frente al concepto:

allParamCFA[allParamCFA$op=="=~",]

##        lhs op                      rhs    est    se       z pvalue ci.lower
## 1 CONCEPTO =~           mortality_rate  0.933 0.089  10.538  0.000    0.760
## 2 CONCEPTO =~              handwashing -0.814 0.097  -8.380  0.000   -1.005
## 3 CONCEPTO =~   incidence_tuberculosis  0.425 0.114   3.716  0.000    0.201
## 4 CONCEPTO =~ life_expectancy_at_birth -0.961 0.087 -11.106  0.000   -1.131
## 5 CONCEPTO =~           water_services -0.795 0.098  -8.088  0.000   -0.988
## 6 CONCEPTO =~          financial_flows -0.060 0.120  -0.498  0.618   -0.294
## 7 CONCEPTO =~          children_anemia  0.863 0.094   9.187  0.000    0.679
##   ci.upper std.lv std.all std.nox
## 1    1.107  0.933   0.940   0.940
## 2   -0.624 -0.814  -0.820  -0.820
## 3    0.650  0.425   0.428   0.428
## 4   -0.791 -0.961  -0.968  -0.968
## 5   -0.602 -0.795  -0.801  -0.801
## 6    0.175 -0.060  -0.060  -0.060
## 7    1.047  0.863   0.869   0.869

PRUEBAS DE CONFIRMACIÓN

CHISQUARE

allFitCFA[c("chisq", "df", "pvalue")] # pvalue>0.05

## $chisq
## [1] 48.90087
## 
## $df
## [1] 14
## 
## $pvalue
## [1] 9.316829e-06

TUCKER LEWI

allFitCFA$tli # > 0.90

## [1] 0.8692637

RAIZ DEL ERROR

allFitCFA[c('rmsea.ci.lower','rmsea' ,'rmsea.ci.upper')] # 0.05 en el Int de Conf?

## $rmsea.ci.lower
## [1] 0.1318651
## 
## $rmsea
## [1] 0.1873807
## 
## $rmsea.ci.upper
## [1] 0.2459012

scorescfa=normalize(lavPredict(cfa_fit),
                    method = "range", 
                    margin=2, # by column
                    range = c(0, 10))

ANEXOS

MODELOS DE REGRESIÓN DEL 1ER Y 2DO MODELO:

PRIMER MODELO

## 
## Call:
## lm(formula = Modelo1, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.788  -7.634  -0.598   5.803  34.097 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      56.18366    2.69533   20.84  < 2e-16 ***
## data$handwashing -0.45066    0.04392  -10.26 2.28e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.68 on 82 degrees of freedom
## Multiple R-squared:  0.5622, Adjusted R-squared:  0.5569 
## F-statistic: 105.3 on 1 and 82 DF,  p-value: 2.278e-16

SEGUNDEO MODELO

## 
## Call:
## lm(formula = modelo2, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -33.425 -13.517  -2.323  11.652  41.030 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 22.87264    2.89176   7.910 1.05e-11 ***
## data$incidence_tuberculosis  0.05435    0.01246   4.363 3.71e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.26 on 82 degrees of freedom
## Multiple R-squared:  0.1884, Adjusted R-squared:  0.1785 
## F-statistic: 19.03 on 1 and 82 DF,  p-value: 3.711e-05

1.GRÁFICOS PARA LA COMPROBACIÓN DEL MODELO CREADO:

1.1.LINEALIDAD

1.2.HOMOCEDASTICIDAD

1.3.NORMALIDAD DE LOS RESIDUOS

## 
##  Shapiro-Wilk normality test
## 
## data:  reg3$residuals
## W = 0.95125, p-value = 0.003055

1.4.CASOS INFLUYENTES

1.5. MULTICOLINEALIDAD

VIF(reg3)

##            data$handwashing data$incidence_tuberculosis 
##                    1.101665                    1.101665

2.Correlaciones

##                          mortality_rate handwashing incidence_tuberculosis
## mortality_rate               1.00000000  0.73232965              0.4120236
## handwashing                  0.73232965  1.00000000              0.2867876
## incidence_tuberculosis       0.41202358  0.28678758              1.0000000
## life_expectancy_at_birth    -0.91791945 -0.78352074             -0.4594266
## water_services              -0.71686974 -0.79602078             -0.3338098
## financial_flows             -0.04580455 -0.07385698              0.2058427
## children_anemia              0.83044545  0.76512942              0.2120364
## pam                         -0.77018190 -0.87198342             -0.3537471
## agnes                       -0.74205632 -0.87251114             -0.2059563
## diana                       -0.74736433 -0.89175907             -0.2676405
## dim1                         0.90166062  0.91012372              0.4236734
## dim2                         0.02308534 -0.12345773              0.8396105
##                          life_expectancy_at_birth water_services
## mortality_rate                         -0.9179195    -0.71686974
## handwashing                            -0.7835207    -0.79602078
## incidence_tuberculosis                 -0.4594266    -0.33380984
## life_expectancy_at_birth                1.0000000     0.76638160
## water_services                          0.7663816     1.00000000
## financial_flows                         0.0722974     0.14848064
## children_anemia                        -0.8283879    -0.71581646
## pam                                     0.8246694     0.79404270
## agnes                                   0.8179708     0.84583457
## diana                                   0.8087313     0.83473467
## dim1                                   -0.9368463    -0.88713061
## dim2                                   -0.0608919     0.05874326
##                          financial_flows children_anemia         pam      agnes
## mortality_rate               -0.04580455      0.83044545 -0.77018190 -0.7420563
## handwashing                  -0.07385698      0.76512942 -0.87198342 -0.8725111
## incidence_tuberculosis        0.20584272      0.21203639 -0.35374710 -0.2059563
## life_expectancy_at_birth      0.07229740     -0.82838790  0.82466937  0.8179708
## water_services                0.14848064     -0.71581646  0.79404270  0.8458346
## financial_flows               1.00000000      0.03060143  0.12213542  0.1950178
## children_anemia               0.03060143      1.00000000 -0.75546609 -0.7466818
## pam                           0.12213542     -0.75546609  1.00000000  0.9189189
## agnes                         0.19501783     -0.74668181  0.91891892  1.0000000
## diana                         0.20363749     -0.74641202  0.94519490  0.9722005
## dim1                         -0.07247259      0.89029964 -0.90024444 -0.8940398
## dim2                          0.43647500     -0.13116424  0.05009829  0.2101091
##                               diana          dim1          dim2
## mortality_rate           -0.7473643  9.016606e-01  2.308534e-02
## handwashing              -0.8917591  9.101237e-01 -1.234577e-01
## incidence_tuberculosis   -0.2676405  4.236734e-01  8.396105e-01
## life_expectancy_at_birth  0.8087313 -9.368463e-01 -6.089190e-02
## water_services            0.8347347 -8.871306e-01  5.874326e-02
## financial_flows           0.2036375 -7.247259e-02  4.364750e-01
## children_anemia          -0.7464120  8.902996e-01 -1.311642e-01
## pam                       0.9451949 -9.002444e-01  5.009829e-02
## agnes                     0.9722005 -8.940398e-01  2.101091e-01
## diana                     1.0000000 -9.010423e-01  1.585470e-01
## dim1                     -0.9010423  1.000000e+00 -8.981457e-17
## dim2                      0.1585470 -8.981457e-17  1.000000e+00

3. SELECCIÓN DE CULSTERIZACIÓN POR PAM, AGNES Y DIANA, RESPEDCTIVAMENTE:

Siluetas de los tres métodos correspondientes:

##   cluster size ave.sil.width
## 1       1   37          0.47
## 2       2   34          0.54

##   cluster size ave.sil.width
## 1       1   34          0.52
## 2       2   37          0.49

##   cluster size ave.sil.width
## 1       1   35          0.51
## 2       2   36          0.51

4.DATOS MAL CLAUSTERIZADOS

##        poorPAM   poorAGNES poorDIANA
## 1     Pakistan Timor-Leste      <NA>
## 2 South Africa        <NA>      <NA>

table(data_clus$diana,data_clus$agnes,dnn = c('Division','Aglomeracion'))

##         Aglomeracion
## Division  1  2
##        1 34  1
##        2  0 36