¿Qué explica la mortalidad infantil?

INTRODUCCIÓN

El índice de mortalidad infantil se mide de acuerdo una diversidad de factores que se encargan de determinar el número de muertes de niños menores de 5 años divido entre el número total de nacimientos en un esapcio determinado. De acuerdo a lo que plantea Aguirre (2009), la mortalidad infantil puede deber su causalidad a las afecciones originadas en el periodo perinatal (AP), anomalías congénitas (AC), infecciones respiratorias agudas (IRA), enfermedades diarreicas agudas (EDA), entre otras. Por lo cual, llama la atención considerar aquellos elementos que permitan evidenciar lo propuesto en la literatura, de tal modo que se consideren cuáles son los factores determinantes en la vida diaria y en la salud que influyan en los cambios del índice de mortalidad.

En ese sentido, se emplearán los datos obtenidos a partir de la base de datos del Banco Mundial en relación a indicadores que toman en cosnideración todos los países a nivel mundial. Las variables que se emplearán en la presente investigación son: la tasa de mortalidad, bebés (por cada 1.000 nacidos vivos); la incidencia de tuberculosis (por cada 100.000 personas); y, “People with basic handwashing facilities including soap and water (% of population)”. Puesto que, las variables por un lado, permiten tomar en cuenta elementos de la cotidianidad de los ciudadanos (as) a nivel mundial y, por otro lado, enfermedadesd e afectacción grande a la salud pública, los cuales se encuentran estrechamente relacionados a la mortalidad infantil.

Primero, la tasa de mortalidad, bebés, el cuals e refiere a la cantidad de infantes que mueren antes de llegar al año de vida, por cada 1000 nacidos vivos, en un año determinado. Segundo, la incidencia de tuberculosis, el cual representa la cantidad estimada de nuevos casos de tuberculosis pulmonar, de frotis positivo y extrapulmonar.Y, tercero, el porcentaje de personas viviendo en househols que tienen acceso al servicio de lavado de manos con facilidad de agua potable y jabón. Este último indicador toma en consdieración, también, la facilidad de las personas para arreglar y ajustar alos probelmas técncios como atoramientos y contaminación de agua que se incluyen en el servicio de agua. Además,dentro de la categoría de jabón se incluyen el jabón en barra, líquido, detergente, pero deja de lado el acite, sal, entre otros productos de lavado de manos.

Para poder desarrollar el correcto análisis el trabajo constará de dos partes. En la primera, se realizará un análisis de regresión los modelos creados en base a los vectores que se han mencionado, de tal forma que sea posible determinar si existe algún tipo de relación de predicción y dependencia entre las variables de interés, y si es así, cuál es el tipo de relación. En la segunda, se añade una segunda base de datos dentro de la cual se encuentran cuatro variables extraídas, también, del Banco Mundial. Puesto que, se realizarán dos análisis de agrupación de datos. Se emplea, por un lado, la clusterización de los datos y, por otro lado, el análisis factorial.

Es así que se plantea, a partir de la información presentada, determinar la estructura de los datos presentados en favor de establecer, en primer lugar, cuáles son los factores que predicen el comportamiento de la mortaldiad infantil en el mundo y, en segundo lugar, establecer de qué forma se agrupan los datos en razón de ser calsificados dentro de categorías o dentro de la creación de índices.

ANÁLISIS DE REGRESIÓN

Para el proceso de análisis de regresión, se tomó en consideración realziar tres diferentes modelos que invlocuren a las tres variables empleadas en el presente trabajo: Mortalidad infantil, número de habitantes con acceso al lavado de manos y la incidendia de tuberculosis por país. Para el análisis de regresión se han tomado en cuenta dos modelos de regresión simple que evalúe la relación explicativa entre las variables en pares y una regresión múltiple que tome en cuenta la totalidad de las variables. Asimismo, para los tres casos se ha tomado en cuenta como variable independiente a la tasa de mortalidad a nivel mundial.

El primer modelo de regresión simple evalúa la relaciónb entre la tasa de mortalidad y el acceso de las personas al servicio de lavado de manos. En el modelo encotnraremos que el p-value fue menor a 0.05, por lo que se puede decir que no se puede negar que el modelo sea falso. Por lo tanto, no se rechaza la viabilidad del mismo y hay una relación de dependencia. Del mismo modo, se debe considerar que el R2 del modelo es de 0.5622.

En el segundo modelo, el cual toma en cuenta la relación entre la tasa de mortalidad y la incidencia de tuberculoisis, se observó que el p-value resulta ser, del mismo modo, es menor a 0.05, por lo que se puede decir que no se puede negar que el modelo sea falso. Por lo tanto, no se rechaza la viabilidad del mismo y hay una relación de dependencia. Del mismo modo, se debe considerar que el R2 del modelo es de 0.1884. Sin embargo, es por ello que este modelo resulta ser menos explicativo que el primero.

No obstante, cuando se observa el tercer modelo, el cual involucra la totalidad de las variables, veremos que el pvalue es menor a 0.05 lo que impide rechazar la viabilidad del modelo, al mismo tiempo que muestra un rsquared maypr a los demás presentados (0.6) de forma positiva. Es decir, la relación del modelo es direta. Ello, además, se comprueba al observar la tabla anova (tabla 1).

RELACIÓN ENTRE EL ÍNDICE DE MORTALIDAD INFANTIL (DEPENDIENTE) FRENTE A LA INCIDENCIA DE TUBERCULOSIS Y ACCESO AL LAVADO DE MANOS

## 
## ==================================================
##                            Dependent variable:    
##                        ---------------------------
##                              mortality_rate       
## --------------------------------------------------
## Constant                        48.986***         
##                                  (3.450)          
##                                                   
## handwashing                     -0.409***         
##                                  (0.044)          
##                                                   
## incidence_tuberculosis          0.028***          
##                                  (0.009)          
##                                                   
## --------------------------------------------------
## Observations                       84             
## R2                                0.609           
## Adjusted R2                       0.599           
## Residual Std. Error         12.054 (df = 81)      
## F Statistic              63.096*** (df = 2; 81)   
## ==================================================
## Note:                  *p<0.1; **p<0.05; ***p<0.01

COMPARACIÓN DE LOS MODELOS

A partir de la información presentada, se evidencia que el mejor de los modelos presentados es el modelo de regresión MÚLTIPLE que involucra todas las variables. En esta se muestra que al pasar de un modelo a otro no existe un cambio significativo, de tal modo que se rechaza la hipótesis de igualdad de modelos. De este modo, se considera que el mejor modelo que define el tipo de relación entre las variables presentadas es el tercer modelo de regresión múltiple que agrupa a las tres variables involucradas.

## 
## Tabla 1
## =================================================
##   Res.Df    RSS     Df  Sum of Sq    F    Pr(> F)
## -------------------------------------------------
## 1   82   13,179.650                              
## 2   82   24,432.440 0  -11,252.790               
## 3   81   11,768.720 1  12,663.730  87.160    0   
## -------------------------------------------------

** Anexo 1: Modelo de regresión entre el índice de mortaldiad y la incidencia de tuberculosis.

** Anexo 2: Modelo de regresión entre el índice de mortalidad y el acceso al servicio de lavado de manos.

** Anexo 3: Pruebas de diagnósticos de la regresión.

ANÁLISIS DE CONGLOMERADOS

Para poder realizar el análisis de conglomerados, así como el análisis factorial, se ha trabajado, también, con la base de datos número 2. En ese sentido, el presenta análisis se muestra a partir de las siguientes siete variables a nivel mundial:

1.Índice de mortalidad

2.Acceso al servicio de lavado de manos

3.Incidencia de tuberculosis

4.Esperanza de vida al nacer

5.Acceso a los servicios de agua potable

6.Flujos financieros nacionales

7.Incidencia de anemia en niños y niñas

Es evidente que por la propia naturaleza de la investigación, la distribución de las variables es independiente en cada una pues el insicador de medición en cada una de ellas ha sido trabajado de una manera diferente, por lo que es conveniente estandarizar las variables y realizar una mejor clusterización. Una vez que se han estandarizado, es posible trbajar la clusterización, pues se ha determinado un valor estánjdar de medición para todas las variables. Es importante notar, al mismo tiempo que, a partir de una examinación de las correlaciones dentro de la data presenta, se hace evidente la necesidad se establecer una monotonía en las variables, sin embargo, esta solo se realiza a la de handwashing, en tanto es mpas conveniente por los posteriores efectos del proceso.

** Anexo 4: Cuadro de correlaciones en anexos.

** Anexo 5: Boxplot de las variables a emplear no estandarizado

CLUSTERIZACIÓN

Para poder realizar el procesod e clusterización es necesario, dentro de un marco confirmativo, tomar en cuenta las siluetas presentadas a partir de los gráficos, los cuales muestran como mjeor opción que la clusterización sería mejor reaziada a aprtir de 2 clusters. A su vez, se evidenció que a pesar de que la diferencia entre los modelos no sea significativa, pues fue de 0.1, el modelo DIANA no presenta elemntos no clusterizables, a diferencia de los modelos de PAM Y AGNES, que presentaban 2 elementos y 1 respectivamente. De acuerdo a ello, se concluye que la mejor opción a utilizar corresponde a la clusterización por jerarquía divisible, es decir el método DIANA.

En ese sentido, se observa en la siguiente proyección, los dos clusters seleccionados. Y, posteriormente, se observa el dendograma que permite visuizar las distnacias enntre los elementos de ambos clsuters. A partir de los cuales, es poisble evidenciar que los elementos que componen las variables de la investigación se clasifican en 2 clusters, es decir, existen dos grupos de países que presentan caracter´siticas similares que los clasifican en torno a 2 grupos mayoritarios.Asimismo, se debe consdirar que la te´cnica de clusterización empleada no dejado casos de países sin clusterizar. De tal modo que todos tienen pertenencia a un grupo.

DENDOGRAMA DE LA CLUSTERIZACIÓN HECHA A PARTIR DEL MÉTODO JERÁRQUICO DIVISIBLE (DIANA)

## Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> =
## "none")` instead.

** Anexo 6: Gráficos de propuesta de número de clusters de Diana, Pam y Agnes

** Anexo 7: silueta del modelo de Agnes y Pam

** Anexo 8: Proyección de los modelos de clusterización de Agnes y Pam.

** Anexo 9: tabla de casos mal clusterizados

ANÁLISIS FACTORIAL

ANÁLISIS FACTORIAL EXPLORATORIO

El análisis factorial explratorio que se ha realizado parte desde la exploración de correlaciones que se observa en el gráfico 1. De acuerdo a lo que se presenta, es posible mencionar que existe cierto grado de correlación entre seis de las siete variables que se han considerado, pues en todos, a exepción del indicador de flujos financieros (financial_flows) se muestra un alto de grado de correalción, ya se adirecto o inverso (observar leyenda). No obstante, con respecto a los flujos financieros, cabe indicar que, por la propia naturaleza del indicador, se muestra que no existe correlación entre este y los demás. Lo cual da indicios de que todas las demás variables podrían aportar a la construcción d eunindicador pero la que contiene flujos financieros, no. Ello, además, se corrobara cuando se realizan las matrices de identidad y singularidad, las cuales dieron resultados negativos. Por lo cual, se presenta otro elemento para poder afirmar que el factor a presentar será viable.

Gráfico 1: TABLA DE EXPLORACIÓN DE CORRELACIONES

Además, el análisis explroatorio concibe la presencia de un solo factor partir del cual dimensionar las siete variables de interés. Ello, al mismo tiempo, se deja ver en el gráfico 2, el cual muestra el el grado de variabilidad entre las variables, teniendo todos un grado de aporte hacia la creación delm indicador, mayor a 0.8, con exepción de la variable que muestra el indicador de flujos financieros. Es asíq eu se debe destacar que tal vairable no resulta ser de interés ni influencia dentro del marco de la creación de un vector. Lo cual, al mismo tiempo, se refleja cuando se observa que el grado de aporte de esta variable al indicador nuevo es de 0.00014, mientras que todas las demás comprenden valores mayores a 1. Por lo tanto, se deriva en que la creación de un solo vector es posible a partir de seis de las siete variables a cosniderar por la similitud y correlación de las mismas.

GRÁFICO 2: ESTRUCTURA DE LOS VECTORES

** ANEXO 10: Pruebas de matriz de identidad y matriz singular

** ANEXO 11: Nivel de variación de las variables consideradaas

** ANEXO 12: Nivel de aportación de la variables de interés

ANÁLISIS FACTORIAL CONFIRMATORIO

A partir de lo presentado, es necesario realizar la comprobación necesaria, de tal modo que se pueda confirmar la viabilidad del indicador ofrecido en el análisis exploratorio. Por tal motivo, se deben realziar una serie de pruebas que evalúen el desempeño del indicador de manera conjunta. En ese sentido, se evalúa, en primer la prueba chisquare, la cual ofrece un resultado negativo, pues el pvalue que se presenta (9.316829e-06) alude a un rechazo de la hipótesi que presenta la viabilidad del modelo. En segundo lugar, se evalúa el índice de Tucker Lewis, el cual muestra, también, un resultado no favorable para el modelo presentado, pues el resultado es menor a 0.9. Y, por último, con respecto al error cuadrático se muestra un coeficiente menor a 0.5. Por lo cual, se muestra que si bien el modelo puede llegar a agrupar las variables dentro de un solo factor, este aún tiene errores que deben ser trabajados para optimizar los resultados.

PRUEBAS DE CONFIRMACIÓN

** ANEXO 13: test de correlaciónb de las variables de forma indiviual

** ANEXO 14: Test de chisquare

** ANEXO 15: Test del índice de Tucker Lewi

** ANEXO 16: Test de raíz del error cuadrático

CONCLUSIONES

A partir de la información presentada es preciso concluir, en primer lugar, que los modelos de regresión planteadas permiten afirmar la existencia de la relación entre las variables independientes (incidencia de tuberculosis y acceso al lavado de manos). De tal modo que se evidencia que, aunque dentro de una relación medianamente fuerte, los elementos considerados influyen en el comportamiento de la tasa de mortalidad al ser consideradas todas en un solo modelo

En segundo lugar, que las variables consideradas clasifican los elementos a partir de dos grupos dentro de una jerarquización divisible, es decir, existen dos grupos que presentan características similiares demostradas en el proceso de clusterización, a través de los cuales los países del mundo de clasifican dentro de las categorías 1 o 2. Lo cual, a su vez, significa, que los elementos considerados no presentan mayores diferencias para ser clasificados dentro de más grupos. En tercer lugar, que cada una de la variables consideradas establecen, a nivel exploratorio, la creación de un factor que agrupa las variables que toma como excepción al indicador de flujos financieros por el poco aporte que presenta y la poca similitud frente a las demás. Pero, el mismo indicador, debe, aún, ajustarse y tomar como base otras variables, puesto que, a través del análisis confirmatorio, se evidencian las fallas del modelo en cuanto a su viabilidad.

Sin embargo, es importatne señalar que la presenta investigación presesnta una serie de limitaciones que obstruyen el trabajo presentado. Por lo cual, se debe tomar en cuenta la aleteoridad con la cual se escogieron las variables a trabajar, al mismo tiempo que la ausencia de países dentro del los modelos de regresión y clusterización, pues, en tanto se eliminan ciertos valores en favor del desarrollo del trabajo, se dejan de lado a aquellos países que pueden resultar influyentes dentro de la investigación. Por ello, resulta importante continuar con la indagación acerca de lo que aquí se propone, para, posteriormente, llegar a cubrir los vacíos que en este trabajo se dejan.

ANEXOS

ANEXO 1: MODELO DE REGRESIÓN

## 
## Call:
## lm(formula = Modelo1, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.788  -7.634  -0.598   5.803  34.097 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      56.18366    2.69533   20.84  < 2e-16 ***
## data$handwashing -0.45066    0.04392  -10.26 2.28e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.68 on 82 degrees of freedom
## Multiple R-squared:  0.5622, Adjusted R-squared:  0.5569 
## F-statistic: 105.3 on 1 and 82 DF,  p-value: 2.278e-16

ANEXO 2: MODELO DE REGRESIÓN

## 
## Call:
## lm(formula = modelo2, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -33.425 -13.517  -2.323  11.652  41.030 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 22.87264    2.89176   7.910 1.05e-11 ***
## data$incidence_tuberculosis  0.05435    0.01246   4.363 3.71e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.26 on 82 degrees of freedom
## Multiple R-squared:  0.1884, Adjusted R-squared:  0.1785 
## F-statistic: 19.03 on 1 and 82 DF,  p-value: 3.711e-05

ANEXO 3: GRÁFICOS PARA LA COMPROBACIÓN DEL MODELO CREADO:

LINEALIDAD

HOMOCEDASTICIDAD

NORMALIDAD DE LOS RESIDUOS

## 
##  Shapiro-Wilk normality test
## 
## data:  reg3$residuals
## W = 0.95125, p-value = 0.003055

CASOS INFLUYENTES

MULTICOLINEALIDAD

VIF(reg3)
##            data$handwashing data$incidence_tuberculosis 
##                    1.101665                    1.101665

ANEXO 4: Tabla de Correlaciones

##                          mortality_rate handwashing incidence_tuberculosis
## mortality_rate               1.00000000  0.73232965              0.4120236
## handwashing                  0.73232965  1.00000000              0.2867876
## incidence_tuberculosis       0.41202358  0.28678758              1.0000000
## life_expectancy_at_birth    -0.91791945 -0.78352074             -0.4594266
## water_services              -0.71686974 -0.79602078             -0.3338098
## financial_flows             -0.04580455 -0.07385698              0.2058427
## children_anemia              0.83044545  0.76512942              0.2120364
## pam                         -0.77018190 -0.87198342             -0.3537471
## agnes                       -0.74205632 -0.87251114             -0.2059563
## diana                       -0.74736433 -0.89175907             -0.2676405
## dim1                         0.90166062  0.91012372              0.4236734
## dim2                         0.02308534 -0.12345773              0.8396105
##                          life_expectancy_at_birth water_services
## mortality_rate                         -0.9179195    -0.71686974
## handwashing                            -0.7835207    -0.79602078
## incidence_tuberculosis                 -0.4594266    -0.33380984
## life_expectancy_at_birth                1.0000000     0.76638160
## water_services                          0.7663816     1.00000000
## financial_flows                         0.0722974     0.14848064
## children_anemia                        -0.8283879    -0.71581646
## pam                                     0.8246694     0.79404270
## agnes                                   0.8179708     0.84583457
## diana                                   0.8087313     0.83473467
## dim1                                   -0.9368463    -0.88713061
## dim2                                   -0.0608919     0.05874326
##                          financial_flows children_anemia         pam      agnes
## mortality_rate               -0.04580455      0.83044545 -0.77018190 -0.7420563
## handwashing                  -0.07385698      0.76512942 -0.87198342 -0.8725111
## incidence_tuberculosis        0.20584272      0.21203639 -0.35374710 -0.2059563
## life_expectancy_at_birth      0.07229740     -0.82838790  0.82466937  0.8179708
## water_services                0.14848064     -0.71581646  0.79404270  0.8458346
## financial_flows               1.00000000      0.03060143  0.12213542  0.1950178
## children_anemia               0.03060143      1.00000000 -0.75546609 -0.7466818
## pam                           0.12213542     -0.75546609  1.00000000  0.9189189
## agnes                         0.19501783     -0.74668181  0.91891892  1.0000000
## diana                         0.20363749     -0.74641202  0.94519490  0.9722005
## dim1                         -0.07247259      0.89029964 -0.90024444 -0.8940398
## dim2                          0.43647500     -0.13116424  0.05009829  0.2101091
##                               diana          dim1          dim2
## mortality_rate           -0.7473643  9.016606e-01  2.308534e-02
## handwashing              -0.8917591  9.101237e-01 -1.234577e-01
## incidence_tuberculosis   -0.2676405  4.236734e-01  8.396105e-01
## life_expectancy_at_birth  0.8087313 -9.368463e-01 -6.089190e-02
## water_services            0.8347347 -8.871306e-01  5.874326e-02
## financial_flows           0.2036375 -7.247259e-02  4.364750e-01
## children_anemia          -0.7464120  8.902996e-01 -1.311642e-01
## pam                       0.9451949 -9.002444e-01  5.009829e-02
## agnes                     0.9722005 -8.940398e-01  2.101091e-01
## diana                     1.0000000 -9.010423e-01  1.585470e-01
## dim1                     -0.9010423  1.000000e+00  1.652012e-16
## dim2                      0.1585470  1.652012e-16  1.000000e+00

Anexo 5: SELECCIÓN DE CULSTERIZACIÓN POR PAM, AGNES Y DIANA, RESPEDCTIVAMENTE:

ANEXO 6: Siluetas de los modelos de AGNES, DIANA Y PAM.

##   cluster size ave.sil.width
## 1       1   37          0.47
## 2       2   34          0.54

##   cluster size ave.sil.width
## 1       1   34          0.52
## 2       2   37          0.49

##   cluster size ave.sil.width
## 1       1   35          0.51
## 2       2   36          0.51

#### ANEXO 8: PROYECCIÓN DE LA CLUSTERIZACIÓN A PARTIR DE LOS MODELOS DE AGNES Y PAM

MODELO DE AGNES MODELO DE PAM

ANEXO 9: TABLA DE LOS CASOS MAL CLAUSTERIZADOS

##        poorPAM   poorAGNES poorDIANA
## 1     Pakistan Timor-Leste      <NA>
## 2 South Africa        <NA>      <NA>

ANEXO 10: Matriz de identidad y matriz singular

## [1] FALSE
## [1] FALSE

ANEXO 11: Nivel de variación de las variables consideradaas

## 
## Loadings:
##                          MR1   
## mortality_rate           -0.919
## handwashing               0.852
## incidence_tuberculosis   -0.385
## life_expectancy_at_birth  0.963
## water_services            0.833
## financial_flows                
## children_anemia          -0.864
## 
##                  MR1
## SS loadings    4.090
## Proportion Var 0.584

ANEXO 12: Nivel de aporte de las variables al nuevo indicador

##          financial_flows   incidence_tuberculosis           water_services 
##              0.002221696              0.148138435              0.694123667 
##              handwashing          children_anemia           mortality_rate 
##              0.725742309              0.747089024              0.845478227 
## life_expectancy_at_birth 
##              0.927669288

ANEXO 13: test de correlaciónb de las variables de forma indiviual

##        lhs op                      rhs    est    se       z pvalue ci.lower
## 1 CONCEPTO =~           mortality_rate  0.933 0.089  10.538  0.000    0.760
## 2 CONCEPTO =~              handwashing -0.814 0.097  -8.380  0.000   -1.005
## 3 CONCEPTO =~   incidence_tuberculosis  0.425 0.114   3.716  0.000    0.201
## 4 CONCEPTO =~ life_expectancy_at_birth -0.961 0.087 -11.106  0.000   -1.131
## 5 CONCEPTO =~           water_services -0.795 0.098  -8.088  0.000   -0.988
## 6 CONCEPTO =~          financial_flows -0.060 0.120  -0.498  0.618   -0.294
## 7 CONCEPTO =~          children_anemia  0.863 0.094   9.187  0.000    0.679
##   ci.upper std.lv std.all std.nox
## 1    1.107  0.933   0.940   0.940
## 2   -0.624 -0.814  -0.820  -0.820
## 3    0.650  0.425   0.428   0.428
## 4   -0.791 -0.961  -0.968  -0.968
## 5   -0.602 -0.795  -0.801  -0.801
## 6    0.175 -0.060  -0.060  -0.060
## 7    1.047  0.863   0.869   0.869

ANEXO 14: Test de chisquare

## $chisq
## [1] 48.90087
## 
## $df
## [1] 14
## 
## $pvalue
## [1] 9.316829e-06

ANEXO 15: Test del índice de Tucker Lewi

## [1] 0.8692637

ANEXO 16: Test de raíz del error cuadrático

## $rmsea.ci.lower
## [1] 0.1318651
## 
## $rmsea
## [1] 0.1873807
## 
## $rmsea.ci.upper
## [1] 0.2459012