Infección por COVID-19 en Estados Unidos

Se dispone de información de los 52 estados de EEUU, donde se incluyen características socioeconómicas, capacidad básica de atención de la salud y características de la población relacionadas con la salud, tales como la prevalencia del tabaquismo, la tasa de obesidad y e índices poblacionales de salud, que pueden estar asociados con disparidades en los resultados entre estas poblaciones. Se cuenta además con la información del número de pruebas realizadas, el número de infectados y de muertes. Este informa presenta los resultados del análisis realizado.

Descripción general de los datos

Caracteristicas poblacionales

En promedio, los estados tuvieron 6496451 habitantes y una densidad poblacional de 431.56 habitantes por unidad de territorio. Las características económicas de cada estado estuvieron representadas por el Ingreso Per Capita, el PIB per Capita y la tasa de desempleo. La tabla 1 resume el promedio para las variables económicas de todos los estados.

## Descriptive Statistics  
## covid  
## N: 51  
## 
##                                 Mean     Std.Dev
## ------------------------ ----------- -----------
##                Desempleo        3.52        0.83
##       Ingreso per Capita    51597.61     8224.39
##           PIB per Capita   407730.94   528090.57

Dentro de las variables relacionadas con el sistema de salud, se contó con información sobre el número de médicos, hospitales, camas de UCI y el gasto en salud. El número absoluto de médicos varió por cada uno de los estados como se muestra en la figura 1. Sin embargo, considerando las diferencias en el número de habitantes en cada estado, el número de medicos por 100.000 habitantes, representa de mejor forma las disparidades existentes. La representación de esta variable se muestra en la figura 2, mostrando que el número mas alto de médicos se encuentra en Columbia, Massachusetts, Rhode Island y New York, con número similares en los demás estado a lo largo del país.
En cuanto a las camas de UCI, el promedio para todos los estados fue de 1466 camas. La figura 3 muestra la distribución del número de camas de UCI para todos los estados.
Con respecto al comportamiento de la infección por covid, se tiene información respecto al número de pruebas, infectados y muertes. En promedio fueron realizadas 2.410493310^{5}por estado. La figura 4 representa cada estado en proporción a las pruebas realizadas.
Los estados que realizaron el mayor número de pruebas fueron New York y California. Sin embargo esto no representa el número de pruebas por 100 000 habitantes sino el valor crudo. La figura 5 muestra que los estados con mayor número de pruebas por 100 000 habitantes fueron Vermont, Utah, Wyoming y South Dakota.
La tabla 2 muestra el promedio de infectados y muertes para todos los estados. Se identifica la presencia de valores atípicos para ambas variables.

## Descriptive Statistics  
## covid  
## N: 51  
## 
##                        Mean    Std.Dev
## ---------------- ---------- ----------
##       Infectados   29796.29   54636.30
##          Muertes    1682.45    3596.20

El número de muertes por 100 000 habitantes se presenta en la Figura 6. Los estados con mayor número de muertes por 100 000 habitantes fueron Vermont, New Jersey, New York y Connecticut.

Resumen de promedios y varianzas de las variables

La tabla 3 presenta un resumen de los promedios y varianzas de todas las variables incluidas. Fueron eliminadas antes de su elaboración las variables construidas por número de habitantes y que no hacen parte del conjunto original de datos.

## 
##                                              Mean      Std.Dev          IQR     CV
## ------------------------------------ ------------ ------------ ------------ ------
##       Aeropuertos Medianos y Grandes         1.22         1.76         1.00   1.45
##                            Camas UCI      1466.41      1562.12      1514.50   1.07
##                        Contaminación         7.41         1.46         1.50   0.20
##         Densidad de Población por m2       431.56      1647.23       173.38   3.82
##                            Desempleo         3.52         0.83         0.95   0.24
##              desigualdad de ingresos         0.47         0.02         0.03   0.05
##                             Edad0_25         0.32         0.03         0.04   0.08
##                            Edad26_54         0.38         0.02         0.02   0.05
##                          EdadMayor55         0.30         0.03         0.02   0.10
##                      Gastos en Salud      8332.16      1256.75      1705.50   0.15
##                           Hospitales       101.92        88.88        85.00   0.87
##                           Infectados     29796.29     54636.30     28385.50   1.83
##                   Ingreso per Capita     51597.61      8224.39     10629.00   0.16
##                              Medicos     19711.67     22532.92     18335.50   1.14
##                              Muertes      1682.45      3596.20      1540.50   2.14
##                Muertes por influenza        15.24         3.67         4.00   0.24
##                Muertes Respiratorias        42.34        10.91        13.55   0.26
##                       PIB per Capita    407730.94    528090.57    443282.00   1.30
##                   Poblacion Estimada   6496450.82   7450657.46   5785681.50   1.15
##                              pruebas    241049.33    293755.01    208176.00   1.22
##                   Razón Hombre/Mujer         0.96         0.03         0.04   0.03
##                   Tasa de tabaquismo        17.27         3.49         4.55   0.20
##                          Temperatura        52.00         8.63        13.00   0.17

Las variables se encuentran medidas en diferentes unidades y tienen valores promedio y varianzas muy diferentes.

Reducción de dimensiones mediante análisis de componentes principales

Como se presentó en la sección anterior, las variables están medidas en unidades diferentes y tienen varianzas distintas. Por tal motivo se considera que para el análisis de componentes principales es apropiado trabajar con la matriz de correlación. La figura 7 presenta la matríz de correlación de todas las variables incluidas. Las correlaciones marcadas con X indican que no tuvieron un valor p-significativo.

La matriz de correlación es una matriz que tiene un valor de 1 en la diagonal y su determinante es de 9.715866710^{-19}, valor que es diferente de cero. Se considera por tanto que es un matriz apropiada para la realización del análisis de componentes principales.

Definición de los componentes principales

library(psych)
acp1<-princomp(matrizcor, cor = TRUE)  
summary(acp1, loadings = T)

## Importance of components:
##                           Comp.1    Comp.2    Comp.3    Comp.4     Comp.5
## Standard deviation     3.2804378 2.1867289 1.8346811 1.4490738 0.92606864
## Proportion of Variance 0.4678814 0.2079036 0.1463502 0.0912963 0.03728709
## Cumulative Proportion  0.4678814 0.6757850 0.8221352 0.9134315 0.95071861
##                           Comp.6      Comp.7     Comp.8      Comp.9     Comp.10
## Standard deviation     0.8051858 0.441621192 0.36775147 0.244665668 0.195391057
## Proportion of Variance 0.0281880 0.008479534 0.00588005 0.002602665 0.001659898
## Cumulative Proportion  0.9789066 0.987386144 0.99326619 0.995868858 0.997528757
##                            Comp.11      Comp.12      Comp.13     Comp.14
## Standard deviation     0.170999854 0.1122732509 0.0827001038 0.062838379
## Proportion of Variance 0.001271346 0.0005480558 0.0002973612 0.000171681
## Cumulative Proportion  0.998800103 0.9993481583 0.9996455195 0.999817200
##                             Comp.15      Comp.16      Comp.17      Comp.18
## Standard deviation     4.463462e-02 3.527676e-02 2.411794e-02 1.648874e-02
## Proportion of Variance 8.661953e-05 5.410651e-05 2.529021e-05 1.182081e-05
## Cumulative Proportion  9.999038e-01 9.999579e-01 9.999832e-01 9.999950e-01
##                             Comp.19      Comp.20      Comp.21      Comp.22
## Standard deviation     8.888739e-03 5.017275e-03 3.118998e-03 4.757914e-04
## Proportion of Variance 3.435203e-06 1.094480e-06 4.229630e-07 9.842498e-09
## Cumulative Proportion  9.999985e-01 9.999996e-01 1.000000e+00 1.000000e+00
##                        Comp.23
## Standard deviation           0
## Proportion of Variance       0
## Cumulative Proportion        1
## 
## Loadings:
##                                Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
## pruebas                         0.288         0.123         0.204              
## Infectados                      0.244 -0.135  0.111  0.195  0.397  0.105  0.224
## Muertes                         0.226 -0.168  0.100  0.226  0.425         0.242
## Poblacion Estimada              0.286  0.131                      -0.138       
## Densidad de Población por m2          -0.249 -0.404 -0.201         0.153       
## desigualdad de ingresos         0.197        -0.370  0.201         0.103  0.200
## Camas UCI                       0.280  0.160                      -0.147       
## Ingreso per Capita              0.168 -0.325  0.211                      -0.319
## PIB per Capita                  0.295                             -0.120       
## Desempleo                                    -0.403         0.387 -0.631 -0.178
## Razón Hombre/Mujer             -0.128         0.416 -0.297        -0.247       
## Tasa de tabaquismo             -0.230  0.206 -0.153  0.171  0.117 -0.264  0.155
## Muertes por influenza          -0.156  0.242         0.284  0.397  0.240 -0.659
## Muertes Respiratorias          -0.216  0.295         0.117        -0.115  0.297
## Medicos                         0.296                             -0.120       
## Hospitales                      0.246  0.246                      -0.185       
## Gastos en Salud                       -0.431                      -0.213 -0.149
## Contaminación                   0.232  0.174 -0.229 -0.144        -0.130  0.141
## Aeropuertos Medianos y Grandes  0.280  0.132               -0.174 -0.159 -0.221
## Temperatura                     0.117  0.311 -0.265  0.161 -0.177  0.288 -0.175
## Edad0_25                               0.312  0.107 -0.416  0.349  0.175       
## Edad26_54                       0.174 -0.213 -0.285 -0.269                     
## EdadMayor55                    -0.142 -0.102         0.545 -0.256 -0.186       
##                                Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 Comp.13
## pruebas                                       0.364           0.135   0.300 
## Infectados                                                    0.160  -0.127 
## Muertes                                                       0.128  -0.197 
## Poblacion Estimada                                                          
## Densidad de Población por m2   -0.227         0.383          -0.117  -0.130 
## desigualdad de ingresos        -0.184 -0.226 -0.217   0.291  -0.542   0.387 
## Camas UCI                      -0.159                                       
## Ingreso per Capita                     0.154 -0.607  -0.204  -0.116   0.229 
## PIB per Capita                                                              
## Desempleo                       0.371 -0.219                                
## Razón Hombre/Mujer             -0.101                 0.462  -0.135   0.184 
## Tasa de tabaquismo             -0.393        -0.153  -0.141   0.365   0.234 
## Muertes por influenza          -0.165  0.270  0.145   0.124  -0.132         
## Muertes Respiratorias          -0.267  0.335 -0.150                         
## Medicos                                                                     
## Hospitales                     -0.300 -0.190 -0.110  -0.200  -0.247  -0.555 
## Gastos en Salud                -0.343         0.273  -0.522           0.220 
## Contaminación                   0.324  0.646  0.109  -0.227  -0.210         
## Aeropuertos Medianos y Grandes        -0.121  0.165   0.125   0.239   0.279 
## Temperatura                     0.232 -0.291         -0.117   0.265   0.168 
## Edad0_25                              -0.198         -0.305  -0.124   0.226 
## Edad26_54                      -0.242  0.277 -0.235   0.307   0.411         
## EdadMayor55                     0.154         0.159          -0.110         
##                                Comp.14 Comp.15 Comp.16 Comp.17 Comp.18 Comp.19
## pruebas                         0.212   0.160   0.204   0.263   0.616         
## Infectados                             -0.158   0.118  -0.108  -0.105         
## Muertes                                -0.229  -0.107  -0.156  -0.176         
## Poblacion Estimada                                      0.219  -0.252         
## Densidad de Población por m2    0.330  -0.343  -0.440   0.115          -0.125 
## desigualdad de ingresos        -0.189           0.102                         
## Camas UCI                                      -0.271  -0.105           0.694 
## Ingreso per Capita              0.270  -0.174  -0.236           0.203         
## PIB per Capita                          0.122   0.123   0.382  -0.404  -0.451 
## Desempleo                       0.161                                         
## Razón Hombre/Mujer                     -0.541   0.202                         
## Tasa de tabaquismo             -0.336  -0.214  -0.239   0.256   0.169  -0.205 
## Muertes por influenza          -0.102                                         
## Muertes Respiratorias           0.675           0.115  -0.155  -0.128         
## Medicos                                 0.130  -0.206   0.208  -0.181   0.177 
## Hospitales                             -0.152   0.242  -0.120   0.395  -0.154 
## Gastos en Salud                                 0.370  -0.124  -0.196   0.132 
## Contaminación                  -0.246  -0.297          -0.121                 
## Aeropuertos Medianos y Grandes                 -0.204  -0.570          -0.369 
## Temperatura                     0.184  -0.451   0.308          -0.132         
## Edad0_25                                0.134  -0.124  -0.242                 
## Edad26_54                      -0.111   0.138   0.276  -0.197                 
## EdadMayor55                                            -0.237                 
##                                Comp.20 Comp.21 Comp.22 Comp.23
## pruebas                                 0.140                 
## Infectados                     -0.380  -0.546  -0.174   0.264 
## Muertes                         0.255   0.513   0.118  -0.280 
## Poblacion Estimada             -0.181   0.392  -0.719   0.153 
## Densidad de Población por m2                            0.110 
## desigualdad de ingresos                                       
## Camas UCI                      -0.299           0.393   0.101 
## Ingreso per Capita                                            
## PIB per Capita                 -0.139           0.511   0.139 
## Desempleo                                                     
## Razón Hombre/Mujer                                            
## Tasa de tabaquismo                                            
## Muertes por influenza                                         
## Muertes Respiratorias                                  -0.124 
## Medicos                         0.677  -0.467  -0.106  -0.102 
## Hospitales                                                    
## Gastos en Salud                                               
## Contaminación                                                 
## Aeropuertos Medianos y Grandes                         -0.277 
## Temperatura                     0.157                         
## Edad0_25                        0.199                   0.450 
## Edad26_54                       0.193                   0.315 
## EdadMayor55                     0.238   0.118           0.592

Se realiza el diagrama de sedimentación que se presenta en la Figura 8 El gráfico no define claramente cuantos componentes deberían ser incluidos. Se considera entonces realizar el calculo de los eigenvalues y definir como criterio de selección que el componente tenga un eigenvalue mayor a 1. Los resultados se presentan en la tabla 4 y la figura 9.

acp_eigen<-prcomp(matrizcor, scale= T) 
summary(acp_eigen)

## Importance of components:
##                           PC1    PC2    PC3    PC4     PC5     PC6     PC7
## Standard deviation     3.2804 2.1867 1.8347 1.4491 0.92607 0.80519 0.44162
## Proportion of Variance 0.4679 0.2079 0.1464 0.0913 0.03729 0.02819 0.00848
## Cumulative Proportion  0.4679 0.6758 0.8221 0.9134 0.95072 0.97891 0.98739
##                            PC8    PC9    PC10    PC11    PC12   PC13    PC14
## Standard deviation     0.36775 0.2447 0.19539 0.17100 0.11227 0.0827 0.06284
## Proportion of Variance 0.00588 0.0026 0.00166 0.00127 0.00055 0.0003 0.00017
## Cumulative Proportion  0.99327 0.9959 0.99753 0.99880 0.99935 0.9997 0.99982
##                           PC15    PC16    PC17    PC18     PC19     PC20
## Standard deviation     0.04463 0.03528 0.02412 0.01649 0.008889 0.005017
## Proportion of Variance 0.00009 0.00005 0.00003 0.00001 0.000000 0.000000
## Cumulative Proportion  0.99990 0.99996 0.99998 1.00000 1.000000 1.000000
##                            PC21      PC22      PC23
## Standard deviation     0.003119 0.0004758 2.113e-17
## Proportion of Variance 0.000000 0.0000000 0.000e+00
## Cumulative Proportion  1.000000 1.0000000 1.000e+00

plot(acp_eigen$sdev, type="lines", main="Figura 9. Gráfico basado en los eigenvalues",
     xlab="Número del componente", ylab="eigenvalue")
abline(h=1, col="red", lty=2)

De acuerdo con el criterio de los eigenvalues mayores a 1, deberían ser seleccionados los primeros cuatro componentes principales, los cuales explican el 90% de la varianza. Se presentan en la tabla a continuación

graf<-acp1$loadings[,1:4]
# Tabla con las cargas de los componentes
library(pander)
pander(graf)

	Comp.1	Comp.2	Comp.3	Comp.4
pruebas	0.2875	0.01509	0.1232	0.07983
Infectados	0.2435	-0.135	0.1113	0.1955
Muertes	0.2262	-0.1681	0.1004	0.2257
Poblacion Estimada	0.2863	0.1311	0.06071	0.02776
Densidad de PoblaciÃ³n por m2	0.05978	-0.2494	-0.4035	-0.2012
desigualdad de ingresos	0.1967	-0.03361	-0.3695	0.2011
Camas UCI	0.2796	0.1601	0.03729	0.05371
Ingreso per Capita	0.168	-0.3252	0.211	0.02554
PIB per Capita	0.2954	0.08016	0.06817	0.01947
Desempleo	-0.04377	-0.02109	-0.4034	-0.08309
RazÃ³n Hombre/Mujer	-0.128	-0.01055	0.4162	-0.2968
Tasa de tabaquismo	-0.2302	0.206	-0.1533	0.1706
Muertes por influenza	-0.1559	0.2419	-0.08206	0.2837
Muertes Respiratorias	-0.2161	0.2955	-0.03102	0.117
Medicos	0.2965	0.05323	0.06568	0.0839
Hospitales	0.2464	0.2455	0.05232	-0.01127
Gastos en Salud	-0.0427	-0.4311	-0.07801	0.06602
ContaminaciÃ³n	0.2316	0.174	-0.2287	-0.1445
Aeropuertos Medianos y Grandes	0.2798	0.1321	0.07288	0.007105
Temperatura	0.1169	0.3108	-0.2645	0.1605
Edad0_25	-0.006856	0.3118	0.1071	-0.4163
Edad26_54	0.1744	-0.2129	-0.2855	-0.2694
EdadMayor55	-0.1422	-0.1019	0.08875	0.5445

Se realiza el grafico biplot el cual se presenta en la figura 10.

Se revisan las cargas de cada una de las variables para cada uno de los componentes con el fin de identificar las que podrían ser eliminadas del análisis. Para el primer componente las variables con mayor carga son PIB y número de Médicos. Para el segundo componente las variables ingreso y gastos en salud. Para el tercer componente la Razón entre hombres y mujeres, la variable densidad poblacional y el desempleo y, finalmente, para el cuarto la edad mayor a 55 y la edad de 0 a 25 con un signo contrario. Las cargas de estas variables se presentan en la Tabla a continuación.

C1	Cargas1	C2	Cargas2	C3	Cargas3	C4	Cargas4
PIB	0.295	Gasto	-0.431	Razon H:M	0.416	Edad>55	0.544
Medicos	0.296	Ingresos	-0.325	Densidad	-0.403	Edad 0 a 25	-0.416
*	*	*	*	Desempleo	-0.403	*	*

De esta forma, se logra la reducción del número de dimensiones capturando un alto porcentaje de la variabilidad, utilizando cuatro componentes que no están correlacionados y cuya varianza está explicada por un número reducido de variables.

Análisis factorial confirmatorio

Se parte de la hipótesis de que existe una estructura subyacente. Se realiza un análisis partiendo de cuatro constructos hipotéticos, cada uno compuestos por variables específicas sin permitir que una variable cargue a más de un constructo e incluyendo un número de variables por factor que permitan que el modelo este sobreidentificado.

Se inicia con la construcción del modelo. Como se desconoce el número de constructos latentes, se plantea un modelo con tres o cuatro constructos.

library(lavaan)

## This is lavaan 0.6-7

## lavaan is BETA software! Please report any bugs.

## 
## Attaching package: 'lavaan'

## The following object is masked from 'package:psych':
## 
##     cor2cov

## Primer modelo 

modelo1<- '
C1 = ~ poblacion + densidad 
C2 = ~ PIB + ingreso 
C3 = ~ Medicos + uci + Hospitales
'

m1<-cfa(modelo1, data = covid2)

## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan
## WARNING: some observed variances are (at least) a factor 1000 times larger than
## others; use varTable(fit) to investigate

## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan WARNING: some observed variances are larger than 1000000
##   lavaan NOTE: use varTable(fit) to investigate

## Warning in lav_model_vcov(lavmodel = lavmodel, lavsamplestats = lavsamplestats, : lavaan WARNING:
##     Could not compute standard errors! The information matrix could
##     not be inverted. This may be a symptom that the model is not
##     identified.

pander(fitMeasures(m1))

Table continues below
npar	fmin	chisq	df	pvalue	baseline.chisq	baseline.df
17	6.183	630.6	11	0	630.6	21

Table continues below
baseline.pvalue	cfi	tli	nnfi	rfi	nfi	pnfi
0	0	-0.9404	-0.9404	1	4.578e-11	2.398e-11

Table continues below
ifi	rni	logl	unrestricted.logl	aic	bic	ntotal	bic2
4.659e-11	-0.0164	-3935	-3619	7903	7936	51	7883

Table continues below
rmsea	rmsea.ci.lower	rmsea.ci.upper	rmsea.pvalue	rmr	rmr_nomean
1.051	0.9821	1.122	0	7.13e+11	7.13e+11

Table continues below
srmr	srmr_bentler	srmr_bentler_nomean	crmr	crmr_nomean
0.5547	0.5547	0.5547	0.6405	0.6405

Table continues below
srmr_mplus	srmr_mplus_nomean	cn_05	cn_01	gfi	agfi	pgfi
0.5547	0.5547	2.591	3	0.2889	-0.8101	0.1135

mfi	ecvi
0.0023	13.03

Aunque el modelo converge, el gráfico de caminos no muestra las cargas de los factores en cada constructo.

## Modelo 2 

modelo2<- '
C1 = ~ poblacion + Desempleo
C2 = ~ gasto + ingreso
C3 = ~ Medicos + uci + Contaminación 
'

m2<-cfa(modelo2, data = covid2)

## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan
## WARNING: some observed variances are (at least) a factor 1000 times larger than
## others; use varTable(fit) to investigate

## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan WARNING: some observed variances are larger than 1000000
##   lavaan NOTE: use varTable(fit) to investigate

## Warning in lav_model_vcov(lavmodel = lavmodel, lavsamplestats = lavsamplestats, : lavaan WARNING:
##     Could not compute standard errors! The information matrix could
##     not be inverted. This may be a symptom that the model is not
##     identified.

fitMeasures(m2)

##                npar                fmin               chisq                  df 
##        1.700000e+01        3.705000e+00        3.779240e+02        1.100000e+01 
##              pvalue      baseline.chisq         baseline.df     baseline.pvalue 
##        0.000000e+00        3.779320e+02        2.100000e+01        0.000000e+00 
##                 cfi                 tli                nnfi                 rfi 
##        0.000000e+00       -9.630000e-01       -9.630000e-01        1.000000e+00 
##                 nfi                pnfi                 ifi                 rni 
##        0.000000e+00        0.000000e+00        0.000000e+00       -2.800000e-02 
##                logl   unrestricted.logl                 aic                 bic 
##       -3.029741e+03       -2.840777e+03        6.093482e+03        6.126323e+03 
##              ntotal                bic2               rmsea      rmsea.ci.lower 
##        5.100000e+01        6.072950e+03        8.090000e-01        7.400000e-01 
##      rmsea.ci.upper        rmsea.pvalue                 rmr          rmr_nomean 
##        8.800000e-01        0.000000e+00        2.972990e+10        2.972990e+10 
##                srmr        srmr_bentler srmr_bentler_nomean                crmr 
##        3.980000e-01        3.980000e-01        3.980000e-01        4.600000e-01 
##         crmr_nomean          srmr_mplus   srmr_mplus_nomean               cn_05 
##        4.600000e-01        3.980000e-01        3.980000e-01        3.655000e+00 
##               cn_01                 gfi                agfi                pgfi 
##        4.337000e+00        4.410000e-01       -4.230000e-01        1.730000e-01 
##                 mfi                ecvi 
##        2.700000e-02        8.077000e+00

No se logran establecer los índices de modificación porque la matriz es singular. Todas las exploraciones son similares y se decide entonces realizar un análisis factorial exploratorio.

Analisis factorial exploratorio

Para el análisis factorial exploratorio se incluyen todas las variables.

Como las variables se encuentran medidas en diferentes unidades, se trabajará con la matríz de correlación. Basado en lo observado en el PCA se realiza un modelo inicial con rotación varimax extrayendo seis factores. Para la extracción se utiliza análisis El resultado de este primer análisis es el siguiente.

library(REdaS)
library(psych)
(efa1 <- principal(matrizcor, nfactors=6, rotate="varimax", cor="pearson"))

## Principal Components Analysis
## Call: principal(r = matrizcor, nfactors = 6, rotate = "varimax", cor = "pearson")
## Standardized loadings (pattern matrix) based upon correlation matrix
##                                  RC1   RC5   RC2   RC6   RC3   RC4   h2    u2
## pruebas                         0.64  0.67 -0.14 -0.03  0.05  0.12 0.89 0.108
## Infectados                      0.29  0.93 -0.11  0.04  0.05 -0.03 0.96 0.041
## Muertes                         0.22  0.94 -0.08  0.07  0.04 -0.08 0.95 0.050
## Poblacion Estimada              0.97  0.18 -0.11  0.00  0.10  0.04 0.99 0.010
## Densidad de Población por m2   -0.16 -0.02 -0.27  0.83  0.29  0.03 0.87 0.128
## desigualdad de ingresos         0.28  0.31  0.10  0.49  0.61 -0.16 0.83 0.172
## Camas UCI                       0.96  0.16 -0.02  0.00  0.16  0.03 0.97 0.029
## Ingreso per Capita              0.11  0.49 -0.55  0.07 -0.33 -0.27 0.75 0.254
## PIB per Capita                  0.92  0.30 -0.16  0.07  0.05  0.05 0.97 0.034
## Desempleo                       0.10  0.05  0.50  0.67 -0.12  0.00 0.73 0.272
## Razón Hombre/Mujer             -0.09 -0.13 -0.05 -0.29 -0.85  0.24 0.89 0.111
## Tasa de tabaquismo             -0.11 -0.19  0.91  0.06  0.01 -0.12 0.89 0.109
## Muertes por influenza          -0.13  0.25  0.62 -0.17  0.27  0.11 0.58 0.421
## Muertes Respiratorias          -0.09 -0.26  0.80 -0.26  0.03  0.07 0.80 0.202
## Medicos                         0.88  0.42 -0.12  0.07  0.08 -0.04 0.98 0.020
## Hospitales                      0.90  0.00  0.10 -0.05  0.07  0.16 0.85 0.150
## Gastos en Salud                -0.23  0.25 -0.12  0.55 -0.33 -0.54 0.84 0.161
## Contaminación                   0.59 -0.07  0.05  0.40  0.30  0.28 0.68 0.317
## Aeropuertos Medianos y Grandes  0.93  0.05 -0.16 -0.02  0.07  0.00 0.90 0.103
## Temperatura                     0.31 -0.15  0.15 -0.10  0.84  0.12 0.88 0.122
## Edad0_25                        0.06 -0.04  0.17 -0.15 -0.15  0.93 0.94 0.060
## Edad26_54                       0.13  0.02 -0.42  0.78  0.16  0.12 0.85 0.155
## EdadMayor55                    -0.17 -0.01  0.17 -0.38  0.05 -0.87 0.96 0.037
##                                com
## pruebas                        2.2
## Infectados                     1.2
## Muertes                        1.2
## Poblacion Estimada             1.1
## Densidad de Población por m2   1.5
## desigualdad de ingresos        3.2
## Camas UCI                      1.1
## Ingreso per Capita             3.3
## PIB per Capita                 1.3
## Desempleo                      2.0
## Razón Hombre/Mujer             1.5
## Tasa de tabaquismo             1.2
## Muertes por influenza          2.1
## Muertes Respiratorias          1.5
## Medicos                        1.5
## Hospitales                     1.1
## Gastos en Salud                3.5
## Contaminación                  2.9
## Aeropuertos Medianos y Grandes 1.1
## Temperatura                    1.5
## Edad0_25                       1.2
## Edad26_54                      1.7
## EdadMayor55                    1.5
## 
##                        RC1  RC5  RC2  RC6  RC3  RC4
## SS loadings           6.40 3.13 2.90 2.84 2.39 2.27
## Proportion Var        0.28 0.14 0.13 0.12 0.10 0.10
## Cumulative Var        0.28 0.41 0.54 0.66 0.77 0.87
## Proportion Explained  0.32 0.16 0.15 0.14 0.12 0.11
## Cumulative Proportion 0.32 0.48 0.62 0.77 0.89 1.00
## 
## Mean item complexity =  1.8
## Test of the hypothesis that 6 components are sufficient.
## 
## The root mean square of the residuals (RMSR) is  0.04 
## 
## Fit based upon off diagonal values = 0.99

Se evaluan las cargas de las variables en cada factor. Como la muestra corresponde a 51 estados, las cargas que se consideran significativas son aquellas de 0.7 o mayores. Se presentan los resultados totales y con este punto de corte.

print(efa1$loadings)

## 
## Loadings:
##                                RC1    RC5    RC2    RC6    RC3    RC4   
## pruebas                         0.640  0.666 -0.143                0.123
## Infectados                      0.288  0.928 -0.106                     
## Muertes                         0.222  0.939                            
## Poblacion Estimada              0.965  0.182 -0.110         0.104       
## Densidad de Población por m2   -0.156        -0.269  0.831  0.287       
## desigualdad de ingresos         0.284  0.311  0.102  0.492  0.610 -0.160
## Camas UCI                       0.960  0.155                0.156       
## Ingreso per Capita              0.113  0.493 -0.554        -0.326 -0.268
## PIB per Capita                  0.917  0.301 -0.158                     
## Desempleo                                     0.505  0.669 -0.115       
## Razón Hombre/Mujer                    -0.134        -0.285 -0.851  0.237
## Tasa de tabaquismo             -0.105 -0.185  0.909               -0.124
## Muertes por influenza          -0.133  0.250  0.622 -0.174  0.267  0.108
## Muertes Respiratorias                 -0.262  0.803 -0.265              
## Medicos                         0.880  0.424 -0.116                     
## Hospitales                      0.897         0.102                0.164
## Gastos en Salud                -0.235  0.247 -0.115  0.553 -0.332 -0.542
## Contaminación                   0.588                0.400  0.299  0.285
## Aeropuertos Medianos y Grandes  0.929        -0.163                     
## Temperatura                     0.315 -0.146  0.154         0.842  0.123
## Edad0_25                                      0.166 -0.145 -0.146  0.931
## Edad26_54                       0.129        -0.415  0.785  0.157  0.123
## EdadMayor55                    -0.167         0.172 -0.378        -0.872
## 
##                  RC1   RC5   RC2   RC6   RC3   RC4
## SS loadings    6.399 3.131 2.899 2.844 2.387 2.275
## Proportion Var 0.278 0.136 0.126 0.124 0.104 0.099
## Cumulative Var 0.278 0.414 0.540 0.664 0.768 0.867

print(efa1$loadings, cut=0.7)

## 
## Loadings:
##                                RC1    RC5    RC2    RC6    RC3    RC4   
## pruebas                                                                 
## Infectados                             0.928                            
## Muertes                                0.939                            
## Poblacion Estimada              0.965                                   
## Densidad de Población por m2                         0.831              
## desigualdad de ingresos                                                 
## Camas UCI                       0.960                                   
## Ingreso per Capita                                                      
## PIB per Capita                  0.917                                   
## Desempleo                                                               
## Razón Hombre/Mujer                                         -0.851       
## Tasa de tabaquismo                            0.909                     
## Muertes por influenza                                                   
## Muertes Respiratorias                         0.803                     
## Medicos                         0.880                                   
## Hospitales                      0.897                                   
## Gastos en Salud                                                         
## Contaminación                                                           
## Aeropuertos Medianos y Grandes  0.929                                   
## Temperatura                                                 0.842       
## Edad0_25                                                           0.931
## Edad26_54                                            0.785              
## EdadMayor55                                                       -0.872
## 
##                  RC1   RC5   RC2   RC6   RC3   RC4
## SS loadings    6.399 3.131 2.899 2.844 2.387 2.275
## Proportion Var 0.278 0.136 0.126 0.124 0.104 0.099
## Cumulative Var 0.278 0.414 0.540 0.664 0.768 0.867

Utilizando este criterio, las variables desigualdad de ingresos, Ingreso per Capita, Gastos en salud y contaminación, son candidatas a ser eliminadas del análisis. No se observa ninguna variable que presente carga cruzada en dos factores. Se prueba la hipotésis de que alguna correlacíon es cero usando la prueba de esfericidad de Bartlett, la cual rechaza la hipótesis nula.

library(REdaS)
bart_spher(matrizcor)

##  Bartlett's Test of Sphericity
## 
## Call: bart_spher(x = matrizcor)
## 
##      X2 = 1817.168
##      df = 253
## p-value < 2.22e-16

La prueba de adecuación de muestreo KMO global es adecuada con un valor de 0.57 (mayor a 0.5)

KMO(covid[,-1])

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = covid[, -1])
## Overall MSA =  0.57
## MSA for each item = 
##                        pruebas                     Infectados 
##                           0.81                           0.59 
##                        Muertes             Poblacion Estimada 
##                           0.56                           0.70 
##   Densidad de Población por m2        desigualdad de ingresos 
##                           0.42                           0.60 
##                      Camas UCI             Ingreso per Capita 
##                           0.66                           0.47 
##                 PIB per Capita                      Desempleo 
##                           0.67                           0.19 
##             Razón Hombre/Mujer             Tasa de tabaquismo 
##                           0.68                           0.48 
##          Muertes por influenza          Muertes Respiratorias 
##                           0.44                           0.46 
##                        Medicos                     Hospitales 
##                           0.84                           0.91 
##                Gastos en Salud                  Contaminación 
##                           0.35                           0.59 
## Aeropuertos Medianos y Grandes                    Temperatura 
##                           0.63                           0.57 
##                       Edad0_25                      Edad26_54 
##                           0.25                           0.40 
##                    EdadMayor55 
##                           0.27

Algunas variables tienen un valor inferior a 0.5 y podrían ser candidatas a ser excluídas del análisis. Los constructos latentes que pueden definirse con este análisis son los siguientes: + Factor 1 (Recursos para la atención de la salud): formado por las variables población, médicos, hospitales, camas de UCI, aeropuertos y el PIB per cápita. + Factor 2 (Carga de enfermedad): formado por el número de pruebas y de infectados. + Factor 3 (Salud respiratoria): formado por las variables tabaquismo y muertes respiratorias. + Factor 4 (Población productiva laboralmente): formado por las variables densidad poblacional y población entre 26 y 54 años + Factor 5 (Ambiental): formado por las variables contaminación y razón entre hombres y mujeres + Factor 6 (Grupo etáreo): formado por las variables edad de 0 a 25 y edad mayor a 55, las cuales tienen signo contrario.

Particiones y agrupamiento

De manera inicial se realiza un agrupamiento jerarquico. Las variables incluidas en la base de datos son representativas de diversas características del estado como su población, economia, sistema de salud, composición poblacional por sexos y grupos de edad, numero de pruebas realizadas, numero de infectados y muertes. Se considera que se pueden seleccionar algunas variables que representan cada uno de estos componentes.La tabla presenta las variables seleccionadas para el agrupamiento.

dm.covid<-covid[,-c(1,7,11,14,19,20)]
descr(dm.covid, stats = c("mean", "sd"), transpose = T)

## Descriptive Statistics  
## dm.covid  
## N: 51  
## 
##                                            Mean      Std.Dev
## ---------------------------------- ------------ ------------
##                          Camas UCI      1466.41      1562.12
##       Densidad de Población por m2       431.56      1647.23
##                           Edad0_25         0.32         0.03
##                          Edad26_54         0.38         0.02
##                        EdadMayor55         0.30         0.03
##                    Gastos en Salud      8332.16      1256.75
##                         Hospitales       101.92        88.88
##                         Infectados     29796.29     54636.30
##                 Ingreso per Capita     51597.61      8224.39
##                            Medicos     19711.67     22532.92
##                            Muertes      1682.45      3596.20
##              Muertes Respiratorias        42.34        10.91
##                     PIB per Capita    407730.94    528090.57
##                 Poblacion Estimada   6496450.82   7450657.46
##                            pruebas    241049.33    293755.01
##                 Razón Hombre/Mujer         0.96         0.03
##                 Tasa de tabaquismo        17.27         3.49
##                        Temperatura        52.00         8.63

Las variables tienen unidades de medición diferentes y se considera que se debe realizar la estandarización antes del agrupamiento. No se muestra la matriz estandarizada pero se realizo utilizando la función scale. Se crea la matriz de distancias, utilizando la distancia euclideana.

Se presenta la matriz de distancias euclideanas generada en los pasos anteriores. Se realiza el agrupamiento jerarquico utilizando el método del ligamiento completo. Este método sugiere la existencia de entre 5 y siete grupos. Basado en esta primera exploración, se realiza una partición por el método de k-medias.
Se exploran las características de cada cluster. Uno de los clusters solo tiene un elemento. Los valores se encuentran estandarizados por lo que su interpretación cruda no es de facil interpretación. Se adiciona el número de cluster a la base original y se presentan los valores promedio para todas las variables.

## [1]  1 18  6  2 24

Table continues below
Cluster	Estado	pruebas	Infectados	Muertes	Poblacion Estimada
1	NA	39374	7434	400	720687
2	NA	188352	17567	992.8	5909060
3	NA	686260	132861	8404	13804531
4	NA	842720	50087	1820	34704892
5	NA	127534	12443	561.4	3e+06

Table continues below
Densidad de PoblaciÃ³n por m2	desigualdad de ingresos	Camas UCI
11815	0.542	314
121	0.4736	1545
574.5	0.4863	3170
184.6	0.4849	6768
175	0.4508	588

Table continues below
Ingreso per Capita	PIB per Capita	Desempleo	RazÃ³n Hombre/Mujer
47285	179950	5.2	0.8886
44585	308464	3.8	0.9491
61341	942359	3.533	0.9466
55874	2418461	3.7	0.9724
54245	190454	3.212	0.9814

Table continues below
Tasa de tabaquismo	Muertes por influenza	Muertes Respiratorias	Medicos
14.3	11.2	19.6	7346
20.49	17.31	52.09	16791
15.3	14.7	32.62	51242
13.5	14.25	35.3	88754
15.79	14.07	38.98	8782

Table continues below
Hospitales	Gastos en Salud	ContaminaciÃ³n	Aeropuertos Medianos y Grandes
10	11944	9.8	0
112.7	7682	7.783	0.8889
154.3	9132	7.817	2.667
441	7274	10.55	7.5
56.33	8558	6.675	0.625

Temperatura	Edad0_25	Edad26_54	EdadMayor55
54.65	0.3	0.48	0.22
57.33	0.3317	0.3694	0.3
52.88	0.3067	0.38	0.31
62.1	0.345	0.395	0.25
46.83	0.3208	0.375	0.3029

Se presentan los grupos representados en el plano.

fviz_cluster(kmedias, data= m.dm.covid)

Las principales diferencias observadas entre los grupos se encuentran en la población estimada, el número de camas de UCI, el número de médicos disponibles y el gasto en salud. Se realizan pruebas de hipótesis para las variables que fueron identificadas en el análisis de componentes principales como las de mayor carga para cada componente. Los resultados se presentan a continuación.

covidCluster<-(mediascluster<-covid %>%
  mutate(Cluster = kmedias$cluster))

anova(lm(covidCluster$`PIB per Capita`~covidCluster$Cluster, data = covidCluster))

## Analysis of Variance Table
## 
## Response: covidCluster$`PIB per Capita`
##                      Df     Sum Sq    Mean Sq F value Pr(>F)
## covidCluster$Cluster  1 1.6952e+11 1.6952e+11   0.603 0.4412
## Residuals            49 1.3774e+13 2.8111e+11

anova(lm(covidCluster$Medicos~covidCluster$Cluster, data = covidCluster))

## Analysis of Variance Table
## 
## Response: covidCluster$Medicos
##                      Df     Sum Sq   Mean Sq F value Pr(>F)
## covidCluster$Cluster  1 9.3434e+08 934340224  1.8723 0.1775
## Residuals            49 2.4452e+10 499026069

anova(lm(covidCluster$`Gastos en Salud`~covidCluster$Cluster, data = covidCluster))

## Analysis of Variance Table
## 
## Response: covidCluster$`Gastos en Salud`
##                      Df   Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster  1  1703453 1703453  1.0803 0.3037
## Residuals            49 77267732 1576892

anova(lm(covidCluster$`Ingreso per Capita`~covidCluster$Cluster, data = covidCluster))

## Analysis of Variance Table
## 
## Response: covidCluster$`Ingreso per Capita`
##                      Df     Sum Sq   Mean Sq F value    Pr(>F)    
## covidCluster$Cluster  1  714753660 714753660  13.131 0.0006893 ***
## Residuals            49 2667273794  54434159                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(lm(covidCluster$`Densidad de Población por m2`~covidCluster$Cluster, data = covidCluster))

## Analysis of Variance Table
## 
## Response: covidCluster$`Densidad de Población por m2`
##                      Df    Sum Sq Mean Sq F value  Pr(>F)  
## covidCluster$Cluster  1   8784188 8784188  3.3923 0.07156 .
## Residuals            49 126883474 2589459                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anova(lm(covidCluster$Desempleo~covidCluster$Cluster, data = covidCluster))

## Analysis of Variance Table
## 
## Response: covidCluster$Desempleo
##                      Df  Sum Sq Mean Sq F value   Pr(>F)   
## covidCluster$Cluster  1  5.0214  5.0214  8.3333 0.005776 **
## Residuals            49 29.5260  0.6026                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Las diferencias fueron significativas para las variables IPC, Densidad de población y desempleo. En las demás variables analizadas no se encontraron diferencias en el promedio entre los grupos.

Taller de análisis multivariado

Leonardo Enciso

29/8/2020