Se dispone de información de los 52 estados de EEUU, donde se incluyen características socioeconómicas, capacidad básica de atención de la salud y características de la población relacionadas con la salud, tales como la prevalencia del tabaquismo, la tasa de obesidad y e índices poblacionales de salud, que pueden estar asociados con disparidades en los resultados entre estas poblaciones. Se cuenta además con la información del número de pruebas realizadas, el número de infectados y de muertes. Este informa presenta los resultados del análisis realizado.
En promedio, los estados tuvieron 6496451 habitantes y una densidad poblacional de 431.56 habitantes por unidad de territorio. Las características económicas de cada estado estuvieron representadas por el Ingreso Per Capita, el PIB per Capita y la tasa de desempleo. La tabla 1 resume el promedio para las variables económicas de todos los estados.
## Descriptive Statistics
## covid
## N: 51
##
## Mean Std.Dev
## ------------------------ ----------- -----------
## Desempleo 3.52 0.83
## Ingreso per Capita 51597.61 8224.39
## PIB per Capita 407730.94 528090.57
Dentro de las variables relacionadas con el sistema de salud, se contó con información sobre el número de médicos, hospitales, camas de UCI y el gasto en salud. El número absoluto de médicos varió por cada uno de los estados como se muestra en la figura 1. Sin embargo, considerando las diferencias en el número de habitantes en cada estado, el número de medicos por 100.000 habitantes, representa de mejor forma las disparidades existentes. La representación de esta variable se muestra en la figura 2, mostrando que el número mas alto de médicos se encuentra en Columbia, Massachusetts, Rhode Island y New York, con número similares en los demás estado a lo largo del país.
En cuanto a las camas de UCI, el promedio para todos los estados fue de 1466 camas. La figura 3 muestra la distribución del número de camas de UCI para todos los estados.
Con respecto al comportamiento de la infección por covid, se tiene información respecto al número de pruebas, infectados y muertes. En promedio fueron realizadas 2.410493310^{5}por estado. La figura 4 representa cada estado en proporción a las pruebas realizadas.
Los estados que realizaron el mayor número de pruebas fueron New York y California. Sin embargo esto no representa el número de pruebas por 100 000 habitantes sino el valor crudo. La figura 5 muestra que los estados con mayor número de pruebas por 100 000 habitantes fueron Vermont, Utah, Wyoming y South Dakota.
La tabla 2 muestra el promedio de infectados y muertes para todos los estados. Se identifica la presencia de valores atípicos para ambas variables.
## Descriptive Statistics
## covid
## N: 51
##
## Mean Std.Dev
## ---------------- ---------- ----------
## Infectados 29796.29 54636.30
## Muertes 1682.45 3596.20
El número de muertes por 100 000 habitantes se presenta en la Figura 6. Los estados con mayor número de muertes por 100 000 habitantes fueron Vermont, New Jersey, New York y Connecticut.
La tabla 3 presenta un resumen de los promedios y varianzas de todas las variables incluidas. Fueron eliminadas antes de su elaboración las variables construidas por número de habitantes y que no hacen parte del conjunto original de datos.
##
## Mean Std.Dev IQR CV
## ------------------------------------ ------------ ------------ ------------ ------
## Aeropuertos Medianos y Grandes 1.22 1.76 1.00 1.45
## Camas UCI 1466.41 1562.12 1514.50 1.07
## Contaminación 7.41 1.46 1.50 0.20
## Densidad de Población por m2 431.56 1647.23 173.38 3.82
## Desempleo 3.52 0.83 0.95 0.24
## desigualdad de ingresos 0.47 0.02 0.03 0.05
## Edad0_25 0.32 0.03 0.04 0.08
## Edad26_54 0.38 0.02 0.02 0.05
## EdadMayor55 0.30 0.03 0.02 0.10
## Gastos en Salud 8332.16 1256.75 1705.50 0.15
## Hospitales 101.92 88.88 85.00 0.87
## Infectados 29796.29 54636.30 28385.50 1.83
## Ingreso per Capita 51597.61 8224.39 10629.00 0.16
## Medicos 19711.67 22532.92 18335.50 1.14
## Muertes 1682.45 3596.20 1540.50 2.14
## Muertes por influenza 15.24 3.67 4.00 0.24
## Muertes Respiratorias 42.34 10.91 13.55 0.26
## PIB per Capita 407730.94 528090.57 443282.00 1.30
## Poblacion Estimada 6496450.82 7450657.46 5785681.50 1.15
## pruebas 241049.33 293755.01 208176.00 1.22
## Razón Hombre/Mujer 0.96 0.03 0.04 0.03
## Tasa de tabaquismo 17.27 3.49 4.55 0.20
## Temperatura 52.00 8.63 13.00 0.17
Las variables se encuentran medidas en diferentes unidades y tienen valores promedio y varianzas muy diferentes.
Como se presentó en la sección anterior, las variables están medidas en unidades diferentes y tienen varianzas distintas. Por tal motivo se considera que para el análisis de componentes principales es apropiado trabajar con la matriz de correlación. La figura 7 presenta la matríz de correlación de todas las variables incluidas. Las correlaciones marcadas con X indican que no tuvieron un valor p-significativo.
La matriz de correlación es una matriz que tiene un valor de 1 en la diagonal y su determinante es de 9.715866710^{-19}, valor que es diferente de cero. Se considera por tanto que es un matriz apropiada para la realización del análisis de componentes principales.
library(psych)
acp1<-princomp(matrizcor, cor = TRUE)
summary(acp1, loadings = T)
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 3.2804378 2.1867289 1.8346811 1.4490738 0.92606864
## Proportion of Variance 0.4678814 0.2079036 0.1463502 0.0912963 0.03728709
## Cumulative Proportion 0.4678814 0.6757850 0.8221352 0.9134315 0.95071861
## Comp.6 Comp.7 Comp.8 Comp.9 Comp.10
## Standard deviation 0.8051858 0.441621192 0.36775147 0.244665668 0.195391057
## Proportion of Variance 0.0281880 0.008479534 0.00588005 0.002602665 0.001659898
## Cumulative Proportion 0.9789066 0.987386144 0.99326619 0.995868858 0.997528757
## Comp.11 Comp.12 Comp.13 Comp.14
## Standard deviation 0.170999854 0.1122732509 0.0827001038 0.062838379
## Proportion of Variance 0.001271346 0.0005480558 0.0002973612 0.000171681
## Cumulative Proportion 0.998800103 0.9993481583 0.9996455195 0.999817200
## Comp.15 Comp.16 Comp.17 Comp.18
## Standard deviation 4.463462e-02 3.527676e-02 2.411794e-02 1.648874e-02
## Proportion of Variance 8.661953e-05 5.410651e-05 2.529021e-05 1.182081e-05
## Cumulative Proportion 9.999038e-01 9.999579e-01 9.999832e-01 9.999950e-01
## Comp.19 Comp.20 Comp.21 Comp.22
## Standard deviation 8.888739e-03 5.017275e-03 3.118998e-03 4.757914e-04
## Proportion of Variance 3.435203e-06 1.094480e-06 4.229630e-07 9.842498e-09
## Cumulative Proportion 9.999985e-01 9.999996e-01 1.000000e+00 1.000000e+00
## Comp.23
## Standard deviation 0
## Proportion of Variance 0
## Cumulative Proportion 1
##
## Loadings:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
## pruebas 0.288 0.123 0.204
## Infectados 0.244 -0.135 0.111 0.195 0.397 0.105 0.224
## Muertes 0.226 -0.168 0.100 0.226 0.425 0.242
## Poblacion Estimada 0.286 0.131 -0.138
## Densidad de Población por m2 -0.249 -0.404 -0.201 0.153
## desigualdad de ingresos 0.197 -0.370 0.201 0.103 0.200
## Camas UCI 0.280 0.160 -0.147
## Ingreso per Capita 0.168 -0.325 0.211 -0.319
## PIB per Capita 0.295 -0.120
## Desempleo -0.403 0.387 -0.631 -0.178
## Razón Hombre/Mujer -0.128 0.416 -0.297 -0.247
## Tasa de tabaquismo -0.230 0.206 -0.153 0.171 0.117 -0.264 0.155
## Muertes por influenza -0.156 0.242 0.284 0.397 0.240 -0.659
## Muertes Respiratorias -0.216 0.295 0.117 -0.115 0.297
## Medicos 0.296 -0.120
## Hospitales 0.246 0.246 -0.185
## Gastos en Salud -0.431 -0.213 -0.149
## Contaminación 0.232 0.174 -0.229 -0.144 -0.130 0.141
## Aeropuertos Medianos y Grandes 0.280 0.132 -0.174 -0.159 -0.221
## Temperatura 0.117 0.311 -0.265 0.161 -0.177 0.288 -0.175
## Edad0_25 0.312 0.107 -0.416 0.349 0.175
## Edad26_54 0.174 -0.213 -0.285 -0.269
## EdadMayor55 -0.142 -0.102 0.545 -0.256 -0.186
## Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 Comp.13
## pruebas 0.364 0.135 0.300
## Infectados 0.160 -0.127
## Muertes 0.128 -0.197
## Poblacion Estimada
## Densidad de Población por m2 -0.227 0.383 -0.117 -0.130
## desigualdad de ingresos -0.184 -0.226 -0.217 0.291 -0.542 0.387
## Camas UCI -0.159
## Ingreso per Capita 0.154 -0.607 -0.204 -0.116 0.229
## PIB per Capita
## Desempleo 0.371 -0.219
## Razón Hombre/Mujer -0.101 0.462 -0.135 0.184
## Tasa de tabaquismo -0.393 -0.153 -0.141 0.365 0.234
## Muertes por influenza -0.165 0.270 0.145 0.124 -0.132
## Muertes Respiratorias -0.267 0.335 -0.150
## Medicos
## Hospitales -0.300 -0.190 -0.110 -0.200 -0.247 -0.555
## Gastos en Salud -0.343 0.273 -0.522 0.220
## Contaminación 0.324 0.646 0.109 -0.227 -0.210
## Aeropuertos Medianos y Grandes -0.121 0.165 0.125 0.239 0.279
## Temperatura 0.232 -0.291 -0.117 0.265 0.168
## Edad0_25 -0.198 -0.305 -0.124 0.226
## Edad26_54 -0.242 0.277 -0.235 0.307 0.411
## EdadMayor55 0.154 0.159 -0.110
## Comp.14 Comp.15 Comp.16 Comp.17 Comp.18 Comp.19
## pruebas 0.212 0.160 0.204 0.263 0.616
## Infectados -0.158 0.118 -0.108 -0.105
## Muertes -0.229 -0.107 -0.156 -0.176
## Poblacion Estimada 0.219 -0.252
## Densidad de Población por m2 0.330 -0.343 -0.440 0.115 -0.125
## desigualdad de ingresos -0.189 0.102
## Camas UCI -0.271 -0.105 0.694
## Ingreso per Capita 0.270 -0.174 -0.236 0.203
## PIB per Capita 0.122 0.123 0.382 -0.404 -0.451
## Desempleo 0.161
## Razón Hombre/Mujer -0.541 0.202
## Tasa de tabaquismo -0.336 -0.214 -0.239 0.256 0.169 -0.205
## Muertes por influenza -0.102
## Muertes Respiratorias 0.675 0.115 -0.155 -0.128
## Medicos 0.130 -0.206 0.208 -0.181 0.177
## Hospitales -0.152 0.242 -0.120 0.395 -0.154
## Gastos en Salud 0.370 -0.124 -0.196 0.132
## Contaminación -0.246 -0.297 -0.121
## Aeropuertos Medianos y Grandes -0.204 -0.570 -0.369
## Temperatura 0.184 -0.451 0.308 -0.132
## Edad0_25 0.134 -0.124 -0.242
## Edad26_54 -0.111 0.138 0.276 -0.197
## EdadMayor55 -0.237
## Comp.20 Comp.21 Comp.22 Comp.23
## pruebas 0.140
## Infectados -0.380 -0.546 -0.174 0.264
## Muertes 0.255 0.513 0.118 -0.280
## Poblacion Estimada -0.181 0.392 -0.719 0.153
## Densidad de Población por m2 0.110
## desigualdad de ingresos
## Camas UCI -0.299 0.393 0.101
## Ingreso per Capita
## PIB per Capita -0.139 0.511 0.139
## Desempleo
## Razón Hombre/Mujer
## Tasa de tabaquismo
## Muertes por influenza
## Muertes Respiratorias -0.124
## Medicos 0.677 -0.467 -0.106 -0.102
## Hospitales
## Gastos en Salud
## Contaminación
## Aeropuertos Medianos y Grandes -0.277
## Temperatura 0.157
## Edad0_25 0.199 0.450
## Edad26_54 0.193 0.315
## EdadMayor55 0.238 0.118 0.592
Se realiza el diagrama de sedimentación que se presenta en la Figura 8 El gráfico no define claramente cuantos componentes deberían ser incluidos. Se considera entonces realizar el calculo de los eigenvalues y definir como criterio de selección que el componente tenga un eigenvalue mayor a 1. Los resultados se presentan en la tabla 4 y la figura 9.
acp_eigen<-prcomp(matrizcor, scale= T)
summary(acp_eigen)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 3.2804 2.1867 1.8347 1.4491 0.92607 0.80519 0.44162
## Proportion of Variance 0.4679 0.2079 0.1464 0.0913 0.03729 0.02819 0.00848
## Cumulative Proportion 0.4679 0.6758 0.8221 0.9134 0.95072 0.97891 0.98739
## PC8 PC9 PC10 PC11 PC12 PC13 PC14
## Standard deviation 0.36775 0.2447 0.19539 0.17100 0.11227 0.0827 0.06284
## Proportion of Variance 0.00588 0.0026 0.00166 0.00127 0.00055 0.0003 0.00017
## Cumulative Proportion 0.99327 0.9959 0.99753 0.99880 0.99935 0.9997 0.99982
## PC15 PC16 PC17 PC18 PC19 PC20
## Standard deviation 0.04463 0.03528 0.02412 0.01649 0.008889 0.005017
## Proportion of Variance 0.00009 0.00005 0.00003 0.00001 0.000000 0.000000
## Cumulative Proportion 0.99990 0.99996 0.99998 1.00000 1.000000 1.000000
## PC21 PC22 PC23
## Standard deviation 0.003119 0.0004758 2.113e-17
## Proportion of Variance 0.000000 0.0000000 0.000e+00
## Cumulative Proportion 1.000000 1.0000000 1.000e+00
plot(acp_eigen$sdev, type="lines", main="Figura 9. Gráfico basado en los eigenvalues",
xlab="Número del componente", ylab="eigenvalue")
abline(h=1, col="red", lty=2)
De acuerdo con el criterio de los eigenvalues mayores a 1, deberían ser seleccionados los primeros cuatro componentes principales, los cuales explican el 90% de la varianza. Se presentan en la tabla a continuación
graf<-acp1$loadings[,1:4]
# Tabla con las cargas de los componentes
library(pander)
pander(graf)
| Comp.1 | Comp.2 | Comp.3 | Comp.4 | |
|---|---|---|---|---|
| pruebas | 0.2875 | 0.01509 | 0.1232 | 0.07983 |
| Infectados | 0.2435 | -0.135 | 0.1113 | 0.1955 |
| Muertes | 0.2262 | -0.1681 | 0.1004 | 0.2257 |
| Poblacion Estimada | 0.2863 | 0.1311 | 0.06071 | 0.02776 |
| Densidad de Población por m2 | 0.05978 | -0.2494 | -0.4035 | -0.2012 |
| desigualdad de ingresos | 0.1967 | -0.03361 | -0.3695 | 0.2011 |
| Camas UCI | 0.2796 | 0.1601 | 0.03729 | 0.05371 |
| Ingreso per Capita | 0.168 | -0.3252 | 0.211 | 0.02554 |
| PIB per Capita | 0.2954 | 0.08016 | 0.06817 | 0.01947 |
| Desempleo | -0.04377 | -0.02109 | -0.4034 | -0.08309 |
| Razón Hombre/Mujer | -0.128 | -0.01055 | 0.4162 | -0.2968 |
| Tasa de tabaquismo | -0.2302 | 0.206 | -0.1533 | 0.1706 |
| Muertes por influenza | -0.1559 | 0.2419 | -0.08206 | 0.2837 |
| Muertes Respiratorias | -0.2161 | 0.2955 | -0.03102 | 0.117 |
| Medicos | 0.2965 | 0.05323 | 0.06568 | 0.0839 |
| Hospitales | 0.2464 | 0.2455 | 0.05232 | -0.01127 |
| Gastos en Salud | -0.0427 | -0.4311 | -0.07801 | 0.06602 |
| Contaminación | 0.2316 | 0.174 | -0.2287 | -0.1445 |
| Aeropuertos Medianos y Grandes | 0.2798 | 0.1321 | 0.07288 | 0.007105 |
| Temperatura | 0.1169 | 0.3108 | -0.2645 | 0.1605 |
| Edad0_25 | -0.006856 | 0.3118 | 0.1071 | -0.4163 |
| Edad26_54 | 0.1744 | -0.2129 | -0.2855 | -0.2694 |
| EdadMayor55 | -0.1422 | -0.1019 | 0.08875 | 0.5445 |
Se realiza el grafico biplot el cual se presenta en la figura 10.
Se revisan las cargas de cada una de las variables para cada uno de los componentes con el fin de identificar las que podrían ser eliminadas del análisis. Para el primer componente las variables con mayor carga son PIB y número de Médicos. Para el segundo componente las variables ingreso y gastos en salud. Para el tercer componente la Razón entre hombres y mujeres, la variable densidad poblacional y el desempleo y, finalmente, para el cuarto la edad mayor a 55 y la edad de 0 a 25 con un signo contrario. Las cargas de estas variables se presentan en la Tabla a continuación.
| C1 | Cargas1 | C2 | Cargas2 | C3 | Cargas3 | C4 | Cargas4 |
|---|---|---|---|---|---|---|---|
| PIB | 0.295 | Gasto | -0.431 | Razon H:M | 0.416 | Edad>55 | 0.544 |
| Medicos | 0.296 | Ingresos | -0.325 | Densidad | -0.403 | Edad 0 a 25 | -0.416 |
| * | * | * | * | Desempleo | -0.403 | * | * |
De esta forma, se logra la reducción del número de dimensiones capturando un alto porcentaje de la variabilidad, utilizando cuatro componentes que no están correlacionados y cuya varianza está explicada por un número reducido de variables.
Se parte de la hipótesis de que existe una estructura subyacente. Se realiza un análisis partiendo de cuatro constructos hipotéticos, cada uno compuestos por variables específicas sin permitir que una variable cargue a más de un constructo e incluyendo un número de variables por factor que permitan que el modelo este sobreidentificado.
Se inicia con la construcción del modelo. Como se desconoce el número de constructos latentes, se plantea un modelo con tres o cuatro constructos.
library(lavaan)
## This is lavaan 0.6-7
## lavaan is BETA software! Please report any bugs.
##
## Attaching package: 'lavaan'
## The following object is masked from 'package:psych':
##
## cor2cov
## Primer modelo
modelo1<- '
C1 = ~ poblacion + densidad
C2 = ~ PIB + ingreso
C3 = ~ Medicos + uci + Hospitales
'
m1<-cfa(modelo1, data = covid2)
## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan
## WARNING: some observed variances are (at least) a factor 1000 times larger than
## others; use varTable(fit) to investigate
## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan WARNING: some observed variances are larger than 1000000
## lavaan NOTE: use varTable(fit) to investigate
## Warning in lav_model_vcov(lavmodel = lavmodel, lavsamplestats = lavsamplestats, : lavaan WARNING:
## Could not compute standard errors! The information matrix could
## not be inverted. This may be a symptom that the model is not
## identified.
pander(fitMeasures(m1))
| npar | fmin | chisq | df | pvalue | baseline.chisq | baseline.df |
|---|---|---|---|---|---|---|
| 17 | 6.183 | 630.6 | 11 | 0 | 630.6 | 21 |
| baseline.pvalue | cfi | tli | nnfi | rfi | nfi | pnfi |
|---|---|---|---|---|---|---|
| 0 | 0 | -0.9404 | -0.9404 | 1 | 4.578e-11 | 2.398e-11 |
| ifi | rni | logl | unrestricted.logl | aic | bic | ntotal | bic2 |
|---|---|---|---|---|---|---|---|
| 4.659e-11 | -0.0164 | -3935 | -3619 | 7903 | 7936 | 51 | 7883 |
| rmsea | rmsea.ci.lower | rmsea.ci.upper | rmsea.pvalue | rmr | rmr_nomean |
|---|---|---|---|---|---|
| 1.051 | 0.9821 | 1.122 | 0 | 7.13e+11 | 7.13e+11 |
| srmr | srmr_bentler | srmr_bentler_nomean | crmr | crmr_nomean |
|---|---|---|---|---|
| 0.5547 | 0.5547 | 0.5547 | 0.6405 | 0.6405 |
| srmr_mplus | srmr_mplus_nomean | cn_05 | cn_01 | gfi | agfi | pgfi |
|---|---|---|---|---|---|---|
| 0.5547 | 0.5547 | 2.591 | 3 | 0.2889 | -0.8101 | 0.1135 |
| mfi | ecvi |
|---|---|
| 0.0023 | 13.03 |
Aunque el modelo converge, el gráfico de caminos no muestra las cargas de los factores en cada constructo.
## Modelo 2
modelo2<- '
C1 = ~ poblacion + Desempleo
C2 = ~ gasto + ingreso
C3 = ~ Medicos + uci + Contaminación
'
m2<-cfa(modelo2, data = covid2)
## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan
## WARNING: some observed variances are (at least) a factor 1000 times larger than
## others; use varTable(fit) to investigate
## Warning in lav_data_full(data = data, group = group, cluster = cluster, : lavaan WARNING: some observed variances are larger than 1000000
## lavaan NOTE: use varTable(fit) to investigate
## Warning in lav_model_vcov(lavmodel = lavmodel, lavsamplestats = lavsamplestats, : lavaan WARNING:
## Could not compute standard errors! The information matrix could
## not be inverted. This may be a symptom that the model is not
## identified.
fitMeasures(m2)
## npar fmin chisq df
## 1.700000e+01 3.705000e+00 3.779240e+02 1.100000e+01
## pvalue baseline.chisq baseline.df baseline.pvalue
## 0.000000e+00 3.779320e+02 2.100000e+01 0.000000e+00
## cfi tli nnfi rfi
## 0.000000e+00 -9.630000e-01 -9.630000e-01 1.000000e+00
## nfi pnfi ifi rni
## 0.000000e+00 0.000000e+00 0.000000e+00 -2.800000e-02
## logl unrestricted.logl aic bic
## -3.029741e+03 -2.840777e+03 6.093482e+03 6.126323e+03
## ntotal bic2 rmsea rmsea.ci.lower
## 5.100000e+01 6.072950e+03 8.090000e-01 7.400000e-01
## rmsea.ci.upper rmsea.pvalue rmr rmr_nomean
## 8.800000e-01 0.000000e+00 2.972990e+10 2.972990e+10
## srmr srmr_bentler srmr_bentler_nomean crmr
## 3.980000e-01 3.980000e-01 3.980000e-01 4.600000e-01
## crmr_nomean srmr_mplus srmr_mplus_nomean cn_05
## 4.600000e-01 3.980000e-01 3.980000e-01 3.655000e+00
## cn_01 gfi agfi pgfi
## 4.337000e+00 4.410000e-01 -4.230000e-01 1.730000e-01
## mfi ecvi
## 2.700000e-02 8.077000e+00
No se logran establecer los índices de modificación porque la matriz es singular. Todas las exploraciones son similares y se decide entonces realizar un análisis factorial exploratorio.
Para el análisis factorial exploratorio se incluyen todas las variables.
Como las variables se encuentran medidas en diferentes unidades, se trabajará con la matríz de correlación. Basado en lo observado en el PCA se realiza un modelo inicial con rotación varimax extrayendo seis factores. Para la extracción se utiliza análisis El resultado de este primer análisis es el siguiente.
library(REdaS)
library(psych)
(efa1 <- principal(matrizcor, nfactors=6, rotate="varimax", cor="pearson"))
## Principal Components Analysis
## Call: principal(r = matrizcor, nfactors = 6, rotate = "varimax", cor = "pearson")
## Standardized loadings (pattern matrix) based upon correlation matrix
## RC1 RC5 RC2 RC6 RC3 RC4 h2 u2
## pruebas 0.64 0.67 -0.14 -0.03 0.05 0.12 0.89 0.108
## Infectados 0.29 0.93 -0.11 0.04 0.05 -0.03 0.96 0.041
## Muertes 0.22 0.94 -0.08 0.07 0.04 -0.08 0.95 0.050
## Poblacion Estimada 0.97 0.18 -0.11 0.00 0.10 0.04 0.99 0.010
## Densidad de Población por m2 -0.16 -0.02 -0.27 0.83 0.29 0.03 0.87 0.128
## desigualdad de ingresos 0.28 0.31 0.10 0.49 0.61 -0.16 0.83 0.172
## Camas UCI 0.96 0.16 -0.02 0.00 0.16 0.03 0.97 0.029
## Ingreso per Capita 0.11 0.49 -0.55 0.07 -0.33 -0.27 0.75 0.254
## PIB per Capita 0.92 0.30 -0.16 0.07 0.05 0.05 0.97 0.034
## Desempleo 0.10 0.05 0.50 0.67 -0.12 0.00 0.73 0.272
## Razón Hombre/Mujer -0.09 -0.13 -0.05 -0.29 -0.85 0.24 0.89 0.111
## Tasa de tabaquismo -0.11 -0.19 0.91 0.06 0.01 -0.12 0.89 0.109
## Muertes por influenza -0.13 0.25 0.62 -0.17 0.27 0.11 0.58 0.421
## Muertes Respiratorias -0.09 -0.26 0.80 -0.26 0.03 0.07 0.80 0.202
## Medicos 0.88 0.42 -0.12 0.07 0.08 -0.04 0.98 0.020
## Hospitales 0.90 0.00 0.10 -0.05 0.07 0.16 0.85 0.150
## Gastos en Salud -0.23 0.25 -0.12 0.55 -0.33 -0.54 0.84 0.161
## Contaminación 0.59 -0.07 0.05 0.40 0.30 0.28 0.68 0.317
## Aeropuertos Medianos y Grandes 0.93 0.05 -0.16 -0.02 0.07 0.00 0.90 0.103
## Temperatura 0.31 -0.15 0.15 -0.10 0.84 0.12 0.88 0.122
## Edad0_25 0.06 -0.04 0.17 -0.15 -0.15 0.93 0.94 0.060
## Edad26_54 0.13 0.02 -0.42 0.78 0.16 0.12 0.85 0.155
## EdadMayor55 -0.17 -0.01 0.17 -0.38 0.05 -0.87 0.96 0.037
## com
## pruebas 2.2
## Infectados 1.2
## Muertes 1.2
## Poblacion Estimada 1.1
## Densidad de Población por m2 1.5
## desigualdad de ingresos 3.2
## Camas UCI 1.1
## Ingreso per Capita 3.3
## PIB per Capita 1.3
## Desempleo 2.0
## Razón Hombre/Mujer 1.5
## Tasa de tabaquismo 1.2
## Muertes por influenza 2.1
## Muertes Respiratorias 1.5
## Medicos 1.5
## Hospitales 1.1
## Gastos en Salud 3.5
## Contaminación 2.9
## Aeropuertos Medianos y Grandes 1.1
## Temperatura 1.5
## Edad0_25 1.2
## Edad26_54 1.7
## EdadMayor55 1.5
##
## RC1 RC5 RC2 RC6 RC3 RC4
## SS loadings 6.40 3.13 2.90 2.84 2.39 2.27
## Proportion Var 0.28 0.14 0.13 0.12 0.10 0.10
## Cumulative Var 0.28 0.41 0.54 0.66 0.77 0.87
## Proportion Explained 0.32 0.16 0.15 0.14 0.12 0.11
## Cumulative Proportion 0.32 0.48 0.62 0.77 0.89 1.00
##
## Mean item complexity = 1.8
## Test of the hypothesis that 6 components are sufficient.
##
## The root mean square of the residuals (RMSR) is 0.04
##
## Fit based upon off diagonal values = 0.99
Se evaluan las cargas de las variables en cada factor. Como la muestra corresponde a 51 estados, las cargas que se consideran significativas son aquellas de 0.7 o mayores. Se presentan los resultados totales y con este punto de corte.
print(efa1$loadings)
##
## Loadings:
## RC1 RC5 RC2 RC6 RC3 RC4
## pruebas 0.640 0.666 -0.143 0.123
## Infectados 0.288 0.928 -0.106
## Muertes 0.222 0.939
## Poblacion Estimada 0.965 0.182 -0.110 0.104
## Densidad de Población por m2 -0.156 -0.269 0.831 0.287
## desigualdad de ingresos 0.284 0.311 0.102 0.492 0.610 -0.160
## Camas UCI 0.960 0.155 0.156
## Ingreso per Capita 0.113 0.493 -0.554 -0.326 -0.268
## PIB per Capita 0.917 0.301 -0.158
## Desempleo 0.505 0.669 -0.115
## Razón Hombre/Mujer -0.134 -0.285 -0.851 0.237
## Tasa de tabaquismo -0.105 -0.185 0.909 -0.124
## Muertes por influenza -0.133 0.250 0.622 -0.174 0.267 0.108
## Muertes Respiratorias -0.262 0.803 -0.265
## Medicos 0.880 0.424 -0.116
## Hospitales 0.897 0.102 0.164
## Gastos en Salud -0.235 0.247 -0.115 0.553 -0.332 -0.542
## Contaminación 0.588 0.400 0.299 0.285
## Aeropuertos Medianos y Grandes 0.929 -0.163
## Temperatura 0.315 -0.146 0.154 0.842 0.123
## Edad0_25 0.166 -0.145 -0.146 0.931
## Edad26_54 0.129 -0.415 0.785 0.157 0.123
## EdadMayor55 -0.167 0.172 -0.378 -0.872
##
## RC1 RC5 RC2 RC6 RC3 RC4
## SS loadings 6.399 3.131 2.899 2.844 2.387 2.275
## Proportion Var 0.278 0.136 0.126 0.124 0.104 0.099
## Cumulative Var 0.278 0.414 0.540 0.664 0.768 0.867
print(efa1$loadings, cut=0.7)
##
## Loadings:
## RC1 RC5 RC2 RC6 RC3 RC4
## pruebas
## Infectados 0.928
## Muertes 0.939
## Poblacion Estimada 0.965
## Densidad de Población por m2 0.831
## desigualdad de ingresos
## Camas UCI 0.960
## Ingreso per Capita
## PIB per Capita 0.917
## Desempleo
## Razón Hombre/Mujer -0.851
## Tasa de tabaquismo 0.909
## Muertes por influenza
## Muertes Respiratorias 0.803
## Medicos 0.880
## Hospitales 0.897
## Gastos en Salud
## Contaminación
## Aeropuertos Medianos y Grandes 0.929
## Temperatura 0.842
## Edad0_25 0.931
## Edad26_54 0.785
## EdadMayor55 -0.872
##
## RC1 RC5 RC2 RC6 RC3 RC4
## SS loadings 6.399 3.131 2.899 2.844 2.387 2.275
## Proportion Var 0.278 0.136 0.126 0.124 0.104 0.099
## Cumulative Var 0.278 0.414 0.540 0.664 0.768 0.867
Utilizando este criterio, las variables desigualdad de ingresos, Ingreso per Capita, Gastos en salud y contaminación, son candidatas a ser eliminadas del análisis. No se observa ninguna variable que presente carga cruzada en dos factores. Se prueba la hipotésis de que alguna correlacíon es cero usando la prueba de esfericidad de Bartlett, la cual rechaza la hipótesis nula.
library(REdaS)
bart_spher(matrizcor)
## Bartlett's Test of Sphericity
##
## Call: bart_spher(x = matrizcor)
##
## X2 = 1817.168
## df = 253
## p-value < 2.22e-16
La prueba de adecuación de muestreo KMO global es adecuada con un valor de 0.57 (mayor a 0.5)
KMO(covid[,-1])
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = covid[, -1])
## Overall MSA = 0.57
## MSA for each item =
## pruebas Infectados
## 0.81 0.59
## Muertes Poblacion Estimada
## 0.56 0.70
## Densidad de Población por m2 desigualdad de ingresos
## 0.42 0.60
## Camas UCI Ingreso per Capita
## 0.66 0.47
## PIB per Capita Desempleo
## 0.67 0.19
## Razón Hombre/Mujer Tasa de tabaquismo
## 0.68 0.48
## Muertes por influenza Muertes Respiratorias
## 0.44 0.46
## Medicos Hospitales
## 0.84 0.91
## Gastos en Salud Contaminación
## 0.35 0.59
## Aeropuertos Medianos y Grandes Temperatura
## 0.63 0.57
## Edad0_25 Edad26_54
## 0.25 0.40
## EdadMayor55
## 0.27
Algunas variables tienen un valor inferior a 0.5 y podrían ser candidatas a ser excluídas del análisis. Los constructos latentes que pueden definirse con este análisis son los siguientes: + Factor 1 (Recursos para la atención de la salud): formado por las variables población, médicos, hospitales, camas de UCI, aeropuertos y el PIB per cápita. + Factor 2 (Carga de enfermedad): formado por el número de pruebas y de infectados. + Factor 3 (Salud respiratoria): formado por las variables tabaquismo y muertes respiratorias. + Factor 4 (Población productiva laboralmente): formado por las variables densidad poblacional y población entre 26 y 54 años + Factor 5 (Ambiental): formado por las variables contaminación y razón entre hombres y mujeres + Factor 6 (Grupo etáreo): formado por las variables edad de 0 a 25 y edad mayor a 55, las cuales tienen signo contrario.
De manera inicial se realiza un agrupamiento jerarquico. Las variables incluidas en la base de datos son representativas de diversas características del estado como su población, economia, sistema de salud, composición poblacional por sexos y grupos de edad, numero de pruebas realizadas, numero de infectados y muertes. Se considera que se pueden seleccionar algunas variables que representan cada uno de estos componentes.La tabla presenta las variables seleccionadas para el agrupamiento.
dm.covid<-covid[,-c(1,7,11,14,19,20)]
descr(dm.covid, stats = c("mean", "sd"), transpose = T)
## Descriptive Statistics
## dm.covid
## N: 51
##
## Mean Std.Dev
## ---------------------------------- ------------ ------------
## Camas UCI 1466.41 1562.12
## Densidad de Población por m2 431.56 1647.23
## Edad0_25 0.32 0.03
## Edad26_54 0.38 0.02
## EdadMayor55 0.30 0.03
## Gastos en Salud 8332.16 1256.75
## Hospitales 101.92 88.88
## Infectados 29796.29 54636.30
## Ingreso per Capita 51597.61 8224.39
## Medicos 19711.67 22532.92
## Muertes 1682.45 3596.20
## Muertes Respiratorias 42.34 10.91
## PIB per Capita 407730.94 528090.57
## Poblacion Estimada 6496450.82 7450657.46
## pruebas 241049.33 293755.01
## Razón Hombre/Mujer 0.96 0.03
## Tasa de tabaquismo 17.27 3.49
## Temperatura 52.00 8.63
Las variables tienen unidades de medición diferentes y se considera que se debe realizar la estandarización antes del agrupamiento. No se muestra la matriz estandarizada pero se realizo utilizando la función scale. Se crea la matriz de distancias, utilizando la distancia euclideana.
Se presenta la matriz de distancias euclideanas generada en los pasos anteriores. Se realiza el agrupamiento jerarquico utilizando el método del ligamiento completo.
Este método sugiere la existencia de entre 5 y siete grupos. Basado en esta primera exploración, se realiza una partición por el método de k-medias.
Se exploran las características de cada cluster. Uno de los clusters solo tiene un elemento. Los valores se encuentran estandarizados por lo que su interpretación cruda no es de facil interpretación. Se adiciona el número de cluster a la base original y se presentan los valores promedio para todas las variables.
## [1] 1 18 6 2 24
| Cluster | Estado | pruebas | Infectados | Muertes | Poblacion Estimada |
|---|---|---|---|---|---|
| 1 | NA | 39374 | 7434 | 400 | 720687 |
| 2 | NA | 188352 | 17567 | 992.8 | 5909060 |
| 3 | NA | 686260 | 132861 | 8404 | 13804531 |
| 4 | NA | 842720 | 50087 | 1820 | 34704892 |
| 5 | NA | 127534 | 12443 | 561.4 | 3e+06 |
| Densidad de Población por m2 | desigualdad de ingresos | Camas UCI |
|---|---|---|
| 11815 | 0.542 | 314 |
| 121 | 0.4736 | 1545 |
| 574.5 | 0.4863 | 3170 |
| 184.6 | 0.4849 | 6768 |
| 175 | 0.4508 | 588 |
| Ingreso per Capita | PIB per Capita | Desempleo | Razón Hombre/Mujer |
|---|---|---|---|
| 47285 | 179950 | 5.2 | 0.8886 |
| 44585 | 308464 | 3.8 | 0.9491 |
| 61341 | 942359 | 3.533 | 0.9466 |
| 55874 | 2418461 | 3.7 | 0.9724 |
| 54245 | 190454 | 3.212 | 0.9814 |
| Tasa de tabaquismo | Muertes por influenza | Muertes Respiratorias | Medicos |
|---|---|---|---|
| 14.3 | 11.2 | 19.6 | 7346 |
| 20.49 | 17.31 | 52.09 | 16791 |
| 15.3 | 14.7 | 32.62 | 51242 |
| 13.5 | 14.25 | 35.3 | 88754 |
| 15.79 | 14.07 | 38.98 | 8782 |
| Hospitales | Gastos en Salud | Contaminación | Aeropuertos Medianos y Grandes |
|---|---|---|---|
| 10 | 11944 | 9.8 | 0 |
| 112.7 | 7682 | 7.783 | 0.8889 |
| 154.3 | 9132 | 7.817 | 2.667 |
| 441 | 7274 | 10.55 | 7.5 |
| 56.33 | 8558 | 6.675 | 0.625 |
| Temperatura | Edad0_25 | Edad26_54 | EdadMayor55 |
|---|---|---|---|
| 54.65 | 0.3 | 0.48 | 0.22 |
| 57.33 | 0.3317 | 0.3694 | 0.3 |
| 52.88 | 0.3067 | 0.38 | 0.31 |
| 62.1 | 0.345 | 0.395 | 0.25 |
| 46.83 | 0.3208 | 0.375 | 0.3029 |
Se presentan los grupos representados en el plano.
fviz_cluster(kmedias, data= m.dm.covid)
Las principales diferencias observadas entre los grupos se encuentran en la población estimada, el número de camas de UCI, el número de médicos disponibles y el gasto en salud. Se realizan pruebas de hipótesis para las variables que fueron identificadas en el análisis de componentes principales como las de mayor carga para cada componente. Los resultados se presentan a continuación.
covidCluster<-(mediascluster<-covid %>%
mutate(Cluster = kmedias$cluster))
anova(lm(covidCluster$`PIB per Capita`~covidCluster$Cluster, data = covidCluster))
## Analysis of Variance Table
##
## Response: covidCluster$`PIB per Capita`
## Df Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster 1 1.6952e+11 1.6952e+11 0.603 0.4412
## Residuals 49 1.3774e+13 2.8111e+11
anova(lm(covidCluster$Medicos~covidCluster$Cluster, data = covidCluster))
## Analysis of Variance Table
##
## Response: covidCluster$Medicos
## Df Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster 1 9.3434e+08 934340224 1.8723 0.1775
## Residuals 49 2.4452e+10 499026069
anova(lm(covidCluster$`Gastos en Salud`~covidCluster$Cluster, data = covidCluster))
## Analysis of Variance Table
##
## Response: covidCluster$`Gastos en Salud`
## Df Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster 1 1703453 1703453 1.0803 0.3037
## Residuals 49 77267732 1576892
anova(lm(covidCluster$`Ingreso per Capita`~covidCluster$Cluster, data = covidCluster))
## Analysis of Variance Table
##
## Response: covidCluster$`Ingreso per Capita`
## Df Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster 1 714753660 714753660 13.131 0.0006893 ***
## Residuals 49 2667273794 54434159
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova(lm(covidCluster$`Densidad de Población por m2`~covidCluster$Cluster, data = covidCluster))
## Analysis of Variance Table
##
## Response: covidCluster$`Densidad de Población por m2`
## Df Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster 1 8784188 8784188 3.3923 0.07156 .
## Residuals 49 126883474 2589459
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova(lm(covidCluster$Desempleo~covidCluster$Cluster, data = covidCluster))
## Analysis of Variance Table
##
## Response: covidCluster$Desempleo
## Df Sum Sq Mean Sq F value Pr(>F)
## covidCluster$Cluster 1 5.0214 5.0214 8.3333 0.005776 **
## Residuals 49 29.5260 0.6026
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Las diferencias fueron significativas para las variables IPC, Densidad de población y desempleo. En las demás variables analizadas no se encontraron diferencias en el promedio entre los grupos.