Variables: -x: Nivel de pobreza (independiente)

-y: Tasa de contagiados por Covid-19 (dependiente)

Carguemos la data:

library(rio)
data = import("competitividad_reg.sav")
library(ggplot2) #para hacer gráficos
library(Hmisc)   #para correlación
## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
## 
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
## 
##     format.pval, units

Exploremos la BD:

str(data)
## 'data.frame':    23 obs. of  53 variables:
##  $ region           : chr  "Amazonas" "Áncash" "Apurímac" "Arequipa" ...
##   ..- attr(*, "label")= chr "Nombre de la región"
##   ..- attr(*, "format.spss")= chr "A13"
##   ..- attr(*, "display_width")= int 13
##  $ casos            : num  18562 31075 7682 48571 15375 ...
##   ..- attr(*, "label")= chr "Casos confirmados de COVID-19"
##   ..- attr(*, "format.spss")= chr "F8.0"
##   ..- attr(*, "display_width")= int 24
##  $ casos_100k       : num  4349 2632 1783 3244 2301 ...
##   ..- attr(*, "label")= chr "Casos por cada 100k personas (tasa)"
##   ..- attr(*, "format.spss")= chr "F8.2"
##   ..- attr(*, "display_width")= int 11
##  $ fallecidos       : num  190 1141 60 1106 253 ...
##   ..- attr(*, "label")= chr "Fallecidos por COVID-19"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ poblacion        : num  379384 1083519 405759 1382730 616176 ...
##   ..- attr(*, "label")= chr "Población"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ altura           : num  2483 3050 2500 2335 2746 ...
##   ..- attr(*, "label")= chr "Altura de la capital de la región"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ pobreza          : num  47 24 43 9 52 53 19 47 40 5 ...
##   ..- attr(*, "label")= chr "Nivel de pobreza"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ vias_pavimentadas: num  42 31 35 28 35 39 41 38 40 18 ...
##   ..- attr(*, "label")= chr "Porcentaje de vías pavimentadas"
##   ..- attr(*, "format.spss")= chr "F8.2"
##  $ var1             : num  2833 17632 2628 23656 5332 ...
##   ..- attr(*, "label")= chr "Producto Bruto Interno real"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var2             : num  6704 15350 5728 18378 7742 ...
##   ..- attr(*, "label")= chr "Producto Bruto Interno real per cápita"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 14
##  $ var3             : num  11589 27945 9083 34076 14342 ...
##   ..- attr(*, "label")= chr "Stock de capital por trabajador"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 13
##  $ var4             : num  5924 3529 5872 4026 4881 ...
##   ..- attr(*, "label")= chr "Presupuesto público per cápita"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 14
##  $ var5             : num  1112 1430 898 1572 927 ...
##   ..- attr(*, "label")= chr "Gasto real por hogar mensual"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 14
##  $ var6             : num  2.0358 -0.7133 0.0614 -1.7013 1.2321 ...
##   ..- attr(*, "label")= chr "Incremento del gasto real por hogar"
##   ..- attr(*, "format.spss")= chr "F40.2"
##   ..- attr(*, "display_width")= int 12
##  $ var7             : num  345 462 397 1115 402 ...
##   ..- attr(*, "label")= chr "Disponibilidad de servicios financieros"
##   ..- attr(*, "format.spss")= chr "F4.0"
##   ..- attr(*, "display_width")= int 12
##  $ var8             : num  15.5 27.7 18 44.1 20 ...
##   ..- attr(*, "label")= chr "Acceso al crédito"
##   ..- attr(*, "format.spss")= chr "F31.2"
##   ..- attr(*, "display_width")= int 12
##  $ var9             : num  79 95.7 93.1 97.2 89.6 ...
##   ..- attr(*, "label")= chr "Cobertura de electricidad"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 15
##  $ var10            : num  15.22 8.55 13.26 9.6 14.67 ...
##   ..- attr(*, "label")= chr "Precio de la electricidad"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var11            : num  82 93.9 92.7 93.4 91.6 ...
##   ..- attr(*, "label")= chr "Cobertura de agua"
##   ..- attr(*, "format.spss")= chr "F20.2"
##   ..- attr(*, "display_width")= int 14
##  $ var12            : num  9.48 10.26 22.91 22.98 20.44 ...
##   ..- attr(*, "label")= chr "Continuidad de la provisión de agua"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var13            : num  47.8 67.6 44.2 76.9 53.6 ...
##   ..- attr(*, "label")= chr "Cobertura de desagüe"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var14            : num  10.98 17.94 3.72 35.24 6.08 ...
##   ..- attr(*, "label")= chr "Hogares con internet"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var15            : num  83.6 88.7 80.8 93.9 83 ...
##   ..- attr(*, "label")= chr "Hogares con al menos un celular"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 15
##  $ var16            : num  23.62 7.95 27.79 1255.58 279.37 ...
##   ..- attr(*, "label")= chr "Densidad del transporte aéreo"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var17            : num  71.3 74.5 71 76.8 71.6 ...
##   ..- attr(*, "label")= chr "Esperanza de vida al nacer"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 15
##  $ var18            : num  30 18 27 15 33 29 30 37 21 16 ...
##   ..- attr(*, "label")= chr "Mortalidad en la niñez"
##   ..- attr(*, "format.spss")= chr "F2.0"
##   ..- attr(*, "display_width")= int 12
##  $ var19            : num  14 11.8 14.3 4.7 13.8 19.3 9.6 25.3 13 3.6 ...
##   ..- attr(*, "label")= chr "Desnutrición crónica"
##   ..- attr(*, "format.spss")= chr "F32.2"
##   ..- attr(*, "display_width")= int 12
##  $ var20            : num  66.4 82 73.1 63.5 65.3 66 66.6 70.1 60 69.2 ...
##   ..- attr(*, "label")= chr "Morbilidad"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var21            : num  5.8 11.72 10.66 40.33 5.84 ...
##   ..- attr(*, "label")= chr "Cobertura del personal médico"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var22            : num  2.84 2.18 1.96 1.63 1.74 ...
##   ..- attr(*, "label")= chr "Cobertura hospitalaria"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 16
##  $ var23            : num  72.3 94.1 98.8 98.4 97.6 76.5 97 91.3 94.4 99.3 ...
##   ..- attr(*, "label")= chr "Partos institucionales"
##   ..- attr(*, "format.spss")= chr "F32.2"
##   ..- attr(*, "display_width")= int 12
##  $ var24            : num  86.7 76.5 91 62.8 88.8 ...
##   ..- attr(*, "label")= chr "Acceso a seguro de salud"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var25            : num  9.27 8.68 16.24 4.37 11.64 ...
##   ..- attr(*, "label")= chr "Analfabetismo"
##   ..- attr(*, "format.spss")= chr "F27.2"
##   ..- attr(*, "display_width")= int 12
##  $ var26            : num  85 90.3 92 91.6 87.8 ...
##   ..- attr(*, "label")= chr "Asistencia escolar inicial"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var27            : num  83.8 90.5 91.1 94 88.6 ...
##   ..- attr(*, "label")= chr "Asistencia escolar primaria y secundaria"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var28            : num  36.9 49.9 43.7 68.3 42.2 ...
##   ..- attr(*, "label")= chr "Población con secundaria a más"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var29            : num  22.7 24.1 20.1 43.4 27 ...
##   ..- attr(*, "label")= chr "Rendimiento en lectura"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var30            : num  22.7 17.7 18.6 30.9 25.8 ...
##   ..- attr(*, "label")= chr "Rendimiento en matemáticas"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var31            : num  19.4 45.6 39 65.3 35.2 ...
##   ..- attr(*, "label")= chr "Colegios con acceso a internet"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var32            : num  982 1095 878 1512 880 ...
##   ..- attr(*, "label")= chr "Nivel de ingresos por trabajo"
##   ..- attr(*, "format.spss")= chr "F28.2"
##   ..- attr(*, "display_width")= int 12
##  $ var33            : num  23.5 36.6 34.4 40.5 18.1 ...
##   ..- attr(*, "label")= chr "Brecha de género en ingresos laborales"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var34            : num  32.9 43.7 32.5 64.2 32.5 ...
##   ..- attr(*, "label")= chr "Empleo adecuado"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var35            : num  18.1 27.1 16.6 41.5 22.2 ...
##   ..- attr(*, "label")= chr "Educación de la fuerza laboral"
##   ..- attr(*, "format.spss")= chr "F31.2"
##   ..- attr(*, "display_width")= int 12
##  $ var36            : num  1.2954 -0.0266 -1.0497 -0.8034 1.6484 ...
##   ..- attr(*, "label")= chr "Creación de empleo formal"
##   ..- attr(*, "format.spss")= chr "F22.2"
##   ..- attr(*, "display_width")= int 16
##  $ var37            : num  86.6 80.7 90.4 67.4 87.6 ...
##   ..- attr(*, "label")= chr "Empleo informal"
##   ..- attr(*, "format.spss")= chr "F19.2"
##   ..- attr(*, "display_width")= int 15
##  $ var38            : num  11.5 11.5 10.4 13 18.6 ...
##   ..- attr(*, "label")= chr "Desempleo juvenil urbano"
##   ..- attr(*, "format.spss")= chr "F27.2"
##   ..- attr(*, "display_width")= int 12
##  $ var39            : num  73.2 53.5 61.9 64 67.8 ...
##   ..- attr(*, "label")= chr "Ejecución de la inversión pública"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var40            : num  44.8 29.2 26.6 31 35.2 ...
##   ..- attr(*, "label")= chr "Percepción de la gestión pública"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var41            : num  3 23 26 7 14 16 19 3 2 4 ...
##   ..- attr(*, "label")= chr "Conflictos sociales"
##   ..- attr(*, "format.spss")= chr "F2.0"
##   ..- attr(*, "display_width")= int 12
##  $ var42            : num  5.11 6.13 2.73 11.37 7.25 ...
##   ..- attr(*, "label")= chr "Criminalidad"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var43            : num  8.04 7.57 3.92 5.59 7.41 ...
##   ..- attr(*, "label")= chr "Homicidios"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16
##  $ var44            : num  659 607 513 396 875 ...
##   ..- attr(*, "label")= chr "Presencia policial"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 15
##  $ var45            : num  30.7 39.9 37.9 51.4 51.9 ...
##   ..- attr(*, "label")= chr "Resolución expedientes judiciales"
##   ..- attr(*, "format.spss")= chr "F18.2"
##   ..- attr(*, "display_width")= int 16

Paso 1: Analizar la asociación entre las variables de insumo: Diagrama de dispersión y correlación bivariada

plot(data$pobreza,data$fallecidos)

#manera más bonita:
ggplot(data, aes(x=pobreza, y=casos_100k)) +
  geom_point(colour="red") +  xlab("Nivel de pobreza de la región") +  ylab("Tasa de contagios por COVID-19") +
  ggtitle("Presupuesto público per cápita \ Tasa de contagios por COVID-19") +
  theme_light()

Gráficamente, se puede observar que existe una relación débil e inversamente proporcional

Realizamos d y analizamos la correlación

#Prueba de correlación
cor.test(data$pobreza,data$casos_100k, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  data$pobreza and data$casos_100k
## t = -2.8453, df = 21, p-value = 0.00969
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7718653 -0.1473234
## sample estimates:
##        cor 
## -0.5274925
#En este caso se observará el cor

Determinar el p-value y apruebas o rechazas H0 -> p < 0.05 Rechazas la H0/Aceptas la H1 -> P > 0.05 Aceptas la H0/Rechazas la H1

¿Qué nos dice el resultado? Interpretación: Debidoa que el p-value (0.00969) es < 0.05, rechazamos la H0 y, por tanto, aceptamos la H1 de que “Sí existe correlación entre el nivel de pobreza de cada región y la tasa de contagios por COVID-19”.

El coeficiente es de -0.527 lo que quiere decir:

  1. Se trata de una “correlación negativa”; es decir, relación inversa(-)
  2. Según los criterios de Cohen (1988), se trata de una correlación grande.

En conclusión, sí existe correlación alta (magnitud del coeficiente) e inversa entre las dos variables estudiadas.

Paso 2: ¿Nuestro modelo es válido?: TABLA ANOVA

Hipótesis para la prueba F:

modelo1 <- lm(casos_100k~pobreza, data=data)
#primero he puesto mi variable dependiente
anova(modelo1)
## Analysis of Variance Table
## 
## Response: casos_100k
##           Df   Sum Sq  Mean Sq F value  Pr(>F)   
## pobreza    1 14036380 14036380  8.0959 0.00969 **
## Residuals 21 36409131  1733768                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo1)#también podemos leer el F-statistic. Este de frente nos da todo
## 
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1600.4  -678.4   -33.2   229.4  4397.4 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4439.18     568.87   7.803 1.22e-07 ***
## pobreza       -50.47      17.74  -2.845  0.00969 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared:  0.2782, Adjusted R-squared:  0.2439 
## F-statistic: 8.096 on 1 and 21 DF,  p-value: 0.00969

Interpretación: Como el p-value (0.00969) es < 0.05 entonces rechazamos la H0, por lo que concluimos que el modelo sí es válido como modelo de predición, es decir, existe una relación lineal entre el nivel de pobreza de la región y la tasa de contagios por COVID-19.

Paso 3: ¿Qué tanto explica mi modelo?: COEFICIENTE DE DETERMINACIÓN – R2

summary(modelo1)#leemos el Adjusted R-squared
## 
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1600.4  -678.4   -33.2   229.4  4397.4 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4439.18     568.87   7.803 1.22e-07 ***
## pobreza       -50.47      17.74  -2.845  0.00969 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared:  0.2782, Adjusted R-squared:  0.2439 
## F-statistic: 8.096 on 1 and 21 DF,  p-value: 0.00969

De acuerdo a los resultados,se presenta un R ajustado de 0.2439 | (24.4%), esto sugiere que el 24,4% de la variabilidad de la tasa de contagios va a ser explicado por un alto o bajo nivel de pobreza.

Paso 4: ¿Cuáles son los parámetros?: TABLA DE COEFICIENTES

Las hipótesis para la prueba T es la siguiente:

summary(modelo1)#leemos Coefficients
## 
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1600.4  -678.4   -33.2   229.4  4397.4 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4439.18     568.87   7.803 1.22e-07 ***
## pobreza       -50.47      17.74  -2.845  0.00969 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared:  0.2782, Adjusted R-squared:  0.2439 
## F-statistic: 8.096 on 1 and 21 DF,  p-value: 0.00969

Como el p value (+) es < 0.05 entonces rechazamos la H0 y afirmamos la H1, es decir, concluimos que el b de la variable explicativa (nivel de pobreza en la región) es distinto a cero, y por tanto sí aporta al modelo propuesto.

Paso 5: Construir la ecuación y predecir

modelo1$coefficients
## (Intercept)     pobreza 
##  4439.17956   -50.47294
summary(modelo1)
## 
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1600.4  -678.4   -33.2   229.4  4397.4 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4439.18     568.87   7.803 1.22e-07 ***
## pobreza       -50.47      17.74  -2.845  0.00969 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared:  0.2782, Adjusted R-squared:  0.2439 
## F-statistic: 8.096 on 1 and 21 DF,  p-value: 0.00969

Los primeros datos a analizar están en la columna “Estimate”. Estos datos definen la ecuación de la recta. Según estos datos se tendría lo siguiente:

Intercepto: 4439.17956 pendiente: -50.47

**Y = 4439.17956 -50.47*X**

ggplot(data, aes(x=pobreza, y=casos_100k)) +
  geom_point(colour="red") +  xlab("Nivel de pobreza en cada región") +  ylab("Tasa de contagios por COVID-19") +
  ggtitle("Tasa de contagios por COVID-19/nivel de pobreza en cada región") +
  theme_light()+ geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'

plot(data$pobreza,data$fallecidos)
text(data$pobreza, data$casos_100k, labels=data$region, cex=0.6, pos=4)