Variables: -x: Nivel de pobreza (independiente)
-y: Tasa de contagiados por Covid-19 (dependiente)
library(rio)
data = import("competitividad_reg.sav")
library(ggplot2) #para hacer gráficos
library(Hmisc) #para correlación
## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
##
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
##
## format.pval, units
str(data)
## 'data.frame': 23 obs. of 53 variables:
## $ region : chr "Amazonas" "Áncash" "Apurímac" "Arequipa" ...
## ..- attr(*, "label")= chr "Nombre de la región"
## ..- attr(*, "format.spss")= chr "A13"
## ..- attr(*, "display_width")= int 13
## $ casos : num 18562 31075 7682 48571 15375 ...
## ..- attr(*, "label")= chr "Casos confirmados de COVID-19"
## ..- attr(*, "format.spss")= chr "F8.0"
## ..- attr(*, "display_width")= int 24
## $ casos_100k : num 4349 2632 1783 3244 2301 ...
## ..- attr(*, "label")= chr "Casos por cada 100k personas (tasa)"
## ..- attr(*, "format.spss")= chr "F8.2"
## ..- attr(*, "display_width")= int 11
## $ fallecidos : num 190 1141 60 1106 253 ...
## ..- attr(*, "label")= chr "Fallecidos por COVID-19"
## ..- attr(*, "format.spss")= chr "F8.2"
## $ poblacion : num 379384 1083519 405759 1382730 616176 ...
## ..- attr(*, "label")= chr "Población"
## ..- attr(*, "format.spss")= chr "F8.2"
## $ altura : num 2483 3050 2500 2335 2746 ...
## ..- attr(*, "label")= chr "Altura de la capital de la región"
## ..- attr(*, "format.spss")= chr "F8.2"
## $ pobreza : num 47 24 43 9 52 53 19 47 40 5 ...
## ..- attr(*, "label")= chr "Nivel de pobreza"
## ..- attr(*, "format.spss")= chr "F8.2"
## $ vias_pavimentadas: num 42 31 35 28 35 39 41 38 40 18 ...
## ..- attr(*, "label")= chr "Porcentaje de vías pavimentadas"
## ..- attr(*, "format.spss")= chr "F8.2"
## $ var1 : num 2833 17632 2628 23656 5332 ...
## ..- attr(*, "label")= chr "Producto Bruto Interno real"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var2 : num 6704 15350 5728 18378 7742 ...
## ..- attr(*, "label")= chr "Producto Bruto Interno real per cápita"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 14
## $ var3 : num 11589 27945 9083 34076 14342 ...
## ..- attr(*, "label")= chr "Stock de capital por trabajador"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 13
## $ var4 : num 5924 3529 5872 4026 4881 ...
## ..- attr(*, "label")= chr "Presupuesto público per cápita"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 14
## $ var5 : num 1112 1430 898 1572 927 ...
## ..- attr(*, "label")= chr "Gasto real por hogar mensual"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 14
## $ var6 : num 2.0358 -0.7133 0.0614 -1.7013 1.2321 ...
## ..- attr(*, "label")= chr "Incremento del gasto real por hogar"
## ..- attr(*, "format.spss")= chr "F40.2"
## ..- attr(*, "display_width")= int 12
## $ var7 : num 345 462 397 1115 402 ...
## ..- attr(*, "label")= chr "Disponibilidad de servicios financieros"
## ..- attr(*, "format.spss")= chr "F4.0"
## ..- attr(*, "display_width")= int 12
## $ var8 : num 15.5 27.7 18 44.1 20 ...
## ..- attr(*, "label")= chr "Acceso al crédito"
## ..- attr(*, "format.spss")= chr "F31.2"
## ..- attr(*, "display_width")= int 12
## $ var9 : num 79 95.7 93.1 97.2 89.6 ...
## ..- attr(*, "label")= chr "Cobertura de electricidad"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 15
## $ var10 : num 15.22 8.55 13.26 9.6 14.67 ...
## ..- attr(*, "label")= chr "Precio de la electricidad"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var11 : num 82 93.9 92.7 93.4 91.6 ...
## ..- attr(*, "label")= chr "Cobertura de agua"
## ..- attr(*, "format.spss")= chr "F20.2"
## ..- attr(*, "display_width")= int 14
## $ var12 : num 9.48 10.26 22.91 22.98 20.44 ...
## ..- attr(*, "label")= chr "Continuidad de la provisión de agua"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var13 : num 47.8 67.6 44.2 76.9 53.6 ...
## ..- attr(*, "label")= chr "Cobertura de desagüe"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var14 : num 10.98 17.94 3.72 35.24 6.08 ...
## ..- attr(*, "label")= chr "Hogares con internet"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var15 : num 83.6 88.7 80.8 93.9 83 ...
## ..- attr(*, "label")= chr "Hogares con al menos un celular"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 15
## $ var16 : num 23.62 7.95 27.79 1255.58 279.37 ...
## ..- attr(*, "label")= chr "Densidad del transporte aéreo"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var17 : num 71.3 74.5 71 76.8 71.6 ...
## ..- attr(*, "label")= chr "Esperanza de vida al nacer"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 15
## $ var18 : num 30 18 27 15 33 29 30 37 21 16 ...
## ..- attr(*, "label")= chr "Mortalidad en la niñez"
## ..- attr(*, "format.spss")= chr "F2.0"
## ..- attr(*, "display_width")= int 12
## $ var19 : num 14 11.8 14.3 4.7 13.8 19.3 9.6 25.3 13 3.6 ...
## ..- attr(*, "label")= chr "Desnutrición crónica"
## ..- attr(*, "format.spss")= chr "F32.2"
## ..- attr(*, "display_width")= int 12
## $ var20 : num 66.4 82 73.1 63.5 65.3 66 66.6 70.1 60 69.2 ...
## ..- attr(*, "label")= chr "Morbilidad"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var21 : num 5.8 11.72 10.66 40.33 5.84 ...
## ..- attr(*, "label")= chr "Cobertura del personal médico"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var22 : num 2.84 2.18 1.96 1.63 1.74 ...
## ..- attr(*, "label")= chr "Cobertura hospitalaria"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 16
## $ var23 : num 72.3 94.1 98.8 98.4 97.6 76.5 97 91.3 94.4 99.3 ...
## ..- attr(*, "label")= chr "Partos institucionales"
## ..- attr(*, "format.spss")= chr "F32.2"
## ..- attr(*, "display_width")= int 12
## $ var24 : num 86.7 76.5 91 62.8 88.8 ...
## ..- attr(*, "label")= chr "Acceso a seguro de salud"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var25 : num 9.27 8.68 16.24 4.37 11.64 ...
## ..- attr(*, "label")= chr "Analfabetismo"
## ..- attr(*, "format.spss")= chr "F27.2"
## ..- attr(*, "display_width")= int 12
## $ var26 : num 85 90.3 92 91.6 87.8 ...
## ..- attr(*, "label")= chr "Asistencia escolar inicial"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var27 : num 83.8 90.5 91.1 94 88.6 ...
## ..- attr(*, "label")= chr "Asistencia escolar primaria y secundaria"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var28 : num 36.9 49.9 43.7 68.3 42.2 ...
## ..- attr(*, "label")= chr "Población con secundaria a más"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var29 : num 22.7 24.1 20.1 43.4 27 ...
## ..- attr(*, "label")= chr "Rendimiento en lectura"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var30 : num 22.7 17.7 18.6 30.9 25.8 ...
## ..- attr(*, "label")= chr "Rendimiento en matemáticas"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var31 : num 19.4 45.6 39 65.3 35.2 ...
## ..- attr(*, "label")= chr "Colegios con acceso a internet"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var32 : num 982 1095 878 1512 880 ...
## ..- attr(*, "label")= chr "Nivel de ingresos por trabajo"
## ..- attr(*, "format.spss")= chr "F28.2"
## ..- attr(*, "display_width")= int 12
## $ var33 : num 23.5 36.6 34.4 40.5 18.1 ...
## ..- attr(*, "label")= chr "Brecha de género en ingresos laborales"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var34 : num 32.9 43.7 32.5 64.2 32.5 ...
## ..- attr(*, "label")= chr "Empleo adecuado"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var35 : num 18.1 27.1 16.6 41.5 22.2 ...
## ..- attr(*, "label")= chr "Educación de la fuerza laboral"
## ..- attr(*, "format.spss")= chr "F31.2"
## ..- attr(*, "display_width")= int 12
## $ var36 : num 1.2954 -0.0266 -1.0497 -0.8034 1.6484 ...
## ..- attr(*, "label")= chr "Creación de empleo formal"
## ..- attr(*, "format.spss")= chr "F22.2"
## ..- attr(*, "display_width")= int 16
## $ var37 : num 86.6 80.7 90.4 67.4 87.6 ...
## ..- attr(*, "label")= chr "Empleo informal"
## ..- attr(*, "format.spss")= chr "F19.2"
## ..- attr(*, "display_width")= int 15
## $ var38 : num 11.5 11.5 10.4 13 18.6 ...
## ..- attr(*, "label")= chr "Desempleo juvenil urbano"
## ..- attr(*, "format.spss")= chr "F27.2"
## ..- attr(*, "display_width")= int 12
## $ var39 : num 73.2 53.5 61.9 64 67.8 ...
## ..- attr(*, "label")= chr "Ejecución de la inversión pública"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var40 : num 44.8 29.2 26.6 31 35.2 ...
## ..- attr(*, "label")= chr "Percepción de la gestión pública"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var41 : num 3 23 26 7 14 16 19 3 2 4 ...
## ..- attr(*, "label")= chr "Conflictos sociales"
## ..- attr(*, "format.spss")= chr "F2.0"
## ..- attr(*, "display_width")= int 12
## $ var42 : num 5.11 6.13 2.73 11.37 7.25 ...
## ..- attr(*, "label")= chr "Criminalidad"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var43 : num 8.04 7.57 3.92 5.59 7.41 ...
## ..- attr(*, "label")= chr "Homicidios"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
## $ var44 : num 659 607 513 396 875 ...
## ..- attr(*, "label")= chr "Presencia policial"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 15
## $ var45 : num 30.7 39.9 37.9 51.4 51.9 ...
## ..- attr(*, "label")= chr "Resolución expedientes judiciales"
## ..- attr(*, "format.spss")= chr "F18.2"
## ..- attr(*, "display_width")= int 16
plot(data$pobreza,data$fallecidos)
#manera más bonita:
ggplot(data, aes(x=pobreza, y=casos_100k)) +
geom_point(colour="red") + xlab("Nivel de pobreza de la región") + ylab("Tasa de contagios por COVID-19") +
ggtitle("Presupuesto público per cápita \ Tasa de contagios por COVID-19") +
theme_light()
Gráficamente, se puede observar que existe una relación débil e
inversamente proporcional
Realizamos d y analizamos la correlación
Analizando la correlación
H0 = No existe correlación entre el nivel de pobreza de cada región y la tasa de contagios por COVID-19
H1 = Sí existe correlación entre el nivel de pobreza de cada región y la tasa de contagios por COVID-19
#Prueba de correlación
cor.test(data$pobreza,data$casos_100k, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: data$pobreza and data$casos_100k
## t = -2.8453, df = 21, p-value = 0.00969
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7718653 -0.1473234
## sample estimates:
## cor
## -0.5274925
#En este caso se observará el cor
Determinar el p-value y apruebas o rechazas H0 -> p < 0.05 Rechazas la H0/Aceptas la H1 -> P > 0.05 Aceptas la H0/Rechazas la H1
¿Qué nos dice el resultado? Interpretación: Debidoa que el p-value (0.00969) es < 0.05, rechazamos la H0 y, por tanto, aceptamos la H1 de que “Sí existe correlación entre el nivel de pobreza de cada región y la tasa de contagios por COVID-19”.
El coeficiente es de -0.527 lo que quiere decir:
En conclusión, sí existe correlación alta (magnitud del coeficiente) e inversa entre las dos variables estudiadas.
Hipótesis para la prueba F:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
modelo1 <- lm(casos_100k~pobreza, data=data)
#primero he puesto mi variable dependiente
anova(modelo1)
## Analysis of Variance Table
##
## Response: casos_100k
## Df Sum Sq Mean Sq F value Pr(>F)
## pobreza 1 14036380 14036380 8.0959 0.00969 **
## Residuals 21 36409131 1733768
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo1)#también podemos leer el F-statistic. Este de frente nos da todo
##
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1600.4 -678.4 -33.2 229.4 4397.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4439.18 568.87 7.803 1.22e-07 ***
## pobreza -50.47 17.74 -2.845 0.00969 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared: 0.2782, Adjusted R-squared: 0.2439
## F-statistic: 8.096 on 1 and 21 DF, p-value: 0.00969
Interpretación: Como el p-value (0.00969) es < 0.05 entonces rechazamos la H0, por lo que concluimos que el modelo sí es válido como modelo de predición, es decir, existe una relación lineal entre el nivel de pobreza de la región y la tasa de contagios por COVID-19.
summary(modelo1)#leemos el Adjusted R-squared
##
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1600.4 -678.4 -33.2 229.4 4397.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4439.18 568.87 7.803 1.22e-07 ***
## pobreza -50.47 17.74 -2.845 0.00969 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared: 0.2782, Adjusted R-squared: 0.2439
## F-statistic: 8.096 on 1 and 21 DF, p-value: 0.00969
De acuerdo a los resultados,se presenta un R ajustado de 0.2439 | (24.4%), esto sugiere que el 24,4% de la variabilidad de la tasa de contagios va a ser explicado por un alto o bajo nivel de pobreza.
Las hipótesis para la prueba T es la siguiente:
H0: La variable X1 no aporta al modelo propuesto (b igual a 0)
H1: La variable X1 aporta al modelo propuesto (b diferente de 0)
summary(modelo1)#leemos Coefficients
##
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1600.4 -678.4 -33.2 229.4 4397.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4439.18 568.87 7.803 1.22e-07 ***
## pobreza -50.47 17.74 -2.845 0.00969 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared: 0.2782, Adjusted R-squared: 0.2439
## F-statistic: 8.096 on 1 and 21 DF, p-value: 0.00969
Como el p value (+) es < 0.05 entonces rechazamos la H0 y afirmamos la H1, es decir, concluimos que el b de la variable explicativa (nivel de pobreza en la región) es distinto a cero, y por tanto sí aporta al modelo propuesto.
modelo1$coefficients
## (Intercept) pobreza
## 4439.17956 -50.47294
summary(modelo1)
##
## Call:
## lm(formula = casos_100k ~ pobreza, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1600.4 -678.4 -33.2 229.4 4397.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4439.18 568.87 7.803 1.22e-07 ***
## pobreza -50.47 17.74 -2.845 0.00969 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1317 on 21 degrees of freedom
## Multiple R-squared: 0.2782, Adjusted R-squared: 0.2439
## F-statistic: 8.096 on 1 and 21 DF, p-value: 0.00969
Los primeros datos a analizar están en la columna “Estimate”. Estos datos definen la ecuación de la recta. Según estos datos se tendría lo siguiente:
Intercepto: 4439.17956 pendiente: -50.47
**Y = 4439.17956 -50.47*X**
ggplot(data, aes(x=pobreza, y=casos_100k)) +
geom_point(colour="red") + xlab("Nivel de pobreza en cada región") + ylab("Tasa de contagios por COVID-19") +
ggtitle("Tasa de contagios por COVID-19/nivel de pobreza en cada región") +
theme_light()+ geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'
plot(data$pobreza,data$fallecidos)
text(data$pobreza, data$casos_100k, labels=data$region, cex=0.6, pos=4)