Base de datos

base = import ("https://github.com/azula89/bases/raw/main/iiee_rur_con.xlsx")


Indicaciones

Integrantes del grupo 5:

  • Anthony Calderon
  • Julissa Navarro
  • Hector Rojas


A partir de información del Censo Educativo 2023, se busca realizar un modelo predictivo que estime el % de conectividad (acceso a internet) en las instituciones educativas de educación básica regular (EBR) de las provincias del Perú, considerando el % de instituciones educativas rurales en cada una de ellas. Las variables:

  • n = número de instituciones educativas EBR en la provincia
  • rural = número de instituciones educativas rurales EBR en la provincia
  • internet = número de instituciones educativas EBR con acceso a internet en la provincia


Pregunta 1 (13 puntos)


Antes de realizar el modelo predictivo, se debe calcular por provincia el % de instituciones educativas EBR rurales (variable \(x\)) y el % de instituciones educativas EBR con acceso a internet (variable \(y\)). Se debe estimar cual sería el % de conectividad de las instituciones educativas, cuando en una provincia cuenta con un 60% de instituciones educativas rurales. Interprete de manera adecuada los resultados

  • Creación de nuevas variables (1 punto)
censo <- base [c("DPTO", "PROV", "cod_prov", "n", "rural", "internet")]
censo <- select(base, DPTO, PROV, n, rural, internet)
censo <- censo%>% mutate(porc_rural = (rural / n) * 100, porc_internet = (internet / n) * 100)
  • Análisis descriptivo de variables (2 puntos)
summary(censo$porc_rural)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   64.52   87.57   75.29   94.77  100.00
summary(censo$porc_internet)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.467  11.905  21.721  25.939  34.222  87.850

Histogramas para ambas variables:

hist(censo$porc_rural, main = "% EBR Rurales", col = "lightblue", xlab = "Porcentaje", ylab = "Frecuencia")

hist(censo$porc_internet, main = "% EBR con Internet", col = "lightgreen", xlab = "Porcentaje", ylab = "Frecuencia")


Interpretación de cada histograma

En el primer histograma sobre el porcentaje de EBR rurales, nos muestra que la mayoría de provincias en el Perú tienen un alto porcentaje de instituciones educativas rurales. De tal manera, la distribución se encuentra focalizada en el lado derecho, entre el 80% y 100%, en tanto, indica que en muchas provincias, la mayoría de de instituciones educativas son rurales.

En el segundo histograma sobre el porcentaje de EBR con internet, nos muestra que el acceso a internet en las provincias es bajo. Esto porque la mayoría de provincias tienen un 0% y 40% de instituciones educativas con internet.

  • Gráfico de correlación (1 punto)

Antes de hacer un modelo de regresión, debemos analizar si los datos guardan relación entre sí. Para ello estamos realizando un gráfico de dispersión del % de personas en situación de pobreza con el % de participación electoral distrital en la región.

ggplot(data = censo, aes(x = porc_rural, y = porc_internet, size = n)) + 
  geom_point(color='darkgreen', alpha = 0.8, show.legend = FALSE) + theme_bw()

  • Prueba de correlación entre variables (1 punto)

Luego del gráfico de correlación, se procede a realizar un test de correlación de pearson (variables cuantitativas). Recuerden que cuando el valor está más cercano a -1 (inversa) o 1 (directa), es una correlación más fuerte. Asimismo, hay que ver la significancia de la correlación (p<0.05)

cor.test(censo$porc_rural, censo$porc_internet, method ="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  censo$porc_rural and censo$porc_internet
## t = -21.403, df = 194, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8754658 -0.7909086
## sample estimates:
##        cor 
## -0.8381536

Analizando la correlación de Pearson entre el porcentaje de instituciones educativas rurales y el porcentaje de instituciones educativas con acceso a internet muestra un p-valor menor a 2.2e-16, lo que demuestra que la correlación es estadísticamente significativa con un nivel de confianza del 95%. Además, nos muestra un coeficiente de correlación de -0.838, lo que significa indica una correlación negativa y fuerte entre ambas variables: a mayor porcentaje de instituciones educativas rurales, menor instituciones educativas con acceso a internet. Por consiguiente, rechazamos la hipótesis nula y concluimos que existe una relación negativa, fuerte y estadísticamente significativa entre ambas variables.

  • Estimación e interpretación del modelo (7 puntos)

x (independiente): % de ERB o instituciones educativas rurales (porc_rural)
y (dependiente): % de ERB o instituciones educativas con acceso a internet (porc_internet)

En esta oportunidad, emplearemos el modelo de regresión lineal simple. Este modelo busca predecir el valor de la variable dependiente (y) a partir de una variable independiente (x). Estas variables deben ser numéricas y tener una relación lineal (correlación) entre las mismas. En el modelo general:

\(\boldsymbol{y_i = \beta_0 + \beta_1 x_i + \varepsilon_i}\)

  • \(y_i\) es la variable dependiente.
  • \(x_i\) es la variable independiente.
  • \(\beta_0\) es el valor esperado de \(y\) cuando \(x = 0\).
  • \(\beta_1\) es el cambio esperado en \(y\) por cada unidad adicional de \(x\).
  • \(\varepsilon_i\) es el término de error.

Modelo
Primero debemos darle un nombre al modelo de regresión, en este caso lo llamaremos “modelo_reg_censo”. Este modelo es un modelo lineal (lm), en donde la variable \(y\) es ” % de ERB con acceso a internet”. Asimismo, la variable \(x\) es “% de ERB rurales”.

modelo_reg_censo <- lm(porc_internet ~ porc_rural, data = censo)
summary(modelo_reg_censo)
## 
## Call:
## lm(formula = porc_internet ~ porc_rural, data = censo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.457  -6.622  -1.015   5.318  42.913 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 65.97668    1.98697    33.2   <2e-16 ***
## porc_rural  -0.53175    0.02484   -21.4   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.38 on 194 degrees of freedom
## Multiple R-squared:  0.7025, Adjusted R-squared:  0.701 
## F-statistic: 458.1 on 1 and 194 DF,  p-value: < 2.2e-16

La ecuación de regresión lineal es la siguiente: \(y\) = 65.97668 + (-0.53175 * \(_x\)) , en donde se estima que el porcentaje de instituciones educativas con acceso a internet sería del 65% siempre y cuando el porcentaje de instituciones educativas rurales haya sido del 0% . Asimismo, el modelo indica que a medida que las instituciones educativas rurales aumentan en una unidad porcentual, las instituciones educativas con acceso a internet se ven reducidas en 0.53175%.

Si se quiere estimar la conectividad en una provincia del Perú que haya tenido un 60% de instituciones educativas rurales, podemos usar el modelo de regresión y concluir que sus instituciones educativas con acceso a internet estaría siendo de un 34.071%


\(\boldsymbol{y = 65.97668 + (-0.53175 \times 60)}\), en donde \(\boldsymbol{y = 34.07168\%}\)

Asimismo, el modelo indica que todos los coeficientes son estadísticamente significativos (intercept y porc_rural). También se observa que el poder predictivo del modelo, el cual señala que tanto explica la variable \(x\) a \(y\), es del 70.25% (multiple r-squared). Finalmente, también se observa que el modelo en general es estadísticamente significativo ( p-value: < 2.2e-16 )

Prediccion
Se puede calcular en la base de datos, la predicción de las instituciones con acceso a internet de cada uno de las provincias teniendo en cuenta el modelo.

censo$prediccion <- predict(modelo_reg_censo, censo)
head(censo)
  • Visualización del modelo (1 punto)

El gráfico muestra la relación de las instituciones educativas con acceso a internet y las instituciones educativas rurales en las provincias del Perú, y la línea roja son las estimaciones del modelo de regresión. La línea roja representa de la mejor manera posible las estimaciones, considerando ambas variables, en algunos casos va a subestimar el valor real y en otros lo sobreestima.

ggplot(data = censo, aes(x = porc_rural, y = porc_internet, size = n)) + 
  geom_point(color='darkgreen') + theme_bw() + geom_smooth(method = "lm", se = FALSE, color = "red") + 
  guides(size = "none")



Pregunta 2 (7 puntos)

Realizar un modelo de regresión lineal simple, considerando únicamente las provincias de los departamentos de la Amazonía Peruana como: “AMAZONAS”, “LORETO”, “MADRE DE DIOS”, “SAN MARTIN”, “UCAYALI”. ¿Cuáles son los principales resultados del modelo? ¿Cuál sería el porcentaje de conectividad en una provincia con 85% de instituciones educativas rurales.

  • Filtrado de información (1 punto)
amazonia <- filter(censo, DPTO %in% c("LORETO", "MADRE DE DIOS", "SAN MARTIN", "UCAYALI", "AMAZONAS"))
amazonia <- amazonia%>% mutate(porc_rural = (rural / n) * 100, porc_internet = (internet / n) * 100)
  • Prueba de correlación entre variables (1 punto)
cor.test(amazonia$porc_rural, amazonia$porc_internet, method ="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  amazonia$porc_rural and amazonia$porc_internet
## t = -4.3915, df = 30, p-value = 0.000129
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7997807 -0.3540713
## sample estimates:
##        cor 
## -0.6255351

Al analizar la correlación de Pearson entre el porcentaje de instituciones educativas rurales en la Amazonía y el porcentaje de instituciones educativas con acceso a internet en la misma región, se obtiene un p-valor de 0.000129, lo cual indica que la correlación es estadísticamente significativa al nivel del 95%.

El coeficiente de correlación (r) es -0.7997807, lo que indica una correlación negativa de magnitud moderada. Esto significa que, a mayor porcentaje de instituciones educativas rurales, menor es el porcentaje de instituciones con acceso a internet.

Por lo tanto, se rechaza la hipótesis nula (que planteaba que no hay correlación entre las variables), y se concluye que existe una relación negativa, moderada y estadísticamente significativa entre el porcentaje de instituciones rurales y el acceso a internet en la Amazonía.


  • Estimación e interpretación del modelo (4 puntos)

Modelo
Primero debemos darle un nombre al modelo de regresión, en este caso lo llamaremos “modelo_reg_amazonia”. Este modelo es un modelo lineal (lm), en donde la variable \(y\) es ” % de EBR con acceso a internet”. Asimismo, la variable \(x\) es “% de EBR rurales”.

modelo_reg_amazonia <- lm(porc_internet ~ porc_rural, data = amazonia)
summary(modelo_reg_amazonia)
## 
## Call:
## lm(formula = porc_internet ~ porc_rural, data = amazonia)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.211 -4.651 -0.742  2.363 35.590 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  58.8206     9.2450   6.362 5.09e-07 ***
## porc_rural   -0.4760     0.1084  -4.391 0.000129 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.888 on 30 degrees of freedom
## Multiple R-squared:  0.3913, Adjusted R-squared:  0.371 
## F-statistic: 19.28 on 1 and 30 DF,  p-value: 0.000129

La ecuación de regresión lineal es la siguiente: \(y\) = 58.2523 + (-58.2523 * \(_x\)) , en donde se estima que el porcentaje de instituciones educativas de la amazonía con acceso a internet sería del 58.82% siempre y cuando el porcentaje de instituciones educativas rurales de la amazonía haya sido del 0% . Asimismo, el modelo indica que a medida que las instituciones educativas rurales aumentan en una unidad porcentual, las instituciones educativas con acceso a internet se ven reducidas en 0.4684 puntos porcentuales.

Si se quiere estimar la conectividad en una provincia de la amazonía del Perú que haya tenido un 85% de instituciones educativas rurales de la amazonía, podemos usar el modelo de regresión y concluir que sus instituciones educativas de la amazonía con acceso a internet estaría siendo de un 18.36%


\(\boldsymbol{y = 58.8206 + (-0.4760 \times 85)}\), en donde \(\boldsymbol{y = 18.3606\%}\)

Asimismo, el modelo indica que todos los coeficientes son estadísticamente significativos (intercept y porc_rural). También se observa que el poder predictivo del modelo, el cual señala que tanto explica la variable \(x\) a \(y\), es del 39.13% (multiple r-squared). Finalmente, también se observa que el modelo en general es estadísticamente significativo ( p-value: < 0.000129 )

Prediccion
Se puede calcular en la base de datos, la predicción de las instituciones con acceso a internet de cada uno de las provincias teniendo en cuenta el modelo.

amazonia$prediccion <- predict(modelo_reg_amazonia, amazonia)
head(amazonia)


  • Visualización del modelo (1 punto)
    El gráfico muestra la relación de las instituciones educativas de la amazonía con acceso a internet y las instituciones educativas rurales de la amazonía del Perú, y la línea roja son las estimaciones del modelo de regresión. La línea roja representa de la mejor manera posible las estimaciones, considerando ambas variables, en algunos casos va a subestimar el valor real y en otros lo sobreestima.
ggplot(data = amazonia, aes(x = porc_rural, y = porc_internet, size = n)) + 
  geom_point(color='darkgreen') + theme_bw() + geom_smooth(method = "lm", se = FALSE, color = "red") + 
  guides(size = "none")


Respuesta a las preguntas iniciales:

¿Cuáles son los principales resultados del modelo?

A partir del modelo, existe una relación negativa entre el porcentaje de instituciones educativas EBR rurales y el porcentaje de instituciones educativas EBR con acceso a internet en la Amazonía. En ese sentido, si uno de los departamentos de la Amazonía tuviese 0% de instituciones educativas EBR rurales, se esperaría que el 58.82% de sus instituciones educativas EBR tengan acceso a internet, según el modelo de regresión lineal.

¿Cuál sería el porcentaje de conectividad en un departamento de la amazonía con 85% de instituciones educativas rurales?

Desde el modelo de regresión lineal presentado, si un departamento de la Amazonía tuviese 85% de instituciones educativas EBR rurales, se esperaría que, en promedio, 39.13% de sus instituciones educativas EBR cuenten con acceso a internet.