FACTORES QUE INCIDEN EN EL GASTO EN EDUCACIÓN EN LAS FAMILIAS SALVADOREÑAS EN EL AÑO 2020

Grupo 2-6 Econometria UES

UNIVERSIDAD DE EL SALVADOR

FACULTAD DE CIENCIAS ECONOMICAS

ESCUELA DE ECONOMIA

FACTORES QUE INCIDEN EN EL GASTO EN EDUCACIÓN EN LAS FAMILIAS SALVADOREÑAS EN EL AÑO 2020

MATERIA: ECONOMETRÍA

DOCENTE: CARLOS ADEMIR PÉREZ ALAS

INTEGRANTES:

Apellidos Nombres Carnet Participación
Aguirre Sarmiento Edwin Fabricio AS19011 \(0\%\)
Castro Martínez Luis David CM16011 \(100\%\)
García Ramírez Carlos Roberto GR16051 \(100\%\)
Martínez Martínez Ernesto Antonio MM20002 \(0\%\)
Paniagua Muñoz Karla Regina PM18112 \(100\%\)

CICLO: I-2022

FECHA: 11 DE MAYO DE 2022

CIUDAD UNIVERSITARIA, SAN SALVADOR, EL SALVADOR, CENTROAMERICA

Introduccion

Este estudio tiene como objetivo determinar los factores que inciden en el gasto en educacion en las familias de El Salvador en el año 2020 donde se tiene las siguientes variables, gasto en matricula, gasto en utiles escolares, el ingreso de las familias en general ya contando al jefe del hogar entre otras. En parte de la especificación nos basaremos en el planteamiento y desarrollo de las variables a considerar aplicando la teoria economica para asi sustentar las bases en el modelo.

Luego de eso a partir de los planteamientos de especificación a base de la teoria economica aplicaremos las revisiones del modelo propuesto a traves de las puebas de normalidad para saber si este sigue los supuestos planteados.

Planteamiento del problema

Con respecto a la encuesta de Hogares de propositos multiples (EHPM) determinaremos el modelo el cual estime este gasto en educacion en las familias y si existen factores que inciden o no en este y dar una estimación puntual y en intervalos en la cual se diga cuanto las familias destinan como gasto en educacion.

Objetivos

Objetivo general

  • Determinar si los factores seleccionados para el gasto en educacion tiene relacion directa o indirecta o si no tiene relacion alguna ante la variable endogena

Objetivos especificos

  • Interpretar de la investigacion resultante los datos obtenidos del gasto en educacion de las familias salvadoreñas en el año 2020

  • Observar el efecto que determinan estas variables seleccionadas para el rechazo o no rechazo de las hipotesis

Justificacion

La presente investigacion tiene como proposito el analisis y el uso de las herramientas econometricas aprendidas y practicadas en clase para la formacion de modelos que ayuden a la comunidad salvadoreña para el destino de recursos en educacion sabiendo que es una de las bases fundamentales del desarrollo economico, ademas de que se llevara un estudio de descripcion en el cual se tomara uso de la Encuesta de Hogares de Propositos Multiples del año 2020 para estimular el modelo entre sus factores,

Marco Teorico

La educacion en El Salvador

El sistema de educación es el mecanismo mediante el cual los gobiernos de cada país desarrollan los conocimientos, habilidades y capacidades de la población en general, mediante una metodología de seguimiento progresivo de grados de aprendizaje, durante el cual se trata de fomentar las distintas bases de las ciencias sociales, ciencias naturas, ciencias matemáticas, literatura y cualquier otro aspecto que permita ampliar o complementar los conocimiento adquiridos a lo largo de la formación del ente llamado estudiante; partiendo desde un aprendizaje a temprana edad para los miembros mas pequeños de la población en la cual se parte de desarrollar sus distintas habilidades cognitivas, de razonamiento, la interpretación y la memoria, permitiendo ir adquiriendo conocimientos que irán siendo utilizados en grados superiores; prosiguiendo con distintos grados de educación básica y superior donde se van alentando al estudiante en la búsqueda de un conocimiento mayor, siendo una practica de autodescubrimiento por el cual puede permitirse detectar cuales son las ramas de estudio de interés y acceder a ellas mediante posibles estudios técnicos, de grado universitario o superior.

El sistema de educación es la base de creación de las capacidades productivas de la población, partiendo desde este punto pueden determinarse como el mecanismo que preparación al trabajador para diferentes puestos del proceso productivo, que partiendo del grado de educación del obrero así será su grado de calificación y nivel de producción, permitiendo que a niveles superiores de estudios básicos, técnicos o de especialización, así mismo, adquiera grados superiores en el proceso de producción; y es que es vital en las economías de cada país el desarrollo de su población, permitirles ser mas productivos y aportar un grado superior de sus capacidades, que irán concluyendo en mejoras de los procesos productivos, crecimiento económico y la oportunidad de preservar un grado de razonamiento y conocimientos mayores que serán fuentes en la toma de decisiones de bienestar para el país, su población y todos los medios de uso que permiten la subsistencia y crecimiento de la economía misma.

Origen de la educación en El Salvador

El sistema educativo en El Salvador tiene su origen al constituirse la República. En 1832, con el Primer Reglamento de Enseñanza Primaria se decreta la Instrucción Pública, la que establece la creación de escuelas primarias en cada municipio del país, que serán financiadas por la municipalidad o en caso de que ésta no estuviera en la posibilidad serían los padres de familia quienes aportarían una contribución de “4 reales”. se celebró el Primer Congreso Centroamericano de Educación en Guatemala en diciembre de 1893. Aunque se revalora la enseñanza de las ciencias no se eliminó las ciencias del espíritu. “El modelo positivista, completado por algunas materias prácticas como el dibujo, la caligrafía, el trabajo manual, la agricultura y el canto, dominó el Plan de Estudios oficial hasta 1940.” Hasta la década del 40 no existía el Ministerio de Educación. La “instrucción elemental” era administrada por la Subsecretaría de Instrucción Pública dependiente del Ministerio de Relaciones Exteriores y Justicia. Esta Subsecretaría contaba con la inspección escolar y con la sección técnica. La primera se encargaba de contratar y supervisar al personal, la segunda se dedicaba a la planificación de los niveles de educación, elaboración de los programas y asesoramiento al Magisterio. Con la creación de la Universidad en Salvador en 1841 se constituye también el sistema educativo en tres niveles: educación primaria, media y superior. Con el Decreto Ejecutivo publicado el 15 de febrero de 1841 bajo el mandato de Don Juan Lindo se crea la educación media (Colegio La Asunción). (Galindo, 2002) La educación en El Salvador es un derecho básico constitucional y el Estado es el encargado de satisfacer la demanda educativa a sus ciudadanos. De acuerdo a la Ley General de Educación de 1990, en el Título III, capítulo I, Artículo 12 establece que, en El Salvador, “la educación Parvularia y Básica serán obligatorias para todos y juntamente con la educación especial serán gratuitas, cuando las imparta el Estado”. El sistema se divide en Educación Formal y Educación Informal y se imparte de forma pública o privada. Los programas son elaborados por el Ministerio de Educación y las escuelas privadas se rigen por los reglamentos del Ministerio. (Cornejo, 2017)

Importancia del gasto publico en educacion

El gasto público es la intervención por parte del sector público de la economía en los aspectos de inversiones y gastos en proyectos sociales o públicos, permitiendo el desarrollo de mecanismos que fortalezcan la economía misma y permitan su crecimiento; con la inversión por parte del gasto publico pueden financiarse proyectos destinados a mejorar la infraestructura, desarrollo vial, proyectos de reforma de los distintos componentes de la economía y en parte de el gasto en educación; el punto central del gasto en educación es un aspecto dedicado a prevalecer las necesidades del estudiante, permitiéndole cumplir los aspectos básicos o necesarios para que tenga las herramientas necesarias para desarrollar con alto grado de oportunidad todos sus aspectos intelectuales y así ir consignando una base sustancial de trabajadores mas preparados y con mejores capacidades. El aspecto del gasto publico logra fortalecer la generación de nuevos recursos productivos, en el caso del gasto en educación, permite la aplicación de fondos públicos destinados a la capacitación y orientación de los trabajadores, mejorando sus bases o creando nuevas bases, esto conllevara a oportunidades de acceso a un mayor nivel de bienestar que permita mejorar la calidad de los recursos humanos en El Salvador.

Al reflejar los aspectos del Gasto Publico en educación puede determinarse una tendencia hacia niveles relativamente bajos de recursos públicos destinados a la educación, en donde se determina un incremento superior al 4% durante los años de 2009 y 2010, esto como llegada del gobierno del FMLN al poder, que determinaron entre sus principales promesas de campaña la implementación de proyectos destinados hacia un sector muy descuidado como es la educación, que en conjunto con políticas publicas y reformas a la educación dictaminaron mejoras, aunque durante un periodo relativamente corto pero que marcaron las riendas a futuras discusiones sobre el manejo de recursos públicos destinados a la educación. (PAULINE MARTIN, 2016)

Situación actual de la educación en El Salvador

La situación de la educación a sido un problema latente en El Salvador desde hace varias décadas, y es que en un largo periodo de tiempo a sido una de las áreas mas deficientes y descuidadas por los gobiernos, con la falta de mejoras e innovaciones que no permiten adaptar el sistema educativo a las necesidades actuales, negando recursos y conocimientos a futuras generaciones por no poder cumplir con los planes presentes de estudio.

Desde la finalización de la guerra han pasado cinco gobiernos que se han encargado de crear planes de estudio y trabajo para el MINEDECYT, no obstante, el Secretario General del Sindicato de Maestras y Maestros de la Educación Pública de El Salvador (SIMEDUCO), expreso que siempre se encuentran problemas porque lo que les interesa a los ministros que han estado en turno es solo anunciar o tomarse la foto que van a hacer una cosa u otra; al final no cumpliendo con ninguno de esos proyectos y retrasando cada vez mas el avance al sistema educativo. ( Aracely Quezada & César Valencia, 2021)

Muchos centros educativos se encuentran en pésimas condiciones, manteniendo problemas desde hace varios años en su infraestructura causado por el deterioro o mal cuido de las instalaciones, y la falta de recursos en muchos centros educativos desde recursos básicos como energía eléctrica o agua potable, hasta falta de presupuesto para material didáctico o compensación al profesorado, que determinan en salarios bajos y pueden afectar el nivel de enseñanza que se imparte.

Algunas escuelas son excepciones a la situación precaria, más que todo institutos de renombre o con historial académico que los beneficia con mayores recursos, otros casos son las escuelas que han logrado cambios significativos en sus instalaciones debido a programas ejecutados por los directores en busca de donaciones y recolecciones de fondos; no obstante la falta de presupuesto para las instituciones es un problema que se suma al sistema educativo, que detiene el avance educativo, pues al no existir las instalaciones adecuadas para la enseñanza y los insumos suficientes, el tratar de implementar una reforma educativa mediante un modelo de educación mas actualizado seria una tarea sin posibilidad de ser completada por las deficiencias mencionadas anteriormente.

Otro aspecto muy importante en la educación salvadoreña, que no es dentro del sistema educativo pero si afecta directamente a los estudiantes, es el tema de la seguridad nacional, y es que es cada vez mayor el numero de familias que no optan por mandar a sus hijos a estudiar debido a que viven en zonas cercanas a las pandillas o que les imposibilita transportarse a otros lugares por temas de territorios controlados por estructuras criminales, de igual forma el tema de las pandillas es un componente alimentado de la misma falta de educación, puesto que son muchos los jóvenes que por diversos motivos abandonan la educación para unirse a estos grupos delictivos, con el fin de tener ya sea compensaciones monetarias o el simple hecho de querer formar parte de ellas, aun así es claro que son muchos los estudiantes que no pudieron optar por educación y terminan ingresando a estas pandillas al no tener mejores opciones para permitirse ingresos hacia ellos o sus familias; la realidad salvadoreña no permite un sistema eficiente de educación, no se cuenta con los recursos suficientes y las familias cada vez se encuentran mas indecisas sobre el panorama presente en el país.

Aunque los gobiernos pueden garantizar educación gratuita y materiales escolares y uniformes para los estudiantes e incluso alimentación, muchas familias no cuentan con recursos suficientes para solventar un gasto de educación, y es que en muchos hogares la necesidad es tal que hasta el mas menor de la casa debe ayudar en los gastos del hogar, esto da origen al trabajo infantil que violenta todo derecho de la niñez, y ocasiona que muchos niños y jóvenes se pierdan de la educación, y es que en su mayoría son las familias de zonas rurales que deben privar a sus hijos del estudio, puesto que no cuentan con recursos suficientes y deben optar por utilizarlos para el trabajo en el hogar o la agricultura, comúnmente se emplea que las familias en zonas rurales ambos padres trabajan y el hijo mayor se queda cuidando de los menores hasta que este tiene edad suficiente para el trabajo de campo y así sucesivamente se van precediendo, en el caso de las niñas indica que la mayoría de casos ella es encargada de los labores del hogar como alimentación y cuido de la familia aun siendo estas edades muy tempranas para que una niña emplee esas labores.

A pesar que se detectó una gran conciencia por enviar a las niñas y niños a la escuela, principalmente en las zonas urbanas del país, lo que es abalado por los datos derivados de la EHPM, la proporción de niños que acceden a la enseñanza es muy limitada. La mayoría de las niñas y niños menores de 6 años no asiste a Parvularia, incluso a pesar de tener acceso a este servicio, puesto que los padres no consideran adecuado que sus hijos e hijas sean cuidados fuera de casa a tempranas edades y van siendo descuidados con la educación de ellos en edades mayores. En este sentido, pareciera que no solo es necesario aumentar la cobertura y acceso de educación Parvularia, sino que también se hace necesario complementar con incentivos adicionales a las familias para que envíen a las niñas y niños pequeños a la escuelas o centros de atención infantil, pues no solo se compromete el desarrollo de los más pequeños, sino a su vez se juega la permanencia de los niños, y en especial de las niñas mayores en el sistema escolar. (Fundación Salvadoreña para el Desarrollo Economico y Social (FUSADES), 2015)

El ingreso y sus teorias

El ingreso es la cantidad de recursos monetarios, dinero, que se asigna a cada factor por su contribución al proceso productivo. El ingreso puede tomar la forma de sueldos y salarios, renta, dividendos, regalías, utilidades, honorarios, dependiendo el factor de producción que lo reciba: trabajo, capital, tierra, etc. A nivel agregado, el ingreso total que se genera en la economía en un periodo determinado de tiempo se le conoce como Producto Interno Bruto (PIB). (Samuelson, 1983)

Tambien se hablara sobre la distribución de este ingreso por lo que por distribución del ingreso entendemos la manera en como se asigna el ingreso generado en la economía entre los distintos factores de la producción, así como entre las familias, entre los distintos sectores de la economía y entre las distintas regiones. Existe tambien la concentración del ingreso se comprende como el fenómeno económico mediante el cual algunos factores productivos (como el capital) o algunas cuantas familias (los ricos) concentran una mayor proporción del ingreso que el resto de los factores o de las familias. Lo anterior se puede deber a que no se retribuye a los distintos factores el ingreso que generan en función de su productividad o a que una proporción de la población está marginada del desarrollo.

El ingreso se distribuye a través del pago a los factores de la producción (trabajo, capital, renta, etc.). Desde un punto de vista ideal, lo justo sería que cada factor recibiera en pago la parte proporcional del ingreso que ayudó a generar. Sin embargo, en la realidad, lo que vemos es que algún factor, generalmente el capital, se apropia de una mayor proporción del ingreso que el resto de los factores, debido a que en este sistema es el capital el que juega el papel de organizador del resto de los factores (“el que parte y comparte se queda con la mayor parte”, dice el dicho popular). (Ricossa, 1990)

El hogar

  • El Hogar: Es la persona o conjunto de personas, sean o no parientes, que residen habitualmente en una misma vivienda particular, ocupándola total o parcialmente; que se rigen por un presupuesto común y que comparten en común sus alimentos.

  • La vivienda: Es todo local formado por un cuarto o conjunto de cuartos estructuralmente separados e independientes, destinados al alojamiento de uno o más hogares.

  • Residente: Es la persona que se aloja en determinada vivienda y ésta le sirve como domicilio permanente (come y duerme).

  • Miembros del hogar: Son todas aquellas personas que comen y duermen habitualmente en el hogar y que han permanecido por lo menos tres, de los 12 meses precedentes a la encuesta.

  • Jefe del hogar: Es la persona a quien los demás miembros del hogar, reconocen como tal.

Conceptos retomados por el Banco Mundial 2002

Determinación de las variables

Endógena

Gasto del hogar en educación

El gasto del hogar en educación es el monto anual por medio del ambio de estudio donde se medira en dolares de los Estados Unidos de America, y tendra relación con el numero de miembros del hago que esten, el ingreso total del hogar, si existe monto de matricula y si gastan anualmente en utiles escolares donde esta variable es cuantitativa continua.

Exógena

Ingreso total del hogar

En este caso el ingreso se determina como el salario o lo que esta persona miembro o miembros de hogar reciben y obtienen de los diferentes medios para su subsistencia donde estos destinaran una parte o no de los ingresos percibidos. Esta variable es cuantitativa continua y sera medida en dolares de los Estados Unidos de America.

Gasto en matricula

El gasto en matricula es la paga unica que se da en las escuelas para que la persona inscrita pueda recibir su educacion en este caso depende si es un lugar privado. La medicion de esta variable sera cuantitativa continua.

Gasto en utiles

El gasto en utiles puede ser los gastos repentinos en que pueden ser compra de cuadernos, lapices entre otros utiles que son utilizados para el estudio en este caso lo que se compro de utiles en el año.

Miembros del hogar

Este sera el numero de miembros que viven en el hogar ya sean hijos e hijas u otros miembros de la familia. Esta variable sera cuantitativa discreta.

Hipótesis del modelo

  • El modelo sera lineal en los parametros es decir que este cumplira con ser un modelo de regresion lineal multiple

  • Los parametros son independientes uno de otros es decir que no existe relaion entre paremetros

  • Este modelo no incorpora datos de series temporales o variables con retardo

Especificación del modelo matematico

Restricciones

Las variables Gasto del hogar en educación \(G\), Ingreso Total del hogar \(m\), Miembros del hogar \(Mh\), Monto anual en matricula \(R\) y Monto anual en utiles \(U\) seran numeros o magnitudes que pueden ser mayores o iguales a \(0\), es decir;

  • \(G \ge 0\) esto se dice que el gasto del hogar en educacion puede ser mayor o igual a cero dolares de los Estados Unidos de America.

  • \(m \ge 0\) esto dice que los ingreso totales de las personas pueden ser mayores o iguales a cero dolares de los Estados Unidos de America.

  • \(Mh > 0\) esto dice que los miembros del hogar que resiendo pueden ser desde una persona a más en donde estar por unidades discretas.

  • \(R \ge 0\) esto dice que el monto anual de la matricula puede ser mayor o igual a cero dolares de los Estados Unidos de America.

  • \(U \ge 0\) esto quiere decir que el monto anual en utiles escolares sera mayor o igual a cero dolares de los Estados Unidos de America.

Modelo Logico

\[G(m,Mh,R,U)\] \[G(+,+,+,+)\]

Siendo todas las variables del modelo aplicando la teoria económica, estas tienen relación directa ante el gasto en educación.

Especificación del modelo estadistico

\[G=\beta_0+\beta_1m+\beta_2Mh+\beta_3R+\beta_4U+\varepsilon\] Siendo:

\(G\) el gasto en educación de las familias salvadoreñas en el año 2020.

\(\beta_0\) el intercepto cuando todas las demas variables son iguales a \(0\).

\(\beta_1\) la variación del gasto en educación respecto al ingreso total del hogar.

\(\beta_2\) la variación del gasto en educación respecto a la cantidad de miembros del hogar.

\(\beta_3\) la variación del gasto en educación respecto al monto anual en matricula.

\(\beta_4\) la variación del gasto en educación respecto monto anual en utiles.

\(\varepsilon\) el termino de error que se compone por las demas variables no estudiadas.

Evidencia empírica del fenomeno economico

library(foreign)
library(magrittr)
EHPM_2020 <-
  read.spss(file = "~/EMA1182022/Datos/EHPM 2020.sav" , to.data.frame = TRUE)

library(dplyr)

EHPM_2020 %>% dplyr::select("gmed","ingfa","r220a2","r220b2","miemh") %>% head(600)->Gasto_Edu
Gasto_Edu[is.na(Gasto_Edu)] <- 0
c(
  "Gasto del hogar en Educacion",
  "Ingreso",
  "Gasto de matricula",
  "Gasto en utiles",
  "Miembros del hogar"
) -> names(Gasto_Edu)
library(printr)
head(Gasto_Edu, 10)
Gasto del hogar en Educacion Ingreso Gasto de matricula Gasto en utiles Miembros del hogar
20.5 188.00 0 0 3
20.5 188.00 0 0 3
20.5 188.00 0 0 3
0.0 326.67 0 0 2
0.0 326.67 0 0 2
48.0 572.00 0 0 4
48.0 572.00 0 0 4
48.0 572.00 0 0 4
48.0 572.00 0 10 4
33.7 470.00 0 0 3

Estimación del modelo

library(stargazer)
Gasto_Educa <-
  lm(formula = gmed ~ ingfa + r220a2 + r220b2 + miemh,
     data = EHPM_2020)

stargazer(Gasto_Educa,
          title = "Modelo de Estimación del gasto en educación",
          type = "html",
          digits = 6)
Modelo de Estimación del gasto en educación
Dependent variable:
gmed
ingfa 0.015551***
(0.003806)
r220a2 0.502328***
(0.026014)
r220b2 0.329335***
(0.056575)
miemh 20.974960***
(2.149181)
Constant -17.549130*
(10.605740)
Observations 1,460
R2 0.296959
Adjusted R2 0.295026
Residual Std. Error 118.153600 (df = 1455)
F Statistic 153.644800*** (df = 4; 1455)
Note: p<0.1; p<0.05; p<0.01

Verificación de los supuestos del MCRLM

Prueba de normalidad para los residuos

library(fitdistrplus)
library(stargazer)
ajuste <- fitdist(data = Gasto_Educa$residuals, distr = "norm")
plot(ajuste)

summary(ajuste)
## Fitting of the distribution ' norm ' by maximum likelihood 
## Parameters : 
##                       estimate Std. Error
## mean  -0.000000000000006699977   3.086919
## sd   117.951112908257783828958   2.182784
## Loglikelihood:  -9036.245   AIC:  18076.49   BIC:  18087.06 
## Correlation matrix:
##      mean sd
## mean    1  0
## sd      0  1

Prueba de normalidad de Jarque-Bera

\(H_0: \varepsilon \sim N(0,\sigma^2)\) : Los residuos siguen una distribución normal

\(H_A: \varepsilon \nsim N(0,\sigma^2)\) : Los residuos no siguen una distribución normal

library(tseries)
jarque.bera.test(Gasto_Educa$residuals)
## 
##  Jarque Bera Test
## 
## data:  Gasto_Educa$residuals
## X-squared = 3916.3, df = 2, p-value < 0.00000000000000022
qqnorm(Gasto_Educa$residuals)
qqline(Gasto_Educa$residuals)

hist(
  Gasto_Educa$residuals,
  main = "Histograma de los residuos",
  xlab = "Residuos",
  ylab = "frecuencia"
) 

A traves de la prueba de normalidad de Jarque-Bera se rechaza la hipotesis nula y se dice que no existe evidencia de que los residuos sigan una distribución normal

Prueba de normalidad de Kolmogorov-Smirnov

\(H_0: \varepsilon \sim N(0,\sigma^2)\) : Los residuos siguen una distribución normal

\(H_A: \varepsilon \nsim N(0,\sigma^2)\) : Los residuos no siguen una distribución normal

library(nortest)
lillie.test(Gasto_Educa$residuals)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Gasto_Educa$residuals
## D = 0.1274, p-value < 0.00000000000000022
qqnorm(Gasto_Educa$residuals)
qqline(Gasto_Educa$residuals)

hist(
  Gasto_Educa$residuals,
  main = "Histograma de los residuos",
  xlab = "Residuos",
  ylab = "frecuencia"
) 

A traves de la prueba de normalidad de Kolmogorov-Smirnov se rechaza la hipotesis nula y se dice que no existe evidencia de que los residuos sigan una distribución normal

Prueba de normalidad de Shapiro-Wilk

\(H_0: \varepsilon \sim N(0,\sigma^2)\) : Los residuos siguen una distribución normal

\(H_A: \varepsilon \nsim N(0,\sigma^2)\) : Los residuos no siguen una distribución normal

shapiro.test(Gasto_Educa$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  Gasto_Educa$residuals
## W = 0.86808, p-value < 0.00000000000000022
qqnorm(Gasto_Educa$residuals)
qqline(Gasto_Educa$residuals)

hist(
  Gasto_Educa$residuals,
  main = "Histograma de los residuos",
  xlab = "Residuos",
  ylab = "frecuencia"
) 

A traves de la prueba de normalidad de Shapiro-Wilk se rechaza la hipotesis nula y se dice que no existe evidencia de que los residuos sigan una distribución normal

Pruebas de multicolinealidad

Calculo de matriz \(X^T \cdot X\)

library(printr)
matX <- model.matrix(Gasto_Educa)
head(matX, n = 10)
(Intercept) ingfa r220a2 r220b2 miemh
25 1 260.00 60 30 4
78 1 3308.33 220 50 6
79 1 3308.33 120 125 6
87 1 1009.67 300 10 3
89 1 420.83 60 45 2
104 1 829.17 30 90 2
106 1 450.00 110 60 3
121 1 1080.00 52 40 4
163 1 626.26 32 30 6
164 1 626.26 32 30 6
matXX <- t(matX) %*% matX
library(printr)
head(matXX)
(Intercept) ingfa r220a2 r220b2 miemh
(Intercept) 1460.0 1476304 167286.1 72512 6415.0
ingfa 1476304.3 2565581722 200111101.9 82439037 6875121.0
r220a2 167286.1 200111102 40902980.0 9292929 727942.1
r220b2 72512.0 82439037 9292929.0 8081948 314199.0
miemh 6415.0 6875121 727942.1 314199 31377.0

Indice de condicion

\(\kappa (x)= \sqrt {\lambda_{max}\over \lambda_{min}}\)

si \(\kappa (x)<20\) : Multicolinalidad leve

si \(20\leq\kappa (x)<30\) : Multicolinalidad moderada

si \(\kappa (x)\geq30\) : Multicolinalidad severa

Normalizando \(X^t \cdot X\)

Calculo de la matriz de normalizacion \(S_n=\begin{Bmatrix} \frac{1}{\sqrt {X^T \cdot X_{ij}}} & ; i=j\\ 0 & ; i\neq j\end{Bmatrix}\)

Sn <- solve(diag(sqrt(diag(matXX))))
head(Sn)
0.0261712 0.0000000 0.0000000 0.0000000 0.0000000
0.0000000 0.0000197 0.0000000 0.0000000 0.0000000
0.0000000 0.0000000 0.0001564 0.0000000 0.0000000
0.0000000 0.0000000 0.0000000 0.0003518 0.0000000
0.0000000 0.0000000 0.0000000 0.0000000 0.0056454
matXXnorm <- (Sn %*% matXX) %*% Sn
head(matXXnorm)
1.0000000 0.7627927 0.6845511 0.6675371 0.9477952
0.7627927 1.0000000 0.6177330 0.5725085 0.7662698
0.6845511 0.6177330 1.0000000 0.5111132 0.6425600
0.6675371 0.5725085 0.5111132 1.0000000 0.6239375
0.9477952 0.7662698 0.6425600 0.6239375 1.0000000

Calculo de indice de condicion

library(mctest)
eigprop(Gasto_Educa)
## 
## Call:
## eigprop(mod = Gasto_Educa)
## 
##   Eigenvalues     CI (Intercept)  ingfa r220a2 r220b2  miemh
## 1      3.7412 1.0000      0.0055 0.0201 0.0227 0.0230 0.0060
## 2      0.4957 2.7472      0.0002 0.0198 0.2686 0.7661 0.0010
## 3      0.4230 2.9738      0.0122 0.0967 0.6719 0.1600 0.0322
## 4      0.2914 3.5831      0.0475 0.8562 0.0007 0.0160 0.0542
## 5      0.0486 8.7711      0.9347 0.0073 0.0361 0.0350 0.9067
## 
## ===============================
## Row 4==> ingfa, proportion 0.856189 >= 0.50 
## Row 3==> r220a2, proportion 0.671894 >= 0.50 
## Row 2==> r220b2, proportion 0.766051 >= 0.50 
## Row 5==> miemh, proportion 0.906675 >= 0.50

Con un indice de \(\kappa (x)=8.7711\) se puede decir que nuestro modelo tiene multicolinealidad leve

Prueba de Farrar-Glaubar

\(H_0: R \sim I\) \(\chi^2_{FG}<VC\) o \(p>\alpha\) : No hay evidencia de multicolinealidad

\(H_A: R \nsim I\) \(\chi^2_{FG}\geq VC\) o \(p\leq\alpha\) : Hay evidencia de multicolinealidad

library(psych)
FG.test<-cortest.bartlett(matX[,-1])
print(FG.test)
## $chisq
## [1] 173.7265
## 
## $p.value
## [1] 0.00000000000000000000000000000000007284817
## 
## $df
## [1] 6
VC<-qchisq(p = 0.95,df = 6)
print(VC)
## [1] 12.59159
print(FG.test$chisq<VC)
## [1] FALSE

Por medio de la prueba de Farrar Glaubar el valor critico es menor al valor calculado por lo que se rechaza la hipotesis nula y se dice que existe evidencia de multicolinealidad

Factores inflacionarios de la varianza (VIF)

library(car)
VIFs <- vif(Gasto_Educa)
print(VIFs)
##    ingfa   r220a2   r220b2    miemh 
## 1.113314 1.053667 1.027274 1.055642
library(mctest)
mc.plot(Gasto_Educa, vif = 2)

Prueba de Heterocedasticidad de White

\(H_0\) Existe Evidencia de que la varianza de los residuos es Homocedastica

\(H_1\) Existe Evidencia de que la varianza de los residuos no es Homocedastica

library(lmtest)
white<-bptest(Gasto_Educa,~I(ingfa^2)+ingfa*r220a2+ingfa*r220b2+ingfa*miemh+I(r220a2^2)+r220a2*r220b2+r220a2*miemh+I(r220b2^2)+r220b2*miemh+I(miemh^2),data = EHPM_2020)
print(white)
## 
##  studentized Breusch-Pagan test
## 
## data:  Gasto_Educa
## BP = 96.619, df = 14, p-value = 0.00000000000002102

Por medio de la prueba de heterocedasticidad de White siendo \(P_{value}<0.05\) se rechaza la hipotesis nula y se dice que la varianza de los residuos no es homocedastica

Pruebas de autocorrelación

Prueba de Durbin-Watson

\(u_i=\rho u_{i-1}+v_i\)

\(H_0 : \rho=0\) : No hay autocorrelación de primer orden en los residuos del modelo

\(H_1 : \rho \neq 0\) : Hay autocorrelación de primer orden en los residuos del modelo

Primer Orden

library(lmtest)
dwtest(Gasto_Educa,alternative = "two.sided",iterations = 1000)
## 
##  Durbin-Watson test
## 
## data:  Gasto_Educa
## DW = 1.0527, p-value < 0.00000000000000022
## alternative hypothesis: true autocorrelation is not 0
library(car)
durbinWatsonTest(Gasto_Educa,simulate = TRUE,reps = 1000)
##  lag Autocorrelation D-W Statistic p-value
##    1       0.4733998      1.052724       0
##  Alternative hypothesis: rho != 0

Por medio de la prueba de Durbin-Watson dado que \(P_{value}<0.05\) se rechaza la hipotesis nula y se dice que existe evidencia de autocorrelación de primer orden

Prueba del multiplicador de Lagrange

\(u_j=\rho_1 u_{i-1}+\rho_2 u_{i-2}+...+\rho_m u_{i-m}+v_i\)

\(H_0 : \rho_1=\rho_2=...=\rho_m=0\): No hay evidencia de autocorrelación de orden “m”, en los residuos del modelo

\(H_1 : \rho_1=\rho_2=...=\rho_m \neq 0\): Hay evidencia de autocorrelación de orden “m”, en los residuos del modelo

Primer Orden

library(lmtest)
bgtest(Gasto_Educa,order = 1)
## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  Gasto_Educa
## LM test = 331.28, df = 1, p-value < 0.00000000000000022

Por medio de la prueba del multiplicador de Lagrange dado que \(P_{value}<0.05\) se rechaza la hipotesis y existe evidencia de autocorrelación de orden 1 en los residuos del modelo

Segundo Orden

library(lmtest)
bgtest(Gasto_Educa,order = 2)
## 
##  Breusch-Godfrey test for serial correlation of order up to 2
## 
## data:  Gasto_Educa
## LM test = 331.28, df = 2, p-value < 0.00000000000000022

Por medio de la prueba del multiplicador de Lagrange dado que \(P_{value}<0.05\) se rechaza la hipotesis y existe evidencia de autocorrelación de orden 2 en los residuos del modelo

Correciones al modelo estimado

Dado a que existe en el modelo hay evidencia de Heterocedasticidad y autocorrelación procedemos a aplicar las correciones correspondientes

Estimación robusta

Estimación del modelo sin corregir

library(lmtest)
library(sandwich)
coeftest(Gasto_Educa)
## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value              Pr(>|t|)    
## (Intercept) -17.5491274  10.6057389 -1.6547                0.0982 .  
## ingfa         0.0155511   0.0038063  4.0857        0.000046348178 ***
## r220a2        0.5023278   0.0260144 19.3096 < 0.00000000000000022 ***
## r220b2        0.3293348   0.0565748  5.8212        0.000000007175 ***
## miemh        20.9749586   2.1491809  9.7595 < 0.00000000000000022 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Estimación con modelo corregido

Solo Homocedasticidad

omega<-vcovHC(Gasto_Educa,type = "HC0")
coeftest(Gasto_Educa,vcov. = omega)
## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value              Pr(>|t|)    
## (Intercept) -17.5491274  10.2659202 -1.7095              0.087580 .  
## ingfa         0.0155511   0.0052115  2.9840              0.002893 ** 
## r220a2        0.5023278   0.0370417 13.5611 < 0.00000000000000022 ***
## r220b2        0.3293348   0.0642689  5.1243          0.0000003387 ***
## miemh        20.9749586   2.4286506  8.6365 < 0.00000000000000022 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como tenemos autocorrelación de segundo orden entonces aplicamos esta corrección

omega<-NeweyWest(Gasto_Educa,lag = 2)
coeftest(Gasto_Educa,vcov. = omega)
## 
## t test of coefficients:
## 
##               Estimate Std. Error t value              Pr(>|t|)    
## (Intercept) -17.549127  14.835236 -1.1829               0.23703    
## ingfa         0.015551   0.006547  2.3753               0.01766 *  
## r220a2        0.502328   0.048176 10.4270 < 0.00000000000000022 ***
## r220b2        0.329335   0.075614  4.3555         0.00001420695 ***
## miemh        20.974959   3.831088  5.4749         0.00000005148 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comparativa de correción

library(robustbase)
Gasto_Educa_robusto<-lmrob(gmed ~ ingfa + r220a2 + r220b2 + miemh,data=EHPM_2020)
print(summary(Gasto_Educa_robusto))
## 
## Call:
## lmrob(formula = gmed ~ ingfa + r220a2 + r220b2 + miemh, data = EHPM_2020)
##  \--> method = "MM"
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -307.337  -46.726   -4.062   63.352  942.763 
## 
## Coefficients:
##              Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  5.770869   9.803313   0.589                0.556    
## ingfa        0.006250   0.003825   1.634                0.102    
## r220a2       0.443133   0.034620  12.800 < 0.0000000000000002 ***
## r220b2       0.317156   0.068186   4.651      0.0000035973038 ***
## miemh       13.304298   1.940218   6.857      0.0000000000104 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Robust residual standard error: 70.78 
##   (35570 observations deleted due to missingness)
## Multiple R-squared:  0.3739, Adjusted R-squared:  0.3722 
## Convergence in 26 IRWLS iterations
## 
## Robustness weights: 
##  42 observations c(36,37,85,86,87,88,89,92,174,175,176,177,335,349,350,374,375,376,416,417,479,480,511,512,513,514,517,518,519,520,552,553,748,749,829,859,979,1133,1335,1336,1372,1373)
##   are outliers with |weight| = 0 ( < 6.8e-05); 
##  104 weights are ~= 1. The remaining 1314 ones are summarized as
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.004156 0.860200 0.947300 0.862500 0.981800 0.999000 
## Algorithmic parameters: 
##        tuning.chi                bb        tuning.psi        refine.tol 
##     1.54764000000     0.50000000000     4.68506100000     0.00000010000 
##           rel.tol         scale.tol         solve.tol       eps.outlier 
##     0.00000010000     0.00000000010     0.00000010000     0.00006849315 
##             eps.x warn.limit.reject warn.limit.meanrw 
##     0.00000002188     0.50000000000     0.50000000000 
##      nResample         max.it       best.r.s       k.fast.s          k.max 
##            500             50              2              1            200 
##    maxit.scale      trace.lev            mts     compute.rd fast.s.large.n 
##            200              0           1000              0           2000 
##                   psi           subsampling                   cov 
##            "bisquare"         "nonsingular"         ".vcov.avar1" 
## compute.outlier.stats 
##                  "SM" 
## seed : int(0)

Comparativa

stargazer(Gasto_Educa,Gasto_Educa_robusto,type = "html",title = "comparativa")
comparativa
Dependent variable:
gmed
OLS MM-type
linear
(1) (2)
ingfa 0.016*** 0.006
(0.004) (0.004)
r220a2 0.502*** 0.443***
(0.026) (0.035)
r220b2 0.329*** 0.317***
(0.057) (0.068)
miemh 20.975*** 13.304***
(2.149) (1.940)
Constant -17.549* 5.771
(10.606) (9.803)
Observations 1,460 1,460
R2 0.297 0.374
Adjusted R2 0.295 0.372
Residual Std. Error (df = 1455) 118.154 70.782
F Statistic 153.645*** (df = 4; 1455)
Note: p<0.1; p<0.05; p<0.01

Pronostico y simulación

Para esta prueba se hara un pronostico si en dado caso las familias tienen un ingreso total del hogar de 365 dolares, pagan un monto anual en matricula de 120 dolares, gastan en promedio en utiles 150 dolares anuales , y son 5 miembros del hogar

library(stargazer)
X_m<-data.frame(ingfa=365,r220a2=120,r220b2=150,miemh=5)

confidense<-c(0.90,0.95,0.975,0.99)

predict(object = Gasto_Educa,
           newdata = X_m,
           interval = "prediction",
           level = confidense,
          se.fit =TRUE)->predicciones
rownames(predicciones$fit)<-as.character(confidense*100)
colnames(predicciones$fit)<-c("Ym","Li","Ls")
stargazer(predicciones$fit,
          title = "Pronósticos e intervalos de confianza",
          type = "html")
Pronósticos e intervalos de confianza
Ym Li Ls
90 202.681 7.826 397.536
95 202.681 -29.548 434.911
97.5 202.681 -62.949 468.311
99 202.681 -102.666 508.029

Script de simulación

library(dplyr)
library(caret)
library(DescTools)
library(stargazer)
set.seed(50)
numero_de_muestras <- 5000
muestras <- Gasto_Edu$`Gasto del hogar en Educacion` %>%
  createDataPartition(p = 0.8,
                      times = numero_de_muestras,
                      list = TRUE)
Modelos_Entrenamiento <- vector(mode = "list",
                                length = numero_de_muestras)
Pronostico_Prueba <- vector(mode = "list",
                            length = numero_de_muestras)
Resultados_Performance_data_entrenamiento <- vector(mode = "list",
                                                    length = numero_de_muestras)
Resultados_Performance <- vector(mode = "list",
                                 length = numero_de_muestras)
for (j in 1:numero_de_muestras) {
  Datos_Entrenamiento <- Gasto_Edu[muestras[[j]],]
  Datos_Prueba <- Gasto_Edu[-muestras[[j]],]
  Modelos_Entrenamiento[[j]] <-
    lm(formula = `Gasto del hogar en Educacion` ~ ., data = Datos_Entrenamiento)
  Pronostico_Prueba[[j]] <-
    Modelos_Entrenamiento[[j]] %>% predict(Datos_Prueba)
  Resultados_Performance_data_entrenamiento[[j]] <- data.frame(
    R2 = R2(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    ),
    RMSE = RMSE(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    ),
    MAE = MAE(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    ),
    MAPE = MAPE(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    ) * 100,
    THEIL = TheilU(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`,
      type = 1
    ),
    Um = Um(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    ),
    Us = Us(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    ),
    Uc = Uc(
      Modelos_Entrenamiento[[j]]$fitted.values,
      Datos_Entrenamiento$`Gasto del hogar en Educacion`
    )
  )
  Resultados_Performance[[j]] <- data.frame(
    R2 = R2(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    ),
    RMSE = RMSE(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    ),
    MAE = MAE(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    ),
    MAPE = MAPE(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    ) * 100,
    THEIL = TheilU(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`,
      type = 1
    ),
    Um = Um(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    ),
    Us = Us(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    ),
    Uc = Uc(
      Pronostico_Prueba[[j]],
      Datos_Prueba$`Gasto del hogar en Educacion`
    )
  )
}

Resultados de la simulación

bind_rows(Resultados_Performance_data_entrenamiento) %>% 
  stargazer(title = "Medidas de Performance Datos del Modelo",
            type = "html",
            digits = 3)
Medidas de Performance Datos del Modelo
Statistic N Mean St. Dev. Min Max
R2 5,000 0.234 0.033 0.098 0.352
RMSE 5,000 51.388 2.084 40.762 55.743
MAE 5,000 30.564 1.059 26.433 33.728
MAPE 5,000 Inf.000 Inf Inf
THEIL 5,000 0.474 0.015 0.419 0.529
Um 5,000 0.000 0.000 0 0
Us 5,000 0.351 0.033 0.256 0.523
Uc 5,000 0.651 0.033 0.479 0.746
bind_rows(Resultados_Performance) %>% 
  stargazer(title = "Medidas de Performance Simulación",
            type = "html",
            digits = 3)
Medidas de Performance Simulación
Statistic N Mean St. Dev. Min Max
R2 5,000 0.205 0.119 0.00005 0.618
RMSE 5,000 52.608 8.448 29.508 117.795
MAE 5,000 31.184 3.079 21.250 51.475
MAPE 5,000 Inf.000 Inf Inf
THEIL 5,000 0.488 0.050 0.325 0.640
Um 5,000 0.008 0.012 0.000 0.140
Us 5,000 0.332 0.179 0.00001 0.745
Uc 5,000 0.669 0.175 0.249 1.007

Hipotesis de los parametros

Ingresos de las familias

\(H_0\) Los ingresos de las familias tienen una relación lineal parcial con la variable gasto en educación

\(H_A\) Los ingresos de las familias no tienen una relación lineal parcial con la variable gasto en educación

Gasto anual en matricula

\(H_0\) El gasto anual en matricula tiene una relación lineal parcial con la variable gasto en educación

\(H_A\) El gasto anual en matricula no tiene una relación lineal parcial con la variable gasto en educación

Gasto anual en utiles escolares

\(H_0\) El gasto anual en utiles escolares tiene una relación lineal parcial con la variable gasto en educación

\(H_A\) El gasto anual en utiles escolares no tiene una relación lineal parcial con la variable gasto en educación

Miembros de la familia

\(H_0\) Los miembros de la familia tienen una relación lineal parcial con la variable gasto en educación

\(H_A\) Los miembros de la familia no tienen una relación lineal parcial con la variable gasto en educación

Generación e interpretación de los intervalos de confianza para los parametros

confint(Gasto_Educa, level = 0.95)
2.5 % 97.5 %
(Intercept) -38.3532998 3.2550449
ingfa 0.0080847 0.0230174
r220a2 0.4512980 0.5533576
r220b2 0.2183580 0.4403116
miemh 16.7591344 25.1907827

Con una confianza del 0.95% para todas las variables no se rechaza la hipotesis nula y se dice que, el ingreso de las familias, el gasto en utiles, el gasto en matricula y los miembros de la familia tienen una relación lineal parcial con el gasto en educación

Bibliografia