Indice

Introducción

Objetivos

Objetivos General

Objetivos Especifico

Justificación

1.0 Marco Teórico y Referencial

2.0 Especificación

2.1 Planteamiento del problema

2.1.1 Variable endógena y Variables Exógenas

2.1.2 Relación funcional entre las variables

2.1.3 Variable Endógena

2.1.4 Variables Exógenas

2.1.5 Hipótesis

2.2 Especificación del modelo matematico y estadistico

2.2.1 Modelo Matemático

2.2.2 Restricciones de los párametros

2.2.3 Modelo Estadístico

3.0 Estimacion del modelo

3.1 Modelo Estimado

3.2 Verificación de supuestos del MCRLM

3.2.1 Pruebas de Normalidad

3.2.2 Pruebas de Multicolinealidad

3.2.3 Pruebas de Heterocedasticidad

3.2.4 Pruebas de autocorrelación

3.3 Correciones al modelo Estimado

3.4 Analisis de Simulación

3.4.1 Resultados de la Simulación y lectura del performance

3.5 Prueba de Hipotesis del Modelo

4 Proyecciones y analisis de Resultados

Anexo

Bibliografía

Introducción

La regresión lineal múltiple permite generar un modelo lineal en el cual, el valor de la variable endógena o variable explicada (Y) es determinada por un conjunto de variables independientes o variables explicativas.

                                    (X1, X2, X3)

Este modelo es una extensión de la regresión lineal simple y a diferencia de este, el análisis de regresión lineal múltiple se aproxima más a situaciones de análisis verdadero y real debido a la existencia de aquellos fenómenos, sucesos, y hechos sociales que son complejos y por lo tanto deben de explicarse por una serie de variables que participan en su realización. Este modelo de regresión tiene la forma:

                                   Yi=(B0+B1X1+ B2X2+…. BnXn)+ ε.

Donde:

B0: Es la ordenada en el origen, es decir, el valor de la variable endógena cuando todos los predictores son cero.

B1: Es el efecto promedio que tiene el incremento en una unidad de la variable explicativa sobre la variable endógena, manteniéndose constantes el resto de las variables. Se conocen como coeficientes parciales de regresión.

ε: Es el residuo o error, es decir, la diferencia entre el valor observado y el estimado por el modelo.

Por lo anteriormente expuesto, el presente trabajo muestra las etapas de construcción del Modelo Clásico de Regresión Lineal Múltiple, esta fase contempla la especificación del modelo, en la cual, dado al fenómeno planteado “análisis del desempleo en El Salvador, una afectación producto de la crisis provocada por el covid-19 para el área de San Salvador en el año 2020”, se identifica a la variable endógena (Estado ocupacional agregado) y se identifican diversos regresores representativos que explicarán a dicha variable dependiente (Suma del ingreso total, Ingreso del hogar por remesas monetarias, segmentación laboral urbano).

Además, se presentarán las hipótesis que relacionan a las variables y se indicará el modelo matemático y estadístico a utilizar junto a las restricciones respectivas esperadas en los parámetros estimados. Finalmente, se presentará la evidencia empírica, es decir, los datos de las variables del modelo propuesto en conjunto a un breve análisis que describa cada variable explicativa.

Objetivos

Objetivos General

• Modelar los determinantes del estado ocupacional agregado de San Salvador, El Salvador, durante el año 2020, mediante la construcción y análisis de un modelo de regresión lineal múltiple que garantice las proyecciones en la formulación de pronósticos y parámetros de importancia para el estudio.

Objetio Especifico

• Determinar el nivel de significancia que las variables; suma del ingreso total, segmentación del mercado urbano e ingreso del hogar por remesas, tienen sobre la variable a explicar estado ocupacional agregado.

• Interpretar y analizar los resultados obtenidos en la relación existente entre las variables que explicaran el valor obtenido del estado ocupacional agregado en San Salvador, El Salvador durante el año de 2020

Justificación.

El modelo de regresión lineal múltiple permite conocer el comportamiento de las variables, determinando así la relación causa-efecto entre la variable dependiente (estado ocupacional agregado) y las variables independientes (suma del ingreso total, segmentación del mercado urbano e ingreso del hogar por remesas).

La información que se busca al conocer el valor del estado ocupacional agregado durante el año 2020 es que, a partir de la creación de un modelo de regresión lineal múltiple para estos valores, permitirá comprender de manera más exacta y precisa las características con las que se debe interactuar y así definir las variables necesarias que intervienen de manera directa en el proceso de estado ocupacional agregado en la población, para que de esta forma se permita predecir los valores que determinaran el comportamiento de dichas variables dentro de periodo antes ya establecido, el cual es importante mencionar, es conocido como el año en el que la pandemia Covid-19 tuvo su mayor auge.

El presente estudio busca, por tanto, mediante la aplicación de la teoría y conceptos básicos de regresión lineal múltiple, generar un pronóstico junto a una solución óptima para mejorar dicho pronóstico del estado ocupacional agregado.

1.Marco Teórico y Referencial

Concepto de desempleo

Situación en la que se encuentran las personas que teniendo edad, capacidad y deseo de trabajar no pueden conseguir un puesto de trabajo viéndose sometidos a una situación de desocupación forzosa.

El desempleo se genera por la producción y reproducción de capital y a su vez a la acumulación del capital, esto genera en la población desempleados crónicos, flotantes e intermitentes, pues esta producción, reproducción y acumulación del capital genera ejércitos industriales de reserva, que son la mano de obra disponible para el proceso de producción capitalista. La solución según Marx, el Estado debe regular y distribuir los recursos, con participación del proletariado o de los obreros para realizar una producción planificada.

-Karl Marx (1818–1883)

El desempleo en El Salvador__

Durante la pandemia de covid-19 se presenta un desafío histórico a nivel mundial, y El Salvador no es la excepción, en el presente trabajo nos enfocaremos en explicar el desempleo cuáles fueron sus causas y consecuencias en la población, específicamente en el departamento de San Salvador para el año 2020 ya que en ese año se propagó de forma acelerada el covid-19.

El covid-19 en El Salvador claramente afectó a muchas personas en las diferentes áreas de sus vidas, las empresas tuvieron una enorme crisis económica generando por lo tanto el desempleo, donde muchas familias se vieron afectadas económicamente ya que no obtenían los suficientes ingresos para comprar la canasta básica, y mucho menos en ese tiempo ya que los precios de los productos se elevaron y se escasearon debido a la falta de producción.

En San Salvador debido a que es un municipio donde hay mucho comercio se vio afectado el sector formal e informal impactando así el desempleo y la economía, se adoptaron medidas de restricción a la movilidad de las personas como una manera de contener los niveles de contagio. De igual manera esto se realizó con la finalidad de que algunas empresas aún pudieran continuar con la elaboración de productos de consumos alimenticios y poder solventar la escasez, sin embargo, estas medidas no fueron del todo efectivas debido a que las personas en ese tiempo no podían trasladarse de un lugar a otro porque no había transporte público, esta situación tuvo efectos negativos en la producción y el consumo que, a su vez, generaron pérdidas de trabajo.

Para estudiar más a fondo el caso del desempleo en San Salvador nos enfocaremos en la variable endógena y las variables exógenas con las cuales se hará una relación para comprender a profundidad el problema determinado. Como variable endógena tenemos: El Estado Ocupacional Agregado y la cual consiste en evaluar el estado en el que se encuentran las personas es decir a la cantidad de personas que están activas e inactivas y los desocupados en el sector trabajo. Las variables exógenas son: Suma de Ingreso Total, Ingreso del Hogar por Remesas Monetarias y Segmentación del Mercado Laboral Urbano.

La variable endógena del Estado Ocupacional Agregado nos ayudará a conocer la situación de las personas inactivas, en nuestra muestra de 266 personas 124 personas están inactivas se debe a diferentes razones ya que unas no están interesadas en trabajar porque ya son adultos mayores es decir ya están jubilados, otros solo estudian y en otros casos reciben un porcentaje de remesas y no tienen el interés de trabajar, esto genera un alto porcentaje de personas inactivas, por otra parte la muestra nos brindó un resultado de 94 personas en el sector formal los cuales reciben su salario de forma estable, sin embargo, en el área de servicio domésticos la muestra nos brindó un total de 4 personas donde el ingresos puede variar mensualmente de acuerdo a los día laborados en la semana y por último dentro de la muestra está la etiqueta de nunca a trabajado la cual arrojó un total de 3 personas puede ser por diversas razones entre estas están que no encuentran empleo, no tienen suficiente educación o no quieren trabajar.

En la suma total del ingreso está claro que el total de ellas no alcanza para lo que el gobierno implementa respecto al precio de la canasta básica y suplir las necesidades de los salvadoreños ya sea por el número de personas que residen en una vivienda, por ejemplo, si solo una persona trabaja pero residen cinco en total, el dinero no es suficiente para abastecer la canasta básica para el año 2020 en El Salvador, la cual tuvo un valor de 202.00 de dolares y el salario mínimo es de 304.36 dolares esto por el sector formal y tomando en cuenta que se deben pagar otros servicios en el hogar, si la persona tiene un trabajo informal probablemente los ingresos sean menores, por lo que en ese tiempo las familias se tuvieron que limitar económicamente.

Causas del desempleo en la población de San Salvador

● Poca circulación de transporte público.

● Reducción de consumo en algunos productos (ropa, zapatos, ect).

● Adaptación a la tecnología (teletrabajo).

● Falta de insumo en las empresas.

● Crisis económica o financiera en algunas empresas.

● Desastres naturales.

Consecuencias del desempleo en la población de San Salvador

● Disminución en la calidad de vida.

● Ansiedad y problemas psicológicos.

● Trabajadores con bajo rendimiento.

● Aumento de las desigualdades sociales.

● Desempleo en el sector turismo.

● Las personas se ven obligadas a emigrar.

Medidas implementadas por el gobierno para erradicar el desempleo durante la pandemia covid-19 en el municipio de San Salvador

● Implementación de cuarentena domiciliaria y cierres de fronteras

● Para circular se tenía que presentar una carta firmada por la empresa del trabajador.

● Uso estrictamente obligatorio de mascarilla.

● Medidas preventivas para hacer las compras del hogar por la terminación de DUI.

● Beneficio de 300 dólares.

● Beneficio de canasta básica.

● El gobierno brindó un subsidio a empresas.

● Kit de emergencia por covid-19.

¿Cómo lograron generar ingresos personas desempleadas por el covid 19?

● Remesas: Algunas personas se mantenían por las remesas de algunos familiares, porque el trabajo que tenían era del sector informal y no podían subsistir con dicho trabajo porque no generaban los ingresos necesarios para comprar la canasta básica.

● Emprendimientos: Al ser retirados del trabajo se vieron en la necesidad de emprender y generar ingresos para sus familias, por lo que algunos decidieron poner su pequeño negocio de verduras, antojitos, trabajos de encomendistas, etc.

● Vender objetos materiales o bienes inmuebles: Por la necesidad que estaban enfrentando en ese tiempo tuvieron que deshacerse de objetos materiales o bienes inmuebles como carros, terrenos, puestos de venta (chalets), accesorios de oro, plata, etc.

● Pensiones: La única forma de obtener ingresos por parte de algunas personas era por medio de las pensiones, era un enorme beneficio puesto que en nuestro país muy pocas personas logran ese objetivo ya que es su “único” boleto para subsistir después de haber trabajado durante largos años de sus vidas.

● Indemnización: Debido al desempleo que se generó algunas empresas optaron por indemnizar a los empleados, así que de esta forma se podían mantener para pagar las cuentas, alquileres u otros servicios.

● Préstamos bancarios: Al no ver ingresos las personas decidieron adquirir préstamos bancarios con una tasa de interés elevada que probablemente la estarán pagando durante muchos años, pero por la necesidad de llevar ingresos al hogar tuvieron que decidir hacer el préstamo.

2. Especificación

2.1 Planteamiento del problema

El desempleo es un fenómeno social que afecta de manera negativa a todas las personas de nuestro país en diferentes aspectos de la vida diaria. La tasa de desempleo aumenta cada día generando trastornos a todo nivel. Durante la pandemia de covid-19 el desempleo aumentó a gran escala causando una crisis económica en la población del municipio de San Salvador debido a que no se tienen los suficientes ingresos y por lo tanto no tiene una mejor calidad de vida, ya que aumentó el desempleo en el sector informal.

Es por eso que contemplamos la necesidad de estudiar a profundidad esta problemática y cómo fue afectada la producción de las empresas a causa del desempleo provocado por el covid-19, partiendo de esta situación analizaremos el comportamiento de los determinantes que han tenido efectos económicos y sociales como lo son, el ingreso per cápita, la población ocupada en el sector informal de la economía o tasa de ocupados, las remesas, las tasa de subempleo, las tasa de desempleo y personas desempleadas, esto con la finalidad de saber las consecuencias que produjo el covid-19 a la población de San Salvador esto se logra a través de una base de datos llamada Encuesta de Hogares de Propósitos Múltiples (EHPM) la cual de a obtenido del sitio web de Dirección General de Estadística y Censos de El Salvador (DIGESTYC).

La variable endógena utilizada por la que nos estaremos guiando para obtener los datos necesarios en nuestro modelo será el Estado Ocupacional Agregado con la cual explicaremos el estado en que se encuentran las personas, dentro de estas se encuentran las personas ocupadas es la que actualmente se encuentra laborando con un salario remunerado, las personas desocupadas son las que no cuentan con un empleo, sin embargo desean trabajar y tienen la edad para hacerlo, y las personas inactivas son las personas que no están disponibles para trabajar, en esta categoría entran las personas jubiladas, estudiantes, amas de casa, otros.

Tomando en cuenta la muestra de 266 personas y la relación entre la variable endógena con las variables exógenas.

2.1.1 Variable endógena y Variables Exógenas

Una vez que se ha determinado cuidadosamente el objeto de investigación, el siguiente paso es elegir las variables relevantes por conveniencia en el modelo. La elección correcta de las variables determinará en gran medida la capacidad del modelo para explicar el fenómeno económico.

La siguiente clasificación de las variables corresponde a los criterios establecidos por la Encuesta de Hogares de Propósitos Múltiples (EHPM) a través de la Dirección General de Estadística y Censos (DIGESTYC) publicado, Delgado - El Salvador 2021

Variable endógena

Se trata de la variable que se obtiene como resultado a partir de la combinación de una seria de variables. Es la variable explicada o dependiente.

Estado Ocupacional Agregado

El estado ocupacional agregado evalúa el estado en el que se encuentran las personas es decir a la cantidad de personas que están activas e inactivas y los desocupados en el sector trabajo.

Variables exógenas

Estas variables consideradas en el modelo son explicativas o independientes, de las cuales podemos destacar:

Suma del Ingreso Total

Consiste en la suma de todos los ingresos recibidos por los integrantes del hogar en un periodo determinado de tiempo. Se realizó la sumatoria de las variables de “Ingreso Total por Persona” e “Ingreso por trabajo dependiente o empleo independiente” para no perder datos y sea más concreto nuestra base de datos por conveniencia del modelo.

Ingresos del Hogar por Remesas Monetarias

Las remesas son útiles en El Salvador para aminorar los efectos negativos del creciente déficit comercial, sirven en general para recaudar más impuestos por el efecto que tienen las remesas en el consumo y más recientemente sirven a los gobiernos como garantía para recaudar fondos.

Segmentación del mercado Laboral Urbano

La segmentación del mercado laboral consiste en la sección de trabajo que se encuentran los individuos estos pueden pertenecer a los sectores formal e informal, servicios domésticos, si está inactivo o nunca ha trabajado.

2.1.2 Relación funcional entre las variables

En esta sección se realiza una especificación funcional de las variables seleccionadas, se hace referencia al comportamiento de estas dentro del modelo en términos de dirección con respecto a la variable explicada o endógena, es decir si se trata de una relación directa o inversa, que, además, brinda información sobre los signos esperados de estas.

Relación entre estado ocupacional agregado e ingreso del hogar por remesas

Existe una relación directamente proporcional entre las dos variables. Si las remesas aumentan, el estado ocupacional aumentaría, al ser las mismas ingresos no laborales generan un impacto negativo sobre el estado ocupacional agregado pues desincentivan a la búsqueda de trabajo (aumento de inactividad) debido a que las familias cubren sus necesidades sin la obligación de vender su fuerza de trabajo.

Relación entre estado ocupacional agregado y segmentación del mercado laboral.

Existe una relación directamente proporcional entre ambas variables. Si la segmentación del mercado mejora (incrementa), esto sería reflejado en una mejora (aumento) en el estado ocupacional de la población, caso contrario, existiría un aumento de desocupados en el mercado laboral, lo que provocaría una caída.

Relación entre estado ocupacional agregado y suma del ingreso total.

Existe una relación inversa entre las dos variables. Si la suma de los ingresos totales de los individuos incrementa, reflejaría una disminución en la oferta laboral de las personas, como consecuencia de que los ingresos que perciben son suficientes para cubrir sus necesidades (por lo que sustituyen ocio por trabajo), dicha situación se vería reflejado en el aumento de los inactivos, perjudicando de esta manera el estado ocupacional agregado.

2.1.3 Variable Endógena

  • Estado Ocupacional Agregado

2.1.4 Variables Exógenas

  • Suma del Ingreso Total.

  • Segmentacion del Mercado Urbano

  • Ingreso del Hogar por Remesas

2.1.5 Hipotesis

H0: No existe evidencia de una relación lineal entre Estado Ucupacional Agregado y todas su variables exógenas (explicativas)

H1: Existe evidencia de una relación lineal entre Estado Ucupacional Agregado y todas su variables exógenas (explicativas)

Hipótesis del modelo:

H1: Se dice que el modelo es lineal en los parámetros en relación con la variable endógena (a explicar) y variables exógenas (explicativas), se determina de la forma:

                               Ŷ = X1β1 + X2β2 + X3β3+. . . Xn βn xn + ε

H2: Grados de libertad positivos, es decir,

                               gl = n − k >= 0

H3: No existe una relación lineal perfecta entre algunas o todas las variables explicativas del modelo (no multicolinealidad).

H4: El modelo presenta parámetros constantes, es decir, que no cambian en el tiempo.

H5: Los residuos (el error) tiene distribución normal media de 0 y varianza constante para que sigma cuadrada tenga significancia en el modelo.

2.2 Especificación del modelo matemático y estadístico

2.2.1 Modelo Matematico

β0 Ya definida nuestra variable endógena y las variables exógenas es necesario la construcción del modelo matemático para lo cual es necesaria representarlo de la siguiente forma.

                               D = β0 + β1*SIT + β2*IREFA + β3*SEGM

Donde:

β0= Estado Ocupacional Agregado SIT= Suma del Ingreso Total IREFA= Ingreso del Hogar por Remesa SEGM= Segmentacion del Mercado Laboral Urbano

2.2.2 Restricciones de los párametros

La Restricción de los párametros será:

                               β0 = β1 = β2 = β3 = β4 = β5 = 0
                               

Está restricción supone que las variables independientes no manifiestan ningún tipo de influencia sobre la variable dependiente. Esto confirma que el modelo puede ser estudiado estadisticamente y aplicar el test de significancia global al modelo.

2.2.3 Modelo Estadistico

ya construido anteriormente nuestro modelo matemático, es necesario construir nuestro modelo estadístico ,para ello agregamos el error E , por tanto el modelo estadístico quedaría de la siguiente manera:

                               D = β0 + β1*SIT + β2*IREFA + β3*SEGM + E
                               
                               

3. Estimacion del Modelo

El segundo avance, implica la estimación del modelo propuesto y la revisión de los supuestos del MCRLM.

library(haven)
san_salvador_datos_2020 <- read_sav("C:/Users/usuario/Downloads/san_salvador_datos_2020 (1).sav")
head(san_salvador_datos_2020,n = 10)

Se cargo la base de datos tomada de EHPM 2020 la cual se depuro para convinencia del modelo tomando como base el Area Metroplitana con una muestra de 265 observaciones

3.1 Modelo Estimado

library(stargazer, verbose = FALSE)
## 
## Please cite as:
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
options(scipen = 9999)
modelo_lineal<-lm(formula = actpr2012~irefa+segm+sum_ingreso_total,data = san_salvador_datos_2020)
stargazer(modelo_lineal,title = "Regresión Multiple",type = "html", digits = 8)
Regresión Multiple
Dependent variable:
actpr2012
irefa -0.00012924
(0.00121078)
segm 5.38460100***
(0.08232953)
sum_ingreso_total 0.00027419***
(0.00009706)
Constant 2.52952300***
(0.32863860)
Observations 255
R2 0.95454530
Adjusted R2 0.95400210
Residual Std. Error 2.13598700 (df = 251)
F Statistic 1,756.99500000*** (df = 3; 251)
Note: p<0.1; p<0.05; p<0.01

En la estimacion del modelo planteado se han escogido las variables mas relevantes:

actpr2012: Estado ocupácional agregado

irefa: Ingreso del hogar por remesas

segm: Segmentacion del mercado laboral

sum_ingreso_total:Suma del Ingreso Total

3.2 Verificación de supuestos del MCRLM

La validez del método estadístico que se utilizará para el análisis de regresión depende de varios supuestos. Estos se convierten en premisas para el modelo y los datos esencialmente. La calidad de las inferencias estadísticas depende en gran medida de si estos supuestos se cumplen o no. También es importante determinar las situaciones en las que es posible que los supuestos no se cumplan.

3.2.1 Pruebas de Normalidad de los Residuos

La normalidad es uno de los supuestos de muchas pruebas estadísticas, como la prueba t o la prueba F. En términos generales las pruebas de normalidad comparan las puntuaciones de la muestra con un conjunto de puntuaciones distribuidas normalmente con la misma media y desviación estándar.

Para ello se hará uso de las siguientes pruebas formales: Jarque-Bera (JB), Kolmogorov Smirnov (KS) y Shapiro Wilk (SW)

Prueba de Normalidad de Jarque - Bera

options(scipen = 9999)
library(normtest) #Carga los comandos para las pruebas de normalidad
jb.norm.test(modelo_lineal$residuals) #Ejecuta la prueba de Jarque -Bera
## 
##  Jarque-Bera test for normality
## 
## data:  modelo_lineal$residuals
## JB = 261.13, p-value < 0.00000000000000022
qqnorm(modelo_lineal$residuals)
qqline(modelo_lineal$residuals)

hist(modelo_lineal$residuals,main = "Histograma de los residuos",xlab = "Residuos",ylab = "frecuencia") 

Al realizar la prueba de Jarque-Bera se rechaza la hipotesis nula ya que el estadistico calculado es mayor al valor critico, haciendo uso del p-value los residuos no tienen una distribucion normal

Prueba de Normalidad de Kolmogorov - Smirnov

options(scipen = 9999)
library(nortest)  #Carga los comandos para las pruebas de normalidad
lillie.test(modelo_lineal$residuals) #Ejecuta la prueba KS, con la corrección de Lilliefors
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo_lineal$residuals
## D = 0.35686, p-value < 0.00000000000000022
qqnorm(modelo_lineal$residuals)
qqline(modelo_lineal$residuals)

hist(modelo_lineal$residuals,main = "Histograma de los residuos",xlab = "Residuos",ylab = "frecuencia") 

Al realizar la prueba de Kolmogorov-Smirnov se puede decir que se rechaza la hipotesis nula ya que el p-value es menor que el nivel de significancia y los residuos no se distribuyen con una distribucion normal con media 0 y varianza homocedástica

Prueba de Normalidad de Shapiro - Wilk

options(scipen = 9999)
shapiro.test(modelo_lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_lineal$residuals
## W = 0.71692, p-value < 0.00000000000000022

Al realizar la prueba de Shapiro-Wilk se puede decir que no rechazo la hipotesis alternativa ya que los residuos no provienen de una distribucion normal

3.2.2 Prueba de Multicolinealidad”

El término multicolinealidad fue utilizado por primera vez por Ragnar Frisch. Describe una relación perfecta o exacta entre las variables explicativas de regresión. El análisis de regresión lineal asume que no existe una relación exacta perfecta entre las variables explicativas

Cálculo del Indice de Condición usando librería “mctest”

library(mctest)
X_mat<-model.matrix(modelo_lineal)
mctest(mod = modelo_lineal)
## 
## Call:
## omcdiag(mod = mod, Inter = TRUE, detr = detr, red = red, conf = conf, 
##     theil = theil, cn = cn)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.7731         0
## Farrar Chi-Square:        64.8946         1
## Red Indicator:             0.2854         0
## Sum of Lambda Inverse:     3.5644         0
## Theil's Method:           -1.4564         0
## Condition Number:          4.9795         0
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

Cálculo del Indice de Condición usando librería “olsrr”

library(olsrr, verbose = FALSE)
## 
## Attaching package: 'olsrr'
## The following object is masked from 'package:datasets':
## 
##     rivers
ols_eigen_cindex(model = modelo_lineal)

Prueba de Farrar-Glaubar

Esta prueba identifica si a nivel poblacional, los regresores del modelo presentan independencia estadistica (son ortogonales), a través de la matriz de correlación muestral R, y se verifica si a nivel poblacional dicha matriz de correlación corresponde a una matriz identidad, las hipótesis de la prueba son las siguientes:

H0: R∼I

H1: R≁I

Si no se rechaza H0, no hay evidencia de multicolinealidad, caso contrario Si se rechaza H0 hay evidencia de multicolinealidad

Cálculo de FG usando “mctest”

library(mctest)
mctest::omcdiag(mod = modelo_lineal)
## 
## Call:
## mctest::omcdiag(mod = modelo_lineal)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.7731         0
## Farrar Chi-Square:        64.8946         1
## Red Indicator:             0.2854         0
## Sum of Lambda Inverse:     3.5644         0
## Theil's Method:           -1.4564         0
## Condition Number:          4.9795         0
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

Cálculo de FG usando la “psych”

library(psych, verbose = FALSE)
options(scipen = 9999)
FG_test<-cortest.bartlett(X_mat[,-1])
## R was not square, finding R from data
print(FG_test)
## $chisq
## [1] 64.89461
## 
## $p.value
## [1] 0.00000000000005283274
## 
## $df
## [1] 3

Si p ≤ α es significa que se rechaza H0 hay evidencia de multicolinealidad

Valor Critico

VC_FG <- qchisq(0.05, FG_test$df,
lower.tail = FALSE)
print(VC_FG)
## [1] 7.814728

Regla de desición:

Como χ2FG≥V.C. se rechaza Ho, por lo tanto hay evidencia de colinealidad en los regresores

Factores Inflacionarios de la Varianza (FIV)

Los denominados, variance inflation factor (VIF), por sus siglas en inglés, determinan el tamaño relativo de la varianza del j-ésimo parámetro estimado, respecto a la varianza esperada del estimador en ausencia de colinealidad.

Cálculo de los VIF’s usando “performance”

library(performance)
VIFs<-multicollinearity(x = modelo_lineal,verbose = FALSE)
VIFs
plot(VIFs)

No hay problema en la colinealidad las variables se encuentran en el umbral leve ya que estas condiciones son menores a 5 según el argumento de la librería performance.

Cálculo de los VIF’s usando “car”

library(car, verbose = FALSE)
VIFs_car<-vif(modelo_lineal)
print(VIFs_car)
##             irefa              segm sum_ingreso_total 
##          1.036823          1.279225          1.248322

Cálculo de los VIF’s usando “mctest”

library(mctest)
mc.plot(mod = modelo_lineal,vif = 2)

Aquellas variables que tengan un VIF superior al umbral que se deteremino se considera para su exclusion del modelo en este caso escogemos el vif 2 y se observar que la colinealidad es baja.

3.2.3 Pruebas de heterocedasticidad

Pruebas de Durbin Watson y Multiplicador Lagrange

Corresponde a la situación en la que varianza del término de error de la ecuación estimada, no es constante.

Bajo la presencia de Heterocedascidad la matriz de Varianza Covarianza, es no escalar

Prueba de white

Criterio de decisión:

  • Rechazar H0 sí LMW ≥ VC

  • Rechazar H0 sí Pvalue ≤ α

library(skedastic)
options(scipen = 9999)
white_lm(modelo_lineal, interaction=FALSE)

Como PValue < 0.05 Se rechaza la H0, por lo tanto no hay evidencia de que la varianza de los residuos es homocedástica.

3.2.4 Pruebas de autocorrelación

Prueba de Durbin- Watson

Autocorrelacíon de 1° orden

La autocorrelación corresponde a la presencia de asociación entre los valores precedentes de las observaciones de una variable o serie temporal.

Prueba de Durbin- Watson

Hipótesis de la prueba:

H0:ρ=0

“No hay evidencia de autocorrelación de primer orden, en los residuos del modelo”

H1:ρ≠0

“Hay evidencia de autocorrelación de primer orden, en los residuos del modelo”

library(lmtest, verbose = FALSE)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
dwtest(modelo_lineal,alternative = "two.sided", iterations = 5000)
## 
##  Durbin-Watson test
## 
## data:  modelo_lineal
## DW = 2.1022, p-value = 0.4376
## alternative hypothesis: true autocorrelation is not 0

El Pvalue es mayor que el nivel de significancia el Pvalue cae en la zona de no rechazo de la Ho. Nuestro modelo no tiene problemas de autocorrelación ni positiva ni negativa.

library(car)
durbinWatsonTest(modelo_lineal,simulate=TRUE, reps=5000)
##  lag Autocorrelation D-W Statistic p-value
##    1     -0.05134061      2.102233  0.4508
##  Alternative hypothesis: rho != 0

En ambos casos, se puede rechazar la presencia de autocorrelación (No se rechaza la H0), ya que el pvalue>0.05

Autocorrelacíon de 2° orden

Prueba del Multiplicador de lagrange

Hipótesis de la prueba:

H0:ρ1=ρ2=ρ3=⋯=ρm=0

“No hay evidencia de autocorrelación de orden “m”, en los residuos del modelo”

H1:ρ1=ρ2=ρ3=⋯=ρm≠0

“Hay evidencia de autocorrelación de orden “m”, en los residuos del modelo”

library(lmtest, verbose = FALSE)
bgtest(modelo_lineal, order = 2)
## 
##  Breusch-Godfrey test for serial correlation of order up to 2
## 
## data:  modelo_lineal
## LM test = 0.99011, df = 2, p-value = 0.6095

Criterio de decisión:

Rechazar H0 si LMBG>V.C

Alternativamente:

Rechazar H0 si pvalue≤α

Como pvalue>0.05 No se rechaza H0, por lo tanto puede concluirse que los residuos del modelo, no siguen autocorrelación de orden “2”

El test BG puede usarse también para verificar la autocorrelación de 1° orden:

library(lmtest)
bgtest(modelo_lineal, order = 1)
## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  modelo_lineal
## LM test = 0.67685, df = 1, p-value = 0.4107

Como pvalue>0.05 No se rechaza H0, por lo tanto puede concluirse que los residuos del modelo, no siguen autocorrelación de 1° orden

3.3. Correcciones al modelo estimado

Corrección de heterocedasticidad y autocorrelación

Haciendo uso de la librería lmtest y sandwich se procede a corregir la matriz de varianza covarianza

Modelo sin corregir:

A continuación se presenta el modelo original.

Estimación Robusta (uso del estimador HAC)

Sin corregir

options(scipen = 99999)
library(lmtest)
#Sin corregir:
coeftest(modelo_lineal)
## 
## t test of coefficients:
## 
##                       Estimate   Std. Error t value              Pr(>|t|)    
## (Intercept)        2.529523282  0.328638649  7.6970    0.0000000000003196 ***
## irefa             -0.000129245  0.001210780 -0.1067              0.915076    
## segm               5.384600820  0.082329530 65.4030 < 0.00000000000000022 ***
## sum_ingreso_total  0.000274190  0.000097058  2.8250              0.005108 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Corregido (usando un estimador HAC)

options(scipen = 99999)
library(lmtest)
library(sandwich)
#Corregido
#HC0 Corrige Sólo Heterocedasticidad, use HC1 para corregir también Autocorrelación de Primer Orden
estimacion_omega<-vcovHC(modelo_lineal,type = "HC0") 

coeftest(modelo_lineal,vcov. = estimacion_omega)
## 
## t test of coefficients:
## 
##                      Estimate  Std. Error t value              Pr(>|t|)    
## (Intercept)        2.52952328  0.39300984  6.4363        0.000000000617 ***
## irefa             -0.00012924  0.00095257 -0.1357               0.89218    
## segm               5.38460082  0.07394549 72.8185 < 0.00000000000000022 ***
## sum_ingreso_total  0.00027419  0.00013802  1.9866               0.04806 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Estimador HAC de NeweyWest

library(lmtest)
library(sandwich)

#Corregido:

estimacion_omega<-NeweyWest(modelo_lineal,lag = 2)
coeftest(modelo_lineal,vcov. = estimacion_omega)
## 
## t test of coefficients:
## 
##                      Estimate  Std. Error t value              Pr(>|t|)    
## (Intercept)        2.52952328  0.42322118  5.9768        0.000000007766 ***
## irefa             -0.00012924  0.00077162 -0.1675               0.86711    
## segm               5.38460082  0.08114257 66.3598 < 0.00000000000000022 ***
## sum_ingreso_total  0.00027419  0.00013784  1.9892               0.04777 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comparación de modelos: Correción de la matriz de varianza covarianza

A continuación se presenta la comparación del modelo original y la corrección obtenida a través de estimadores HAC.

options(scipen = 99999)
library(stargazer)
estimacion_omega4 <- NeweyWest(modelo_lineal,lag = 4)
se_fix <- sqrt(diag(estimacion_omega4)) # Para obtener los errores estándar
stargazer(modelo_lineal, modelo_lineal, 
 se=list(NULL, se_fix), # Agregando la correción HAC
 type = "html",
 title = "Comparación de modelos: corrección HAC.",
 column.labels = c("Original", "Corregido"),
 model.names = FALSE,
 dep.var.labels = "Modelo",
 dep.var.caption = "Dependent variable: Ventas",
 model.numbers = FALSE)
Comparación de modelos: corrección HAC.
Dependent variable: Ventas
Modelo
Original Corregido
irefa -0.0001 -0.0001
(0.001) (0.001)
segm 5.385*** 5.385***
(0.082) (0.085)
sum_ingreso_total 0.0003*** 0.0003**
(0.0001) (0.0001)
Constant 2.530*** 2.530***
(0.329) (0.437)
Observations 255 255
R2 0.955 0.955
Adjusted R2 0.954 0.954
Residual Std. Error (df = 251) 2.136 2.136
F Statistic (df = 3; 251) 1,756.995*** 1,756.995***
Note: p<0.1; p<0.05; p<0.01

Estimación Robusta

options(scipen = 999999)
library(robustbase)
library(stargazer)
modelo_lineal_robust<-lmrob(actpr2012~irefa+segm+sum_ingreso_total,data = san_salvador_datos_2020)
## Warning in lmrob.S(x, y, control = control): find_scale() did not converge in
## 'maxit.scale' (= 200) iterations with tol=1e-10, last rel.diff=0
## Warning in lmrob.S(x, y, control = control): S-estimated scale == 0: Probably
## exact fit; check your data
# print(summary(modelo_crime_robust))
stargazer(modelo_lineal,modelo_lineal_robust,type = "html",title = "comparativa")
comparativa
Dependent variable:
actpr2012
OLS MM-type
linear
(1) (2)
irefa -0.0001 -0.000
(0.001) (0.000)
segm 5.385*** 5.000
(0.082) (0.000)
sum_ingreso_total 0.0003*** -0.000
(0.0001) (0.000)
Constant 2.530*** 5.000
(0.329) (0.000)
Observations 255 255
R2 0.955 1.000
Adjusted R2 0.954 1.000
Residual Std. Error (df = 251) 2.136 0.000
F Statistic 1,756.995*** (df = 3; 251)
Note: p<0.1; p<0.05; p<0.01

3.4 Análisis de Simulación

El modelado de simulación resuelve problemas del mundo real de forma segura y eficiente. Proporciona un método de análisis importante pues es verificable. El modelado de simulación proporciona soluciones valiosas al brindar información clara sobre sistemas complejos.

En este apartado se utiliza la librería DescTools como recurso para la descripción de datos. Previamente a realizar la simulación deben definirse las funciones (descomposición de Theil)

#Bias Proportion
Um<-function(pronosticado,observado){
  library(DescTools)
  ((mean(pronosticado)-mean(observado))^2)/MSE(pronosticado,observado) 
}
#Variance Proportion
Us<-function(pronosticado,observado){
  library(DescTools)
  ((sd(pronosticado)-sd(observado))^2)/MSE(pronosticado,observado)
}
#Covariance Proportion
Uc<-function(pronosticado,observado){
  library(DescTools)
  (2*(1-cor(pronosticado,observado))*sd(pronosticado)*sd(observado))/MSE(pronosticado,observado)}
#Coeficiente U de Theil (también aparece en la librería "DescTools")
THEIL_U<-function(pronosticado,observado){
   library(DescTools)
  RMSE(pronosticado,observado)/(sqrt(mean(pronosticado^2))+sqrt(mean(observado^2)))
}

Script de simulación.

Se realiza una partición de los datos para medir el poder predictivo del modelo planteado con el propósito de obtener proyecciones para valores reales de la variable explicada (Ventas) a partir de información de variables explicativas que no fueron incluidas en el modelo.

Se realiza la simulación del modelo haciendo uso de la librerías dplyr, caret

options(scipen = 999999) #No mostrar notación cientifica.
library(dplyr, verbose = FALSE) # Para manejo de datos y activar el operador "pipe" %>%
library(caret, verbose = FALSE) # Permite Realizar muestreo sobre los data frame
library(DescTools, verbose = FALSE) # Contiene las funciones para calcular las medidas de performance
library(stargazer, verbose = FALSE) # Para dar formato, y obtener resumen estadistico de las simulaciones
set.seed(50) # Permite fijar la semilla aleatoria, para reproducir los resultados obtenidos en esta clase

df <- san_salvador_datos_2020[complete.cases(san_salvador_datos_2020),]

numero_de_muestras<-1000 # Numero de muestras que se optendran del data frame
# Se crea la lista con las 1000 muestras (indica la posición de la fila en cada data frame)

muestras<- df$actpr2012 %>%
  createDataPartition(p = 0.8,
                      times = numero_de_muestras,
                      list = TRUE)

# Listas vacias, que contendran los datos de entrenamiento, los pronosticos para los datos de prueba, y para las estadisticas de cada muestra
Modelos_Entrenamiento<-vector(mode = "list",
                              length = numero_de_muestras)
Pronostico_Prueba<-vector(mode = "list",
                              length = numero_de_muestras)
Resultados_Performance_data_entrenamiento<-vector(mode = "list",
                              length = numero_de_muestras)
Resultados_Performance<-vector(mode = "list",
                              length = numero_de_muestras)

#Estimación de los modelos lineales para cada muestra, los pronósticos y cálculo de las estadisticas de performance.


for(j in 1:numero_de_muestras){
Datos_Entrenamiento<- df[muestras[[j]], ]
Datos_Prueba<- df[-muestras[[j]], ]
Modelos_Entrenamiento[[j]]<-lm(formula = actpr2012~irefa+segm+sum_ingreso_total,data=Datos_Entrenamiento)
Pronostico_Prueba[[j]]<-Modelos_Entrenamiento[[j]] %>% predict(Datos_Prueba)
Resultados_Performance_data_entrenamiento[[j]] <- data.frame(
  
 R2 = R2(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012),
 
 RMSE = RMSE(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012),
 
 MAE = MAE(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012),
 
 MAPE= MAPE(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012)*100,
 
 THEIL=TheilU(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012, type = 1),
 
 Um=Um(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012),
 
 Us=Us(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012),
 
 Uc=Uc(Modelos_Entrenamiento[[j]]$fitted.values,
 Datos_Entrenamiento$actpr2012)
 )

Resultados_Performance[[j]]<-data.frame( 
            R2 = R2(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012),
            RMSE = RMSE(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012),
            MAE = MAE(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012),
            MAPE= MAPE(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012)*100,
            THEIL=TheilU(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012,
                         type = 1), # También se puede usar la función que creamos: THEIL_U
            Um=Um(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012),
            Us=Us(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012),
            Uc=Uc(Pronostico_Prueba[[j]], Datos_Prueba$actpr2012)
            )
}

3.4.1. Resultados de la simulación y lecturas de performance

Para los datos de entrenamiento.

bind_rows(Resultados_Performance_data_entrenamiento) %>% 
  stargazer(title = "Medidas de Performance Datos del Modelo",
            type = "html",
            digits = 3)
Medidas de Performance Datos del Modelo
Statistic N Mean St. Dev. Min Max
R2 1,000 0.955 0.003 0.946 0.969
RMSE 1,000 2.108 0.082 1.752 2.283
MAE 1,000 1.531 0.082 1.187 1.778
MAPE 1,000 13.437 0.714 10.467 15.561
THEIL 1,000 0.048 0.002 0.039 0.054
Um 1,000 0.000 0.000 0 0
Us 1,000 0.012 0.001 0.008 0.014
Uc 1,000 0.993 0.001 0.991 0.997

Interpretación de performance.

• En promedio el 95.5% de la varianza de la variable endógena es explicada por los regresores del modelo, con un valor porcentual mínimo de 94.6% y un máximo de 96.9%.

• El error porcentual promedio del modelo es de 13.44%, el error mínimo esperado de predicción es de 10.47% y el máximo de 15.56%.

• La distancia promedio entre la varianza de los datos reales y los pronosticados es de 1.2%.

• El valor medio de correlación entre el valor real y el pronosticado es de 99.3%, con un valor mínimo de 99.1% y un máximo de 99.7%.

Resultados para datos de simulación.

library(dplyr)
bind_rows(Resultados_Performance) %>% 
  stargazer(title = "Medidas de Performance Simulación",
            type = "html",
            digits = 3)
Medidas de Performance Simulación
Statistic N Mean St. Dev. Min Max
R2 1,000 0.949 0.018 0.850 0.991
RMSE 1,000 2.228 0.383 1.324 3.850
MAE 1,000 1.595 0.176 1.101 2.394
MAPE 1,000 14.030 2.032 8.002 22.857
THEIL 1,000 0.051 0.010 0.026 0.099
Um 1,000 0.027 0.043 0.000 0.443
Us 1,000 0.024 0.031 0.00000 0.212
Uc 1,000 0.968 0.060 0.455 1.020

Interpretación de performance.

• En promedio el 94.9% de la varianza de la variable endógena, es explicada por los regresores del modelo, con un valor porcentual mínimo explicado de 85% y un máximo de 99%.

• El error porcentual promedio del modelo es de 14.03%, el error mínimo esperado de predicción es de 8% y el máximo es de 22.85%.

• La distancia promedio entre las medias de los datos reales y los datos pronosticados por el modelo es de 2%.

• La distancia promedio entre la varianza de los datos reales y los pronosticados es de 2%

• El valor medio de correlación entre el valor real y el pronosticado es de 96.8%, con un valor mínimo de 45.5% y un máximo de 100%.

3.5. Pruebas de hipótesis del modelo

Retomando las hipótesis planteadas para esta investigación:

H1: Se dice que el modelo es lineal en los parámetros en relación con la variable endógena (a explicar) y variables exógenas (explicativas), se determina de la forma: 
                         Ŷ = X1β1 + X2β2 + X3β3+. . . Xn βn xn + ε
                   

El modelo en cuestión sí posee linealidad en los parámetros en relación con la variable endógena y las variables exógenas (0.95454530; r2=95.45%). La hipótesis planteada resultó ser verdadera

H2: Grados de libertad positivos, es decir, 
                   gl = n − k >= 0

La hipótesis es verdadera, pues al realizar la estimación del modelo se comprueba que, en efecto, posee grados de libertad positivos.

H3: No existe una relación lineal perfecta entre algunas o todas las variables explicativas del modelo (no multicolinealidad).

El índice de condición k(x) es 4.9795, (K<20) por lo que se concluye que la colinealidad en el modelo es leve, lo cual no se considera un problema. La hipótesis planteada es verdadera.

H4: El modelo presenta parámetros constantes, es decir, que no cambian en el tiempo.

Siguiendo la regla de decisión, el estadístico LMw es mayor que el valor crítico de igual forma el p-value es cercano a 0, por tanto es menor que el nivel de significancia (0.05), por lo que, existe evidencia en favor de rechazar la hipótesis nula. La varianza de los residuos es heterocedástica. No todos los coeficientes del modelo son cero.

H5: Los residuos (el error) tiene distribución normal media de 0 y varianza constante para que sigma cuadrada tenga significancia en el modelo.

Al realizar las pruebas formales de normalidad se obtuvo en una sola ecuación los cuadrados y productos cruzados de todas las variables independientes de la regresión, proceso en el cual se determinó que existe evidencia en favor de rechazar la hipótesis nula en donde se menciona que existe distribución normal media de cero, es decir no todos los coeficientes del modelo son cero.

En resumen, se puede concluir lo siguiente: el modelo de estudio no sigue una distribución normal. En cuanto a la colinealidad presente en el modelo, esta no presenta un problema y a partir de la prueba de White se confirma la presencia de heterocedasticidad, es decir, no todos los coeficientes del modelo simultáneamente son cero y por último se detectó autocorrelación de orden 4 en los regresores del modelo, es decir estos presentan cierta relación entre ellos.

4. Proyecciones y análisis de resultados

En este apartado se realiza un análisis de resultados

Hipótesis

Ho :Bj=0 La j-ésima variable explicativa no tiene una relación lineal parcial con la variable independiente actpr2012 (Estado Ocupacional Agregado).

H1 :Bj: La j-ésima variable explicativa tiene una relación lineal parcial con la variable independiente actpr2012 (Estado Ocupacional Agregado).

Para j= 0, 1, 2…, es decir, para todos los parámetros estimados del modelo de forma individual.

Para un nivel de significancia de 5% se tiene lo siguiente:

options(scipen = 9999999)
confint(modelo_lineal, level = 0.95)
##                            2.5 %       97.5 %
## (Intercept)        1.88228253313 3.1767640307
## irefa             -0.00251382856 0.0022553389
## segm               5.22245608485 5.5467455560
## sum_ingreso_total  0.00008303784 0.0004653431

Interpretación:

  1. Con un nivel de confianza del 0.95, se concluye que, en el 95% de las ocasiones en que se estime la ecuación, se esperaría que exista un efecto nulo o no significativo Ingreso del Hogar por Remesas Monetarias, por tanto, no hay relación lineal parcial y no se rechaza la hipósetis nula, puesto que la variable explicativa “irefa” no es estadísticamente significativa en términos de la variable endógena “Estado ocupacional agregado”.

  2. Con un nivel de confianza del 0.95, se concluye que, en el 95% de las ocasiones en que se estime la ecuación, se esperaría que exista un efecto válido o significativo de la Segmentación del Mercado Laboral Urbano, por tanto, existe una relación lineal parcial y se rechaza la hipósetis nula, puesto que la variable explicativa “segm” es estadísticamente significativa en términos de la variable endógena “Estado Ocupacional Agregado”.

  3. Con un nivel de confianza del 0.95, se concluye que, en el 95% de las ocasiones en que se estime la ecuación, se esperaría que exista un efecto válido o significativo de la Suma Ingreso Total, por tanto, existe una relación lineal parcial y se rechaza la hipósetis nula, puesto que la variable explicativa “Sum_ingreso_total” es estadísticamente significativa en términos de la variable endógena “Estado Ocupacional Agregado”.

Anexo

Anexo 1. san_salvador_datos_2020.sav, archivo de SPSS que contiene todas las observaciones para el fenómeno estudiado.

Anexo 2. Modelo_lineal, archivo de R.data que contiene el entorno global de variables, funciones, modelos y valores generados a lo largo de la investigación

Anexo 3. El contenmido necesrio para la revison de la actividad en sus diferentes formatos: trabajo-final(rmd), trabajo-final(html), trabajo-final(pdf)