Modelos de Regresión con errores autocorrelados
Autor: Juan Carlos Senent Núñez
Curso 2017/18
Análisis Estadístico de Series Económicas
Grado Estadística Empresarial
Universidad Miguel Hernández de Elche

INDICE

  1. Resumen
  2. Introducción
  3. Objetivos del Estudio
    3.1. Objetivo Principal
    3.2. Objetivos Secundarios
  4. Información disponible
  5. Análisis estadístico
  6. Resultados
    6.1. Análisis Descriptivo
    6.2. Modelo de Regresión
    6.3. Series Temporales
  7. Conclusiones
  8. Referencias

1. Resumen

Trataremos el Análisis del Sueldo medio de las Mujeres desde 1967 hasta 2016 y lo compararemos con el porcentaje medio de paro, el sueldo medio de los hombres, así como el tipo de trabajo.

Se debe realizar un modelo Ancova, debido a que se esta tratando con variables númericas y variables categóricas, se ha de obtener un modelo que describa, prediga y relacione el Sueldo medio de las Mujeres con el resto de variables.

2. Introducción

Los datos obtenidos consisten en el estado salarial de una población en una evolución desde 1967 a 2016, donde hubo cambios sociales de la mujer, un cambio debido a distintos movimientos de la generación femenina de 1950-2000, donde buscaban evolucionar como personas y ser valoradas de igual a igual, respecto al hombre.

Por otro lado en estos años analizados, se sufren represiones económicas por diversos motivos, ya sea crisis económica, crisis política. Una crisis importante fue la crisis de los años 70 donde afectó principalmente a EE.UU en todos los aspectos, donde se solvento con un cambio de doctrina económica, pasaron del sistema Keynesiano al Neoliberalismo.

Y Respecto a España esta inmersa en la actualidad en una crisis económica desde 2008, de la cual poco a poco se esta recuperando, esta crisis es debido a distintos motivos, como puede ser las burbuja inmobiliaria, la recesión de empleabilidad.
Esto se entedera mejor gracias al libro La crisis del euro y su impacto en la economia y en la sociedad;LIBRO.

3. Objetivos del Estudio

3.1. Objetivo Principal

Nuestro objetivo principal será obtener el mejor ajuste de un modelo bondadoso y válido, que relacione el Salario Medio de las Mujeres con las demás variables analizadas.

3.2. Objetivos Secundarios

En cuanto a nuestros objetivos secundarios en el análisis encontramos:

  • Analizar la relación e influencia de las variables.

  • Crear un modelo Ancova que modelice el salario medio de las mujeres.

  • Analizar la normalidad, homocedasticidad e independencia del modelo.

  • Predecir el comportamiento del modelo en los próximos años.

4. Información disponible

Las variables han sido obtenidas a través de un archivo csv, proporcionado por Xavier Barber, su nombre es archivo13.csv, del cual sus variables son:

Porcen.Paro: Se trata del paro medio de cada año (Variable Continua).
Salario.hombres: Se trata del salario medio de los hombres en cada año (Variable Continua).
Tipo: Consiste en el tipo de trabajo en cada año (Varible Categórica, donde 0: Sin Calificar; 1: Estudios Primarios; 2: Estudios Secundarios; 3: FP grado superior o grado universitario; 4: Máster oficial o Doctorado Universitario).
Salario.Mujeres: Se trata del salario medio de las mujeres en cada año(Variables Continua).
anyo: Son los años desde 1967 a 2016. (Variable Continua).

5. Análisis Estadistico

La realización del análisis ha sido a través del software R-Studio extrayendo el informe mediante el software R Markdown y con el uso de las siguientes librerías:

LIBRERIAS UTILIZADAS
Ggplot2
Stargazer
Data.table
Corrplot
Knitr
Xtable
Reporttools
Plotrix
MASS
Lmtest
Nlme
Forecast
Fpp

De las cuales se ha podido realizar un análisis estadístico con información exhaustiva obtenida en el libro Método de Análisis de Datos: Apuntes, por la Universidad de la Rioja, de Zenaida Hernández Martín.

Por otro lado el modelo Ancova y su estudio, para una mejor interpretación hemos obtenido información del libro Introducing ANOVA and ANCOVA, de Andrew RUTHERFORD, ;LIBRO.

Para finalizar el estudio de la predicción la información ha sido obtenida de la Tesis de Javier Arroyo Gallardo, esta tesis se llama Métodos de Predicción para Series Temporales de Intervalos e Histogramas, ;TESIS.

6. Resultados

6.1. Análisis Descriptivo

Dado que queremos modelizar el Salario medio de las mujeres, se ha de realizar un análisis descriptivo tanto númerico como gráfico de todas las variables, para comprender su relación.

Nuestra variable “Respuesta” es: Salario.Mujeres

Nuestras variables “Explicativas” son: Porcen.Paro, Salario.hombres, Tipo y anyo

Empezaremos nuestro análisis realizando los descriptivos numéricos de las variables contínuas mediante tablas y gráficas:

Aquí vemos una tabla de resumen de todas las variables numéricas, donde analizaremos un total de 50 individuos, de los cuales se puede apreciar que la media del paro es un 20,5%, donde los hombres cobran una media de 500 euros más que las mujeres. El sueldo medio mínimo de los hombres es 755.079 mucho más alto que la mujeres que es 298,711, sin embarlo en la media del sueldo máximo, la diferencia son de 46 euros.

Ahora debemos comprobar la correlación entre todas las variables numéricas, para comprobar la relación que tienen entre ellas y ver las influencias.

Las variables apenas están correladas entre si, excepto el Salario.Hombres con Salario.Mujeres que tiene una correlación de 0,58, pero es una correlación mínima.

Tras ver un análisis descriptivo de las variables numéricas, procedemos a analizar la única variable categórica que hay, que es la variable Tipo.

Se puede apreciar que respecto a las 4 categorías que hay dentro de la variable Tipo, el 60% pertenece a los Estudios Secundarios y la siguiente que más individuos tiene es el Grado Universitario o FP grado superior, con exactamente 11 individuos.

Continuamos enfrentado esta variable categórica contra todas las variables numéricas, para ver su comportamiento y si hay algún individuo que sea un dato atípico (Observación que es numéricamente distante del resto de los datos.).

Como vemos hay un dato atípico en el grupo correspondiente a FP grado superior o grado universitario, ese dato corresponde a la observación 14, debemos seguir analizando y comparando para tomar una decisión si se debe eliminar o no dicha observación.

Respeto a la comparativa entre el salario hombres y el factor tipo de estudios, encontramos otra vez otro dato atípico y es exactamente la misma observación que se ha encontrado respecto al salario de las mujeres, cada vez esta más claro que habría que eliminar dicho dato, pero nos debemos de asegurar y hacer todas las comprobaciones.

Respecto al análisis de porcen.paro frente a Tipo2 nos salen 3 datos atípicos, pero después de buscarlos y estudiarlo, vemos que están muy próximos al grupo de datos y no sería conveniente eliminarlos.

Después de comparar la variable categórica respecto a las variables numéricas, se ha tomado la decisión de eliminar la observación 14, y después de eliminarla debemos asegurarnos que ahora todo esta correcto y no hay datos atípicos.

Tras eliminar la variable podemos apreciar perfectamente que ya no hay datos atípicos, e incluso respecto al número de datos atípicos en porcen.paro han disminuido. Por lo que es una buena decisión eliminar la observación 14.

Para acabar con este análisis descriptivo realizaremos unos gráficos donde ponemos el contraste el Salario.Mujeres que es va a ser nuestra variable respuesta, respecto a las demás variables, y así poder ver su comportamiento y la relación a través de la variable factor Tipo2.

La relación que existe entre las variables salario mujeres y salario hombres es clara están mejor relacionadas y explicadas a través de los Estudios Secundarios.

Esta tiene una menor relación, ya lo hemos visto en las correlaciones más arriba, pero aquí se puede ver de forma gráfica que están mejor relacionadas por los Estudios Secundarios, pero aún así están bastante dispersos.

6.2. Modelo de Regresión

Ahora procedemos a obtener el modelo que más nos conviene para analizar el Salario medio de las mujeres respecto a las demás.

Como tenemos variables tanto de tipo categórico como numérico, el método más conveniente para analizar las variables, es a través de ANCOVA, que es una combinación entre las variables catégoricas y numéricas.

El modelo inicial sería: Salario.Mujeres ~ Porcen.paroxTipo2 + Salario.hombresxTipo2

Todas las variables son significativas, puesto que están por debajo del 0,05, se podria decir que estamos ante un buen modelo, pero lo correcto es comprobarlo y asegurarnos de ellos, y así poder quedarnos con el mejor modelo.

Tras realizar las comprobaciones, hemos detectado que el mejor modelo sería este:

Salario.Mujeres ~ Porcen.paro + Tipo2 + Salario.hombres + Tipo2:Salario.hombres

Por lo que a partir de dicho modelo tenemos que comenzar a realizar las pertinentes comprobaciones para saber si es un modelo bondadoso y válido.

Bondad

     R2    Rajust    SSres   SStot

1 0.9981711 0.9978053 18006.01 9845025

Temenos que fijarnos en el R2 y Rajust que los dos se acercan mucho a 1 por lo que se trata de un modelo bondadoso.

Validación

Ahora procedemos a comprobar la validación para ello debemos hacer test de Normalidad, Homocedasticidad, Media igual a 0 e Independencia.

Normalidad

Para la normalidad se debe cumplir el siguiente criterio: \[ H_0 :Normalidad \] \[ H_1 :No\ Normalidad \]

El p-valor obtenido es de 0.8291, por lo que es mayor que 0,05, aceptamos H0, por lo que los residuos del modelo siguen una distribución normal.

Homocedasticidad

Respecto a la homocedasticidad, seguimos el mismo criterio:

\[ H_0 :Homocedasticidad \] \[ H_1 :No\ homocedasticidad \]

El pvalor es 0.3691, mayor que 0.05, aceptamos H0, lo que quiere decir que la varianza es constante en los residuos.

Media igual a 0

Respecto a Media igual a 0: \[ H_0 : Igual\ a\ 0 \] \[ H_1 :Distinta\ de\ 0 \]

El pvalor es 1, lo que quiere decir que la media 0, ya que se cumple el criterio de H0.

Independencia

La de independencia se ve clara a través de los gráficos siguientes:

Como se puede apreciar más de una linea esta fuera de la linea discontinua que son los intervalos de confianza, lo que quiere decir que no tienen un comportamiento de independencia.

Tras realizar todas las comprobaciones pertinentes se puede decir que no es un buen modelo ya que no se comportan de manera independiente, por lo que hay problemas con los residuos su comportamientos es dependiente del tiempo.

6.3. Series Temporales

EL objetivo ahora es obtener una predicción a través de una serie temporal, como estamos analizado la variable Salario.Mujeres, la serie temporal será creada a partir de Salario.Mujeres y los años transcurridos y obtener su predicción.

Para ello debemos obtener primero un modelo Autorregresivo de media movil (ARMA), ya que el modelo obtenido previamente no era válido.

EL primer modelo obtenido es un ARMA(1,0,0) del cual luego deberes hacer comparativas, para ver si hay otro con menor AIC.

Hemos realizado las comparaciones respecto a los modelos ARMA(2,0,0); ARMA(3,0,0); ARMA(4,0,0) Y hemos comprobado que ninguno tiene menor AIC, excepto el modelo ARMA(2,0,0), pero como la diferencia es menor de 5, hemos tomado la decisión de seguir con el modelo ARMA(1,0,0).

Debemos comprobar el comportamiento de los residuos.

El segundo gráfico que se trata de la indepencia de los residuos, vemos que están fuera por lo que se comportan de una manera dependiente, por otra parte el tercer gráfico, trata de la normalidad y se aprecia que no se comportan de una manera muy normal.

El paso a seguir sería buscar otro modelo, pero como los datos de las variables algunos son datos salariales. Lo más correcto sería aplicar logaritmo a la variable Salario.Mujeres, para poder agrupar los datos y poder continuar con la predicción.

Ahora si que estamos ante un modelo perfectamente válido y bondadoso, se puede apreciar en el gráfico que cumplen los criterios de independencia y normalidad.

Debemos realizar ahora una predicción en distintos momentos, son momentos entendidos como el momento Óptimo, Neutro y Pésimo.

Para un momento óptimo el salario será de 2528 euros , en un momento neutro el salario será de 2500 euros, y eun momento pésimo será de 1300 euros, pero esto no es una buena predicción del Salario de la mujer, por lo que se debe crear una Serie Temporal, un modelo ARIMA y con ello obtendremos la predicción.

Con este gráfico si se ve clara una predicción, en la que se ve claramente que va a a seguir la misma tendencia de subidas y bajadas.

7. Conclusión

En definitiva, hemos obtenido un AR(1) que no era válido debido a problemas con la independencia de los residuos, hemos obtenido un ARMA(1,0) con el que aplicando logaritmo al salario de la mujer si se ha obtenio el modelo que deseabamos, para poder realizar una buena predicción se ha realizado un modelo Arima con el que se ha predecido hasta 2060, en el que se va a cumplir la misma tendencia de salario en la mujer.

Para acabar me gustaría decir que se haya dado la misma tendencia es debido a que en el aspecto socio-económico las crisis siempre vuelven, es decir, son ciclicas, por lo que siempre habrá épocas de augue económico y recesiones y esto afectará directamente al salario de las mujeres.

8. Referencias

Además de consultar todo el material disponible de la asignatura Análisis Estádistico de Series Económicas también se han consultado, de forma complementaria, las siguientes documentación para la elaboración del informe:

La crisis del euro.

ANCOVA.

TESIS.