Informe de la asignatura Econometría I,

Docente: José Antonio Ortega Osona

Esta práctica fue entregada el día: 17/05/2017

Siendo hecha por el Grupo A

INDICE

  1. Introducción

  2. Base de Datos

  1. Análisis Exploratorio/ Diagnóstico y Validación I

  2. Regresión

  3. Conclusiones

  4. Bibliografía

1. INTRODUCCIÓN

El trabajo tiene como objetivo analizar cuáles son las diferencias entre Escuelas Públicas y Escuelas Privadas tanto en notas de matemáticas, lengua y ciencias; el porqué dependiendo de la escuela se sacan mejores notas, y cuáles son las variables fundamentales que hacen que existan estas diferencias.

En un principio podemos pensar que en las Escuelas Privadas se sacaran mejores notas en matemáticas, en lengua y en ciencias que en las Públicas, debido al mayor estatus que tienen los alumnos de estas primeras, pero vamos a comprobar si esto es realmente así o no. La elección de este tema para la realización del trabajo viene motivada por la razón de intentar profundizar en la diferencia de notas entre escuelas públicas y privadas e intentar demostrar que estas diferencias pueden ser distintas de lo que pensamos antes de hacer el trabajo, cambiando así nuestra perspectiva hacia ambos tipos de escuelas.

Pero, ¿es cierto que son mejores las escuelas privadas en las notas de estas tres asignaturas? y si así es, ¿por qué lo son o no?

¿Es la Escuela Privada mejor en matemáticas, en lengua o en ciencias por el simple hecho de su condición de ser privada, o debido a otro tipo de variables, como las relacionadas con el ámbito socioeconómico o la relación entre compañeros? Todas estas preguntas y demás cuestiones son las que serán analizadas en el trabajo, y para ello utilizaremos una serie de análisis realizados con el programa R.

Utilizaremos los datos que nos proporciona PISA y, además, haber escogido con anterioridad las variables que mejor explican las diferencias entre los dos tipos de escuelas. Más tarde, utilizaremos el ya mencionado programa de R para verificar y hacer el estudio adecuadamente.

install.packages("ggfortify")  
library(ggfortify)  
install.packages("tidyverse")  
library(tidyverse)  
install.packages("invResPlot")  
library(invResPlot)  
install.packages("mosaic")  
library(mosaic)  
install.packages("HH")  
library(HH)  
install.packages("tigerstats")  
library(igerstats)  
install.packages("broom")  
library(broom)  

2. BASE DE DATOS

2.1 Informe PISA

  1. ¿Qué es Pisa?

El Programa para la Evaluación Internacional de Alumnos (PISA) mide hasta qué punto el alumnado de 15 años, los que están ya cerca del final de su educación obligatoria, ha adquirido conocimientos y destrezas clave que son esenciales para la plena participación en las sociedades modernas. La evaluación se centra en las asignaturas escolares de matemáticas, lectura y ciencias.

Fue creado en 1997 y representa un compromiso por parte de los gobiernos de los países de la OCDE para medir los resultados de los sistemas educativos sobre el rendimiento del alumnado, dentro de un marco común y acordado a nivel internacional.

Las evaluaciones de PISA no tienen el fin que tienen otras muchas evaluaciones tradicionales, como es la de evaluar sobre un tema en específico, en el que además se deben memorizar grandes contenidos para poder repetirlos después. PISA, a diferencia de estos exámenes, está diseñado para identificar si el alumno es capaz de aplicar los conocimientos adquiridos en la escuela en problemas y situaciones reales de la vida, poniendo a los alumnos en entornos desconocidos, tanto dentro como fuera de la escuela. Este enfoque refleja el hecho de que las economías modernas premian a las personas no sólo por lo que saben, sino por lo que pueden hacer con lo que saben.

PISA es un programa continuo que da información para seguir la evolución de los conocimientos y las destrezas del alumnado en varios países, así como en diferentes subgrupos demográficos de cada país en cada ronda de PISA. El examen se realiza cada 3 años con una rotación en el enfoque de las tres asignaturas principales. El área principal en 2015 es Ciencias, como lo fue en 2006. La lectura fue el área principal en 2000 y 2009, y las matemáticas fueron el área principal en 2003 y 2012. A través de cuestionarios distribuidos al alumnado, a los padres, a la dirección y al profesorado de los centros, PISA también recaba información sobre el contexto familiar del alumnado, sus enfoques de aprendizaje y sus entornos de aprendizaje.

  1. ¿Por qué Pisa?

Los responsables de las políticas de todo el mundo utilizan los resultados de PISA para medir los conocimientos y las destrezas del alumnado en su propio país en comparación con los de otros países participantes, y analizar cómo se encuentran por sí solos y en cómo educan de manera efectiva a sus jóvenes. Uno de los objetivos más importantes de PISA es establecer puntos de referencia para la mejora de la educación que se imparte en cada país y para comprender las fortalezas y debilidades relativas de sus propios sistemas educativos.

PISA es el programa internacional más amplio y riguroso que existe para evaluar el rendimiento del alumnado y recoger datos sobre aquellos factores relacionados con ellos, sus familias y centros educativos, que pueden contribuir a explicar las diferencias de rendimiento existentes.

Se destinan esfuerzos y recursos considerables para lograr la amplitud y el equilibrio cultural y lingüístico en los materiales de evaluación.

Es importante la relevancia para el aprendizaje a lo largo de la vida, ya que PISA solicita al alumnado información sobre su motivación para aprender, la opinión que tienen sobre sí mismos y sus estrategias de aprendizaje. La relevancia de los resultados de PISA la confirman estudios que llevan a cabo un seguimiento de los jóvenes en los años posteriores a su participación en la evaluación.

También la regularidad permite a los países supervisar su progreso en relación con el cumplimiento de los objetivos educativos clave. Por último, la extensión que engloba en PISA 2015 a los 34 países de la OCDE y a 38 países asociados hace que PISA se haga importante

2.2 Programa Informático - R

R es un entorno y lenguaje de programación con un enfoque al análisis estadístico. Se trata de uno de los lenguajes más utilizados por la comunidad estadística, dado que ofrece la posibilidad de cargar muchos y diferentes paquetes con funcionalidades de cálculo y graficas bastante avanzados. Elegimos este programa porque este nos posibilita una manera más cómoda para realizar el análisis del modelo y por su gran variedad de gráficos, pudiendo sacar conclusiones claras sobre el trabajo. R nos proporciona muchas de las herramientas estadísticas que utilizaremos para la realización del trabajo, como modelos lineales y no lineales, test estadísticos, análisis de series temporales, gráficos. Además, R puede extenderse a través de paquetes desarrollados por su comunidad de usuarios y que estos crean y desarrollen nuevas funciones.

2.3 Variables Escogidas

Después de haber profundizado en el tema y habernos informado leyendo artículos científicos relacionados, se puede llegar a la conclusión de que la titularidad del centro es un factor importante, pero también las variables referidas al entorno familiar de los individuos y también el de sus compañeros. Algunas variables socioeconómicas y familiares llegan a ser muy importantes, además las escuelas que cuentan con estudiantes de un entorno social más favorable obtienen mejores resultados; asistir a esas mejores escuelas sí depende del estatus socioeconómico familiar.

Existen una serie de errores bastante comunes y fáciles de cometer a la hora de tener en cuenta ciertas variables: - Uso del ratio profesor-alumno (en ausencia de información sobre el tamaño de la clase). - Existencia de errores de especificación al no incluir variables familiares o personales. - No consideración de la presencia de endogeneidad entre el tamaño de la clase y los resultados académicos. - Uso de una forma funcional incorrecta al relacionar la variable explicativa con el logro académico. Las variables que utilizaremos en nuestro modelo para analizar las diferencias entre las notas en matemáticas, lengua y ciencias en las escuelas públicas y privadas serán:

A)“PRIVADA”

En nuestro modelo va a ser muy relevante la titularidad del centro. Los centros concertados y privados muestran unos resultados mejores que los de los públicos. En el conjunto de los países de la OCDE, los alumnos de 15 años de los colegios públicos obtienen una puntuación media de 489 puntos, lo que supone 28 puntos menos que los estudiantes de la escuela privada (517 puntos), que equivale a casi un año de escolarización.

Sin embargo, si eliminamos las variables socioeconómicas del ámbito familiar en los centros privados, el impacto de la titularidad disminuye en algunos países o, incluso, desaparece o cambia de sentido.

Por lo que elegimos esta variable para nuestro modelo pues es importante para explicarlo.

B)“IESC”

Numerosos estudios han demostrado la incidencia de distintas características familiares sobre los resultados de los alumnos de una manera positiva.

Nos referimos a características como el nivel educativo, cultural y económico de los padres, lo que hace que tenga un gran efecto en nuestro modelo e influya en las notas y sus diferencias entre escuelas.

Una elevada educación y un nivel económico alto produce efectos positivos sobre las notas, también podemos incluir una buena estructura familiar y altos recursos educativos y culturales disponibles en el hogar (cantidad de libros en casa).

Cuantos más estudios tengan los padres, con más seguridad podremos deducir que el hijo también los tendrá, es decir, una media mayor de los años de escolarización de los padres tiene una incidencia positiva sobre sus hijos.

Por tanto, podemos concluir que esta será otra de nuestras variables para explicar el modelo.

C)“REPETIDOR”

La condición de repetidor tiene un efecto negativo sobre las notas tanto en los tres ámbitos, pudiendo haber repetidores de más de un año que puede incidir con un efecto aún más fuerte.

Esta es una variable bastante deducible, aunque hay estudios que lo demuestran, pero podemos decir que es deducible pues es un comportamiento observable que hemos visto cada uno en nuestras respectivas escuelas.

Por tanto, escogemos la variable repetidor como variable para intentar explicar el modelo.

D)“NATIVO”

Nativo (Native), es aquel perteneciente o relativo al lugar en el que ha nacido, en este caso, haber nacido tú y tus padres en España.

Ser inmigrante de primera generación significa que el propio alumno ha emigrado a España en algún momento de su vida, es decir, no ha nacido en España.

En cambio ser inmigrante de segunda generación significa que los alumnos si han nacido en España, pero fueron sus padres los que emigraron aquí. En este caso son los hijos de inmigrantes que vinieron a España.

La concentración de alumnos de alguna etnia minoritaria tiene efectos negativos sobre los resultados académicos de los propios estudiantes de las etnias considerada, como demuestran los estudios y revisiones de Hanushek (1979), Datcher-Loury, (1988), Haveman y Wolfe (1995), Hanushek y Luque (2003) y Chiswick y DebBurman (2004), donde ha quedado bien establecida la muy elevada incidencia de las características socioeconómicas familiares sobre los resultados. Específicamente centrado en el efecto negativo de la condición de inmigrante de la familia (especialmente de primera generación) destaca el trabajo de Chiswick y DebBurman (2004).

Varios estudios, como los Portes y Rumbaut (1990), Rong y Grant (1992) y Kao y Tienda (1995), también demuestran que el porcentaje de alumnos de minorías étnicas incide negativamente sobre el resultado del conjunto de alumnos.

Por lo que elegimos esta variable para explicar nuestro de modelos de las diferencia de notas entre escuelas públicas y privadas.

E)VARIABLES NO CONSIDERADAS

Existen otras variables posibles dentro de las 928 pero que no utilizaremos, como por ejemplo:

  • Tamaño de la escuela (hasta punto óptimo).
  • Libros (más de 100) en el hogar y ordenador en el hogar.
  • Asistencia a preescolar (educación infantil).

3. ANÁLISIS EXPLORATORIO/ DIAGNÓSTICO Y VALIDACIÓN

A)Selección de Modelos

Para los tres tipos de variables explicadas utilizamos las siguientes regresiones:

. Modi<-lm(DISCIPLINA~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)

. Modi<-lm(log(DISCIPLINA)~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)

. Modi<-lm(sqrt(DISCIPLINA)~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)

Para los tres, fueron analizados los residuos y la coherencia de los estimadores y se constato que los más coherentes fueron los lineales puros.

B)Análisis de los modelos elegidos

Como explicado en el apartado anterior, solo iremos usar los modelos lineales de cada variable explicada, es decir, mod1, mod4 y mod7. Todos lineales puros.

VARIABLE EXPLICADA (MATEMÁTICAS)
Residuals:
     Min       1Q   Median       3Q      Max 
-300.094  -46.122    0.577   47.021  266.904 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 526.3086     0.6682 787.651   <2e-16 ***
NATIVOSecond-Generation      -5.5373     3.0269  -1.829   0.0674 .  
NATIVOFirst-Generation      -20.4796     1.3821 -14.817   <2e-16 ***
REPETIDORRepeated a <grade> -79.6758     0.9342 -85.291   <2e-16 ***
IESC                         14.0086     0.3770  37.155   <2e-16 ***
PRIVADAPública               -1.6156     0.8476  -1.906   0.0567 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  

Residual standard error: 69.1 on 31501 degrees of freedom Multiple R-squared: 0.3065, Adjusted R-squared: 0.3064 F-statistic: 2785 on 5 and 31501 DF, p-value: < 2.2e-16

Comparado el modelo lineal con los demás (log, sqrt, inv) vemos a partir de los gráficos abajo que el lineal es el que tiene una mayor normalidad comparado con el restante de los modelos. Sin embargo, el modelo log fue el que demostraba un mayor coeficiente correlación, lo que no significa que es el mejor modelo pues cuando analizado los residuos vemos una mayor asimetría y dispersión.

Vemos que el modelo 1 tiene una distribución normal como demuestra el grafico arriba, con una mayor densidad en el centro.

Los gráficos arriba demuestran las dispersiones de los residuos y, cómo podemos observar en el gráfico Residual vs Fitted, están todos cerca de del 0 que es lo que se busca. El gráfico Scale-Location también cumple los requisitos mínimos pues esta cerca del 1. Se resalta que en el grafico Normal Q-Q, los residuos siguen la línea teórica de normalidad, con algunas pequeñas dispersiones en los extremos, pero que no afectan tanto el modelo. Tales grafico fueron fundamental para elegir el modelo 1.

Para encontrar puntos atípicos hemos utilizado el método de Bonferonni con el comando “outlierTest(mod1)”" que nos ha dado tales resultados:

No Studentized residuals with Bonferonni p < 0.05
Largest |rstudent|:
      rstudent unadjusted p-value Bonferonni p
7565 -4.344609         1.3996e-05      0.44097

Como podemos observar arriba, solo hay uno atípico que hemos decido no excluir de la muestra pues como podremos ver adelante, al mismo tiempo que es un atípico también es un punto influyente luego optamos por no removerlo. Si observamos el P-Value del método usual, rechazaríamos la hipótesis de que este alumno es igual a los demás, pero por el ajuste hecho por Bonferonni, el P-Value nos indica que no rechazamos la hipótesis que este alumno es igual a los demás.

Podemos ver los resultados de los influyentes con el comando influencePlot(mod1), tanto como su gráfico:

StudRes          Hat        CookD
7565  -4.344609 0.0003223534 0.0010138556
8992  -1.202009 0.0025839165 0.0006238211
32070  3.866985 0.0019420017 0.0048472483

A partir del Global Validation of Linear Model Assumptions vemos si el modelo ajustado es aceptable para las estimaciones abajo, y claro si el modelo es homocedastico o no. Como podemos ver el modelo es heterocedástico cuanto a sus datos, lo que es comprensible ya que es una muestra de más de 30 mil datos con 4 variables, luego para tener homocedasticidad sería algo muy difícil. Sin embargo, ser heterocedástico, no impide que analicemos el modelo pues como sabemos la mayoría de las muestras de datos reales suelen ser heterocedásticas (confirmaremos utilizando en la parte de regresión un regresor robusto). Tamben observamos que el modelo considera aceptable para la hipótesis de kurtosis, es decir, una concentración acentuada de los residuos en el centro, pensando en el grafico de densidad.

ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
Level of Significance =  0.05 

Call:
 gvlma(x = mod1, timeseq = order(fitted(mod1))) 

                     Value   p-value                   Decision
Global Stat        56.2121 1.810e-11 Assumptions NOT satisfied!
Skewness           21.4704 3.593e-06 Assumptions NOT satisfied!
Kurtosis            0.4281 5.129e-01    Assumptions acceptable.
Link Function      33.4297 7.389e-09 Assumptions NOT satisfied!
Heteroscedasticity  0.8838 3.472e-01    Assumptions acceptable.

Si hacemos un contraste de hipostesis, teniendo como hipótesis nula que la varianza de los residuos del mod1 son constantes (Homocedastico), podemos constatar a partir del Non-constant Variance Score Test que no rechazamos la hipótesis de que sea homocedastico cuanto a los residuos( p-value del test es mayor que el p-value standard), lo que nos permite trabajar bien con el modelo.

ncvTest(mod1)

Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 3.58268    Df = 1     p = 0.0583849 
VARIABLE EXPLICADA (LECTURA)

Se han creado varios modelos de regresión con la variable explicada LECTURA, sin embargo el elegido fue el:

Residuals:
    Min      1Q  Median      3Q     Max 
-370.73  -47.86    2.23   50.26  289.11 
    
Coefficients:
                                Estimate Std. Error t value Pr(>|t|)    
(Intercept)                     536.3616     0.7079 757.720  < 2e-16 ***
NATIVO[T.Second-Generation]       6.7954     3.2066   2.119   0.0341 *  
NATIVO[T.First-Generation]       -9.9577     1.4642  -6.801 1.06e-11 ***
REPETIDOR[T.Repeated a <grade>] -86.3011     0.9896 -87.207  < 2e-16 ***
IESC                             11.3466     0.3994  28.408  < 2e-16 ***
PRIVADA[T.Pública]               -5.5718     0.8979  -6.205 5.53e-10 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 73.21 on 31501 degrees of freedom
Multiple R-squared:  0.286, Adjusted R-squared:  0.2858 
F-statistic:  2523 on 5 and 31501 DF,  p-value: < 2.2e-16

Comparado el modelo lineal con los demás ( log, sqrt) vemos a partir de los graficos abajo que el lineal es el que tiene una mayor normalidad comparado con el restante de los modelos. Sin embargo el modelo log fue el que demostraba un mayor coeficiente correlacion, lo que no significa que es el mejor modelo pues cuando analizado los residuos vemos una mayor dispersión.

Vemos que el modelo 4 tiene una distribución normal como demuestra el grafico arriba, con una mayor densidad en el centro.

Los gráficos arriba de muestran las dispersiones de los residuos y como podemos observar en al Residual vs Fitted, están todos cerca de del 0 que es lo que se busca.El Scale-Location también cumple los requisitos minimos pues esta certa del 1. Y como podemos observar en el grafico Normal Q-Q los residuos siguen la línea teorica de normalidad, con dispersiones más intensas en el extremo inferior, pero que no afectan tanto el modelo. El mod 4 tiene características muy parecidas con el mod 1 cuanto a sus residuos, pero podemos observar una mayor dispersión en general.

Para encontrar puntos atípicos usamos el comando “outlierTest(mod4)” que nos ha dado tales resultados:

rstudent unadjusted p-value Bonferonni p
31218 -5.066423         4.0765e-07     0.012844
7565  -4.893884         9.9353e-07     0.031303

Si observamos tanto el P-Value del método usual como el P-Value de Bonferonni, rechazaríamos la hipótesis de que este alumno es igual a los demás. Pero como solo hay 2 atípicos, y es una muestra de más de 30 mil, hemos decido no excluir por no influir en los resultados.

Podemos ver los resultados de los influyentes con el comando “influencePlot(mod4)”, tanto como su grafico:

      StudRes          Hat        CookD
8992  -1.114038 2.583916e-03 0.0005358551
24261  3.419974 1.929920e-03 0.0037681237
31218 -5.066423 8.587736e-05 0.0003671366

Del mismo modo que los atípicos son pocos para la muestra, los influyentes tampoco son muchos, luego decidimos dejarlos.

El mod4 también presenta los mismos resultados que el mod1, solo con una pequeña diferencia cuanto a la Kurtosis, pues no se cumple tal supuesto.

ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
Level of Significance =  0.05 

Call:
 gvlma(x = mod4, timeseq = order(fitted(mod4))) 

                      Value   p-value                   Decision
Global Stat        248.1429 0.000e+00 Assumptions NOT satisfied!
Skewness           215.1904 0.000e+00 Assumptions NOT satisfied!
Kurtosis            11.9326 5.516e-04 Assumptions NOT satisfied!
Link Function       20.8692 4.917e-06 Assumptions NOT satisfied!
Heteroscedasticity   0.1507 6.979e-01    Assumptions acceptable.

En el caso del mod4 hay heterocedasticidad en los residuos, ya que el p-value del ncvTest es menor que el p-value standard

Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 33.91469    Df = 1     p = 5.758236e-09 
VARIABLE EXPLICADA (CIENCIAS)
Residuals:
    Min      1Q  Median      3Q     Max 
-317.23  -48.40    0.91   50.32  277.00 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 531.2053     0.7047 753.779   <2e-16 ***
NATIVOSecond-Generation      -6.5323     3.1924  -2.046   0.0407 *  
NATIVOFirst-Generation      -15.6416     1.4577 -10.730   <2e-16 ***
REPETIDORRepeated a <grade> -83.7940     0.9852 -85.051   <2e-16 ***
IESC                         13.0792     0.3976  32.892   <2e-16 ***
PRIVADAPública               -0.9744     0.8939  -1.090   0.2757    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 72.88 on 31501 degrees of freedom
Multiple R-squared:  0.2891,    Adjusted R-squared:  0.289 
F-statistic:  2562 on 5 and 31501 DF,  p-value: < 2.2e-16

Comparado el modelo lineal con los demás ( log, sqrt) vemos a partir de los graficos abajo que el lineal es el que tiene una mayor normalidad comparado con el restante de los modelos. Sin embargo el modelo log fue el que demostraba un mayor coeficiente correlación, lo que no significa que es el mejor modelo pues cuando analizado los residuos vemos una mayor dispersión.
Vemos que el modelo 7 tiene una distribución normal como demuestra el grafico arriba, con una mayor densidad en el centro.
Los gráficos arriba demuestran las dispersiones de los residuos y cómo podemos observar en al Residual vs Fitted, están todos cerca de del 0 que es lo que se busca. El Scale-Location también cumple los requisitos minimos pues esta certa del 1. Y como podemos observar en el grafico Normal Q-Q los residuos siguen la línea teorica de normalidad, con dispersiones más intensas en el extremo inferior, pero que no afectan tanto el modelo. El mod 7 tiene características muy parecidas con el mod 1 cuanto a sus residuos, pero podemos observar una mayor dispersión en general.
Para encontrar puntos atípicos usamos el comando “outlierTest(mod7)” que nos ha dado tales resultados:

No Studentized residuals with Bonferonni p < 0.05
Largest |rstudent|:
      rstudent unadjusted p-value Bonferonni p
7565 -4.354664         1.3369e-05      0.42122

Como podemos observar arriba, solo hay uno atípico que hemos decido no excluir de la muestra como ya explicado por el tamaño de esta. Si observamos el P-Value del método usual, rechazaríamos la hipótesis de que este alumno es igual a los demás, pero por el ajuste hecho por Bonferonni, el P-Value nos indica que no rechazamos la hipótesis que este alumno es igual a los demás.
Podemos ver los resultados de los influyentes con el comando “influencePlot(mod7)”, tanto como su grafico:

StudRes          Hat        CookD
7565  -4.354664 0.0003223534 0.0010185510
8992  -0.304471 0.0025839165 0.0000400272
32070  3.805202 0.0019420017 0.0046936675

Del mismo modo que los atípicos son pocos para la muestra, los influyentes tampoco son muchos, luego decidimos dejarlos.

El mod7 también presenta los mismos resultados que el mod1 y mod4, solo con una pequeña diferencia cuanto a la Kurtosis, pues no se cumple tal supuesto.Y como vemos se cumple el supuesto de heterocedastidad.

ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
Level of Significance =  0.05 

Call:
 gvlma(x = mod7, timeseq = order(fitted(mod7))) 

                     Value   p-value                   Decision
Global Stat        94.5401 0.000e+00 Assumptions NOT satisfied!
Skewness           56.1840 6.595e-14 Assumptions NOT satisfied!
Kurtosis            4.6705 3.069e-02 Assumptions NOT satisfied!
Link Function      33.4322 7.379e-09 Assumptions NOT satisfied!
Heteroscedasticity  0.2534 6.147e-01    Assumptions acceptable.

Para el mod7 ocurre el mismo que en el mod1, o sea no rechazamos la hipótesis nula de que hay homocedasticidad en los residuos de este, como se puede observar con el p-value.

Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 2.266022    Df = 1     p = 0.1322389 

4. REGRESIÓN

4.1 Interpretación de los Coeficientes e Interacciones

A)MATEMATICAS

La puntuación máxima está en torno a 800 puntos. No teniendo en cuenta las variables explicativas, un alumno cualquiera en matemáticas obtendría 526,3086 de nota (B0). Considerando las distintas variables, obtendremos diferentes resultados.

  • El resultado para un alumno que sea inmigrante de primera generación obtiene una puntuación de 20,4796 puntos menos sobre la media de un nativo. El resultado es coherente porque un alumno que venga de primera generación de inmigrantes puede tener más problemas para adaptarse al sistema educativo español por problemas con el idioma, adaptación cultural entre otras variables. Ya cuando tratamos de analizar el resultado para un alumno que sea inmigrante de segunda generación se observa una puntuación de 5,5373 puntos menos sobre la media de un nativo. Lo punto interesante es comparar los alumnos de primera y segunda generación pues hay una notable diferencia en cómo afecta la nota. El resultado puede deberse que con el paso del tiempo estos estudiantes se adaptan mejor, aunque continúen presentando efectos negativos sobre la nota.

  • El resultado para un alumno que sea repetidor obtiene una puntuación de 79,6758 puntos menos sobre la media de un alumno que no haya repetido. El resultado es coherente porque un alumno que haya repetido puede tener más problemas para alcanzar el nivel adecuado en el examen de PISA que otro alumno que no haya repetido.

  • El resultado para un alumno que tenga una condición sociocultural y económica mejor que otro alumno cualquiera obtiene una puntuación de 14,0086 puntos más sobre la media de un alumno con una menor capacidad financiera. El resultado es coherente porque un alumno que con mayor capacidad financiera tendrá un mayor o mejor acceso a conseguir ayuda extraescolar, acceso a libros, a un ambiente culturalmente estimulante entre otras cosas.

  • El resultado para un alumno que sea de la escuela pública obtiene una puntuación de 1,6156 puntos menos sobre la media de un alumno de la escuela privada. Este resultado puede reflejar la realidad desde un punto de vista del nivel educativo, infraestructura, profesores más estimulados en una escuela privada frente a una pública. También es notorio observar que el impacto de la variable PRIVADA es menos intenso comparado con las demás variables, por tal motivo se analiza en este trabajo otras variables que puedan influir en las notas de los alumnos.

  • La variable que presento un mayor efecto sobre las medias en matemáticas, fue la variable REPETIDOR. Y la que menos fue la PRIVADA, reforzando otra vez la debilidad de esta variable frente a las demás.

A.1)Interacciones - MATEMATICAS

mod1i1<- lm(MATEMATICAS~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)
summary(mod1i1)
  • Asociando la variable PRIVADA y el índice económico, social y cultural (IESC), se obtiene una puntuación de 1,2613 puntos más un alumno de escuela publica que un alumno de la escuela privada. El resultado es congruente aunque polémico ya que puede reflejar una falta de rigor tanto técnico como de evaluación de los alumnos en las escuelas privadas en relación con las publicas.
mod1i2<-lm(MATEMATICAS~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C)
summary(mod1i2)
  • Si asociamos la variable PRIVADA y NATIVO, encontramos algo distinto de lo que se esperaba pero que se puede interpretar de una forma interesante. El impacto sobre la nota de matemáticas de alumnos de escuela pública y a la vez inmigrantes de primera generación son menos negativas que los de segunda generación y escuela pública, lo que a principio puede dar lugar a dudas. Sin embargo una posible explicación seria de que los estudiantes de primera generación se les exige un mayor esfuerzo inicial para nivelarlos a los demás estudiantes y esto puede verse reflejado en la nota de pisa.
mod1i3<- lm(MATEMATICAS~NATIVO+PRIVADA*REPETIDOR+IESC,data=esp2015C)
summary(mod1i3)
  • Otra asociación poco clara es la de PRIVADA con REPETIDOR. El resultado nos dice que siendo repetidor y de escuela publica, sacas 2,3520 más nota en matemáticas que un alumno repetidor de escuela privada. Esto puede ser explicado cuanto al rigor en las escuelas publicas para aprobar un alumno diferentemente de lo que ocurre muchas veces en escuelas privadas.

Cuando utilizamos modelos robustos no constatamos tantas diferencia en comparación con el mod1.

modrob1<-rlm(MATEMATICAS~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)
summary(modrob1)
Call: rlm(formula = MATEMATICAS ~ NATIVO + REPETIDOR + IESC + PRIVADA, 
    data = esp2015C)
Residuals:
      Min        1Q    Median        3Q       Max 
-301.0721  -46.4873    0.2625   46.6598  267.8788 

Coefficients:
                            Value    Std. Error t value 
(Intercept)                 526.8343   0.6861   767.9080
NATIVOSecond-Generation      -6.7092   3.1078    -2.1588
NATIVOFirst-Generation      -19.8946   1.4191   -14.0193
REPETIDORRepeated a <grade> -79.6097   0.9591   -83.0012
IESC                         14.1616   0.3871    36.5826
PRIVADAPública               -1.8854   0.8703    -2.1664

Residual standard error: 69.09 on 31501 degrees of freedom

A.2)Regresión particionada - MATEMATICAS

mod1p1<-lm(MATEMATICAS~PRIVADA,data=esp2015C)
mod1p2<-lm(MATEMATICAS~PRIVADA+REPETIDOR,data=esp2015C)
mod1p3<-lm(MATEMATICAS~PRIVADA+REPETIDOR+IESC,data=esp2015C)
mod1p4<-lm(MATEMATICAS~PRIVADA+REPETIDOR+IESC+NATIVO,data=esp2015C)
modpart1=compareCoefs(mod1p1,mod1p2,mod1p3,mod1p4,se=FALSE)
view(modpart1)

La regresión particionada del mod 1 consagra lo que queremos demonstrar en nuestro trabajo. Cuando analizamos solo las notas en matemáticas de los alumnos participes del examen PISA en función de la variable PRIVADA constatamos que el efecto de esta es muy relevante en cuanto a la nota del alumno. Sin embargo, cuando introducimos otras variables al modelo este impacto se disuelve y prácticamente podemos considerar como irrelevante para la determinación de la nota de los estudiantes. Las variables que redujeron con mayor intensidad la importancia y relevancia de la variables PRIVADA fueron: REPETIDOR e IESC.

B)LECTURA

Mod4<-lm(LECTURA~NATIVO+REPETIDOR+IESC+PRIVADA,data=esp2015C)

La puntuación máxima está en torno a 800 puntos. No teniendo en cuenta las variables explicativas, un alumno cualquiera en lectura obtendría 536,3616 de nota (B0). Considerando las distintas variables, obtendremos diferentes resultados.

Call:
lm(formula = y4 ~ x4, data = anscombe)

Residuals:
   Min     1Q Median     3Q    Max 
-1.751 -0.831  0.000  0.809  1.839 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   3.0017     1.1239   2.671  0.02559 * 
x4            0.4999     0.1178   4.243  0.00216 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.236 on 9 degrees of freedom
Multiple R-squared:  0.6667,    Adjusted R-squared:  0.6297 
F-statistic:    18 on 1 and 9 DF,  p-value: 0.002165
  • El resultado para un alumno que sea inmigrante de primera generación obtiene una puntuación de 9,9577 puntos menos sobre la media de un nativo. El resultado es coherente porque un alumno que venga de primera generación de inmigrantes puede tener más problemas para adaptarse al sistema educativo español por problemas con el idioma, adaptación cultural entre otras variables. Ya cuando tratamos de analizar el resultado para un alumno que sea inmigrante de segunda generación se observa una puntuación de 6,7954 puntos más sobre la media de un nativo. Lo punto interesante es comparar los alumnos de primera y segunda generación pues hay una notable diferencia en cómo afecta la nota. El resultado puede deberse que con el paso del tiempo estos estudiantes se adaptan mejor, aunque continúen presentando efectos negativos sobre la nota. Pero lo que realmente debe ser cuestionado es, ¿porque el inmigrante de segunda generación obtiene una nota más grande que el nativo en Lectura? Según estudios realizados por el Instituto Universitario Ortega y Gasset y la Universidad de Princeton:

“El 50% de los hijos de aquellos inmigrantes que llegaron a España en la década de los noventa, hoy adolescentes, se sienten españoles. El porcentaje es todavía mayor entre los que han nacido en el país (80%) frente a los que han llegado a edades tempranas.”

Otro punto interesante de esta pesquisa es segundo sus notas: “Sus hogares son más humildes, pero sacan las mismas notas que los demás”

  • El resultado para un alumno que sea repetidor obtiene una puntuación de 86,3011 puntos menos sobre la media de un alumno que no haya repetido. El resultado es coherente porque un alumno que haya repetido puede tener más problemas para alcanzar el nivel adecuado en el examen de PISA que otro alumno que no haya repetido.

  • El resultado para un alumno que tenga una condición sociocultural y económica mejor que otro alumno cualquiera obtiene una puntuación de 11,3466 puntos más sobre la media de un alumno con una menor capacidad financiera. El resultado es coherente porque un alumno que con mayor capacidad financiera tendrá un mayor o mejor acceso a conseguir ayuda extraescolar, acceso a libros, a un ambiente culturalmente estimulante entre otras cosas.

  • El resultado para un alumno que sea de la escuela pública obtiene una puntuación de 5,5718 puntos menos sobre la media de un alumno de la escuela privada. Este resultado puede reflejar la realidad desde un punto de vista del nivel educativo, infraestructura, profesores más estimulados en una escuela privada frente a una pública. También es notorio observar que el impacto de la variable PRIVADA es menos intenso comparado con las demás variables, por tal motivo se analiza en este trabajo otras variables que puedan influir en las notas de los alumnos.

  • La variable que presento un mayor efecto negativo sobre las medias en lectura, fue la variable REPETIDOR. Y la que menos fue la PRIVADA, reforzando otra vez la debilidad de esta variable frente a las demás.

B.1)Interacciones - LECTURA

mod4i1<- lm(LECTURA~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)
Call:
lm(formula = LECTURA ~ NATIVO + REPETIDOR + IESC * PRIVADA, data = esp2015C)

Residuals:
    Min      1Q  Median      3Q     Max 
-370.49  -47.97    2.29   50.27  289.67 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 536.3619     0.7078 757.757  < 2e-16 ***
NATIVOSecond-Generation       6.7827     3.2064   2.115   0.0344 *  
NATIVOFirst-Generation       -9.9905     1.4642  -6.823 9.06e-12 ***
REPETIDORRepeated a <grade> -86.2714     0.9897 -87.171  < 2e-16 ***
IESC                         10.3347     0.6436  16.057  < 2e-16 ***
PRIVADAPública               -5.1721     0.9198  -5.623 1.89e-08 ***
IESC:PRIVADAPública           1.5741     0.7852   2.005   0.0450 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 73.2 on 31500 degrees of freedom
Multiple R-squared:  0.286, Adjusted R-squared:  0.2859 
F-statistic:  2103 on 6 and 31500 DF,  p-value: < 2.2e-16
Asociando la variable PRIVADA y el índice económico, social y cultural (IESC), se obtiene una puntuación de 1,5741 puntos más un alumno de escuela pública que un alumno de la escuela privada. El resultado es congruente, aunque polémico ya que puede reflejar una falta de rigor tanto técnico como de evaluación de los alumnos en las escuelas privadas en relación con las públicas.  
mod4i2<-lm(LECTURA~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C)
Call:
lm(formula = LECTURA ~ NATIVO * PRIVADA + REPETIDOR + IESC, data = esp2015C)

Residuals:
    Min      1Q  Median      3Q     Max 
-370.81  -47.88    2.22   50.28  289.27 

Coefficients:
                                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)                            536.2369     0.7262 738.393  < 2e-16 ***
NATIVOSecond-Generation                 14.3196     6.1898   2.313 0.020707 *  
NATIVOFirst-Generation                  -9.3823     2.8374  -3.307 0.000945 ***
PRIVADAPública                          -5.3590     0.9408  -5.696 1.23e-08 ***
REPETIDORRepeated a <grade>            -86.3149     0.9898 -87.204  < 2e-16 ***
IESC                                    11.3539     0.3997  28.407  < 2e-16 ***
NATIVOSecond-Generation:PRIVADAPública -10.2752     7.2267  -1.422 0.155083    
NATIVOFirst-Generation:PRIVADAPública   -0.7935     3.2675  -0.243 0.808117    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 73.21 on 31499 degrees of freedom
Multiple R-squared:  0.286, Adjusted R-squared:  0.2858 
F-statistic:  1802 on 7 and 31499 DF,  p-value: < 2.2e-16

Si asociamos la variable PRIVADA y NATIVO, encontramos algo distinto de lo que se esperaba pero que se puede interpretar de una forma interesante. El impacto sobre la nota de lectura de alumnos de escuela pública y a la vez inmigrantes de primera generación son menos negativas (-0,7935) que los de segunda generación y escuela pública (-10,2752), lo que a principio puede dar lugar a dudas. Sin embargo, una posible explicación seria de que los estudiantes de primera generación se les exige un mayor esfuerzo inicial para nivelarlos a los demás estudiantes y esto puede verse reflejado en la nota de pisa.

mod4i3<- lm(LECTURA~NATIVO+PRIVADA*REPETIDOR+IESC,data=esp2015C)
Call:
lm(formula = LECTURA ~ NATIVO + PRIVADA * REPETIDOR + IESC, data = esp2015C)

Residuals:
    Min      1Q  Median      3Q     Max 
-370.59  -47.87    2.25   50.31  288.82 

Coefficients:
                                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)                                536.5583     0.7613 704.825  < 2e-16 ***
NATIVOSecond-Generation                      6.8126     3.2067   2.124   0.0336 *  
NATIVOFirst-Generation                      -9.9432     1.4643  -6.790 1.14e-11 ***
PRIVADAPública                              -5.9129     1.0209  -5.792 7.04e-09 ***
REPETIDORRepeated a <grade>                -87.3236     1.7609 -49.589  < 2e-16 ***
IESC                                        11.3380     0.3996  28.373  < 2e-16 ***
PRIVADAPública:REPETIDORRepeated a <grade>   1.4334     2.0418   0.702   0.4827    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 73.21 on 31500 degrees of freedom
Multiple R-squared:  0.286, Adjusted R-squared:  0.2858 
F-statistic:  2103 on 6 and 31500 DF,  p-value: < 2.2e-16
  • Otra asociación poco clara es la de PRIVADA con REPETIDOR. El resultado nos dice que siendo repetidor y de escuela publica, sacas 1,4334 más nota en lectura que un alumno repetidor de escuela privada. Esto puede ser explicado cuanto al rigor en las escuelas publicas para aprobar un alumno diferentemente de lo que ocurre muchas veces en escuelas privadas.

Cuando utilizamos modelos robustos no constatamos tantas diferencias en comparación con el mod4.

modrob4<-rlm(LECTURA~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)
Call: rlm(formula = LECTURA ~ NATIVO + REPETIDOR + IESC + PRIVADA, 
    data = esp2015C)
Residuals:
     Min       1Q   Median       3Q      Max 
-371.973  -49.083    0.956   48.945  287.322 

Coefficients:
                                Value    Std. Error t value 
(Intercept)                     537.8103   0.7224   744.4991
NATIVO[T.Second-Generation]       6.9903   3.2723     2.1362
NATIVO[T.First-Generation]       -8.5848   1.4942    -5.7454
REPETIDOR[T.Repeated a <grade>] -86.9812   1.0099   -86.1278
IESC                             11.6089   0.4076    28.4809
PRIVADA[T.Pública]               -5.4764   0.9163    -5.9764

Residual standard error: 72.69 on 31501 degrees of freedom

B.2)Regresión particionada - LECTURA

mod4p1<-lm(LECTURA~NATIVO,data=esp2015C)
mod4p2<-lm(LECTURA~NATIVO+REPETIDOR,data=esp2015C)
mod4p3<-lm(LECTURA~NATIVO+REPETIDOR+IESC,data=esp2015C)
mod4p4<-lm(LECTURA~NATIVO+REPETIDOR+IESC+PRIVADA,data=esp2015C)
modpart4=compareCoefs(mod4p1,mod4p2,mod4p3,mod4p4,se=FALSE)
view(modpart4)

La regresión particionada del mod 4 consagra lo mismo que el mod 1 y que es lo que queremos demonstrar en nuestro trabajo. Cuando analizamos solo las notas en matemáticas de los alumnos participes del examen PISA en función de la variable PRIVADA constatamos que el efecto de esta es muy relevante en cuanto a la nota del alumno. Sin embargo, cuando introducimos otras variables al modelo este impacto se disuelve y prácticamente podemos considerar como irrelevante para la determinación de la nota de los estudiantes. Las variables que redujeron con mayor intensidad la importancia y relevancia de las variables PRIVADA fueron: REPETIDOR e IESC.

C)CIENCIAS

La puntuación máxima está en torno a 800 puntos. No teniendo en cuenta las variables explicativas, un alumno cualquiera en ciencias obtendría 531,2053 de nota (??0). Considerando las distintas variables, obtendremos diferentes resultados.

Call:
lm(formula = y4 ~ x4, data = anscombe)

Residuals:
   Min     1Q Median     3Q    Max 
-1.751 -0.831  0.000  0.809  1.839 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   3.0017     1.1239   2.671  0.02559 * 
x4            0.4999     0.1178   4.243  0.00216 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.236 on 9 degrees of freedom
Multiple R-squared:  0.6667,    Adjusted R-squared:  0.6297 
F-statistic:    18 on 1 and 9 DF,  p-value: 0.002165
  • El resultado para un alumno que sea inmigrante de primera generación obtiene una puntuación de -15,6416 puntos menos sobre la media de un nativo. El resultado es coherente porque un alumno que venga de primera generación de inmigrantes puede tener más problemas para adaptarse al sistema educativo español por problemas con el idioma, adaptación cultural entre otras variables. Ya cuando tratamos de analizar el resultado para un alumno que sea inmigrante de segunda generación se observa una puntuación de 6,5323 puntos menos sobre la media de un nativo. Lo punto interesante es comparar los alumnos de primera y segunda generación pues hay una notable diferencia en cómo afecta la nota. El resultado puede deberse que con el paso del tiempo estos estudiantes se adaptan mejor, aunque continúen presentando efectos negativos sobre la nota.

  • El resultado para un alumno que sea repetidor obtiene una puntuación de 83,794 puntos menos sobre la media de un alumno que no haya repetido. El resultado es coherente porque un alumno que haya repetido puede tener más problemas para alcanzar el nivel adecuado en el examen de PISA que otro alumno que no haya repetido.

  • El resultado para un alumno que tenga una condición sociocultural y económica mejor que otro alumno cualquiera obtiene una puntuación de 13,0792 puntos más sobre la media de un alumno con una menor capacidad financiera. El resultado es coherente porque un alumno que con mayor capacidad financiera tendrá un mayor o mejor acceso a conseguir ayuda extraescolar, acceso a libros, a un ambiente culturalmente estimulante entre otras cosas.

  • El resultado para un alumno que sea de la escuela pública obtiene una puntuación de 0,9744 puntos menos sobre la media de un alumno de la escuela privada. Este resultado puede reflejar la realidad desde un punto de vista del nivel educativo, infraestructura, profesores más estimulados en una escuela privada frente a una pública. También es notorio observar que el impacto de la variable PRIVADA es menos intenso comparado con las demás variables, por tal motivo se analiza en este trabajo otras variables que puedan influir en las notas de los alumnos.

  • La variable que presento un mayor efecto sobre las medias en ciencias, fue la variable REPETIDOR. Y la que menos fue la PRIVADA, reforzando otra vez la debilidad de esta variable frente a las demás.

C.1)Interacciones - CIENCIAS

mod7i1<- lm(CIENCIAS~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)
summary(mod7i1)
Call:
lm(formula = CIENCIAS ~ NATIVO + REPETIDOR + IESC * PRIVADA, 
    data = esp2015C)

Residuals:
     Min       1Q   Median       3Q      Max 
-313.922  -48.358    1.007   50.310  277.044 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 531.2056     0.7047 753.827   <2e-16 ***
NATIVOSecond-Generation      -6.5463     3.1922  -2.051   0.0403 *  
NATIVOFirst-Generation      -15.6778     1.4577 -10.755   <2e-16 ***
REPETIDORRepeated a <grade> -83.7612     0.9853 -85.013   <2e-16 ***
IESC                         11.9599     0.6408  18.665   <2e-16 ***
PRIVADAPública               -0.5322     0.9157  -0.581   0.5611    
IESC:PRIVADAPública           1.7412     0.7817   2.228   0.0259 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 72.88 on 31500 degrees of freedom
Multiple R-squared:  0.2892,    Adjusted R-squared:  0.2891 
F-statistic:  2136 on 6 and 31500 DF,  p-value: < 2.2e-16

Asociando la variable PRIVADA y el índice económico, social y cultural (IESC), se obtiene una puntuación de 1,7412 puntos más un alumno de escuela pública que un alumno de la escuela privada. El resultado es congruente, aunque polémico ya que puede reflejar una falta de rigor tanto técnico como de evaluación de los alumnos en las escuelas privadas en relación con las públicas.

mod7i2<-lm(CIENCIAS~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C)
summary(mod7i2)
Call:
lm(formula = CIENCIAS ~ NATIVO * PRIVADA + REPETIDOR + IESC, 
    data = esp2015C)

Residuals:
    Min      1Q  Median      3Q     Max 
-317.12  -48.40    0.95   50.27  278.41 

Coefficients:
                                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)                            531.0683     0.7230 734.521  < 2e-16 ***
NATIVOSecond-Generation                 -2.5050     6.1625  -0.406    0.684    
NATIVOFirst-Generation                 -14.1783     2.8249  -5.019 5.22e-07 ***
PRIVADAPública                          -0.7385     0.9366  -0.788    0.430    
REPETIDORRepeated a <grade>            -83.8100     0.9854 -85.049  < 2e-16 ***
IESC                                    13.0900     0.3979  32.896  < 2e-16 ***
NATIVOSecond-Generation:PRIVADAPública  -5.5120     7.1948  -0.766    0.444    
NATIVOFirst-Generation:PRIVADAPública   -1.9777     3.2531  -0.608    0.543    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 72.88 on 31499 degrees of freedom
Multiple R-squared:  0.2891,    Adjusted R-squared:  0.289 
F-statistic:  1830 on 7 and 31499 DF,  p-value: < 2.2e-16
Si asociamos la variable PRIVADA y NATIVO, encontramos algo distinto de lo que se esperaba pero que se puede interpretar de una forma interesante. El impacto sobre la nota de ciencias de alumnos de escuela pública y a la vez inmigrantes de primera generación (-1,9777) son menos negativas que los de segunda generación y escuela pública (-5,5120), lo que a principio puede dar lugar a dudas. Sin embargo, una posible explicación seria de que los estudiantes de primera generación se les exige un mayor esfuerzo inicial para nivelarlos a los demás estudiantes y esto puede verse reflejado en la nota de pisa.    
mod7i2<-lm(CIENCIAS~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C)
summary(mod7i2)
Call:
lm(formula = CIENCIAS ~ NATIVO + PRIVADA * REPETIDOR + IESC, 
    data = esp2015C)

Residuals:
    Min      1Q  Median      3Q     Max 
-317.45  -48.48    0.95   50.34  276.62 

Coefficients:
                                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)                                531.4619     0.7579 701.245   <2e-16 ***
NATIVOSecond-Generation                     -6.5098     3.1925  -2.039   0.0414 *  
NATIVOFirst-Generation                     -15.6226     1.4578 -10.716   <2e-16 ***
PRIVADAPública                              -1.4194     1.0164  -1.397   0.1626    
REPETIDORRepeated a <grade>                -85.1284     1.7531 -48.558   <2e-16 ***
IESC                                        13.0680     0.3978  32.848   <2e-16 ***
PRIVADAPública:REPETIDORRepeated a <grade>   1.8705     2.0327   0.920   0.3575    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 72.88 on 31500 degrees of freedom
Multiple R-squared:  0.2891,    Adjusted R-squared:  0.289 
F-statistic:  2135 on 6 and 31500 DF,  p-value: < 2.2e-16
  • Otra asociación poco clara es la de PRIVADA con REPETIDOR. El resultado nos dice que siendo repetidor y de escuela publica, sacas 2,3520 más nota en ciencias que un alumno repetidor de escuela privada. Esto puede ser explicado cuanto al rigor en las escuelas publicas para aprobar un alumno diferentemente de lo que ocurre muchas veces en escuelas privadas.

Cuando utilizamos modelos robustos no constatamos tantas diferencias en comparación con el mod1.

modrob7<-rlm(MATEMATICAS~NATIVO+REPETIDOR+IESC+PRIVADA,data=esp2015C)
summary(modrob7)
Call: rlm(formula = CIENCIAS ~ NATIVO + REPETIDOR + IESC + PRIVADA, 
    data = esp2015C)
Residuals:
      Min        1Q    Median        3Q       Max 
-319.4367  -49.1614    0.2352   49.5604  277.3780 

Coefficients:
                                Value    Std. Error t value 
(Intercept)                     532.3276   0.7284   730.8595
NATIVO[T.Second-Generation]      -6.6689   3.2994    -2.0212
NATIVO[T.First-Generation]      -14.8290   1.5066    -9.8429
REPETIDOR[T.Repeated a <grade>] -84.9387   1.0183   -83.4148
IESC                             13.4466   0.4110    32.7185
PRIVADA[T.Pública]               -0.8961   0.9239    -0.9698

Residual standard error: 73.18 on 31501 degrees of freedom

C.2)Regresión particionada - CIENCIAS

mod7p1<-lm(CIENCIAS~PRIVADA,data=esp2015C)
mod7p2<-lm(CIENCIAS~PRIVADA+REPETIDOR,data=esp2015C)
mod7p3<-lm(CIENCIAS~PRIVADA+REPETIDOR+IESC,data=esp2015C)
mod7p4<-lm(CIENCIAS~PRIVADA+REPETIDOR+IESC+NATIVO,data=esp2015C)
modpart7=compareCoefs(mod7p1,mod7p2,mod7p3,mod7p4,se=FALSE)
view(modpart4)

La regresión particionada de todos los modelos consagra lo que queremos demonstrar en nuestro trabajo. Cuando analizamos solo las notas ciencias de los alumnos participes del examen PISA en función de la variable PRIVADA constatamos que el efecto de esta es muy relevante en cuanto a la nota del alumno. Sin embargo, cuando introducimos otras variables al modelo este impacto se disuelve y prácticamente podemos considerar como irrelevante para la determinación de la nota de los estudiantes. Las variables que redujeron con mayor intensidad la importancia y relevancia de las variables PRIVADA fueron: REPETIDOR e IESC.

D)Efecto de las variables explicativas en las explicadas

Para comparar las variables explicadas usamos el comando compareCoefs(mod1,mod4,mod7,se=FALSE), pues nos hace un gráfico de fácil interpretación para que podamos llegar a mejores conclusiones:

Call:
1: lm(formula = MATEMATICAS ~ NATIVO + REPETIDOR + IESC + PRIVADA, data = esp2015C)
2: lm(formula = LECTURA ~ NATIVO + REPETIDOR + IESC + PRIVADA, data = esp2015C)
3: lm(formula = CIENCIAS ~ NATIVO + REPETIDOR + IESC + PRIVADA, data = esp2015C)
                                 Est. 1  Est. 2  Est. 3
(Intercept)                     526.309 536.362 531.205
NATIVOSecond-Generation          -5.537   6.795        
NATIVOFirst-Generation          -20.480  -9.958        
REPETIDORRepeated a <grade>     -79.676 -86.301        
IESC                             14.009  11.347  13.079
PRIVADAPública                   -1.616  -5.572        
NATIVO[T.Second-Generation]                      -6.532
NATIVO[T.First-Generation]                      -15.642
REPETIDOR[T.Repeated a <grade>]                 -83.794
PRIVADA[T.Pública]                               -0.974

Primeramente, podemos comparar las notas de cada asignatura sin considerar las variables explicadas y vemos que es en LECTURA donde se saca la mejor nota.

La variable IESC tiene un efecto positivo prácticamente igual en las tres, lo que es comprensible por ser una variable cuantitativa. Ser nativo de primera generación tiene un efecto negativo en todas las explicadas, sin embargo, más negativo en MATEMATICAS. Y de segunda generación también sigue el mismo padrón, es decir, mayor efecto negativo en MATEMATICAS, pero con efecto bastante positivo en LECTURA.

Ser repetidor es la variable explicativa que más afecta negativamente los modelos, teniendo un mayor impacto negativo en LECTURA.

Para finalizar la comparación, observamos la variable PRIVADA, y podemos ya sacar algunas conclusiones previas y decir que esta no es una variable imprescindible para explicar las notas de las variables explicadas, pues como se puede ver, tiene efectos muy discretos.

4.2Análisis de relevancia de las Variables

4.3Análisis Gráfica

A)Análisis de los modelos generales

          a.1.*MATEMATICA (mod1)*  
          

Tras ejecutar los modelos lineales a estudiar (mod1, mod4, mod7) comenzamos los análisis con las gráficas del primer modelo referentes a las notas de MATEMATICAS.

Gráfico de Efectos de las Variables

  • Cargamos R Comander con el comando “library(Rcmdr)”

  • Abrimos la ventana de R Comander, incorporamos el modelo a estudiar (podemos poner cualquiera ya que esto únicamente lo hacemos para que comience a funcionar el comando “allEfects”), pinchamos en “Modelos” ??? “Gráficas” ??? “Gráfica de los efectos” ??? “Aceptar” a partir de aquí funciona perfectamente el comando.

  • Ejecutamos “plot(allEffects(mod1))” con lo que obtenemos los gráficos correspondientes a la relación entre “MATEMATICAS” y sus respetivas variables explicativas “NATIVO”, “REPETIDOR”, “IESC”, “PRIVADA”.

Respecto al gráfico “MATEMÁTICAS - NATIVO” podemos observar que el comando anteriormente mencionado representa la media de las notas de los nativos, de los inmigrantes de primera generación y de los inmigrantes de segunda generación, además de mostrarnos la variación implícita en estas medias, dicha variación está interpretada mediante un segmento vertical, cuyo extremo superior nos indica la mayor nota sacada por el grupo determinado y el extremo inferior la menor nota, así pues podemos decir que los nativos son el grupo que mejor nota obtiene en Matemáticas, además con poca desviación, lo que nos indica que la mínima nota para éstos fue de 500 puntos en dicha prueba y la mayor nota es la máxima, respecto a los inmigrantes de Segunda Generación podemos decir que la desviación es muy grande, con mayor nota en más de 500 puntos y menor en 485 con una media de 490 puntos mientras que los inmigrantes de Primera Generación son los que peor nota sacan en Matemáticas, mayor nota de menos de 480, menor nota de menos de 475 y media de 475.

Respecto a “MATEMÁTICAS - REPETIDOR” los que no han repetido ningún curso son los que mejor nota tienen, con una media de bastante más de 500 puntos, y muy poca desviación, es decir, la mínima nota y la máxima nota son similares, mientras que aquellos que han repetido al menos un curso obtienen las menores notas, con media de 440 e igual desviación que la anteriormente mencionada.

Respecto a “MATEMÁTICAS - IESC” podemos decir que representa una gráfica perfectamente lineal en la que cuanto más IESC tenga el alumno, mayor nota obtiene con una banda de confianza que representa lo mismo que la desviación de las demás gráficas (recordamos que IESC es la única variable cuantitativa, las demás son cualitativas).

Respecto a “MATEMÁTICAS - PRIVADA” hay una desviación bastante prolongada en cada una de las medias, tanto aquellos alumnos que van a una escuela Privada, con máximo en 497, mínima en 494,25 y media en 495,5 mientras que los estudiantes de escuela Pública sacan peores notas, con un máximo en 495, mínimo en 493 y media de 494.

  • Gráfico MATEMATICA-NATIVO Utilizando mod1 %>% augment() %>% ggplot(aes(NATIVO, MATEMATICAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13) obtenemos un gráfico que representa mediante puntos cada una de las observaciones (alumno y nota que ha sacado), siendo notable el número de observaciones de nativos, mucho mayor que el número de Primera Generación y éste mayor que el número de Segunda Generación. También podemos decir que los estudiantes con mayores notas se encuentran en el grupo nativos mientras que el alumno con peor nota se encuentra en el grupo de Primera Generación.

  • Gráfica MATEMATICA-REPETIDOR

Utilizando mod1 %>% augment() %>% ggplot(aes(REPETIDOR, MATEMATICAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13) podemos ver que el examen ha sido realizado por más alumnos que no han repetido que por alumnos que han repetido al menos un curso, obteniendo los alumnos que no han repetido curso la máxima nota, y los que han repetido la nota más baja, además de que la mayoría de los que no han repetido han sacado mejor nota que los que han repetido.

  • Gráfico MATEMATICA-IESC

Utilizando mod1 %>% augment() %>% ggplot(aes(IESC, MATEMATICAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13) podemos ver que la mayoría de los alumnos que han realizado el examen se encuentran en un intervalo de IESC de (-2’5,2’5), siendo digo de mención una observación cuyo IESC es de -7,5 (el mínimo) pero su nota es casi de 500 puntos, y que la mayor nota, 800, la ha obtenido un alumno cuyo IESC es de 1,25.

  • Gráfico MATEMATICA-PRIVADA

Utilizando mod1 %>% augment() %>% ggplot(aes(PRIVADA, MATEMATICAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13) podemos decir que hay mayor número de observaciones de escuelas Públicas que de Privadas y que aunque la diferencia sea pequeña, los alumnos de las escuelas Privadas obtienen mejores notas que los de Públicas, como comentamos anteriormente con el gráfico allEfects, además de esto cabe destacar que la mejor nota ha sido obtenido por un alumno de la Privada, mientras que la peor nota ha sido obtenida por uno de la Pública. También observamos que las diferencias entre las notas de los dos tipos de instituciones escolares no son tan discrepantes.

a.2. LECTURA (mod4)

Usamos la función: “plot(allEffects(mod4))” para representar las relaciones del modelo 4 y ver los efectos principales:

Variable de respuesta “LECTURA” con cada una de las variables explicativas, que son “NATIVO”, “REPETIDOR”, “IESC” y “PRIVADA”.

Grafica de efectos de las variables

En general, en el Gráfico “LECTURA - NATIVO” se puede decir que no hay un gran efecto en la calificación obtenida en lectura en función de nacionalidad. No obstante, podemos observar que la diferencia en el efecto entre los nativos y los inmigrantes de segunda generación es menor si comparamos los inmigrantes de primera y de segunda generación. Aunque la media más alta es la de los inmigrantes de segunda generación, tienen una desviación muy grande, sobre todo, comparando con la desviación de los nativos.

En el Gráfico “LECTURA - REPETIDOR”, vemos que el hecho de ser repetidor afecta negativamente a la calificación obtenida en lectura. Mientras que la media de los no repetidores se sitúa por encima de 520 puntos, la media de los repetidores está alrededor de 440 puntos, siendo la desviación muy pequeña en ambos casos.

En el Gráfico “LECTURA - IESC” nos enseña que a medida que se incrementa el valor del IESC la nota obtenida en lectura aumenta. Las bandas de confianza son anchas en los valores bajos del IESC, lo que se debe a que hay muy pocas observaciones en este segmento.

Respecto al Gráfico “LECTURA - PRIVADA”, podemos decir que existe un efecto escaso sobre la calificación obtenida en lectura de formarse en escuela privada o pública. La diferencia de medias entre las notas de alumnos de escuelas privadas y públicas es de aproximadamente tan solo 5 puntos, siendo la desviación parecida en ambos casos.

GRAFICO MODELO 4 LECTURA-NATIVO

Comando utilizado: mod4 %>% augment() %>% ggplot(aes(NATIVO,LECTURA)) + geom_jtter() + geom_smooth()+theme_bw(base_size=13).

El número de observaciones de los nativos es mucho más grande que el de los inmigrantes tanto de la primera generación como de la segunda generación. También hay más dispersión en los nativos, ligeramente mayor las notas en lectura de estos. Comparando los inmigrantes de primera y de la segunda generación se puede ver que, en general, sacan mejor nota los de segunda generación, aunque cabe mencionar que su número de observaciones es menor. La franja media de notas está en torno de 400-600 en todos los tipos de estudiantes.

  • Grafico Lectura-Repetidor

Comando utilizado: mod4 %>% augment() %>% ggplot(aes(REPETIDOR,LECTURA)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13)

Se puede observar que hay mayor número de observaciones de los alumnos que no han repetido el curso. Éstos tienen, en general, mejor calificación en lectura que los repetidores.

  • Grafico Modelo 4 Lectura-Iesc

El comando utilizado: mod4 %>% augment() %>% ggplot(aes(IESC, LECTURA))+ geom_jitter() + geom_smooth()+theme_bw(base_size=13)

Podemos ver que la mayor parte de las observaciones se concentra en el intervalo [-2.5, 1.25]. Hasta el valor -2.5 de IESC hay muy pocas observaciones y con grande varianza lo que hace que las bandas de confianza sean muy anchas.

  • Grafico Lectura-Privada

El comando utilizado: mod4%>% augment() %>% ggplot(aes(PRIVADA, LECTURA)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13)

En primer lugar, existen bastante más observaciones de los alumnos de escuelas públicas. Hay alumnos con muy buenas notas (>700) tanto en escuelas privadas como en las públicas, mientras que hay relativamente mayor número de alumnos con notas bajas (<300) en escuelas públicas. Si consideramos las notas de lectura obtenidas en el intervalo entre 200 y 500 puntos, los estudiantes de escuelas privadas muestran mejores resultados que los de escuelas públicas. Sin embargo, esta diferencia puede estar relacionada con el muestreo mayor de alumnos de escuela pública que alumnos de escuela privada.

a.3. CIENCIAS (mod7)

-Gráfico de Efectos de las Variables

Por fin analizamos las gráficas del mod 7 cuya variable explicada es CIENCIAS: Volvemos a ejecutar plot(allEffects(mod7)) y obtenemos los gráficos que relacionan “Ciencias” y las variables explicativas “Nativo”, “Repetidor”, “IESC”, “Privada”.

En el primer gráfico “Ciencias-Nativo”, como podemos observar los nativos son el grupo que mejor nota obtiene en Ciencias y con muy poca desviación, la mayor nota que obtienen es la máxima, y la mínima nota se sitúa en torno a los 500 puntos.

Los inmigrantes de Segunda Generación sin embargo, constan de una desviación mucho más grande, con una algunas notas superiores a 500 puntos y algunas menores de 490 aproximadamente, con una media de 495 puntos.

Por último, los inmigrantes de Primera Generación, son el grupo que peor nota obtiene en la asignatura de Ciencias, con una nota mayor de 490 aproximadamente y la menor, que coincide con la media, unos 485 puntos.

En el segundo gráfico, “Ciencias-Repetidor” los que no han repetido ningún curso son los que mejor nota tienen, constan de una desviación muy pequeña, por lo que la minima y máxima nota son prácticamente iguales, situadas entorno a los 520 puntos. Mientras que aquellos que han repetido al menos un curso obtienen las menores notas, con media de 440 e igual desviación que la anteriormente mencionada.

En el gráfico 3, “Ciencias-IESC”, como hemos citado en los modelos anteriores, al ser IESC la única variable cuantitativa, podemos decir que representa una gráfica perfectamente lineal en la que cuanto más IESC tenga el alumno, mayor nota obtiene con una banda de confianza que representa lo mismo que la desviación de las demás gráficas.

Por último, en la última gráfica, que nos relaciona “Ciencias-Privada”, podemos diferenciar aquellos alumnos que van a la escuela privada, con una desviación bastante amplia, con una nota mayor de 501.5, y una menos de 499.0, cuya media se sitúa en los 500 puntos aproximadamente. Aquellos estudiantes que van a la escuela Pública, obtienen con una desvación bastante amplia también, calificaciones mayores de 500 puntos, y menores de 498.5, con una media de 499.5, lo que no difiere mucho de la nota en las escuelas privadas.

  • Gráfico: CIENCIAS-NATIVO

Utilizamos la función mod7 %>% augment() %>% ggplot(aes(NATIVO,CIENCIAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size = 13) con la que obtenemos el gráfico.

Como podemos observar, destaca notablemente en el gráfico el número de observaciones de nativos, respecto a los otros grupos, siendo los inmigrantes de Segunda Generación el grupo que menos tiene.

En nuestro caso, el grupo de nativos es el que cuenta con alumnos que obtienen las mejores notas, aunque podemos observar que hay una fuerte concentración de las notas en la franja 400-600 en todos los 3 tipos.

  • Gráfico: CIENCIAS-REPETIDOR

Obtenemos el gráfico utilizando mod7 %>% augment() %>% ggplot(aes(REPETIDOR,CIENCIAS)) + geom_jitter() + geom_smooth() +theme_bw(base_size = 13) como podemos ver el examen ha sido realizado más por los alumnos que no han repetido que por alumnos que han repetido al menos un curso.

Las notas más altas las obtienen los alumnos que no han repetido curso y las menores los que han repetido.

  • Gráfico CIENCIAS-IESC

Utilizamos la función mod7 %>% augment() %>% ggplot(aes(IESC,CIENCIAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size = 13) para obtener el gráfico y observamos que la mayoría de los alumnos que han realizado el examen se encuentran en un intervalo de IESC de (-2,5,2,5).

Podemos hacer especial atención a una observación cuyo IESC es el mínimo (-7,5) pero con una nota superior a 400 puntos.Y la máxima nota la obtiene un alumnos con 800 puntos y un IESC de (1,25~1,50).

  • Gráfico: CIENCIAS-PRIVADA

Utilizamos la función mod7 %>% augment() %>% ggplot(aes(PRIVADA, CIENCIAS)) + geom_jitter() + geom_smooth()+theme_bw(base_size=13) y obtenemos el gráfico.

El numero de observaciones es mayor en las escuelas públicas que en las privadas, sin embargo las notas son muy similares, siendo la de las escuelas Privadas ligeramente más altas.

B) Análisis de las interacciones

    **b.1. Gráfico: Mod1 (MATEMATICAS) con interacciones**  
    

Utilizamos “install.packages(”visreg“)” y “library(visreg)” para cargar el comando visreg, con el que haremos todos los gráficos de interacciones.

  • Interacción: IESC-PRIVADA (mod1i1)

Creamos el primer modelo (mod1i1), recordamos que todas las interacciones son con Privada:

mod1i1<-lm(MATEMATICAS~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C) 
summary(mod1i1)

Con el comando “visreg2d(mod1i1,”IESC“,”PRIVADA“)” creamos un gráfico que se divide en Pública y Privada, y lo relaciona con el IESC, donde las notas sacadas por los estudiantes se representan mediante colores en cada uno de los gráficos, que siguen una regla numérica (-7’5,3’5), siendo el color azul oscuro las peores notas en Matemáticas y el rojo oscuro las mejores. Así pues podemos ver que los de menor IESC en la Pública sacan peores notas que los que tienen su mismo IESC en la Privada, prácticamente con un mismo IESC se saca mejor nota si estas en una escuela Privada que en una Pública, menos aquellos que tienen el mayor IESC que sacan mejor nota estando en una Pública.

Estos dos comandos, visreg(mod1i1,“IESC”,by=“PRIVADA”,overlay=TRUE,band=FALSE) , visreg(mod1i1,“IESC”,by=“PRIVADA”,overlay=FALSE,band=FALSE) , representan lo mismo pero nos pareció mejor incorporar los dos ya que con overlay=TRUE sale un gráfico donde se solapan las gráficas que relacionan (Pública - IESC) y (Privada - IESC), mientras que con overlay=FALSE salen separadas, por lo que en algunas interacciones podemos analizar los resultados mejor juntos que separados y viceversa. Así pues podemos ver lo que comentamos con el comando visreg2d cuando los estudiantes tienen menor IESC obtienen mejores calificaciones si van a una Privada, pero los que tienen mayor IESC sacan iguales o mejores notas en las escuelas públicas.

  • Interacción: PRIVADA-NATIVO (mod1i2)

Creamos el segundo modelo (mod1i2):

mod1i2<-lm(MATEMATICAS~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C) 
summary(mod1i2)

Con el comando visreg2d(mod1i2,“NATIVO”,“PRIVADA”) podemos decir que las notas obtenidas por el grupo de nativos en Matemáticas son prácticamente iguales en la Privada que en la Pública, ya que están representadas por el mismo color, la gran diferencia está entre las calificaciones de la Segunda Generación ya que en la Pública sacan peores notas que en la Privada (rosa frente a rojo claro), y también hay diferencia en la Primera Generación, peores notas en la Pública que en la Privada (azul oscuro frente a azul más claro).

Con los comandos visreg(mod1i2,“NATIVO”,by=“PRIVADA”,overlay=TRUE,band=FALSE) y visreg(mod1i2,“NATIVO”,by=“PRIVADA”,overlay=FALSE,band=FALSE) vemos lo mismo anteriormente comentado, pero con todas las observaciones representadas por puntos, siendo la Privada el color rojo y la Pública el azul.

  • Interacción: REPETIDOR-PRIVADA (mod1i3)

Creamos el tercer modelo (mod1i3):

mod1i3<-lm(MATEMATICAS~NATIVO+PRIVADA*REPETIDOR+IESC,data=esp2015C) 
summary(mod1i3)

Con el comando visreg2d(mod1i3,“REPETIDOR”,“PRIVADA”) vemos que en la Pública los que no han repetido curso obtienen peores calificaciones (rojo claro frente a rojo oscuro) mientras que los que han repetido curso obtienen prácticamente las mismas notas en Pública que en Privada aunque ligeramente mayores en Privada (azul oscuro frente a azul menos oscuro).

Con los comandos visreg(mod1i3,“REPETIDOR”,by=“PRIVADA”,overlay=TRUE,band=FALSE) y visreg(mod1i3,“REPETIDOR”,by=“PRIVADA”,overlay=FALSE,band=FALSE) vemos lo mismo anteriormente comentado, además de poder ver que hay más observaciones tanto en repetidores como en no repetidores en la escuela Pública que en la Privada, pero las notas son muy similares.

b.1. Gráfico: Mod4 (LECTURA) con interacciones

  • Interaccion: IESC-PRIVADA (mod4i1)

En primer lugar, creamos el primer modelo con interacción con función:

mod4i1<-lm(LECTURA~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)

Para representar los modelos con interacciones utilizamos el comando visreg del paquete “visreg”.

Comando utilizado: visreg2d(mod4i1,“IESC”,“PRIVADA”)

Este gráfico representa los resultados en lectura de los alumnos de escuela privada y de escuela pública en función del valor de IESC, siendo el color rojo para las mejores calificaciones y el azul para las peores. En general, parece que a un valor dado de IESC alcanzan mejores resultados en escuelas privadas. En cuanto a los alumnos con el bajo valor de IESC, vemos que obtienen peor calificación los alumnos de escuelas públicas. Sin embargo, esta tendencia desaparece e, incluso, cambia cuando consideramos altos valores de IESC.

El comando utilizado:

visreg(mod4i1,“IESC”,by=“PRIVADA”,overlay=TRUE,band=FALSE)

El comando utilizado:

visreg(mod4i1,“IESC”,by=“PRIVADA”,overlay=FALSE,band=FALSE)

En el primer gráfico el color rojo representa escuela privada y el color azul representa escuela pública. Vemos que se confirma la tendencia observada en gráfico utilizando visreg2d, sin embargo, en éste se ve que ello se debe a que para los valores inferiores a -3 de IESC hay mucho menos observaciones de escuelas privadas que de las públicas, lo que es coherente ya que para los estudiantes con valores bajos de IESC es más probable que estén formándose en escuelas públicas.

  • Interaccion: NATIVO-PRIVADA (mod4i2)

Creamos el segundo modelo con interacción con función:

mod4i2<- lm(LECTURA~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C)

El comando utilizado: visreg2d(mod4i2,“NATIVO”,“PRIVADA”)

En este gráfico podemos observar que tanto para los nativos como para los inmigrantes de primera y de segunda generación se cumple que en escuela privada la nota media de lectura es más alta. Para los inmigrantes de segunda generación vemos que la diferencia en función de estudiar en escuela privada o pública es grande, siendo mucho más alta la nota media en escuela privada.

El comando utilizado: visreg(mod4i2,“NATIVO”,by=“PRIVADA”,overlay=TRUE, band=FALSE)

El comando utilizado: visreg(mod4i2,“NATIVO”,by=“PRIVADA”,overlay=FALSE, band=FALSE)

En el primer gráfico el color rojo representa escuela privada y el color azul representa escuela pública. Comparando los inmigrantes de primera generación con los de segunda generación podemos concluir que las calificaciones obtenidos por los de segunda generación superan las obtenidas por los de primera generación tanto en escuelas públicas como en las privadas. Sin embargo, la diferencia dentro de escuelas privadas es mayor entre los dos tipos de inmigrantes.

  • Interaccion: REPETIDOR-PRIVADA (mod4i3)

Creamos el tercer modelo de interacción con función:

mod4i3<- lm(LECTURA~NATIVO+PRIVADA*REPETIDOR+IESC,data=esp2015C)

Comando utilizado: visreg2d(mod4i3,“REPETIDOR”,“PRIVADA”)

Este gráfico representa las notas medias obtenidas en lectura en escuela privada y pública en función de si el alumno ha repetido el curso o no. Se observa que los alumnos que no han repetido el curso sacan mucho mayor nota que los repetidores y en escuela privada, en comparación con la pública, el resultado es ligeramente mejor para ambos.

El comando utilizado: visreg(mod4i3,“REPETIDOR”,by=“PRIVADA”,overlay=TRUE, band=FALSE)

El comando utilizado: visreg(mod4i3,“REPETIDOR”,by=“PRIVADA”,overlay=FALSE, band=FALSE)

En el primer gráfico el color rojo representa escuela privada y el color azul representa escuela pública. En estos gráficos confirmamos lo observado en el gráfico con comando visreg2d, las calificaciones obtenidas por los repetidores son considerablemente peores que las obtenidas por los no repetidores. Además, vemos que lo que es relevante no es si el alumno estudia en escuela privada o pública, sino que el alumno sea repetidor o no.

b.3. Gráfico: Mod7 (CIENCIAS) con interacciones

  • Interacción: IESC-PRIVADA (mod7i1)

Creamos el primer modelo (mod7i1).

mod7i1<-lm(CIENCIAS~NATIVO+REPETIDOR+IESC*PRIVADA,data=esp2015C)

Utilizamos visreg2d(mod7i1,“IESC”,“PRIVADA”) y obtenemos el gráfico dividido en Pública y Privada, relacionado con el IESC, del modelo de Ciencias.

Las notas sacadas por los estudiantes se representan mediante colores en cada uno de los gráficos, que siguen una regla numérica (-7,5 ; 3,5)

Como podemos observar, en el caso de los menor IESC, los alumnos de las escuelas públicas sacan peores notas que los de la escuela privada.

Sin embargo, los que tienen mayor IESC, obtienen mayor calificación en la escuela Pública que en la Privada.

Utilizamos visreg2d(mod7i1,“IESC”,“PRIVADA”) que nos muestra los resultados juntos.

Y como podemos ver que con un menor IESC, los estudiantes tienen mejores calificaciones en la escuela Privada. Sin embargo con mayor IESC, obtienen mayores calificaciones en una escuela Pública.

  • Interacción: NATIVO-PRIVADA (mod7i2)

Creamos el segundo modelo (mod7i2):

mod7i2<- lm(CIENCIAS~NATIVO*PRIVADA+REPETIDOR+IESC,data=esp2015C)

Utilizamos el comando: visreg2d(mod7i2,“NATIVO”,“PRIVADA”)

En este modelo podemos ver que las notas de los nativos no varían prácticamente de la escuela Pública a la Privada, siendo mínimamente superiores las de la Pública.

Sin embargo, en la Segunda Generación, podemos apreciar la gran diferencia de una escuela a otra, siendo las notas de la escuela Privada (rojo), notablemente superiores a las de la Pública (gris).

En la Primera Generación, las notas de las escuelas privadas superan a las Públicas.

Utilizando los comandos:

visreg(mod7i2,“NATIVO”,by=“PRIVADA”,overlay=TRUE,band=FALSE) y visreg(mod7i2,“NATIVO”,by=“PRIVADA”,overlay=FALSE,band=FALSE vemos lo mismo que lo anterior pero con todas las observaciones por puntos.

  • Interacción: REPETIDOR-PRIVADA (mod7i3)

Creamos el tercer modelo (mod7i3):

mod7i3<- lm(CIENCIAS~NATIVO+PRIVADA*REPETIDOR+IESC,data=esp2015C)

Utilizamos el comando:

visreg2d(mod7i3,“REPETIDOR”,“PRIVADA”)

Y vemos que en el caso de los que no han repetido curso, las calificaciones obtenidas son mejores en la Privada (rojo más oscuro) que la Pública (rojo claro).

Sin embargo, en el caso de los que han repetido curso las calificaciones que obtienen son similiares, siendo ligeramente superiores las de la Pública.

Utilizamos no obstante, los comandos:

visreg(mod7i3,“REPETIDOR”,by=“PRIVADA”,overlay=TRUE,band=FALSE) y visreg(mod7i3,“REPETIDOR”,by=“PRIVADA”,overlay=FALSE,band=FALSE)

Y vemos lo dicho anteriormente.

5. CONCLUSIÓN

6. BIBLIOGRAFÍA

http://sociedad.elpais.com/sociedad/2013/05/13/actualidad/1368438294_124233.html

https://datascienceplus.com/how-to-detect-heteroscedasticity-and-rectify-it/