Informe de la asignatura EconometrÃa I,
Docente: José Antonio Ortega Osona
Esta práctica fue entregada el dÃa: 17/05/2017
Siendo hecha por el Grupo A
Introducción
Base de Datos
2.1 Informe PISA
2.2 Programa Informático â R
Análisis Exploratorio/ Diagnóstico y Validación I
Regresión
Conclusiones
BibliografÃa
_**1. INTRODUCCIÓN**_
El trabajo tiene como objetivo analizar cuáles son las diferencias entre Escuelas Públicas y Escuelas Privadas tanto en notas de matemáticas, lengua y ciencias; el porqué dependiendo de la escuela se sacan mejores notas, y cuáles son las variables fundamentales que hacen que existan estas diferencias.
En un principio podemos pensar que en las Escuelas Privadas se sacaran mejores notas en matemáticas, en lengua y en ciencias que en las Públicas, debido al mayor estatus que tienen los alumnos de estas primeras, pero vamos a comprobar si esto es realmente asà o no. La elección de este tema para la realización del trabajo viene motivada por la razón de intentar profundizar en la diferencia de notas entre escuelas públicas y privadas e intentar demostrar que estas diferencias pueden ser distintas de lo que pensamos antes de hacer el trabajo, cambiando asà nuestra perspectiva hacia ambos tipos de escuelas.
Pero, ¿es cierto que son mejores las escuelas privadas en las notas de estas tres asignaturas? y si asà es, ¿por qué lo son o no?
¿Es la Escuela Privada mejor en matemáticas, en lengua o en ciencias por el simple hecho de su condición de ser privada, o debido a otro tipo de variables, como las relacionadas con el ámbito socioeconómico o la relación entre compañeros?
Todas estas preguntas y demás cuestiones son las que serán analizadas en el trabajo, y para ello utilizaremos una serie de análisis realizados con el programa R.
Utilizaremos los datos que nos proporciona PISA y, además, haber escogido con anterioridad las variables que mejor explican las diferencias entre los dos tipos de escuelas. Más tarde, utilizaremos el ya mencionado programa de R para verificar y hacer el estudio adecuadamente.
2. BASE DE DATOS
2.1 Informe PISA
El Programa para la Evaluación Internacional de Alumnos (PISA) mide hasta qué punto el alumnado de 15 años, los que están ya cerca del final de su educación obligatoria, ha adquirido conocimientos y destrezas clave que son esenciales para la plena participación en las sociedades modernas.
La evaluación se centra en las asignaturas escolares de matemáticas, lectura y ciencias.
Fue creado en 1997 y representa un compromiso por parte de los gobiernos de los paÃses de la OCDE para medir los resultados de los sistemas educativos sobre el rendimiento del alumnado, dentro de un marco común y acordado a nivel internacional.
Las evaluaciones de PISA no tienen el fin que tienen otras muchas evaluaciones tradicionales, como es la de evaluar sobre un tema en especÃfico, en el que además se deben memorizar grandes contenidos para poder repetirlos después. PISA, a diferencia de estos exámenes, está diseñado para identificar si el alumno es capaz de aplicar los conocimientos adquiridos en la escuela en problemas y situaciones reales de la vida, poniendo a los alumnos en entornos desconocidos, tanto dentro como fuera de la escuela. Este enfoque refleja el hecho de que las economÃas modernas premian a las personas no sólo por lo que saben, sino por lo que pueden hacer con lo que saben.
PISA es un programa continuo que da información para seguir la evolución de los conocimientos y las destrezas del alumnado en varios paÃses, asà como en diferentes subgrupos demográficos de cada paÃs en cada ronda de PISA. El examen se realiza cada 3 años con una rotación en el enfoque de las tres asignaturas principales. El área principal en 2015 es Ciencias, como lo fue en 2006. La lectura fue el área principal en 2000 y 2009, y las matemáticas fueron el área principal en 2003 y 2012.
A través de cuestionarios distribuidos al alumnado, a los padres, a la dirección y al profesorado de los centros, PISA también recaba información sobre el contexto familiar del alumnado, sus enfoques de aprendizaje y sus entornos de aprendizaje.
Los responsables de las polÃticas de todo el mundo utilizan los resultados de PISA para medir los conocimientos y las destrezas del alumnado en su propio paÃs en comparación con los de otros paÃses participantes, y analizar cómo se encuentran por sà solos y en cómo educan de manera efectiva a sus jóvenes. Uno de los objetivos más importantes de PISA es establecer puntos de referencia para la mejora de la educación que se imparte en cada paÃs y para comprender las fortalezas y debilidades relativas de sus propios sistemas educativos.
PISA es el programa internacional más amplio y riguroso que existe para evaluar el rendimiento del alumnado y recoger datos sobre aquellos factores relacionados con ellos, sus familias y centros educativos, que pueden contribuir a explicar las diferencias de rendimiento existentes.
Se destinan esfuerzos y recursos considerables para lograr la amplitud y el equilibrio cultural y lingüÃstico en los materiales de evaluación.
Es importante la relevancia para el aprendizaje a lo largo de la vida, ya que PISA solicita al alumnado información sobre su motivación para aprender, la opinión que tienen sobre sà mismos y sus estrategias de aprendizaje. La relevancia de los resultados de PISA la confirman estudios que llevan a cabo un seguimiento de los jóvenes en los años posteriores a su participación en la evaluación.
También la regularidad permite a los paÃses supervisar su progreso en relación con el cumplimiento de los objetivos educativos clave. Por último, la extensión que engloba en PISA 2015 a los 34 paÃses de la OCDE y a 38 paÃses asociados hace que PISA se haga importante.
2.2 Programa Informático â R
R es un entorno y lenguaje de programación con un enfoque al análisis estadÃstico. Se trata de uno de los lenguajes más utilizados por la comunidad estadÃstica, dado que ofrece la posibilidad de cargar muchos y diferentes paquetes con funcionalidades de cálculo y graficas bastante avanzados.
Elegimos este programa porque este nos posibilita una manera más cómoda para realizar el análisis del modelo y por su gran variedad de gráficos, pudiendo sacar conclusiones claras sobre el trabajo.
R nos proporciona muchas de las herramientas estadÃsticas que utilizaremos para la realización del trabajo, como modelos lineales y no lineales, test estadÃsticos, análisis de series temporales, gráficos⦠Además, R puede extenderse a través de paquetes desarrollados por su comunidad de usuarios y que estos crean y desarrollen nuevas funciones.
2.3 Variables Escogidas
Después de haber profundizado en el tema y habernos informado leyendo artÃculos cientÃficos relacionados, se puede llegar a la conclusión de que la titularidad del centro es un factor importante, pero también las variables referidas al entorno familiar de los individuos y también el de sus compañeros.
Algunas variables socioeconómicas y familiares llegan a ser muy importantes, además las escuelas que cuentan con estudiantes de un entorno social más favorable obtienen mejores resultados; asistir a esas mejores escuelas sà depende del estatus socioeconómico familiar.
Existen una serie de errores bastante comunes y fáciles de cometer a la hora de tener en cuenta ciertas variables: - Uso del ratio profesor-alumno (en ausencia de información sobre el tamaño de la clase). - Existencia de errores de especificación al no incluir variables familiares o personales. - No consideración de la presencia de endogeneidad entre el tamaño de la clase y los resultados académicos. - Uso de una forma funcional incorrecta al relacionar la variable explicativa con el logro académico. Las variables que utilizaremos en nuestro modelo para analizar las diferencias entre las notas en matemáticas, lengua y ciencias en las escuelas públicas y privadas serán:
âPRIVADAâ En nuestro modelo va a ser muy relevante la titularidad del centro. Los centros concertados y privados muestran unos resultados mejores que los de los públicos. En el conjunto de los paÃses de la OCDE, los alumnos de 15 años de los colegios públicos obtienen una puntuación media de 489 puntos, lo que supone 28 puntos menos que los estudiantes de la escuela privada (517 puntos), que equivale a casi un año de escolarización. Sin embargo, si eliminamos las variables socioeconómicas del ámbito familiar en los centros privados, el impacto de la titularidad disminuye en algunos paÃses o, incluso, desaparece o cambia de sentido. Por lo que elegimos esta variable para nuestro modelo pues es importante para explicarlo.
âIESCâ Numerosos estudios han demostrado la incidencia de distintas caracterÃsticas familiares sobre los resultados de los alumnos de una manera positiva. Nos referimos a caracterÃsticas como el nivel educativo, cultural y económico de los padres, lo que hace que tenga un gran efecto en nuestro modelo e influya en las notas y sus diferencias entre escuelas. Una elevada educación y un nivel económico alto produce efectos positivos sobre las notas, también podemos incluir una buena estructura familiar y altos recursos educativos y culturales disponibles en el hogar (cantidad de libros en casa). Cuantos más estudios tengan los padres, con más seguridad podremos deducir que el hijo también los tendrá, es decir, una media mayor de los años de escolarización de los padres tiene una incidencia positiva sobre sus hijos. Por tanto, podemos concluir que esta será otra de nuestras variables para explicar el modelo.
âREPETIDORâ La condición de repetidor tiene un efecto negativo sobre las notas tanto en los tres ámbitos, pudiendo haber repetidores de más de un año que puede incidir con un efecto aún más fuerte. Esta es una variable bastante deducible, aunque hay estudios que lo demuestran, pero podemos decir que es deducible pues es un comportamiento observable que hemos visto cada uno en nuestras respectivas escuelas. Por tanto, escogemos la variable repetidor como variable para intentar explicar el modelo.
âNATIVOâ Nativo (Native), es aquel perteneciente o relativo al lugar en el que ha nacido, en este caso, haber nacido tú y tus padres en España. Ser inmigrante de primera generación significa que el propio alumno ha emigrado a España en algún momento de su vida, es decir, no ha nacido en España. En cambio ser inmigrante de segunda generación significa que los alumnos si han nacido en España, pero fueron sus padres los que emigraron aquÃ. En este caso son los hijos de inmigrantes que vinieron a España. La concentración de alumnos de alguna etnia minoritaria tiene efectos negativos sobre los resultados académicos de los propios estudiantes de las etnias considerada, como demuestran los estudios y revisiones de Hanushek (1979), Datcher-Loury, (1988), Haveman y Wolfe (1995), Hanushek y Luque (2003) y Chiswick y DebBurman (2004), donde ha quedado bien establecida la muy elevada incidencia de las caracterÃsticas socioeconómicas familiares sobre los resultados. EspecÃficamente centrado en el efecto negativo de la condición de inmigrante de la familia (especialmente de primera generación) destaca el trabajo de Chiswick y DebBurman (2004). Varios estudios, como los Portes y Rumbaut (1990), Rong y Grant (1992) y Kao y Tienda (1995), también demuestran que el porcentaje de alumnos de minorÃas étnicas incide negativamente sobre el resultado del conjunto de alumnos. Por lo que elegimos esta variable para explicar nuestro de modelos de las diferencia de notas entre escuelas públicas y privadas.
View(esp2015C)
Tabla 1
Para los tres tipos de variables explicadas utilizamos las siguientes regresiones:
Modi<-lm(DISCIPLINA~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)
Modi<-lm(log(DISCIPLINA)~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)
Modi<-lm(sqrt(DISCIPLINA)~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)
Para los tres, fueron analizados los residuos y la coherencia de los estimadores y se constato que los más coherentes fueron los lineales puros.
Como explicado en el apartado anterior, solo iremos usar los modelos lineales de cada variable explicada, es decir, mod1, mod4 y mod7. Todos lineales puros.
VARIABLE EXPLICADA (MATEMÃTICAS) ⢠Mod1<-lm(MATEMATICAS~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C)
Knitr:
Summary(mod1)
Residuals: Min 1Q Median 3Q Max -300.094 -46.122 0.577 47.021 266.904
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 526.3086 0.6682 787.651 <2e-16 NATIVOSecond-Generation -5.5373 3.0269 -1.829 0.0674 .
NATIVOFirst-Generation -20.4796 1.3821 -14.817 <2e-16 REPETIDORRepeated a
— Signif. codes: 0 ââ 0.001 ââ 0.01 ââ 0.05 â.â 0.1 â â 1
Residual standard error: 69.1 on 31501 degrees of freedom Multiple R-squared: 0.3065, Adjusted R-squared: 0.3064 F-statistic: 2785 on 5 and 31501 DF, p-value: < 2.2e-16
Comparado el modelo lineal con los demás (log, sqrt, inv) vemos a partir de los gráficos abajo que el lineal es el que tiene una mayor normalidad comparado con el restante de los modelos. Sin embargo, el modelo log fue el que demostraba un mayor coeficiente correlación, lo que no significa que es el mejor modelo pues cuando analizado los residuos vemos una mayor asimetrÃa y dispersión.
densityplot(resid(mod1))
Vemos que el modelo 1 tiene una distribución normal como demuestra el grafico arriba, con una mayor densidad en el centro.
autoplot(mod1)
Los gráficos arriba demuestran las dispersiones de los residuos y, cómo podemos observar en el gráfico Residual vs Fitted, están todos cerca de del 0 que es lo que se busca. El gráfico Scale-Location también cumple los requisitos mÃnimos pues esta cerca del 1. Se resalta que en el grafico Normal Q-Q, los residuos siguen la lÃnea teórica de normalidad, con algunas pequeñas dispersiones en los extremos, pero que no afectan tanto el modelo. Tales grafico fueron fundamental para elegir el modelo 1.
Para encontrar puntos atÃpicos hemos utilizado el método de Bonferonni con el comando outlierTest(mod1) que nos ha dado tales resultados:
No Studentized residuals with Bonferonni p < 0.05 Largest |rstudent|: rstudent unadjusted p-value Bonferonni p 7565 -4.344609 1.3996e-05 0.44097
Como podemos observar arriba, solo hay uno atÃpico que hemos decido no excluir de la muestra pues como podremos ver adelante, al mismo tiempo que es un atÃpico también es un punto influyente luego optamos por no removerlo. Si observamos el P-Value del método usual, rechazarÃamos la hipótesis de que este alumno es igual a los demás, pero por el ajuste hecho por Bonferonni, el P-Value nos indica que no rechazamos la hipótesis que este alumno es igual a los demás.
Podemos ver los resultados de los influyentes con el comando influencePlot(mod1), tanto como su gráfico:
StudRes Hat CookD
7565 -4.344609 0.0003223534 0.0010138556 8992 -1.202009 0.0025839165 0.0006238211 32070 3.866985 0.0019420017 0.0048472483
A partir del código gvlma vemos si el modelo ajustado es aceptable para las estimaciones abajo, y claro si el modelo es homocedastico o no. Como podemos ver el modelo es heterocedástico lo que es comprensible ya que es una muestra de más de 30 mil datos con 4 variables, luego para tener homocedasticidad serÃa algo muy difÃcil. Sin embargo, ser heterocedástico, no impide que analicemos el modelo pues como sabemos la mayorÃa de las muestras de datos reales suelen ser heterocedásticas (confirmaremos utilizando en la parte de regresión un regresor robusto). Tamben observamos que el modelo considera aceptable para la hipótesis de kurtosis, es decir, una concentración acentuada de los residuos en el centro, pensando en el grafico de densidad.
ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM: Level of Significance = 0.05
Call: gvlma(x = mod1, timeseq = order(fitted(mod1)))
Value p-value Decision
Global Stat 56.2121 1.810e-11 Assumptions NOT satisfied! Skewness 21.4704 3.593e-06 Assumptions NOT satisfied! Kurtosis 0.4281 5.129e-01 Assumptions acceptable. Link Function 33.4297 7.389e-09 Assumptions NOT satisfied! Heteroscedasticity 0.8838 3.472e-01 Assumptions acceptable.
VARIABLE EXPLICADA (LECTURA)
Se han creado varios modelos de regresión con la variable explicada LECTURA, sin embargo el elegido fue el:
⢠Mod4<-lm(LECTURA~NATIVO+REPETIDOR+IESC+PRIVADA, data=esp2015C) Knitr: Summary(mod4)
Residuals: Min 1Q Median 3Q Max -370.73 -47.86 2.23 50.26 289.11
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 536.3616 0.7079 757.720 < 2e-16 NATIVO[T.Second-Generation] 6.7954 3.2066 2.119 0.0341
NATIVO[T.First-Generation] -9.9577 1.4642 -6.801 1.06e-11 REPETIDOR[T.Repeated a
Residual standard error: 73.21 on 31501 degrees of freedom Multiple R-squared: 0.286, Adjusted R-squared: 0.2858 F-statistic: 2523 on 5 and 31501 DF, p-value: < 2.2e-16
Comparado el modelo lineal con los demás ( log, sqrt) vemos a partir de los graficos abajo que el lineal es el que tiene una mayor normalidad comparado con el restante de los modelos. Sin embargo el modelo log fue el que demostraba un mayor coeficiente correlacion, lo que no significa que es el mejor modelo pues cuando analizado los residuos vemos una mayor dispersión.
densityplot(resid(mod4))
Vemos que el modelo 4 tiene una distribución normal como demuestra el grafico arriba, con una mayor densidad en el centro.
autoplot(mod4)
Los gráficos arriba de muestran las dispersiones de los residuos y como podemos observar en al Residual vs Fitted, están todos cerca de del 0 que es lo que se busca.El Scale-Location también cumple los requisitos minimos pues esta certa del 1. Y como podemos observar en el grafico Normal Q-Q los residuos siguen la lÃnea teorica de normalidad, con dispersiones más intensas en el extremo inferior, pero que no afectan tanto el modelo. El mod 4 tiene caracterÃsticas muy parecidas con el mod 1 cuanto a sus residuos, pero podemos observar una mayor dispersión en general.
Para encontrar puntos atÃpicos usamos el comando outlierTest(mod4) que nos ha dado tales resultados:
rstudent unadjusted p-value Bonferonni p 31218 -5.066423 4.0765e-07 0.012844 7565 -4.893884 9.9353e-07 0.031303
Si observamos tanto el P-Value del método usual como el P-Value de Bonferonni, rechazarÃamos la hipótesis de que este alumno es igual a los demás. Pero como solo hay 2 atÃpicos, y es una muestra de más de 30 mil, hemos decido no excluir por no influir en los resultados.
Podemos ver los resultados de los influyentes con el comando influencePlot(mod4), tanto como su grafico:
StudRes Hat CookD
8992 -1.114038 2.583916e-03 0.0005358551 24261 3.419974 1.929920e-03 0.0037681237 31218 -5.066423 8.587736e-05 0.0003671366
Del mismo modo que los atÃpicos son pocos para la muestra, los influyentes tampoco son muchos, luego decidimos dejarlos.
El mod4 también presenta los mismos resultados que el mod1, solo con una pequeña diferencia cuanto a la Kurtosis, pues no se cumple tal supuesto. ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM: Level of Significance = 0.05
Call: gvlma(x = mod4, timeseq = order(fitted(mod4)))
Value p-value Decision
Global Stat 248.1429 0.000e+00 Assumptions NOT satisfied! Skewness 215.1904 0.000e+00 Assumptions NOT satisfied! Kurtosis 11.9326 5.516e-04 Assumptions NOT satisfied! Link Function 20.8692 4.917e-06 Assumptions NOT satisfied! Heteroscedasticity 0.1507 6.979e-01 Assumptions acceptable.