Resumen

Esta investigacion tuvo como objetivo el analisis de un modelo de regresion lineal para los resultados de la prueba icfes 2019-2 teniendo en cuenta diferentes variables. Se analizaron hipotesis y teorias con el fin de buscar el modelo que mejor se ajustara a los supuestos que debiamos cumplir

1. Problema

El ICFES (Instituto Colombiano para la evaluación de la educación) es el organismo encargado de administrar el examen estandarizado que evalúa el desempeño académico de los estudiantes en Colombia. Este examen, conocido como el “ICFES”, se lleva a cabo semestralmente y es requisito para ingresar a las instituciones de educación de segundo nivel como el SENA, programas técnicos y universidades para obtener títulos certificados. El examen está dividido en seis áreas de conocimiento: matemáticas, ciencias naturales, lenguaje y competencias ciudadanas. Cada una de estas áreas se evalúa a través de preguntas de opción múltiple y preguntas abiertas que buscan medir la comprensión, análisis, síntesis y aplicación de los conceptos evaluados.

A través de la página de servicios e información del estado colombiano (www.gov.co), logramos obtener una base de datos gratuita del promedio de las ICFES (2019-2) discriminado por departamentos. Esta base de datos nos da la facilidad de acceder al resultado de más de 54 mil estudiantes, filtrados por género, estrato social, edad, municipio, entre otras variables. De acuerdo con lo anterior, se decidió tomar una muestra no representativa del valle del cauca para el proyecto de estadística aplicada.

El proyecto de estadística aplicada tiene como objetivo realizar inferencias de acuerdo con el comportamiento de Colombia en cuanto a los resultados del ICFES del periodo 2019-2 para el país; tomando como muestra al valle del cauca; para así llegar a un análisis de diferentes variables como el género, el puntaje en la prueba inglés y si pertenecen a un colegio bilingüe, entre otras.

Se plantea esta investigación debido a que se ha observado una variación significativa en los resultados obtenidos en los diferentes filtros, y se busca identificar las posibles causas detrás de estas diferencias.

El proyecto requerirá la recolección y análisis de información sobre el género de los estudiantes, si pertenecen a un colegio bilingüe y su puntaje en la prueba inglés. Una vez recopilados estos datos, se utilizarán técnicas estadísticas para analizar las diferencias en los resultados del ICFES 2019-2, con el fin de determinar en qué medida pueden influir los diferentes factores en el resultado de las pruebas.

2. Objetivo general

Realizar inferencias de acuerdo con el comportamiento de los estudiantes colombianos en cuanto a los resultados del ICFES del periodo 2019-2. Tomando como muestra el valle del cauca y así llegar a un análisis de diferentes variables.

3. Objetivos específicos

3.1 Analizar e interpretar los resultados del ICFES (2019-2) en función de la variable género.

3.2 Analizar la relación entre el desempeño en la prueba de inglés y la pertenencia a un colegio bilingüe, con el fin de determinar qué influencia puede tener el resultado de la prueba al haber recibido formación en un colegio bilingüe.

3.3 Determinar en qué medida un mayor puntaje en la prueba de inglés influye en el resultado del puntaje en la prueba global.

Variables

  1. Variable cuantitativa: Resultado ICFES

    Variable cualitativa: Género

  2. Variable cualitativa 1: Desempeño prueba ingles

    Variable cualitativa 2: Colegio bilingue

  3. Variable cuantitativa continua: Resultado inglés

    Variable cuantitativa continua: Puntaje Global

4. Metodología

4.1 Con el fin de comparar los resultados del ICFES según el género, se han seleccionado diferentes gráficos comparativos para evidenciar las diferencias en las distintas áreas y analizar las disparidades entre los géneros.

4.2 Para abordar el segundo objetivo planteado, que considera la relación entre el desempeño en la sección de inglés y la pertenencia a un colegio bilingüe, se utilizará un diagrama de barras compuesto. Este gráfico permitirá comparar el nivel de inglés de los examinados y visualizar la posible influencia de la formación en un colegio bilingüe en el puntaje del ICFES.

4.3 Con el propósito de abordar el último objetivo, se empleará un gráfico de dispersión para comparar los resultados entre la sección de inglés y el puntaje global. Se buscará identificar el tipo de relación existente entre ambas variables mediante el uso de una línea de tendencia.

5. Resultados

5.1 Comparación de la variable género con puntaje global por medio de diferentes diagramas.

Gráfico #1: Puntaje Global Icfes 2019-2 vs. Genero

##   Género Cuartil_1 Mediana Cuartil_3 Máximo Mínimo
## 1      F       202     235       271    428      0
## 2      M       210     246       283    445     42

Tabla #1: Resumen estadístico del gráfico de cajas y bigotes

El gráfico de cajas y bigotes anterior tiene como objetivo comparar el género de las personas que realizaron la prueba ICFES 2019-2 con su puntaje global correspondiente. A través del gráfico, podemos visualizar las diferencias entre los puntajes de hombres y mujeres, y podemos concluir lo siguiente:

Como puntaje mínimo, los hombres obtuvieron 28 puntos, mientras que las mujeres obtuvieron 0 puntos. En cuanto al percentil 25, el 25% de los hombres tienen un puntaje igual o inferior a 211 puntos, mientras que las mujeres tienen un puntaje igual o inferior a 202 puntos. En el percentil 50, el 50% de los hombres tienen un puntaje superior a 247 puntos, mientras que el 50% de las mujeres tienen un puntaje superior a 235 puntos. En el percentil 75, el 75% de los hombres obtuvieron un puntaje igual o inferior a 284 puntos, mientras que el 75% de las mujeres obtuvieron un puntaje igual o inferior a 272 puntos. Por último, el puntaje máximo asignado a los hombres es de 457 puntos, mientras que para las mujeres es de 417 puntos.

Además, después de realizar los cálculos correspondientes, se obtienen los límites inferiores y superiores. Los límites inferiores son puntajes de 101.5 y 97 para hombres y mujeres, respectivamente, mientras que los límites superiores son puntajes de 393.5 y 377 para hombres y mujeres. Sin embargo, se observa la presencia de datos atípicos, que son valores que se encuentran fuera de estos límites y que pueden distorsionar el análisis estadístico y el modelo de predicción para valores futuros.

Asimismo, se puede observar que las cajas y bigotes de los resultados entre hombres y mujeres son simétricos, lo que indica que los datos están distribuidos de manera uniforme alrededor de la mediana (Q2).

En conclusión, con base en los resultados del puntaje global del ICFES 2019-2 según el género en el Valle del Cauca, el gráfico de cajas y bigotes no proporciona una medida de comparación exacta para determinar si el género influye en el puntaje global de la prueba. Por lo tanto, se utilizarán otros gráficos comparativos para analizar mejor ambas variables.

Gráfico #2: Polígono comparativo de frecuencia por género

En el gráfico de polígono de frecuencia por género, se puede observar la distribución de frecuencia en distintos intervalos en los que los datos están agrupados. A continuación, se describe la interpretación del gráfico:

El primer intervalo, que va desde 0 hasta 100 puntos, muestra una frecuencia de cero para ambos géneros, lo que significa que no se tienen datos en ese rango de puntajes.

En el segundo intervalo (100-200 puntos), se observa un aumento en la frecuencia de puntajes globales, y es notable que las mujeres tienen una frecuencia más alta que los hombres en esta categoría.

En el tercer intervalo (200-300 puntos), se alcanza la frecuencia máxima para ambos géneros, aproximadamente alrededor de los 250 puntos. A partir de este punto, la frecuencia comienza a disminuir.

En el intervalo final (400-500 puntos), se vuelve a una frecuencia relativa de cero, lo que indica que no se tienen datos en ese rango de puntajes.

Además, se menciona que el gráfico muestra una ligera asimetría positiva para ambos géneros, lo que significa que la mayoría de los datos están sesgados hacia el inicio de la gráfica.

En resumen, el gráfico de polígono de frecuencia por género proporciona una visualización de cómo se distribuyen los puntajes globales en distintos intervalos para hombres y mujeres. También se destaca la asimetría positiva en la distribución de los datos.

Gráfico #3: Ojiva de frecuencia relativa acumulada, por género

El gráfico presentado anteriormente representa una ojiva comparativa que muestra la diferencia en puntajes globales entre el género femenino y masculino, teniendo en cuenta la frecuencia relativa acumulada de cada género. A continuación, se proporciona una interpretación del gráfico:

Al observar el inicio de la ojiva, se puede notar que tanto el género femenino como el masculino tienen resultados similares. A partir del puntaje global de 150, se observa que la función de las mujeres crece con más rapidez, lo cual significa que hay una mayor cantidad de datos. La mayor pendiente, es decir, la mayor inclinación hacia la verticalidad, corresponde al intervalo con mayor concentración de datos.

A partir del gráfico se puede deducir directamente que el 25% de las mujeres obtuvieron un valor menor o igual a 200 puntos en la prueba ICFES. Asimismo, se observa que más del 25% de los hombres obtuvieron un puntaje ligeramente mayor que el 25% de las mujeres. Además, se puede leer en la gráfica que el 50% de los hombres obtuvieron un valor alrededor de 250 puntos en la prueba ICFES, y este valor es mayor que el puntaje logrado por el 50% de las mujeres.

Hay una mayor concentración de datos para las mujeres en los intervalos de 150 puntos hasta 300. Esto significa que hay más datos registrados de mujeres obteniendo puntajes entre 150 y 300 puntos que hombres.

Basándonos en los resultados mostrados en este gráfico, se puede concluir que existe una ligera diferencia en los resultados entre los géneros femenino y masculino. Las mujeres tienen una mayor concentración de puntajes en un intervalo (150-300), pero los hombres lograron obtener puntajes más altos que las mujeres en la prueba ICFES 2019-2 para el Valle del Cauca.

5.2 Gráfico de barras de acuerdo al desempeño de inglés con relación si es perteneciente o no a un colegio bilingüe

Gráfico #4: Colegio bilingüe vs. Cantidad de estudiantes

En el gráfico de barras presentado anteriormente, se puede observar la relación entre el desempeño en la prueba de inglés y la pertenencia a un colegio bilingüe. A continuación, se proporciona una interpretación del gráfico:

En el eje x del gráfico se encuentran los niveles de inglés, que van desde el más bajo hasta el más alto. Cada barra del gráfico está clasificada para tener una distribución correcta de los datos. La barra de color azul representa a los estudiantes que pertenecen a un colegio bilingüe, la barra roja representa a los estudiantes que no pertenecen a un colegio bilingüe, y la barra amarilla representa a los estudiantes que no especifican si pertenecen o no a un colegio bilingüe. En el eje y se encuentra la cantidad de estudiantes participantes en la prueba.

Es notable que en cada nivel de inglés, desde el más bajo hasta el más alto, hay una falta de estudiantes provenientes de colegios bilingües. Esto se puede observar al ver las barras de color azul, siendo el nivel de inglés más bajo (A-) el que tiene la mayor cantidad de estudiantes (+15,000). A medida que se avanza en los niveles de inglés, se puede observar cómo la cantidad de estudiantes disminuye. Es decir, existe una tendencia de que a mayor nivel de inglés, menor cantidad de estudiantes de colegios no bilingües participan en la prueba.

Si se tienen en cuenta los tres primeros niveles de inglés, se puede evidenciar el alto número de estudiantes que no pertenecen a un colegio bilingüe, como se muestra en el gráfico de barras compuesto. Además, es importante destacar que en los dos niveles de inglés más altos no se observa una claridad en cuanto a si pertenecen o no a un colegio bilingüe, ya que sus barras no se muestran con mayor precisión que las barras de los tres primeros niveles de inglés. Esto se debe a que hay un número muy pequeño de personas que sí pertenecen a un colegio bilingüe.

En conclusión, se puede afirmar que la mayoría de los estudiantes que presentaron la prueba ICFES 2019-2 en el Valle del Cauca no pertenecen a un colegio bilingüe, lo cual tiene repercusiones en su nivel de desempeño en la prueba. Es muy probable que un gran porcentaje de los estudiantes que marcaron “No especifica” pertenezcan a colegios con un bajo desempeño en inglés, ya que los indicadores de nivel bajo son altos, mientras que hay muy pocos estudiantes que sí forman parte de un colegio que enseña inglés.

Considerando el objeto de estudio, que es la prueba ICFES 2019-2, se puede afirmar que existe una tendencia en los datos. Como se mencionó anteriormente, a menor desempeño en la prueba de inglés, mayor es la cantidad de estudiantes que pertenecen a colegios no bilingües.

5.3 Gráfico de dispersión de acuerdo al puntaje global, comparado con el puntaje obtenido en inglés

## [1] 0.7457732

Gráfico #5:Puntaje Global vs. Puntaje Inglés

En el gráfico de dispersión presentado anteriormente, se muestra la relación entre el resultado de inglés y el puntaje global de los estudiantes que realizaron la prueba ICFES 2019-2 en el Valle del Cauca.

Observando el gráfico, es evidente que a medida que los estudiantes obtienen un resultado más alto en la prueba de inglés, también tienden a obtener un puntaje global más alto en la prueba. Sin embargo, debido a la gran variabilidad en los datos y a la dispersión de puntos en relación con la línea de tendencia, se puede observar que no existe una relación proporcional directa entre ambas variables.

Para tener una medida más clara de la correlación entre estas dos variables, se calculó el coeficiente de correlación (cor). Este coeficiente proporciona una medida de la fuerza y dirección de la relación entre dos variables. En este caso, al calcular el coeficiente de correlación, se obtuvo un valor de 0.2. Una correlación de 0.2 en una gráfica de dispersión indica una relación positiva moderada entre las dos variables que se están comparando. A medida que los valores de una variable aumentan, los valores de la otra variable tienden a aumentar también, pero no de manera perfectamente proporcional, no se puede asegurar que obtener un puntaje global alto garantice necesariamente un puntaje alto en la prueba de inglés, y viceversa.

En resumen, aunque existe una correlación positiva entre el resultado de inglés y el puntaje global en la prueba ICFES 2019-2, esta correlación es baja y no proporciona una relación proporcional clara entre ambas variables.

6. Estadistica descriptiva para la variables cuantitativas

Población total

## [1] 38620

Puntaje inglés

Media

## [1] 47.80065

Desviación estándar

## [1] 11.86264

Puntaje global

Media

## [1] 242.069

Desviación estándar

## [1] 48.94447

De acuerdo al anális realizado a las variables utilizadas, se puede evidenciar un total de 38620 datos, teniendo en cuenta lo anterior se analizó para el puntaje de inglés una media 47.80065 y una desviación estándar 11.86264, y para el puntaje global se estima una media de 242.069 y una desviación estándar de 48.9447

7. Prueba de hipotesis

1. Prueba para dos poblaciones

## 
##  Two-sample z-Test
## 
## data:  M and F.
## z = 19.591, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   8.855437 10.824266
## sample estimates:
## mean of x mean of y 
##  247.8239  237.9840

Datos: µ1-µ2=0 α= 0.05 Promedio x: 248.3475 Promedio y: 237.9840 n: 38620

Prueba de hipótesis: H0: µ1-µ2=0 H1: µ1-µ2≠0

Tenemos un valor de p < 2.2e-16, por lo cual sabemos que a < p. 

Teniendo en cuenta los gráficos y las hipótesis establecidas, podemos decir que se rechaza la hipótesis nula (H0), esto es debido a que al hacer la resta entre los dos promedios da diferente de 0, por lo cual se establece que si hay una diferencia entre el puntaje global teniendo en cuenta los generos.

Adicionalmente, se tiene un intervalo que va desde 9.379081 a 11.347910, como podemos observar el 0 no esta incluido dentro de esos valores, lo que nos ayuda a confirmar que la diferencia entre los valores de puntaje global entre mujeres y hombres es diferente.

2.Prueba para una población

La pontificia universidad javeriana de Cali establece que los jóvenes que quieran ingresar a la carrera Ingeniería Industrial requieren como mínimo 250 puntos el ICFES. A partir de esta información se planteo una prueba de hipótesis que pretende probar si los estudiantes del Valle del Cauca que presentaron la prueba en el año 2019-2 sacan los 250 puntos o no.

## 
##  One-sample z-Test
## 
## data:  totalpunt
## z = -31.794, p-value = 1
## alternative hypothesis: true mean is greater than 250
## 95 percent confidence interval:
##  241.6586       NA
## sample estimates:
## mean of x 
##   242.069
## [1] 241.5800 242.5579
## attr(,"conf.level")
## [1] 0.95

Datos:

µ=250 α= 0.05 Promedio: 242.5408 n: 38620

Prueba de hipótesis:

H0: µ≤250 H1: µ>250

El realizar los cálculos el valor p=1 Entonces: α < p

Lo que quiere decir que no se rechaza H0, asi que con un nivel de significancia del 0.05 no hay suficiente evidencia para afirmar que los estudiantes de la promoción 2019-2 sacan más de 250 puntos en el ICFES. En contexto podemos afirmar que los estudiantes evaluados sacan en promedio un puntaje menor a 250, lo que quiere decir que hay una tendencia a que estos jóvenes no puedan ingresar a la carrera de Ingeniería industrial en la Pontificia Universidad Javeriana de Cali.

Por otro lado, se evidencio que el intervalo para el promedio del puntaje global del ICFES en el año 2019-2 es:(242.0519, 243.0297) Lo que nos ayuda a confirmar que la mayoria de jovenes no sacan un puntaje igual o superior a 250 puntos para ingresar a ingeniería industrial en la Javeriana de Cali.

3. Prueba para la proporción

## 
## Colegio Bilingüe   No es bilingüe    No específica 
##              592            33326             4702
## 
##  1-sample proportions test with continuity correction
## 
## data:  592 out of 592 + 33326 + 4702, null probability 0.02
## X-squared = 42.756, df = 1, p-value = 3.101e-11
## alternative hypothesis: true p is less than 0.02
## 95 percent confidence interval:
##  0.000000 0.016405
## sample estimates:
##          p 
## 0.01532885

Datos: P=0.02 α= 0.05 n: 38620

Prueba de hipótesis: H0: P=0.02 H1: P<0.02

Teniendo en cuenta que se toma como la participación de personas pertenecientes o no a un colegio biligue, rechazando la hipótesis nula, entonces se podría decir que las personas que realmente pertenecen al colegio bilingue son menor al 0.02, por lo que se puede decir que realmente esto no afecta en los resultados, y que no quiere decir que hay una mejora en los puntajes por ser perteneciente o no a un colegio bilingue.

8. Diferencia entre proporciones

## [1] 16981
## 
##    Entra No entra 
##     8105     8876
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(8527, 8182) out of c(21639, 16981)
## X-squared = 298.64, df = 1, p-value < 2.2e-16
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.09771891 -0.07783231
## sample estimates:
##    prop 1    prop 2 
## 0.3940570 0.4818326

H0: P1-P2=0 H1: P1-P2≠0

De acuerdo a la proporción de estudiantes que presentaron la prueba icfes en el periodo 2019-2, se puede evidenciar que al tomar en evidencia el puntaje de 250 puntos para entrar a ingeniería industrial en la javeriana, se tiene que para ambas

9. Pruebas de normalidad

Puntaje global dependiendo del género

Para comprobar que nuestra variable de interés sigue una distribución normal podemos realizar diferentes experimentos como por ejemplo generar gráficos de probabilidad normal que nos puedan generar información, tambien se pueden realizar pruebas como la de Shapiro, la de Kolmogorov-Smirnov o Jarque-Bera para llegar a una conclusión certera.

Como primer paso se hicieron diferentes gráficos para analizar el comportamiento de la variable puntaje global dependiendo del género (Masculino-Femenino).

## 
##  Jarque Bera Test
## 
## data:  puntaje$M
## X-squared = 247.73, df = 2, p-value < 2.2e-16
## 
##  Jarque Bera Test
## 
## data:  puntaje$F
## X-squared = 415.16, df = 2, p-value < 2.2e-16

En los histogramas podemos ver que la variable puntaje global para cada genero tiende a ser simétrica, lo que nos da un indicio de que posiblemente pues ser normal. Pasamos a revisar los QQplot y verificamos que la mayoría de los datos siguen una línea recta. Por último, revisamos el grafico de densidad y a simple vista se ve simétrica pero cuando uno analiza las colas se ve más larga, por eso se puede decir dice que tiene una ligera asimetría negativa.

Finalmente, para llegar a una conclusión certera hacemos la prueba de Jarque-Bera con las siguientes pruebas de hipótesis H0: Siguen una distribución H1: No siguen una distribución normal

El valor p generado para genero M fue 2.2e-16 lo que quiere decir que rechaza la hipótesis nula con un nivel de significacia del 0.05, y se concluye que los datos de la variable puntaje global para los hombres no sigue una distribución normal.

El valor p generado para genero F fue 2.2e-16 lo que quiere decir que rechaza la hipótesis nula y se concluye que los datos de la variable puntaje global para las mujeres no sigue una distribución normal.

Prueba de normalidad para el puntaje global

La prueba de normalidad para la variable puntaje global en general, se analiza de la misma manera, generando gráficos de probabilidad normal y realizando pruebas como la shapiro, Jarque-bera o Kolmogorov-Smirnov.

## Warning in plot.window(...): "lxd" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "lxd" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "lxd" is not a
## graphical parameter

## Warning in axis(side = side, at = at, labels = labels, ...): "lxd" is not a
## graphical parameter
## Warning in box(...): "lxd" is not a graphical parameter
## Warning in title(...): "lxd" is not a graphical parameter

## 
##  Jarque Bera Test
## 
## data:  totalpunt
## X-squared = 665.97, df = 2, p-value < 2.2e-16

Empezamos haciendo el análisis de gráficas. El histograma muestra un comportamiento simétrico, el grafico QQplot muestra que posiblemente los datos siguen la línea, y el gráfico de densidad muestra un comportamiento similar al de la campana de Gauss, pero representa una leve asimetría negativa. Sin embargo, es necesario realizar una la prueba, en este caso se eligió la de Jarque-Bera con las siguientes hipótesis

La prueba escogida para probar la normalidad fue Jarque-Bera con las siguientes pruebas de hipotesis: H0: Siguen una distribución H1: No siguen una distribución normal

El valor p generado para genero F fue 2.2e-16 lo que quiere decir que rechaza la hipótesis nula con un nivel de significancia del 0.05, y se concluye que los datos de la variable puntaje global no sigue una distribución normal.

De las pruebas de normalidad podemos resaltar:Cuando realizamos la prueba de normalidad, los análisis gráficos a simple vista sugieren que los datos podrían tener una distribución normal, ya que los gráficos de probabilidad normal (QQ plot) y los histogramas se asemejan a una campana de Gauss. Sin embargo, la prueba de Jarque-Bera que se centra en el cálculo del coeficiente de asimetría y curtosis, arroja evidencia estadística de que los datos no siguen una distribución normal. Como la variable puntaje global tienen a ser levemente asimétrica, se puede decir que este es un factor importante para llegar a la conclusión dada por la prueba de Jarque-Bera, todo esto nos indica que la variable de interés tiene ciertas desviaciones de la normalidad. Por todo lo anterior, es fundamental tener cuidado a la hora de usar métodos que necesiten de variables con comportamiento normal.

10. Regresión lineal

10.1 Modelo de regresión simple

## [1] 0.7461831

Del gráfico de dispersión de la prueba de regresión lineal podemos notar que hay variabilidad en los datos debido a la cantidad de los mismos que estan siendo analizados. Sin embargo, al investigar la correlación nos arrojo un valor de r=0.745768 lo cual nos indica que hay una relación positiva fuerte entre el puntaje global y el puntaje de ingles obtenido en las pruebas ICFES 2019-2.

## [1] 11.86264
## [1] 39.4554
## [1] 323.7466
## (Intercept)           y 
##   75.700807    2.480458

z= Puntaje Global

y= Puntaje en Inglés

z=B0+B1*y

z= 75.7008066256518+ 2.4804580390991*y

Al obtener un valor positivo en B1 nos indica que z es creciente y que cada vez que el puntaje ingles aumente en un punto el puntaje global aumentará en 2.4804580390991.

Por ejemplo: si un estudiante obtiene el puntaje máximo en inglés el cual es 100, se esperaria que el puntaje global de la prueba sea de 323.7466.

## [1] 690.9288
## [1] 688.893
## [1] 0.5561776

La prueba r^2 nos indica la variabilidad de la variable dependiente en función de la variable independiente, en nuestro caso estudiamos la variabilidad entre el puntaje de inglés y el puntaje global.

Un coeficiente de determinación (r^2)= 0.5561776 en el modelo de regresión indica que se logra capturar el 55.61776% de la variabilidad de la variable z en función de la variable y.

## [1] 26682287
## 
## Call:
## lm(formula = z ~ y)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -138.18  -17.97   -0.40   17.84  115.23 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 75.70081    0.55532   136.3   <2e-16 ***
## y            2.48046    0.01128   220.0   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 26.29 on 38618 degrees of freedom
## Multiple R-squared:  0.5562, Adjusted R-squared:  0.5562 
## F-statistic: 4.839e+04 on 1 and 38618 DF,  p-value: < 2.2e-16

H0= Hay relación lineal

H1= No hay relación lineal

Al realizar prueba ANOVA se obtuvo un valor p=2.2e-16 , con lo anterior podemos decir con un nivel de significancia del 5% que se rechaza H0 lo que quiere decir que no hay relación lineal.

##                 2.5 %    97.5 %
## (Intercept) 74.612358 76.789255
## y            2.458358  2.502558
## [1] 0
## [1] 100

## 
##  One Sample t-test
## 
## data:  residuales
## t = -9.2851e-15, df = 38619, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.2621601  0.2621601
## sample estimates:
##    mean of x 
## -1.24191e-15
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 45.561, df = 1, p-value = 1.479e-11

H0= Los errores son homocedasticos

H1= Los errores son heterocedasticos

Al realizar la prueba de Breusch se obtuvo un valor p=1.929e-06 , con lo anterior podemos decir con un nivel de significancia del 5% que se rechaza H0, por lo cual los errores son heterocedasticos. La heterocedasticidad es un error no deseado en un modelo de regresión lineal donde los datos están ubicados más a un lado que otro.

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.9745, p-value = 0.006156
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  Jarque Bera Test
## 
## data:  ei
## X-squared = 27.582, df = 2, p-value = 1.025e-06
## 
##  Jarque Bera Test
## 
## data:  di
## X-squared = 27.558, df = 2, p-value = 1.037e-06

10.2 Modelo de regresión multiple

##                          Datos_ICFES1.z Datos_ICFES1.EDAD_ESTU
## Datos_ICFES1.z                1.0000000             -0.2630467
## Datos_ICFES1.EDAD_ESTU       -0.2630467              1.0000000
## Datos_ICFES1.PUNT_INGLES      0.7461831             -0.2381205
##                          Datos_ICFES1.PUNT_INGLES
## Datos_ICFES1.z                          0.7461831
## Datos_ICFES1.EDAD_ESTU                 -0.2381205
## Datos_ICFES1.PUNT_INGLES                1.0000000

## 
## Call:
## lm(formula = Datos_ICFES11$Datos_ICFES1.z ~ Datos_ICFES11$Datos_ICFES1.EDAD_ESTU + 
##     Datos_ICFES11$Datos_ICFES1.PUNT_INGLES)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -137.298  -17.796   -0.386   17.640  115.880 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                            97.28463    1.03617   93.89   <2e-16 ***
## Datos_ICFES11$Datos_ICFES1.EDAD_ESTU   -0.90289    0.03452  -26.15   <2e-16 ***
## Datos_ICFES11$Datos_ICFES1.PUNT_INGLES  2.43557    0.01163  209.43   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 25.98 on 38561 degrees of freedom
## Multiple R-squared:  0.5645, Adjusted R-squared:  0.5645 
## F-statistic: 2.499e+04 on 2 and 38561 DF,  p-value: < 2.2e-16
##                                             2.5 %     97.5 %
## (Intercept)                            95.2537043 99.3155609
## Datos_ICFES11$Datos_ICFES1.EDAD_ESTU   -0.9705504 -0.8352243
## Datos_ICFES11$Datos_ICFES1.PUNT_INGLES  2.4127718  2.4583609
## [1] 0.5644919
##   Datos_ICFES11$Datos_ICFES1.EDAD_ESTU Datos_ICFES11$Datos_ICFES1.PUNT_INGLES 
##                                1.06011                                1.06011

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 61.484, df = 2, p-value = 4.456e-14
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.9852, p-value = 0.07233
## alternative hypothesis: true autocorrelation is greater than 0
## [1] 0.5454545

11. Conclusiones

Basándonos en el análisis de los resultados del ICFES 2019-2 para la muestra del Valle del Cauca y considerando los diferentes géneros, así como la relación entre el puntaje global y el puntaje de inglés, se pueden extraer las siguientes conclusiones:

Teniendo en cuenta la relación entre el puntaje global y el puntaje de inglés, se encontró una correlación positiva moderada entre ambas variables. Esto sugiere que existe una tendencia general de que los estudiantes que obtienen mejores resultados en la prueba de inglés también obtengan puntajes más altos en el puntaje global. Sin embargo, esta correlación no es lo suficientemente fuerte como para afirmar que el puntaje de inglés es el único factor determinante en el resultado de las pruebas.

Otro aspecto relevante al desempeño en la prueba de inglés es la influencia de la pertenencia a un colegio bilingüe. Se observó que la mayoría de los estudiantes que realizaron la prueba no pertenecen a un colegio bilingüe, lo que puede afectar su nivel de competencia en inglés y, por ende, su puntaje en la prueba. Esto sugiere que la formación desde un colegio bilingüe puede desempeñar un papel importante en el resultado de las pruebas de inglés.

Durante esta investigación tuvimos en cuenta diferentes hipótesis y teorías que nos permitieron llegar a un posible modelo de regresión lineal. Con los resultados que obtuvimos nos dimos cuenta de que el modelo de regresión simple no estaba siendo acertado, por lo que tuvimos la necesidad de realizar un modelo de regresión múltiple teniendo en cuenta todos los factores del primer modelo. Durante la realización del segundo modelo se tuvo en cuenta una variable adicional la cual fue la edad, se aplicaron diferentes transformaciones a nuestra variable dependiente (puntaje global) como el logaritmo y la desviación estándar, a pesar de esto, nos volvieron a surgir las mismas complicaciones que con el primer modelo. Podemos decir que el modelo tuvo mayor confiabilidad cuando se tuvo en cuenta la edad, sin embargo, no se logró cumplir con el supuesto de la varianza constante.

Para terminar, se puede decir que en este estudio se concluyo que la variable de interés (puntaje global) tiene un comportamiento no normal, por eso, para no complicar la realización y los resultados del proyecto se trabajo con estas variables no normales. Lo anterior pudo afectar en la prueba de modelo de regresión y es una de las posibles razones por las cuales no tuvimos un modelo de regresión lineal adecuado. Es recomendable que para próximos estudios se recomiende hacer pruebas en el campo no paramétrico o hacer las transformaciones necesarias para volver la variable normal.

12. Referencias

[1]“PUNTAJE ICFES POR DEPARTAMENTO”, Datos Abiertos Colombia, 2020. Disponible:https://www.datos.gov.co/Educaci-n/PUNTAJE-ICFES-POR-DEPARTAMENTOS/x9vi-iv8c>

[2]RStudio Team, “RStudio Cloud”, Posit Cloud, 2019. Disponible en: https://rstudio.cloud/

[3]D. F. Meza , “Algunos factores que influyen en los resultados de las pruebas estandarizadas y censales”, Universidad Pedagógica y Tecnológica de Colombia, marzo de 2016, Disponible en: https://dialnet.unirioja.es/descarga/articulo/6064449.pdf

[4]A. Santana, C. N. Hernández, D. de Matemáticas, y ULPGC, “Gráficos en R: introducción”, Ulpgc.es. [En línea]. Disponible en: https://estadistica-dma.ulpgc.es/cursoR4ULPGC/9a-graf-Intro.html.lo y las políticas de planeación de las instituciones educativas.