Hoy en dia las instituciones educativas tanto publicas como privadas han buscado estudiar los factores que son determinantes para el desempeño academico de los estudiantes, encontrando que la edad, el genero, nivel socioeconomico, la escolaridad de los padres, etc. influyen significativamente en las notas.
El presente trabajo aborda un estudio realizado a un colegio de Neiva del grado once, con la finalidad de poder determinar si las edades de los estudiantes del grando once infieren en su rendimiento academico. Utilizando una metodologia de tipo descriptiva, inferencial y correlacional para evidenciar el comportamiento de los datos.
La notas son un factor determinante para clasificar las intituciones educativas en rankings nacionales, en ese sentido cuando las instituciones tienen excelente desempeño academico, pueden acceder a ayudas del gobierno que beneficien a toda la comunidad academica.Por lo que, las instituciones buscan posicionarse entre los primeros puestos,donde lo anterior deja entre visto el objetivo de algunas instituciones.
Actualmente, se ha presentado que los estudiantes han tenido una desmejora en su desempeño academico, lo que preocupa gravemente a las instituciones que se ven afectadas por ese suceso, donde estos han reconocido la exitencia de algunos factores que influyen sobre las notas significativamente o levemente.
Una inquietud que existe por parte de las instituciones y mas que todo en el grado once por ser el curso que presenta la prueba icfes donde escalafonan en cierto modo a los colegios en los rankings es el factor de las edades de los estudiantes, ya que han reconocido que existen algunas desigualdades en este curso que pueden llegar afectar este tema, debido a que algunas personas han repetido varias veces incrementando en su edad, otras no son lo totalmente maduraz para el curso,etc.
De este modo se puede llegar a preguntar si ¿La edad influye en el rendimiento academico?
La poblacion de estudio seran los estudiantes de un colegio cualquiera ubicado en la ciudad de neiva, en el grado de once (A,B,C,D,E) donde estos cuentan con 30 alumnos por cada curso, en este sentido en total serian de 150 estudiantes.
# Variable Edad
set.seed(123)
Edad<-sample(c(15:21),size=150,replace=TRUE)
# Variable Materia
Materia <-sample(c("Matematicas","Sociales","Ingles","Espanol","C.Naturles"), size=150,replace=TRUE)
# Variable Notas
set.seed(123)
Notas<-round(runif(150, min=1.0, max=5.0),1)
# Variable Género
Genero<-sample(c("Masculino","Femenino"), size=150,replace=TRUE)
# Base de datos
set.seed(123)
Grado_Once<-data.frame(Edad,Materia,Notas,Genero)
print(head(Grado_Once))
## Edad Materia Notas Genero
## 1 21 Ingles 2.2 Masculino
## 2 21 Sociales 4.2 Femenino
## 3 17 C.Naturles 2.6 Masculino
## 4 20 C.Naturles 4.5 Femenino
## 5 17 Ingles 4.8 Masculino
## 6 16 Espanol 1.2 Masculino
set.seed(123)
Once_Edad<-rnorm(Grado_Once,18,2)
set.seed(123)
Once_Notas<-rnorm(Grado_Once,3,1)
Por medio del muestreo aleatorio simple se obtiene una muestra de la población, ya que se busca determinar que todos los datos cuenten con la misma probabilidad de ser seleccionados.
Poblacion=150
z=1.96
p=0.5
q=0.5
error=0.1
tamaño_muestra = (Poblacion+z^2*p*q)/ ((error^2*(Poblacion-1))+z^2*p*q)
tamaño_muestra
## [1] 61.60643
Seleccionamos la muestra de las variables de interes (Edad y Notas)
set.seed(123)
Muestra_Edad<-sample(Once_Edad,tamaño_muestra,replace = TRUE)
set.seed(123)
Muestra_Notas<-sample(Once_Notas,tamaño_muestra,replace=TRUE)
Por medio de un muestreo por conveniencia se genera una segunda muestra, ya que más adelante se aplicara en la consistencia del estimador
set.seed(123)
Muestra_Edad_2<-sample(Once_Edad,80,replace = TRUE)
set.seed(123)
Muestra_Notas_2<-sample(Once_Notas,80,replace=TRUE)
set.seed(123)
media_EdadP<-mean(Once_Edad)
media_EdadP
## [1] 18.41928
Análisis: La edad poblacional promedio de los estudiantes de grado once es de 18 años.
set.seed(123)
Varianza_EdadP<-var(Once_Edad)
Varianza_EdadP
## [1] 3.501147
set.seed(123)
desviacion_EdadP<-sd(Once_Edad)
desviacion_EdadP
## [1] 1.871135
Análisis: Las edades poblacionales de los estudiantes de grado once varian aproximadamente en 2 años
set.seed(123)
media_NotasP<-mean(Once_Notas)
media_NotasP
## [1] 3.209641
Análisis: La nota poblacional promedio de los estudiantes de grado once es de 3.2 puntos.
set.seed(123)
Varianza_NotasP<-var(Once_Notas)
Varianza_NotasP
## [1] 0.8752868
set.seed(123)
desviacion_NotasP<-sd(Once_Notas)
desviacion_NotasP
## [1] 0.9355676
Análisis: Las notas poblacionales de los estudiantes de grado once varian aproximadamente en 1 punto.
set.seed(123)
media_muestral_Edad1<-mean(Muestra_Edad)
media_muestral_Edad1
## [1] 18.54783
Análisis: La edad muestral promedio de los estudiantes de grado once es de 18 años.
set.seed(123)
varianza_muestral_Edad1<-var(Muestra_Edad)
varianza_muestral_Edad1
## [1] 3.205262
set.seed(123)
desviacion_muestral_Edad1<-sd(Muestra_Edad)
desviacion_muestral_Edad1
## [1] 1.790325
Análisis: Las edades muestrales de los estudiantes de grado once varian aproximadamente en 2 años.
set.seed(123)
media_muestral_Notas1<-mean(Muestra_Notas)
media_muestral_Notas1
## [1] 3.273915
Análisis: La nota muestral promedio de los estudiantes de grado once es de 3.2 puntos.
set.seed(123)
varianza_muestral_Notas1<-var(Muestra_Notas)
varianza_muestral_Notas1
## [1] 0.8013155
set.seed(123)
desviacion_muestral_Notas1<-sd(Muestra_Notas)
desviacion_muestral_Notas1
## [1] 0.8951623
Análisis: Las notas muestrales de los estudiantes de grado once varian aproximadamente en 1 punto.
Se deben cumplir las siguientes propiedades, para poder realizar estimaciones con la muestra
Se determina si la media de las edades y de las notas son insesgadas, ya que el estimador no debe tener sesgo.
#DETERMINAMOS SI EXISTE SESGO DEL ESTIMADOR DE MEDIA DE EDADES
cat("El promedio de Edad Poblacional:",round(media_EdadP,2))
## El promedio de Edad Poblacional: 18.42
cat("El promedio de Edad Muestral:",round(media_muestral_Edad1,2))
## El promedio de Edad Muestral: 18.55
if (round(media_muestral_Edad1) != round(media_EdadP)) {
print("Si hay sesgo en el estimador de la edad promedio")
} else {
print("El estimador de la edad promedio es insesgado")
}
## [1] "Si hay sesgo en el estimador de la edad promedio"
#DETERMINAMOS EL SESGO DEL ESTIMADOR DE MEDIA DE EDADES
set.seed(123)
sesgo_Edad<-media_muestral_Edad1-media_EdadP
sesgo_Edad
## [1] 0.128548
Análisis: Se tiene un sesgo en el estimador de la edad promedio de 0.1285.
#DETERMINAMOS SI EXISTE SESGO DEL ESTIMADOR DE MEDIA DE NOTAS
cat("El promedio de Nota Poblacional:",media_NotasP)
## El promedio de Nota Poblacional: 3.209641
cat("El promedio de Nota Muestral:",media_muestral_Notas1)
## El promedio de Nota Muestral: 3.273915
if (media_muestral_Notas1 != media_NotasP) {
print("Si hay sesgo en el estimador de la nota promedio")
} else {
print("El estimador de la nota promedio es insesgado")
}
## [1] "Si hay sesgo en el estimador de la nota promedio"
#DETERMINAMOS EL SESGO DEL ESTIMADOR DE MEDIA DE NOTAS
set.seed(123)
sesgo_Notas<-media_muestral_Notas1-media_NotasP
sesgo_Notas
## [1] 0.06427402
Análisis: Se tiene un sesgo en el estimador de la nota promedio de 0.064.
Se determinara si entre más grande la muestra el valor del estimador se aproxima al valor del parámetro, para que se cumpla la consistencia del estimador.
#MEDIA DE LA MUESTRA 2
set.seed(123)
media_muestral_Edad2 = mean(Muestra_Edad_2)
cat("El promedio poblacional de edades es igual a",round(media_EdadP,2))
## El promedio poblacional de edades es igual a 18.42
cat("El promedio de la muestra 1 de las edades con 61 estudiantes es de", round(media_muestral_Edad1,2))
## El promedio de la muestra 1 de las edades con 61 estudiantes es de 18.55
cat("El promedio de la muestra 2 de las edades con 80 estudiantes es de", round(media_muestral_Edad2,2))
## El promedio de la muestra 2 de las edades con 80 estudiantes es de 18.52
#VARIANZA DE LA MUESTRA 2
set.seed(123)
varianza_muestral_Edad2=var(Muestra_Edad_2)
varianza_muestral_Edad2
## [1] 3.112071
#DESVIACIÓN ESTANDAR DE LA MUESTRA 2
set.seed(123)
desviacion_muestral_Edad2=sd(Muestra_Edad_2)
cat("La desviación estandar poblacional de la edad es igual a", round(desviacion_EdadP,2))
## La desviación estandar poblacional de la edad es igual a 1.87
cat("La desviación estandar de la edad de la muestra 1 con 61 estudiantes es de", round(desviacion_muestral_Edad1,2))
## La desviación estandar de la edad de la muestra 1 con 61 estudiantes es de 1.79
cat("La desviación estandar de la edad de la muestra 2 con 80 estudiantes es de", round(desviacion_muestral_Edad2,2))
## La desviación estandar de la edad de la muestra 2 con 80 estudiantes es de 1.76
Análisis: Para que exista consistencia del estimador se debe tener en cuenta que entre más muestras, los estimadores de estas muestras deben aproximarse al valor de los parametros, luego se observa el comportamiento de la media muestral, donde en la muestra 1 es de 18.55 años, luego en la muestra 2 es de 18.52 años, y por ultimo la media poblacional es de 18.42 años, se puede concluir que existe consistencia para el estimador de la variable edad, ya que a medida que se va aumentando la muestra, el estimador muestral se va comportando de la misma manera que el paramentro poblacional.
Es de aclarar que el comportamiento de la desviación estandar, a medida que va aumentando la muestra la variabilidad de las edades va disminuyendo, lo que se contradice ya que deberia ir aumentado para aproximarse a la desviación estandar poblacional.
#MEDIA DE LA MUESTRA 2 DE NOTAS
set.seed(123)
media_muestral_Notas2=mean(Muestra_Notas_2)
cat("El promedio poblacional de notas es igual a", round(media_NotasP,2))
## El promedio poblacional de notas es igual a 3.21
cat("El promedio de la muestra 1 de las notas con 61 estudiantes es de", round(media_muestral_Notas1,2))
## El promedio de la muestra 1 de las notas con 61 estudiantes es de 3.27
cat("El promedio de la muestra 2 de las notas con 80 estudiantes es de", round(media_muestral_Notas2,2))
## El promedio de la muestra 2 de las notas con 80 estudiantes es de 3.26
#VARIANZA DE LA MUESTRA 2 DE NOTAS
set.seed(123)
varianza_muestral_Notas2=var(Muestra_Notas_2)
varianza_muestral_Notas2
## [1] 0.7780177
#DESVIACIÓN ESTANDAR DE LA MUESTRA 2 DE NOTAS
set.seed(123)
desviacion_muestral_Notas2=sd(Muestra_Notas_2)
cat("La desviación estandar poblacional de las notas es igual a", round(desviacion_NotasP,2))
## La desviación estandar poblacional de las notas es igual a 0.94
cat("La desviación estandar de las notas de la muestra 1 con 61 estudiantes es de", round(desviacion_muestral_Notas1,2))
## La desviación estandar de las notas de la muestra 1 con 61 estudiantes es de 0.9
cat("La desviación estandar de las notas de la muestra 2 con 80 estudiantes es de", round(desviacion_muestral_Notas2,2))
## La desviación estandar de las notas de la muestra 2 con 80 estudiantes es de 0.88
Análisis: Para que exista consistencia del estimador se debe tener en cuenta que entre más muestras, los estimadores de estas muestras deben aproximarse al valor de los parametros, luego se observa el comportamiento de la media muestral para la variable notas,donde en la muestra 1 es de 3.27, luego en la muestra 2 es de 3.26, y por ultimo la media poblacional es de 3.21, por lo tanto se puede concluir, que existe consistencia para el estimador de la variable notas, ya que a medida que se va aumentando la muestra, el estimador muestral se va comportando de la misma manera que el paramentro poblacional.
Es de aclarar que el comportamiento de la desviación estandar, a medida que va aumentando la muestra la variabilidad de las notas va disminuyendo, lo que se contradice ya que deberia ir aumentado para aproximarse a la desviación estandar poblacional.
Se determina si la varianza de la muestra 1 es menor a la varianza de la muestra 2, para que se cumpla la propiedad de eficiencia.
cat("La varianza de la muestra 1 de la Edad con 61 estudiantes es de", varianza_muestral_Edad1)
## La varianza de la muestra 1 de la Edad con 61 estudiantes es de 3.205262
cat("La varianza de la muestra 2 de la Edad con 80 estudiantes es de", varianza_muestral_Edad2)
## La varianza de la muestra 2 de la Edad con 80 estudiantes es de 3.112071
if (floor(varianza_muestral_Edad1) < floor(varianza_muestral_Edad2)) {
print("Es eficiente")
} else {
print("No es eficiente")
}
## [1] "No es eficiente"
Análisis: Teniendo en cuenta que la varianza de la primera muestra de la variable edad con 61 estudiantes es mayor que la varianza de la segunda muestra con 80 estudiantes de grado once, se determina que el estimador de la muestra 1 no es eficiente.
cat("La varianza de la muestra 1 de las notas con 61 estudiantes es de", varianza_muestral_Notas1)
## La varianza de la muestra 1 de las notas con 61 estudiantes es de 0.8013155
cat("La varianza de la muestra 2 de las notas con 80 estudiantes es de", varianza_muestral_Notas2)
## La varianza de la muestra 2 de las notas con 80 estudiantes es de 0.7780177
if (varianza_muestral_Notas1 < varianza_muestral_Notas2) {
print("Es eficiente")
} else {
print("No es eficiente")
}
## [1] "No es eficiente"
Análisis: Teniendo en cuenta que la varianza de la primera muestra de la variable notas con 61 estudiantes es mayor que la varianza de la segunda muestra con 80 estudiantes de grado once, se determina que el estimador de la muestra 1 no es eficiente.
# Intervalo de confianza del 95% para la media
intervalo_confianza <- t.test(Muestra_Edad)$conf.int
# Imprimir el resultado
cat("Intervalo de Confianza del 95% para la Media:", intervalo_confianza, "\n")
## Intervalo de Confianza del 95% para la Media: 18.08931 19.00635
Análisis: Para la variable edad la media muestral se encuentra entre los valores de 18.089 y 19.006
# Intervalo de confianza del 95% para la media
intervalo_confianza <- t.test(Muestra_Notas)$conf.int
# Imprimir el resultado
cat("Intervalo de Confianza del 95% para la Media:", intervalo_confianza, "\n")
## Intervalo de Confianza del 95% para la Media: 3.044653 3.503177
Análisis: Para la variable notas la media muestral se encuentra entre los valores de 3.044 y 3.50
# Función de verosimilitud para una distribución normal
log_likelihood <- function(par, data) {
mu <- par[1]
sigma <- par[2]
-sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
}
# Encontrar estimadores de máxima verosimilitud para la muestra 1
inicializacion <- c(mean(Muestra_Edad), sd(Muestra_Edad))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = Grado_Once$Edad)
# Resultados
cat("Media poblacional de la edad:", media_EdadP, "\n")
## Media poblacional de la edad: 18.41928
cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")
## Estimador MLE para la media: 18.25965
cat("Desviación estándar poblacional de la edad:", desviacion_EdadP, "\n")
## Desviación estándar poblacional de la edad: 1.871135
cat("Estimador MLE para la desviación estándar:", estimadores_mle$par[2], "\n")
## Estimador MLE para la desviación estándar: 2.105498
Análisis para la media: Al ser la media poblacional de 18.41 y por el estimador MLE de 18.25, se puede inferir que existe un margen de error de 0.16, en cierto grado puede ser pertinente para realizar estimaciones con la media muestral.
Análisis para la desviación estándar: Al ser la desviación estándar poblacional de 1.87 y por el estimador MLE de 2.10, se puede inferir que existe un margen de error de 0.23, en cierto grado puede ser pertinente para realizar estimaciones con la desviación estándar muestral.
# Función de verosimilitud para una distribución normal
log_likelihood <- function(par, data) {
mu <- par[1]
sigma <- par[2]
-sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
}
# Encontrar estimadores de máxima verosimilitud para la muestra 1
inicializacion <- c(mean(Muestra_Notas), sd(Muestra_Notas))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = Grado_Once$Notas)
# Resultados
cat("Media poblacional de las notas:", media_NotasP, "\n")
## Media poblacional de las notas: 3.209641
cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")
## Estimador MLE para la media: 3.018655
cat("Desviación estándar poblacional de las notas:", desviacion_NotasP, "\n")
## Desviación estándar poblacional de las notas: 0.9355676
cat("Estimador MLE para la desviación estándar:", estimadores_mle$par[2], "\n")
## Estimador MLE para la desviación estándar: 1.143265
Análisis para la media: Al ser la media poblacional de 3.20 y por el estimador MLE de 3.01, se puede inferir que existe un margen de error de 0.19, en cierto grado puede ser pertinente para realizar estimaciones con la media muestral.
Análisis para la desviación estándar: Al ser la desviación estándar poblacional de 0.93 y por el estimador MLE de 1.14, se puede inferir que existe un margen de error de 0.21, en cierto grado puede ser pertinente para realizar estimaciones con la desviación estándar muestral.
# Calcular el intervalo de confianza para la media
nivel_confianza <- 0.95
muestra_media <- mean(Muestra_Edad)
desviacion_estandar <- sd(Muestra_Edad)
tamano_muestra <- length(Muestra_Edad)
# Calcular el error estándar de la media
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
# Calcular el valor crítico de la distribución t
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)
# Calcular el margen de error
margen_error <- valor_critico * error_estandar
# Calcular el intervalo de confianza
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)
# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)
## Intervalo de confianza del 95 % para la media: 18.08931 19.00635
Análisis: Se encuentra un intervalo de 18.08 a 19.006 para la media muestral de la edad con un nivel de certeza del 95% y un nivel de confianza del 1.96.
# Calcular el intervalo de confianza para la media
nivel_confianza <- 0.95
muestra_media <- mean(Muestra_Notas)
desviacion_estandar <- sd(Muestra_Notas)
tamano_muestra <- length(Muestra_Notas)
# Calcular el error estándar de la media
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)
# Calcular el valor crítico de la distribución t
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)
# Calcular el margen de error
margen_error <- valor_critico * error_estandar
# Calcular el intervalo de confianza
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)
# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)
## Intervalo de confianza del 95 % para la media: 3.044653 3.503177
Análisis: Se encuentra en un intervalo de 3.044 a 3.503 para la media muestral de la notas con un nivel de certeza del 95% y un nivel de confianza del 1.96.
#Cantidad de edades mayores de 18
Cantidad=sum(Muestra_Edad>=18)
Cantidad
## [1] 28
proporcion_acuerdo <- Cantidad / 61
#Cálculos
nivel_confianza <- 0.95
error_estandar_proporcion <- sqrt((proporcion_acuerdo * (1 - proporcion_acuerdo)) / tamano_muestra)
valor_critico <- qnorm((1 + nivel_confianza) / 2)
margen_error_proporcion <- valor_critico * error_estandar_proporcion
intervalo_confianza_proporcion <- c(proporcion_acuerdo - margen_error_proporcion, proporcion_acuerdo + margen_error_proporcion)
# Mostrar resultado
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la proporción:", intervalo_confianza_proporcion)
## Intervalo de confianza del 95 % para la proporción: 0.3339648 0.584068
Análisis: En un intervalo del 33% al 58% con un nivel de confianza del 1.96 se encuentran 28 estudiantes mayor e igual a 18 años.
#Cantidad de notas mayores de 3.1
Cantidad2=sum(Muestra_Notas>=3.1)
Cantidad2
## [1] 19
proporcion_acuerdo <- Cantidad2 / tamano_muestra
#Cálculos
nivel_confianza <- 0.95
error_estandar_proporcion <- sqrt((proporcion_acuerdo * (1 - proporcion_acuerdo)) / tamano_muestra)
valor_critico <- qnorm((1 + nivel_confianza) / 2)
margen_error_proporcion <- valor_critico * error_estandar_proporcion
intervalo_confianza_proporcion <- c(proporcion_acuerdo - margen_error_proporcion, proporcion_acuerdo + margen_error_proporcion)
# Mostrar resultado
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la proporción:", intervalo_confianza_proporcion)
## Intervalo de confianza del 95 % para la proporción: 0.1952624 0.4276884
Análisis: En un intervalo del 19% al 42% con un nivel de confianza del 1.96 se encuentran 19 estudiantes con una calificación mayor e igual a 3.1
Hipotesis Nula \(H_0\): La edad no infiere en el rendimiento academico.
Hipotesis Alternativa \(H_1\): La edad infiere en el rendimiento academico.
Error tipo 1 = La edad infiere en el rendimiento academico, pero realmente la edad no infiere en el rendimiento academico.
Error tipo 2 = Es falso afirmar que la edad no infiere en el rendimiento academico, pero se acepta.
Supongamos que la hipótesis nula es: El equipo de escalada de Frank es seguro. Indiquemos cuales serian el error tipo I y II.
Error tipo I: Frank piensa que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es.
Error tipo II: Frank cree que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.
Notemos que, en este caso, el error con mayores consecuencias es el tipo II, puesto que al creerse que es seguro cuando en realidad no lo es podría traer muchos accidentes.
Supongamos que la hipótesis nula es: La víctima de un accidente de tráfico está viva cuando llega a la sala de urgencias de un hospital. Indiquemos cuales serian el error tipo I y II. ¿Cuál tendría consecuencias mas graves?
Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias mas graves:
Error tipo I: El equipo de emergencia cree que la víctima está muerta cuando, en realidad, está viva.
Error tipo II: El equipo de emergencia cree que la víctima está viva cuando, en realidad, está muerta.
El error con mayores consecuencias es el error tipo I, puesto que si el equipo de emergencia cree que la víctima está muerta (cuando en realidad esta viva), no la atenderán y eso podría atraer consecuencias graves como que en verdad muera.
Se determina la normalidad de los datos
qqnorm(Grado_Once$Edad)
qqline(Grado_Once$Edad, col = 2)
Análisis:De acuerdo a la gráfica Q-Q plot de la edad de los estudiantes de grado once, se puede evidenciar que el comportamiento de la edad no es normal, ya que a medida que los valores teoricos de los cuartiles aumentan, el valor de los cuartiles experimentales se mantienen constantes, por lo que se aproximan a un comportamiento escalonado. En ese sentido, la distribución de los datos no son normales, dado que a medida que los valores de los cuartiles teoricos incrementan los valores experimentales tambien deberian aumentar proporcionalmente.
qqnorm(Grado_Once$Notas)
qqline(Grado_Once$Notas, col = 2)
Análisis: De acuerdo a la gráfica Q-Q plot de la notas de los estudiantes de grado once, se puede evidenciar que el comportamiento de la notas no es normal, ya que a medida que los valores teoricos de los cuartiles aumentan, el valor de los cuartiles experimentales se mantienen constantes, por lo que se aproximan a un comportamiento escalonado más compacto. En ese sentido, la distribución de los datos no son normales, dado que a medida que los valores de los cuartiles teoricos incrementan los valores experimentales tambien deberian aumentar proporcionalmente.
Se aplica la prueba de Shapiro Wilk dado a que el tamaño de nuestra muestra son de 150 estudiantes, por ende es considerada pequeña, dado que es una prueba estadística que evalúa la hipótesis nula de que una muestra proviene de una población con una distribución normal.
Interpretación: Un valor p alto (p > nivel de significancia, comúnmente 0.05) sugiere que no hay evidencia suficiente para rechazar la hipótesis nula de normalidad. Es de resaltar que es adecuada para tamaños de muestra moderados a pequeños (generalmente hasta alrededor de 2,000 observaciones)
Se calcula con el comando \[shapiro.test()\]
# Prueba de Shapiro-Wilk
shapiro.test(Grado_Once$Edad)
##
## Shapiro-Wilk normality test
##
## data: Grado_Once$Edad
## W = 0.89238, p-value = 5.019e-09
shapiro.test(Grado_Once$Notas)
##
## Shapiro-Wilk normality test
##
## data: Grado_Once$Notas
## W = 0.95154, p-value = 4.409e-05
Análisis: El valor de p para la variable edad del grado once es de 0.000000005019 y el valor de p para la variable notas del grado once es de 0.00004409, donde se sugiere que hay suficiente evidencia para rechazar la hipotesis nula de normalidad, ya que el valor p es menor al valor de significancia 0.05, por ende ambas variables no son consideradas normales en su distribución.
Se utiliza esta prueba de correlación ya que se busca asociar las notas y la edad, para determinar si la edad influye en el rendimiento academico, ademas considerando que es una prueba no paramétrica, que se ajusta perfectamente a la distribución de los datos.
resultado_spearman <- cor.test(Grado_Once$Edad, Grado_Once$Notas, method = "spearman")
## Warning in cor.test.default(Grado_Once$Edad, Grado_Once$Notas, method =
## "spearman"): Cannot compute exact p-value with ties
print(resultado_spearman)
##
## Spearman's rank correlation rho
##
## data: Grado_Once$Edad and Grado_Once$Notas
## S = 572342, p-value = 0.8313
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.01754227
Análisis: Se puede evidenciar que con base a la prueba de correlación de spearman, las variable nota y la edad no estan correlacionadas ya que, el coeficiente es de -0.017, lo cual indica que la asociación es nula o debíl debido a que se acerca a 0.
De acuerdo al anterior estudio, se evidencia para la variable edad que no se cumple con los atributos de insesgamiento y eficiencia, ademas se evidencia que para el atributo de la consistencia cumple para la media, pero no para la desviación estandar. Asi mismo para la variable notas no se cumple con los atributos de insesgamiento y eficiencia, por otra parte con la media solo el atributo de consistencia, dado que la desviación no cumple la consistencia.
Es de aclarar que para la prueba de Spearman no se utilizó la muestra 1 o la muestra 2, ya que con estas no se cumplió con los atributos de insesgamiento, eficiencia y consistencia, por ende se utilizó toda la población de los estudiantes de grado once.
Recomendación: Se deja claro que no se deben utilizar datos aleatoriamente ya que, podrian influir en el sesgo, eficiencia y consistencia del estudio. Por ende se debe siempre utilizar una base de datos confiable para asi poder realizar estimaciones más pertinentes.
Se puede concluir que el factor determinante de la edad no infiere directamente sobre las notas que han obtenido los estudiantes del grado once.
Recomendación: Lo mencionado expone que podrian existir otros factores que tengan significancia sobre la afectación de las notas que han obtenido los estudiantes de grado once.