INTRODUCCIÓN

Hoy en dia las instituciones educativas tanto publicas como privadas han buscado estudiar los factores que son determinantes para el desempeño academico de los estudiantes, encontrando que la edad, el genero, nivel socioeconomico, la escolaridad de los padres, etc. influyen significativamente en las notas.

El presente trabajo aborda un estudio realizado a un colegio de Neiva del grado once, con la finalidad de poder determinar si las edades de los estudiantes del grando once infieren en su rendimiento academico. Utilizando una metodologia de tipo descriptiva, inferencial y correlacional para evidenciar el comportamiento de los datos.

1. PLANTEAMIENTO DEL PROBLEMA

La notas son un factor determinante para clasificar las intituciones educativas en rankings nacionales, en ese sentido cuando las instituciones tienen excelente desempeño academico, pueden acceder a ayudas del gobierno que beneficien a toda la comunidad academica.Por lo que, las instituciones buscan posicionarse entre los primeros puestos,donde lo anterior deja entre visto el objetivo de algunas instituciones.

Actualmente, se ha presentado que los estudiantes han tenido una desmejora en su desempeño academico, lo que preocupa gravemente a las instituciones que se ven afectadas por ese suceso, donde estos han reconocido la exitencia de algunos factores que influyen sobre las notas significativamente o levemente.

Una inquietud que existe por parte de las instituciones y mas que todo en el grado once por ser el curso que presenta la prueba icfes donde escalafonan en cierto modo a los colegios en los rankings es el factor de las edades de los estudiantes, ya que han reconocido que existen algunas desigualdades en este curso que pueden llegar afectar este tema, debido a que algunas personas han repetido varias veces incrementando en su edad, otras no son lo totalmente maduraz para el curso,etc.

De este modo se puede llegar a preguntar si ¿La edad influye en el rendimiento academico?

2. METODOLOGÍA

La poblacion de estudio seran los estudiantes de un colegio cualquiera ubicado en la ciudad de neiva, en el grado de once (A,B,C,D,E) donde estos cuentan con 30 alumnos por cada curso, en este sentido en total serian de 150 estudiantes.

2.1. Se genera la población aleatoriamente en R

# Variable Edad
set.seed(123)
Edad<-sample(c(15:21),size=150,replace=TRUE) 

# Variable Materia
Materia <-sample(c("Matematicas","Sociales","Ingles","Espanol","C.Naturles"), size=150,replace=TRUE)

# Variable Notas
set.seed(123)
Notas<-round(runif(150, min=1.0, max=5.0),1)

# Variable Género
Genero<-sample(c("Masculino","Femenino"), size=150,replace=TRUE)

# Base de datos
set.seed(123)
Grado_Once<-data.frame(Edad,Materia,Notas,Genero)
print(head(Grado_Once))

##   Edad    Materia Notas    Genero
## 1   21     Ingles   2.2 Masculino
## 2   21   Sociales   4.2  Femenino
## 3   17 C.Naturles   2.6 Masculino
## 4   20 C.Naturles   4.5  Femenino
## 5   17     Ingles   4.8 Masculino
## 6   16    Espanol   1.2 Masculino

2.2. Normalización de los datos

set.seed(123)
Once_Edad<-rnorm(Grado_Once,18,2)

set.seed(123)
Once_Notas<-rnorm(Grado_Once,3,1)

2.3. Calculamos la muestra 1

Por medio del muestreo aleatorio simple se obtiene una muestra de la población, ya que se busca determinar que todos los datos cuenten con la misma probabilidad de ser seleccionados.

Poblacion=150
z=1.96
p=0.5
q=0.5
error=0.1

tamaño_muestra = (Poblacion+z^2*p*q)/ ((error^2*(Poblacion-1))+z^2*p*q)
tamaño_muestra

## [1] 61.60643

Seleccionamos la muestra de las variables de interes (Edad y Notas)

set.seed(123)
Muestra_Edad<-sample(Once_Edad,tamaño_muestra,replace = TRUE) 


set.seed(123)
Muestra_Notas<-sample(Once_Notas,tamaño_muestra,replace=TRUE)

2.4. Calculamos la muestra 2

Por medio de un muestreo por conveniencia se genera una segunda muestra, ya que más adelante se aplicara en la consistencia del estimador

set.seed(123)
Muestra_Edad_2<-sample(Once_Edad,80,replace = TRUE)

set.seed(123)
Muestra_Notas_2<-sample(Once_Notas,80,replace=TRUE)

3. RESULTADOS

3.1. Parámetros poblacionales

3.1.1. Media, Varianza y Desviación estandar poblacionales de la variable edad

set.seed(123)
media_EdadP<-mean(Once_Edad)
media_EdadP

## [1] 18.41928

Análisis: La edad poblacional promedio de los estudiantes de grado once es de 18 años.

set.seed(123)
Varianza_EdadP<-var(Once_Edad)
Varianza_EdadP

## [1] 3.501147

set.seed(123)
desviacion_EdadP<-sd(Once_Edad)
desviacion_EdadP

## [1] 1.871135

Análisis: Las edades poblacionales de los estudiantes de grado once varian aproximadamente en 2 años

3.1.2. Media, Varianza y Desviación estandar poblacionales de la variable notas

set.seed(123)
media_NotasP<-mean(Once_Notas)
media_NotasP

## [1] 3.209641

Análisis: La nota poblacional promedio de los estudiantes de grado once es de 3.2 puntos.

set.seed(123)
Varianza_NotasP<-var(Once_Notas)
Varianza_NotasP

## [1] 0.8752868

set.seed(123)
desviacion_NotasP<-sd(Once_Notas)
desviacion_NotasP

## [1] 0.9355676

Análisis: Las notas poblacionales de los estudiantes de grado once varian aproximadamente en 1 punto.

3.2. Estadísticos de la Muestra 1

3.2.1. Media, Varianza y Desviación estandar muestrales de la variable edad

set.seed(123)
media_muestral_Edad1<-mean(Muestra_Edad)
media_muestral_Edad1

## [1] 18.54783

Análisis: La edad muestral promedio de los estudiantes de grado once es de 18 años.

set.seed(123)
varianza_muestral_Edad1<-var(Muestra_Edad)
varianza_muestral_Edad1

## [1] 3.205262

set.seed(123)
desviacion_muestral_Edad1<-sd(Muestra_Edad)
desviacion_muestral_Edad1

## [1] 1.790325

Análisis: Las edades muestrales de los estudiantes de grado once varian aproximadamente en 2 años.

3.2.2. Media, Varianza y Desviación estandar muestrales de la variable notas

set.seed(123)
media_muestral_Notas1<-mean(Muestra_Notas)
media_muestral_Notas1

## [1] 3.273915

Análisis: La nota muestral promedio de los estudiantes de grado once es de 3.2 puntos.

set.seed(123)
varianza_muestral_Notas1<-var(Muestra_Notas)
varianza_muestral_Notas1

## [1] 0.8013155

set.seed(123)
desviacion_muestral_Notas1<-sd(Muestra_Notas)
desviacion_muestral_Notas1

## [1] 0.8951623

Análisis: Las notas muestrales de los estudiantes de grado once varian aproximadamente en 1 punto.

3.3. Atributos de los estimadores

Se deben cumplir las siguientes propiedades, para poder realizar estimaciones con la muestra

3.3.1. Comprobación del sesgo

Se determina si la media de las edades y de las notas son insesgadas, ya que el estimador no debe tener sesgo.

3.3.1.1 La media de edades debe ser insesgada:

#DETERMINAMOS SI EXISTE SESGO DEL ESTIMADOR DE MEDIA DE EDADES

cat("El promedio de Edad Poblacional:",round(media_EdadP,2))

## El promedio de Edad Poblacional: 18.42

cat("El promedio de Edad Muestral:",round(media_muestral_Edad1,2))

## El promedio de Edad Muestral: 18.55

if (round(media_muestral_Edad1) != round(media_EdadP)) {
  print("Si hay sesgo en el estimador de la edad promedio")
} else {
  print("El estimador de la edad promedio es insesgado")
}

## [1] "Si hay sesgo en el estimador de la edad promedio"

#DETERMINAMOS EL SESGO DEL ESTIMADOR DE MEDIA DE EDADES
set.seed(123)
sesgo_Edad<-media_muestral_Edad1-media_EdadP
sesgo_Edad

## [1] 0.128548

Análisis: Se tiene un sesgo en el estimador de la edad promedio de 0.1285.

3.3.1.2. La media de notas debe ser insesgada:

#DETERMINAMOS SI EXISTE SESGO DEL ESTIMADOR DE MEDIA DE NOTAS

cat("El promedio de Nota Poblacional:",media_NotasP)

## El promedio de Nota Poblacional: 3.209641

cat("El promedio de Nota Muestral:",media_muestral_Notas1)

## El promedio de Nota Muestral: 3.273915

if (media_muestral_Notas1 != media_NotasP) {
  print("Si hay sesgo en el estimador de la nota promedio")
} else {
  print("El estimador de la nota promedio es insesgado")
}

## [1] "Si hay sesgo en el estimador de la nota promedio"

#DETERMINAMOS EL SESGO DEL ESTIMADOR DE MEDIA DE NOTAS
set.seed(123)
sesgo_Notas<-media_muestral_Notas1-media_NotasP
sesgo_Notas

## [1] 0.06427402

Análisis: Se tiene un sesgo en el estimador de la nota promedio de 0.064.

3.3.2. Consistencia del estimador

Se determinara si entre más grande la muestra el valor del estimador se aproxima al valor del parámetro, para que se cumpla la consistencia del estimador.

3.3.2.1. Para la variable edad

#MEDIA DE LA MUESTRA 2
set.seed(123)
media_muestral_Edad2 = mean(Muestra_Edad_2)

cat("El promedio poblacional de edades es igual a",round(media_EdadP,2))

## El promedio poblacional de edades es igual a 18.42

cat("El promedio de la muestra 1 de las edades con 61 estudiantes es de", round(media_muestral_Edad1,2))

## El promedio de la muestra 1 de las edades con 61 estudiantes es de 18.55

cat("El promedio de la muestra 2 de las edades con 80 estudiantes es de", round(media_muestral_Edad2,2))

## El promedio de la muestra 2 de las edades con 80 estudiantes es de 18.52

#VARIANZA DE LA MUESTRA 2
set.seed(123)
varianza_muestral_Edad2=var(Muestra_Edad_2)
varianza_muestral_Edad2

## [1] 3.112071

#DESVIACIÓN ESTANDAR DE LA MUESTRA 2
set.seed(123)
desviacion_muestral_Edad2=sd(Muestra_Edad_2)

cat("La desviación estandar poblacional de la edad es igual a", round(desviacion_EdadP,2))

## La desviación estandar poblacional de la edad es igual a 1.87

cat("La desviación estandar de la edad de la muestra 1 con 61 estudiantes es de", round(desviacion_muestral_Edad1,2))

## La desviación estandar de la edad de la muestra 1 con 61 estudiantes es de 1.79

cat("La desviación estandar de la edad de la muestra 2 con 80 estudiantes es de", round(desviacion_muestral_Edad2,2))

## La desviación estandar de la edad de la muestra 2 con 80 estudiantes es de 1.76

Análisis: Para que exista consistencia del estimador se debe tener en cuenta que entre más muestras, los estimadores de estas muestras deben aproximarse al valor de los parametros, luego se observa el comportamiento de la media muestral, donde en la muestra 1 es de 18.55 años, luego en la muestra 2 es de 18.52 años, y por ultimo la media poblacional es de 18.42 años, se puede concluir que existe consistencia para el estimador de la variable edad, ya que a medida que se va aumentando la muestra, el estimador muestral se va comportando de la misma manera que el paramentro poblacional.

Es de aclarar que el comportamiento de la desviación estandar, a medida que va aumentando la muestra la variabilidad de las edades va disminuyendo, lo que se contradice ya que deberia ir aumentado para aproximarse a la desviación estandar poblacional.

3.3.2.2. Para la variable notas

#MEDIA DE LA MUESTRA 2 DE NOTAS
set.seed(123)
media_muestral_Notas2=mean(Muestra_Notas_2)

cat("El promedio poblacional de notas es igual a", round(media_NotasP,2))

## El promedio poblacional de notas es igual a 3.21

cat("El promedio de la muestra 1 de las notas con 61 estudiantes es de", round(media_muestral_Notas1,2))

## El promedio de la muestra 1 de las notas con 61 estudiantes es de 3.27

cat("El promedio de la muestra 2 de las notas con 80 estudiantes es de", round(media_muestral_Notas2,2))

## El promedio de la muestra 2 de las notas con 80 estudiantes es de 3.26

#VARIANZA DE LA MUESTRA 2 DE NOTAS
set.seed(123)
varianza_muestral_Notas2=var(Muestra_Notas_2)
varianza_muestral_Notas2

## [1] 0.7780177

#DESVIACIÓN ESTANDAR DE LA MUESTRA 2 DE NOTAS
set.seed(123)
desviacion_muestral_Notas2=sd(Muestra_Notas_2)

cat("La desviación estandar poblacional de las notas es igual a", round(desviacion_NotasP,2))

## La desviación estandar poblacional de las notas es igual a 0.94

cat("La desviación estandar de las notas de la muestra 1 con 61 estudiantes es de", round(desviacion_muestral_Notas1,2))

## La desviación estandar de las notas de la muestra 1 con 61 estudiantes es de 0.9

cat("La desviación estandar de las notas de la muestra 2 con 80 estudiantes es de", round(desviacion_muestral_Notas2,2))

## La desviación estandar de las notas de la muestra 2 con 80 estudiantes es de 0.88

Análisis: Para que exista consistencia del estimador se debe tener en cuenta que entre más muestras, los estimadores de estas muestras deben aproximarse al valor de los parametros, luego se observa el comportamiento de la media muestral para la variable notas,donde en la muestra 1 es de 3.27, luego en la muestra 2 es de 3.26, y por ultimo la media poblacional es de 3.21, por lo tanto se puede concluir, que existe consistencia para el estimador de la variable notas, ya que a medida que se va aumentando la muestra, el estimador muestral se va comportando de la misma manera que el paramentro poblacional.

Es de aclarar que el comportamiento de la desviación estandar, a medida que va aumentando la muestra la variabilidad de las notas va disminuyendo, lo que se contradice ya que deberia ir aumentado para aproximarse a la desviación estandar poblacional.

3.3.3. Eficiencia del estimador

Se determina si la varianza de la muestra 1 es menor a la varianza de la muestra 2, para que se cumpla la propiedad de eficiencia.

3.3.3.1. Para la variable edad

cat("La varianza de la muestra 1 de la Edad con 61 estudiantes es de", varianza_muestral_Edad1)

## La varianza de la muestra 1 de la Edad con 61 estudiantes es de 3.205262

cat("La varianza de la muestra 2 de la Edad con 80 estudiantes es de", varianza_muestral_Edad2)

## La varianza de la muestra 2 de la Edad con 80 estudiantes es de 3.112071

if (floor(varianza_muestral_Edad1) < floor(varianza_muestral_Edad2)) {
  print("Es eficiente")
} else {
  print("No es eficiente")
}

## [1] "No es eficiente"

Análisis: Teniendo en cuenta que la varianza de la primera muestra de la variable edad con 61 estudiantes es mayor que la varianza de la segunda muestra con 80 estudiantes de grado once, se determina que el estimador de la muestra 1 no es eficiente.

3.3.3.2. Para la variable notas

cat("La varianza de la muestra 1 de las notas con 61 estudiantes es de", varianza_muestral_Notas1)

## La varianza de la muestra 1 de las notas con 61 estudiantes es de 0.8013155

cat("La varianza de la muestra 2 de las notas con 80 estudiantes es de", varianza_muestral_Notas2)

## La varianza de la muestra 2 de las notas con 80 estudiantes es de 0.7780177

if (varianza_muestral_Notas1 < varianza_muestral_Notas2) {
  print("Es eficiente")
} else {
  print("No es eficiente")
}

## [1] "No es eficiente"

Análisis: Teniendo en cuenta que la varianza de la primera muestra de la variable notas con 61 estudiantes es mayor que la varianza de la segunda muestra con 80 estudiantes de grado once, se determina que el estimador de la muestra 1 no es eficiente.

3.4. Intervalos de confianza con la versión oficial

3.4.1. Intervalo de confianza para la variable edad

# Intervalo de confianza del 95% para la media
intervalo_confianza <- t.test(Muestra_Edad)$conf.int

# Imprimir el resultado
cat("Intervalo de Confianza del 95% para la Media:", intervalo_confianza, "\n")

## Intervalo de Confianza del 95% para la Media: 18.08931 19.00635

Análisis: Para la variable edad la media muestral se encuentra entre los valores de 18.089 y 19.006

3.4.2. Intervalo de confianza para la variable notas

# Intervalo de confianza del 95% para la media
intervalo_confianza <- t.test(Muestra_Notas)$conf.int

# Imprimir el resultado
cat("Intervalo de Confianza del 95% para la Media:", intervalo_confianza, "\n")

## Intervalo de Confianza del 95% para la Media: 3.044653 3.503177

Análisis: Para la variable notas la media muestral se encuentra entre los valores de 3.044 y 3.50

3.5. Los estimadores de Máxima Verosimilitud (MLE por sus siglas en inglés) para la muestra

3.5.1. Estimación de máxima verosimilitud de la edad

# Función de verosimilitud para una distribución normal

log_likelihood <- function(par, data) {
  mu <- par[1]
  sigma <- par[2]
  -sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
  }

# Encontrar estimadores de máxima verosimilitud para la muestra 1

inicializacion <- c(mean(Muestra_Edad), sd(Muestra_Edad))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = Grado_Once$Edad)

# Resultados

cat("Media poblacional de la edad:", media_EdadP, "\n")

## Media poblacional de la edad: 18.41928

cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")

## Estimador MLE para la media: 18.25965

cat("Desviación estándar poblacional de la edad:", desviacion_EdadP, "\n")

## Desviación estándar poblacional de la edad: 1.871135

cat("Estimador MLE para la desviación estándar:", estimadores_mle$par[2], "\n")

## Estimador MLE para la desviación estándar: 2.105498

Análisis para la media: Al ser la media poblacional de 18.41 y por el estimador MLE de 18.25, se puede inferir que existe un margen de error de 0.16, en cierto grado puede ser pertinente para realizar estimaciones con la media muestral.

Análisis para la desviación estándar: Al ser la desviación estándar poblacional de 1.87 y por el estimador MLE de 2.10, se puede inferir que existe un margen de error de 0.23, en cierto grado puede ser pertinente para realizar estimaciones con la desviación estándar muestral.

3.5.2. Estimación de máxima verosimilitud de las notas

# Función de verosimilitud para una distribución normal

log_likelihood <- function(par, data) {
  mu <- par[1]
  sigma <- par[2]
  -sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
  }

# Encontrar estimadores de máxima verosimilitud para la muestra 1

inicializacion <- c(mean(Muestra_Notas), sd(Muestra_Notas))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = Grado_Once$Notas)

# Resultados
cat("Media poblacional de las notas:", media_NotasP, "\n")

## Media poblacional de las notas: 3.209641

cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")

## Estimador MLE para la media: 3.018655

cat("Desviación estándar poblacional de las notas:", desviacion_NotasP, "\n")

## Desviación estándar poblacional de las notas: 0.9355676

cat("Estimador MLE para la desviación estándar:", estimadores_mle$par[2], "\n")

## Estimador MLE para la desviación estándar: 1.143265

Análisis para la media: Al ser la media poblacional de 3.20 y por el estimador MLE de 3.01, se puede inferir que existe un margen de error de 0.19, en cierto grado puede ser pertinente para realizar estimaciones con la media muestral.

Análisis para la desviación estándar: Al ser la desviación estándar poblacional de 0.93 y por el estimador MLE de 1.14, se puede inferir que existe un margen de error de 0.21, en cierto grado puede ser pertinente para realizar estimaciones con la desviación estándar muestral.

3.6. Intervalos de confianza

3.6.1. Intervalos de confianza para la media

3.6.1.1. Para la variable edad

# Calcular el intervalo de confianza para la media
nivel_confianza <- 0.95
muestra_media <- mean(Muestra_Edad)
desviacion_estandar <- sd(Muestra_Edad)
tamano_muestra <- length(Muestra_Edad)

# Calcular el error estándar de la media
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)

# Calcular el valor crítico de la distribución t
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)

# Calcular el margen de error
margen_error <- valor_critico * error_estandar

# Calcular el intervalo de confianza
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 18.08931 19.00635

Análisis: Se encuentra un intervalo de 18.08 a 19.006 para la media muestral de la edad con un nivel de certeza del 95% y un nivel de confianza del 1.96.

3.6.1.2. Para la variable notas

# Calcular el intervalo de confianza para la media
nivel_confianza <- 0.95
muestra_media <- mean(Muestra_Notas)
desviacion_estandar <- sd(Muestra_Notas)
tamano_muestra <- length(Muestra_Notas)

# Calcular el error estándar de la media
error_estandar <- desviacion_estandar / sqrt(tamano_muestra)

# Calcular el valor crítico de la distribución t
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)

# Calcular el margen de error
margen_error <- valor_critico * error_estandar

# Calcular el intervalo de confianza
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 3.044653 3.503177

Análisis: Se encuentra en un intervalo de 3.044 a 3.503 para la media muestral de la notas con un nivel de certeza del 95% y un nivel de confianza del 1.96.

3.6.2. Intervalo de confianza para la proporción

3.6.2.1. Para la variable edad

#Cantidad de edades mayores de 18 

Cantidad=sum(Muestra_Edad>=18)
Cantidad

## [1] 28

proporcion_acuerdo <- Cantidad / 61

#Cálculos
nivel_confianza <- 0.95
error_estandar_proporcion <- sqrt((proporcion_acuerdo * (1 - proporcion_acuerdo)) / tamano_muestra)
valor_critico <- qnorm((1 + nivel_confianza) / 2)
margen_error_proporcion <- valor_critico * error_estandar_proporcion
intervalo_confianza_proporcion <- c(proporcion_acuerdo - margen_error_proporcion, proporcion_acuerdo + margen_error_proporcion)

# Mostrar resultado
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la proporción:", intervalo_confianza_proporcion)

## Intervalo de confianza del 95 % para la proporción: 0.3339648 0.584068

Análisis: En un intervalo del 33% al 58% con un nivel de confianza del 1.96 se encuentran 28 estudiantes mayor e igual a 18 años.

3.6.2.2. Para la variable notas

#Cantidad de notas mayores de 3.1 

Cantidad2=sum(Muestra_Notas>=3.1)
Cantidad2

## [1] 19

proporcion_acuerdo <- Cantidad2 / tamano_muestra

#Cálculos
nivel_confianza <- 0.95
error_estandar_proporcion <- sqrt((proporcion_acuerdo * (1 - proporcion_acuerdo)) / tamano_muestra)
valor_critico <- qnorm((1 + nivel_confianza) / 2)
margen_error_proporcion <- valor_critico * error_estandar_proporcion
intervalo_confianza_proporcion <- c(proporcion_acuerdo - margen_error_proporcion, proporcion_acuerdo + margen_error_proporcion)

# Mostrar resultado
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la proporción:", intervalo_confianza_proporcion)

## Intervalo de confianza del 95 % para la proporción: 0.1952624 0.4276884

Análisis: En un intervalo del 19% al 42% con un nivel de confianza del 1.96 se encuentran 19 estudiantes con una calificación mayor e igual a 3.1

3.7. Prueba de hipótesis

3.7.1. Formulación de las hipótesis

Hipotesis Nula \(H_0\): La edad no infiere en el rendimiento academico.

Hipotesis Alternativa \(H_1\): La edad infiere en el rendimiento academico.

3.7.2. Errores

Error tipo 1 = La edad infiere en el rendimiento academico, pero realmente la edad no infiere en el rendimiento academico.

Error tipo 2 = Es falso afirmar que la edad no infiere en el rendimiento academico, pero se acepta.

3.7.3. Ejemplos de los tipos de error solicitados por la docente

3.7.3.1. Ejemplo de tipo II

Supongamos que la hipótesis nula es: El equipo de escalada de Frank es seguro. Indiquemos cuales serian el error tipo I y II.

Error tipo I: Frank piensa que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es.

Error tipo II: Frank cree que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.

Notemos que, en este caso, el error con mayores consecuencias es el tipo II, puesto que al creerse que es seguro cuando en realidad no lo es podría traer muchos accidentes.

3.7.3.2. Ejemplo de tipo I

Supongamos que la hipótesis nula es: La víctima de un accidente de tráfico está viva cuando llega a la sala de urgencias de un hospital. Indiquemos cuales serian el error tipo I y II. ¿Cuál tendría consecuencias mas graves?

Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias mas graves:

Error tipo I: El equipo de emergencia cree que la víctima está muerta cuando, en realidad, está viva.

Error tipo II: El equipo de emergencia cree que la víctima está viva cuando, en realidad, está muerta.

El error con mayores consecuencias es el error tipo I, puesto que si el equipo de emergencia cree que la víctima está muerta (cuando en realidad esta viva), no la atenderán y eso podría atraer consecuencias graves como que en verdad muera.

3.8. Normalidad

Se determina la normalidad de los datos

3.8.1. Gráfico Q-Q plot

qqnorm(Grado_Once$Edad)
qqline(Grado_Once$Edad, col = 2)

Análisis:De acuerdo a la gráfica Q-Q plot de la edad de los estudiantes de grado once, se puede evidenciar que el comportamiento de la edad no es normal, ya que a medida que los valores teoricos de los cuartiles aumentan, el valor de los cuartiles experimentales se mantienen constantes, por lo que se aproximan a un comportamiento escalonado. En ese sentido, la distribución de los datos no son normales, dado que a medida que los valores de los cuartiles teoricos incrementan los valores experimentales tambien deberian aumentar proporcionalmente.

qqnorm(Grado_Once$Notas)
qqline(Grado_Once$Notas, col = 2)

Análisis: De acuerdo a la gráfica Q-Q plot de la notas de los estudiantes de grado once, se puede evidenciar que el comportamiento de la notas no es normal, ya que a medida que los valores teoricos de los cuartiles aumentan, el valor de los cuartiles experimentales se mantienen constantes, por lo que se aproximan a un comportamiento escalonado más compacto. En ese sentido, la distribución de los datos no son normales, dado que a medida que los valores de los cuartiles teoricos incrementan los valores experimentales tambien deberian aumentar proporcionalmente.

3.8.2. Prueba de Shapiro-Wilk

Se aplica la prueba de Shapiro Wilk dado a que el tamaño de nuestra muestra son de 150 estudiantes, por ende es considerada pequeña, dado que es una prueba estadística que evalúa la hipótesis nula de que una muestra proviene de una población con una distribución normal.

Interpretación: Un valor p alto (p > nivel de significancia, comúnmente 0.05) sugiere que no hay evidencia suficiente para rechazar la hipótesis nula de normalidad. Es de resaltar que es adecuada para tamaños de muestra moderados a pequeños (generalmente hasta alrededor de 2,000 observaciones)

Se calcula con el comando \[shapiro.test()\]

# Prueba de Shapiro-Wilk
shapiro.test(Grado_Once$Edad)

## 
##  Shapiro-Wilk normality test
## 
## data:  Grado_Once$Edad
## W = 0.89238, p-value = 5.019e-09

shapiro.test(Grado_Once$Notas)

## 
##  Shapiro-Wilk normality test
## 
## data:  Grado_Once$Notas
## W = 0.95154, p-value = 4.409e-05

Análisis: El valor de p para la variable edad del grado once es de 0.000000005019 y el valor de p para la variable notas del grado once es de 0.00004409, donde se sugiere que hay suficiente evidencia para rechazar la hipotesis nula de normalidad, ya que el valor p es menor al valor de significancia 0.05, por ende ambas variables no son consideradas normales en su distribución.

3.9. Prueba de correlación de Spearman

Se utiliza esta prueba de correlación ya que se busca asociar las notas y la edad, para determinar si la edad influye en el rendimiento academico, ademas considerando que es una prueba no paramétrica, que se ajusta perfectamente a la distribución de los datos.

resultado_spearman <- cor.test(Grado_Once$Edad, Grado_Once$Notas, method = "spearman")

## Warning in cor.test.default(Grado_Once$Edad, Grado_Once$Notas, method =
## "spearman"): Cannot compute exact p-value with ties

print(resultado_spearman)

## 
##  Spearman's rank correlation rho
## 
## data:  Grado_Once$Edad and Grado_Once$Notas
## S = 572342, p-value = 0.8313
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##         rho 
## -0.01754227

Análisis: Se puede evidenciar que con base a la prueba de correlación de spearman, las variable nota y la edad no estan correlacionadas ya que, el coeficiente es de -0.017, lo cual indica que la asociación es nula o debíl debido a que se acerca a 0.

4. CONCLUSIONES Y RECOMENDACIONES

De acuerdo al anterior estudio, se evidencia para la variable edad que no se cumple con los atributos de insesgamiento y eficiencia, ademas se evidencia que para el atributo de la consistencia cumple para la media, pero no para la desviación estandar. Asi mismo para la variable notas no se cumple con los atributos de insesgamiento y eficiencia, por otra parte con la media solo el atributo de consistencia, dado que la desviación no cumple la consistencia.
Es de aclarar que para la prueba de Spearman no se utilizó la muestra 1 o la muestra 2, ya que con estas no se cumplió con los atributos de insesgamiento, eficiencia y consistencia, por ende se utilizó toda la población de los estudiantes de grado once.
Recomendación: Se deja claro que no se deben utilizar datos aleatoriamente ya que, podrian influir en el sesgo, eficiencia y consistencia del estudio. Por ende se debe siempre utilizar una base de datos confiable para asi poder realizar estimaciones más pertinentes.
Se puede concluir que el factor determinante de la edad no infiere directamente sobre las notas que han obtenido los estudiantes del grado once.
Recomendación: Lo mencionado expone que podrian existir otros factores que tengan significancia sobre la afectación de las notas que han obtenido los estudiantes de grado once.

INFORME FINAL

Alejandra Catalina Salgado Muñoz y LLuvia Maria Perez Morales

2024-11-23