Entrega 2 de Proyecto de Estadística LLM

Análisis de tendencia central y su variabilidad para las variables cuantitativas

Resumen de las variables cuantitativas

##       Age          GradeClass       Absences          GPA       
##  Min.   :15.00   Min.   :0.000   Min.   : 0.00   Min.   :0.000  
##  1st Qu.:15.00   1st Qu.:2.000   1st Qu.: 7.00   1st Qu.:1.175  
##  Median :16.00   Median :4.000   Median :15.00   Median :1.893  
##  Mean   :16.47   Mean   :2.984   Mean   :14.54   Mean   :1.906  
##  3rd Qu.:17.00   3rd Qu.:4.000   3rd Qu.:22.00   3rd Qu.:2.622  
##  Max.   :18.00   Max.   :4.000   Max.   :29.00   Max.   :4.000  
##  StudyTimeWeekly    
##  Min.   : 0.001057  
##  1st Qu.: 5.043079  
##  Median : 9.705363  
##  Mean   : 9.771992  
##  3rd Qu.:14.408410  
##  Max.   :19.978094

Correlación entre ausencias y GPA

## [1] -0.9193136

Media y desviación estandar para variable “Ausencias”

Resultados de Ausencias
Descripción	Valor
Media de ‘Ausencias’	14.541388
Desviación Estándar de ‘Ausencias’	8.467417

Media y desviación estandar para variable “GPA”

Resultados del GPA
Descripción	Valor
Media de GPA	1.9061863
Desviación Estándar de GPA	0.9151558

Medidas de dos poblaciones según variable cualitativa “Género”

Media por género del GPA

Gender	prom_gpa
Masculino	1.918679
Femenino	1.894225

Desviación estandar por género del GPA

Gender	sd_gpa
Masculino	0.9139675
Femenino	0.9165066

Media por género de Ausencias

Gender	prom_Ausencias
Masculino	14.54139
Femenino	14.54139

Desviación estandar por género de Ausencias

Gender	sd_Ausencias
Masculino	8.467417
Femenino	8.467417

Pruebas de hipótesis

Prueba de hipótesis para la media poblacional de GPA

## 
##  One Sample t-test
## 
## data:  GPA
## t = 101.87, df = 2391, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  1.869493 1.942879
## sample estimates:
## mean of x 
##  1.906186

con un \(95\%\) de confianza, la media del GPA está entre \((1.869512 , 1.942861 )\).

## 
##  One Sample t-test
## 
## data:  GPA
## t = -5.0136, df = 2391, p-value = 1
## alternative hypothesis: true mean is greater than 2
## 95 percent confidence interval:
##  1.875396      Inf
## sample estimates:
## mean of x 
##  1.906186

Hipótesis:

Ho (nula): µ ≤ 2

Ha (alternativa): µ > 2

Teniendo en cuenta el p-value = 1 para esta prueba de hipótesis, estadísticamente podemos afirmar con un 95% de confiabilidad que la media de la población tiene un GPA menor a 2. Lo anterior permite analizar que en este colegio los estudiantes en general no tienen un rendimiento académico sobresaliente. Es fundamental entonces, según los propósitos del colegio enfocar sus esfuerzos en incentivar la motivación en los chicos y revisar sus metodos de enseñanza.

Prueba de hipótesis para la media poblacional de Ausencias

## 
##  One Sample t-test
## 
## data:  Ausencias
## t = 83.992, df = 2391, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  14.20189 14.88089
## sample estimates:
## mean of x 
##  14.54139

con un \(95\%\) de confianza, la media de las ausencias está entre \(( 14.20206, 14.88072)\).

## 
##  One Sample t-test
## 
## data:  Ausencias
## t = 3.1271, df = 2391, p-value = 0.0008934
## alternative hypothesis: true mean is greater than 14
## 95 percent confidence interval:
##  14.25651      Inf
## sample estimates:
## mean of x 
##  14.54139

Hipótesis:

Ho (nula): µ ≤ 14

Ha (alternativa): µ > 14

Teniendo en cuenta el p-value = 0.0008934 para esta prueba de hipótesis, estadísticamente podemos afirmar con un 95% de confiabilidad que la media de la población es mayor a 14 ausencias. Lo anterior permite analizar que en este colegio los estudiantes faltan numerosamente, por lo que es un factor crítico a tener en cuenta en planes de mejoramiento por parte de la institución.

Prueba de hipótesis para la proporción mujeres

## 
##  1-sample proportions test with continuity correction
## 
## data:  1222 out of 2392, null probability 0.5
## X-squared = 1.0874, df = 1, p-value = 0.1485
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
##  0.493846 1.000000
## sample estimates:
##         p 
## 0.5108696

Hipótesis:

Ho (nula): P ≤ 0.5

Ha (alternativa): P > 0.5

Se realiza una prueba de hipótesis para determinar si la proporción de mujeres en la muestra es mayor al 50%. Esta prueba utiliza un enfoque de una cola, donde la hipótesis nula (H0) establece que la proporción de mujeres es igual o menor al 50%, y la hipótesis alternativa (Ha) propone que la proporción de mujeres es mayor al 50%.

Los datos muestran que hay 1222 mujeres en una muestra total de 2392 personas. El nivel de significancia seleccionado es del 5%. El p-valor resultante es 0.2971. Como este p-valor es mayor que el nivel de significancia (𝛼=0.05), no se rechaza la hipótesis nula.

Podemos concluir que, con un 95% de confianza, la proporción de mujeres en la población es menor o igual al 50%.Por lo tanto, bajo este análisis, la hipótesis nula es verdadera.

Prueba de hipótesis para la proporción hombres

## 
##  1-sample proportions test with continuity correction
## 
## data:  1170 out of 2392, null probability 0.5
## X-squared = 1.0874, df = 1, p-value = 0.1485
## alternative hypothesis: true p is less than 0.5
## 95 percent confidence interval:
##  0.000000 0.506154
## sample estimates:
##         p 
## 0.4891304

Hipótesis:

Ho (nula): P ≥ 0.5

Ha (alternativa): P < 0.5

Se realiza una prueba de hipótesis de proporciones para comparar si la proporción de hombres en la población es menor al 50%, utilizando una prueba de una muestra y unilateral, lo cual facilita los cálculos al asumir una única dirección en la diferencia.

Queremos determinar si la proporción de hombres es significativamente menor que el 50%. Para ello, planteamos la hipótesis nula H0:𝑝≥0.5, donde la proporción de hombres en la población es mayor o igual al 50%, y la hipótesis alternativa H𝑎:𝑝<0.5, que indica que la proporción de hombres es menor.Los cálculos nos arrojan un P-value de 0,15. Como este valor es mayor al nivel de significancia del 5% (α=0.05), no se rechaza la hipótesis nula.

Dado que no se rechaza la hipótesis nula, podemos concluir que, con un 95% de confianza, la proporción de hombres en la población es mayor igual al 50%.Por lo tanto, bajo este análisis, la hipótesis nula es verdadera.

Pruebas de hipótesis para 2 poblaciones

Pruebas de hipótesis para la media de la variable ausencias por género

## 
##  Two Sample t-test
## 
## data:  Am and Ah
## t = 1.0503, df = 2390, p-value = 0.2937
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.3153867  1.0429008
## sample estimates:
## mean of x mean of y 
##  14.71931  14.35556

Se lleva a cabo una prueba de hipótesis de dos muestras para comparar las medias de las ausencias entre dos grupos, en este caso, hombres y mujeres. Utilizando un t-test de dos muestras independientes, evaluamos si la diferencia en las medias de ausencias es significativa.

Planteamos las siguientes hipótesis:

-Hipótesis nula (H0): La media de las ausencias en hombres es mayor igual a la media de las ausencias en mujeres, es decir,𝜇1−𝜇2≥ 0

-Hipótesis alternativa (H𝑎): La media de las ausencias en hombres es menor a la media de las ausencias en mujeres, es decir, 𝜇1−𝜇2<0

Los resultados de la prueba indican un valor de 𝑡=1.0503 y un número de grados de libertad df=2390. El valor del P-value obtenido es 0.2937. Dado que este P-value es considerablemente mayor que el nivel de significancia comúnmente utilizado de α=0.05, no rechazamos la hipótesis nula. Esto implica que no hay evidencia suficiente para afirmar que la media de las ausencias de hombres es diferente a la de las mujeres.

Además, el intervalo de confianza del 95% para la diferencia de medias se presenta como: (-0.3153867 1.0429008) Este intervalo sugiere que no existe un límite inferior significativo para la diferencia entre las medias, lo que refuerza que no hay evidencia de que las ausencias en hombres y mujeres sean diferentes.

Los estimados de las medias son:

Media de ausencias en hombres: 14.71931 Media de ausencias en mujeres: 14.35556 En conclusión, la prueba de hipótesis indica que, con un 95% de confianza, no se puede afirmar que exista una diferencia significativa en las medias de ausencias entre hombres y mujeres.

Pruebas de hipótesis para la media de la variable GPA por género

## 
##  Two Sample t-test
## 
## data:  Gm and Gh
## t = -0.6532, df = 2390, p-value = 0.5137
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
##  -0.12096156  0.07205439
## sample estimates:
## mean of x mean of y 
##  1.894225  1.918679

Hipótesis:

Ho (nula): µ1-µ2 = 0

Ha (alternativa): µ1-µ2 ≠ 0

Se realiza una prueba de hipótesis de diferencia de medias para comparar los promedios de las calificaciones obtenidas en el GPA entre mujeres y hombres, utilizando una prueba de dos muestras independientes y asumiendo que sus varianzas son iguales. Esto se hace para mayor facilidad de los cálculos.

Queremos realizar una prueba de hipotesis que muestre si los promedios de las notas de las mujeres y las de los hombres son diferentes o si la diferencia entre medias es diferente a cero. Hacemos esta prueba para determinar si el promedio es muy distinto entre géneros para entrar a determinar las razones y si uno de los dos esta haciendo el examen de manera diferente al otro.

Según lo arrojado por los cálculos, el P-value es igual a 0,51 y como ese número es mayor al nivel de significancia, que en este caso es el 1%, no se rechaza la hipótesis nula. Lo que quiere decir que, en la muestra,el promedio de las calificaciones en el GPA de las mujeres es igual al de los hombres o, simplemente que la resta entre las dos proporciones es mayor o igual a cero.Sin embargo, los datos nos muestran el intervalo de confianza donde se sabe que si este incluye el cero, esto sugiere que no hay una diferencia significativa entre las medias de GPA; por lo que apesar de que la prueba de hipotesis diga que son iguales, lo mas probable es que su diferencia sea muy pequeña. Se evidencia que con un 99% de confiabilidad, el intervalo en el que esta la diferencia de medias entre las calificaciones del GPA de hombres y mujeres es (-0,121, 0,072)

Pruebas de hipótesis para la proporción de la variable ausencias por género

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(NPAM, NPAH) out of c(1222, 1170)
## X-squared = 0.58441, df = 1, p-value = 0.7777
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.00000000  0.05084127
## sample estimates:
##    prop 1    prop 2 
## 0.4762684 0.4598291

Hipótesis:

Ho (nula): P1-P2 ≥ 0

Ha (alternativa): P1-P2 < 0

Se tiene un grupo de mujeres (PAM) y hombres (PAH) con un número de ausencias superior a 15, y se cuenta cuántos pertenecen a cada grupo (NPAM y NPAH, respectivamente), teniendo en cuenta que en la muestra hay 1222 mujeres y 1170 hombres en total.

Queremos realizar una prueba de hipótesis sobre si la proporción de mujeres con mas de 15 ausencias es menor a la de los hombres, es decir que la diferencia entre las dos proporciones sea menor a 0. Usamos esta prueba ya que en la muestra, la variable ausencias va desde 0 hasta 29 y como se refiere a la cantidad de faltas de un estudiante, es importante saber si las personas que faltan mas del promedio de faltas son mas mujeres u hombres y con esto poder determinar los estudiantes que deben corregir mas su asistencia.

Según lo arrojado por los cálculos, el P-value es igual a 0,78 y como ese número es mayor al nivel de significancia, que en este caso es el 5%, no se rechaza la hipótesis nula. Lo que quiere decir que, en la muestra, el numero de mujeres que se ausentaron mas de 15 veces es mayor al número de hombres que lo hacen o, simplemente que la resta entre las dos proporciones es mayor o igual a cero.Esto se deduce de manera facil gracias a que la proporción 1 arrojada en el código, siendo la de las mujeres, es mayor que la proporción 2 que es la de los hombres. Ademas, de los calculos se puede deducir que con un 95% de confiabilidad, el intervalo en el que esta la diferencia de las proporciones de hombres y mujeres con ausencias mayores a 15 es (-1, 0,051)

Pruebas de hipotesis para la proporción de la variable GPA por género

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(NPGM, NPGH) out of c(1222, 1170)
## X-squared = 0.39354, df = 1, p-value = 0.7348
## alternative hypothesis: greater
## 95 percent confidence interval:
##  -0.04804139  1.00000000
## sample estimates:
##    prop 1    prop 2 
## 0.4607201 0.4743590

Hipótesis:

Ho (nula): P1-P2 ≤ 0

Ha (alternativa): P1-P2 > 0

Se tiene un grupo de mujeres (PGM) y hombres (PGH) con un GPA superior a 2, y se cuenta cuántos pertenecen a cada grupo (NPGM y NPGH, respectivamente), teniendo en cuenta que en la muestra hay 1222 mujeres y 1170 hombres en total.

Queremos realizar una prueba de hipótesis sobre si la proporción de mujeres con un GPA superior a 2 es mayor a la de los hombres, es decir que la diferencia entre las dos proporciones sea mayor a 0. Usamos esta prueba ya que en la muestra, la variable GPA va desde 0 hasta 4 y como se refiere a una nota de un examen, es importante saber si las personas que sacan el examen alto son mas mujeres u hombres y con esto poder saber cuales estudiantes deben estudiar mas para el examen o a quienes les fue mejor.

Según lo arrojado por los cálculos, el P-value es igual a 1 y como ese número es mayor al nivel de significancia, que en este caso es el 5%, no se rechaza la hipótesis nula. Lo que quiere decir que, en la muestra, el numero de mujeres que obtienen mas de 2 en el GPA es menor que el número de hombres que lo hacen o, simplemente que la resta entre las dos proporciones es menor o igual a cero. Esto se deduce de manera facil debido a que la proporción 1 arrojada en el código, siendo la de las mujeres, es menor que la proporción 2 que es la de los hombre. Ademas, de los calculos se puede deducir que con un 95% de confiabilidad, el intervalo en el que esta la diferencia de proporciones de hombres y mujeres con un GPA mayor a 2 es (-0,476, 1)

Entrega 2 de Proyecto de Estadística LLM

2024-09-10

Análisis de tendencia central y su variabilidad para las variables cuantitativas

Resumen de las variables cuantitativas

Correlación entre ausencias y GPA

Media y desviación estandar para variable “Ausencias”

Media y desviación estandar para variable “GPA”

Medidas de dos poblaciones según variable cualitativa “Género”

Media por género del GPA

Desviación estandar por género del GPA

Media por género de Ausencias

Desviación estandar por género de Ausencias

Pruebas de hipótesis

Prueba de hipótesis para la media poblacional de GPA

Hipótesis:

Ho (nula): µ ≤ 2

Ha (alternativa): µ > 2

Prueba de hipótesis para la media poblacional de Ausencias

Hipótesis:

Ho (nula): µ ≤ 14

Ha (alternativa): µ > 14

Prueba de hipótesis para la proporción mujeres

Hipótesis:

Ho (nula): P ≤ 0.5

Ha (alternativa): P > 0.5

Prueba de hipótesis para la proporción hombres

Hipótesis:

Ho (nula): P ≥ 0.5

Ha (alternativa): P < 0.5

Pruebas de hipótesis para 2 poblaciones

Pruebas de hipótesis para la media de la variable ausencias por género

Pruebas de hipótesis para la media de la variable GPA por género

Hipótesis:

Ho (nula): µ1-µ2 = 0

Ha (alternativa): µ1-µ2 ≠ 0

Pruebas de hipótesis para la proporción de la variable ausencias por género

Hipótesis:

Ho (nula): P1-P2 ≥ 0

Ha (alternativa): P1-P2 < 0

Pruebas de hipotesis para la proporción de la variable GPA por género

Hipótesis:

Ho (nula): P1-P2 ≤ 0

Ha (alternativa): P1-P2 > 0