En el presente trabajo realizaremos pruebas de hipótesis y calcularemos intervalos de confianza para la base de datos obtenida a través de Kaggle. Esta base de datos nos proporciona información sobre los años de experiencia, la edad, el salario y la profesión de distintas personas.
En nuestra base de datos contamos con Dos variables cuantitativas, en este caso, años de experiencia y salario, ademas de una variable cualitativa, la cual hace referencia al genero, esta tiene dos opciones (masculino, femenino)
t.test(data$salary)
##
## One Sample t-test
##
## data: data$salary
## t = 40.267, df = 372, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 95665.82 105488.87
## sample estimates:
## mean of x
## 100577.3
ss = sd(data$salary)
ss
## [1] 48240.01
La media para la variable del salario es 100577.3, la desviación estandar del mismo es 48240.01. Además, con una confiabilidad del \(95\%\) se puede afirmar que el promedio del salario se encuentra entre (95665.82 , 105488.87).
##
## One Sample t-test
##
## data: data$experience
## t = 29.545, df = 372, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 9.363234 10.698428
## sample estimates:
## mean of x
## 10.03083
## [1] 6.557007
La variable de los años de experiencia tiene una desviación estandar igual a 6.557007. Ademas, se puede afirmar con una confiabilidad del \(95\%\) que el promedio de años de experiencia de la población se encuentra entre (9.363234 , 10.698428). En este caso, el promedio de años de experiencia es de 10.03
Se quiere comprobar que el promedio del salario es mayor a 110.000 con una confiabilidad del 99%
##
## One Sample t-test
##
## data: data$salary
## t = -3.7724, df = 372, p-value = 0.9999
## alternative hypothesis: true mean is greater than 110000
## 99 percent confidence interval:
## 94741.51 Inf
## sample estimates:
## mean of x
## 100577.3
Se puede afirmar con un \(99\%\) de confiabilidad que la media del salario de la población es menor o igual a 110.000. En este caso, como el p-value fue mayor que el alpha, no se rechaza Ho
Se estima que el promedio de los años de experiencia es mayor o igual a 8 años.
##
## One Sample t-test
##
## data: data$experience
## t = 5.9817, df = 372, p-value = 1
## alternative hypothesis: true mean is less than 8
## 99 percent confidence interval:
## -Inf 10.82406
## sample estimates:
## mean of x
## 10.03083
Con la prueba de hipótesis se puede afirmar con un \(99\%\) de confiabilidad que la media de los años de experiencia de la población es mayor o igual a 8, es decir en promedio las personas han trabajado entre 8 o mas años. Esto debido a que el valor p fue mayor al nivel de significancia, por lo tanto se aceptó Ho.
En el equipo se considera que la proporcion de mujeres es menor al \(60\%\)
##
## 1-sample proportions test with continuity correction
##
## data: 179 out of 373, null probability 0.6
## X-squared = 21.922, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.6
## 99 percent confidence interval:
## 0.4191186 1.0000000
## sample estimates:
## p
## 0.4798928
Se puede considerar que la proporción de las mujeres es menor o igual al \(60\%\), es decir se acepta el Ho. En este caso Ho:P <= 0,6. Ha: P > 0,6. Ya que p-value (1) fue mayor que el alpha, no rechazo el Ho.
En el análisis se considera que la proporcion de hombres es mayor o igual a 0.7
##
## 1-sample proportions test with continuity correction
##
## data: 194 out of 373, null probability 0.7
## X-squared = 56.627, df = 1, p-value = 2.635e-14
## alternative hypothesis: true p is less than 0.7
## 99 percent confidence interval:
## 0.0000000 0.5808814
## sample estimates:
## p
## 0.5201072
Con una confiabilidad del \(99\%\) se puede confirmar que la proporción de hombres es menor del \(70\%\), es decir se rechaza Ho. Dado que el p-value es menor que el alpha, rechazo Ho, por tanto se afirma que la proporción de hombres es menor al \(70\%\)
data%>%group_by(gender)%>%summarise(prom_sal=mean(salary))
## # A tibble: 2 × 2
## gender prom_sal
## <chr> <dbl>
## 1 Female 97011.
## 2 Male 103868.
El salario promedio de las mujeres es de 97.011,17, mientras que el salario promedio de los hombres es de 103.867,78
El promedio de años de experiencia de los hombres es de 10.04897, mientras que el promedio de las mujeres es de 10.01117.
Se considera que el promedio de años de experiencia entre hombres y mujeres es igual.
##
## Welch Two Sample t-test
##
## data: ageF and ageM
## t = -0.055688, df = 370.91, p-value = 0.9556
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
## -1.795075 1.719484
## sample estimates:
## mean of x mean of y
## 10.01117 10.04897
Como p-value es mayor que el nivel de significancia, que en este caso es de 0.01, no se rechaza Ho. Es decir, que el promedio de los años de experiencia entre los hombres y las mujeres es igual y Esto se puede afirmar con una confiabilidad del \(99\%\)
Se considera que el promedio del salario de los hombres es superior al de las mujeres por al menos 5.000
##
## Welch Two Sample t-test
##
## data: salM and salF
## t = 0.37312, df = 370.98, p-value = 0.3546
## alternative hypothesis: true difference in means is greater than 5000
## 99 percent confidence interval:
## -4769.151 Inf
## sample estimates:
## mean of x mean of y
## 103867.78 97011.17
El promedio del salario de los hombres no es superior al de las mujeres en al menos 5.000, es decir, que la diferencia entre los salarios es menor o igual a 5.000. Esto debido a que el valor p es mayor que el nivel de significancia, por tanto se acepta Ho.
Se quiere conocer si la proporción de hombres es igual a la de las mujeres
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(x1, x2) out of c(n1, n2)
## X-squared = 1.0509, df = 1, p-value = 0.3053
## alternative hypothesis: two.sided
## 99 percent confidence interval:
## -0.05669801 0.13712697
## sample estimates:
## prop 1 prop 2
## 0.5201072 0.4798928
En este caso, se puede afirmar con una confiabilidad del 99%, que la proporción de hombres y mujeres es igual.Esto debido a que el valor p fue mayor al nivel de significancia, dando como resultado la aceptación de la hipótesis nula, la cual afirmaba que las proporciones eran iguales.