En este segundo avance del proyecto se busca profundizar en el análisis estadístico de los datos mediante la estimación e inferencia de los parámetros poblacionales. En primer lugar, se estimarán de forma puntual y por intervalo el promedio y la desviación estándar de las variables cuantitativas, tanto para la población total como segmentadas según la variable cualitativa. Posteriormente, se construirán intervalos de confianza para una y dos poblaciones, con el fin de comparar diferencias significativas entre grupos. Además, se calcularán las proporciones y sus respectivos intervalos de confianza, así como la diferencia entre proporciones. Finalmente, se realizarán pruebas de hipótesis para los parámetros de una y dos poblaciones, permitiendo contrastar los resultados obtenidos en las estimaciones y brindar una interpretación integral de los hallazgos.

1. Promedio, desviación e intervalo de confianza

Promedio, desviación estándar e intervalos de confianza del salario inicial por género
Gender promedio desviacion_estandar n error_estandar IC_inferior IC_superior
Female 92470 26583.31 200 1879.72 88785.74 96154.26
Male 82655 31808.72 200 2249.22 78246.54 87063.46

2. Descripción del punto anterior

Los resultados muestran que el salario inicial promedio de las mujeres (92,470) es superior al de los hombres (82,655). Además, los intervalos de confianza al 95% confirman esta diferencia: para las mujeres, el salario inicial poblacional se estima entre 88,785.74 y 96,154.26, mientras que para los hombres se encuentra entre 78,246.54 y 87,063.46. Dado que los intervalos no se superponen de forma considerable, se sugiere que existe una diferencia estadísticamente significativa entre ambos grupos, donde las mujeres presentan, en promedio, un salario inicial mayor dentro de la muestra analizada.

Observación

Se aplicó la prueba de normalidad de Shapiro-Wilk a la variable cuantitativa Starting_Salary. El resultado obtenido fue W = 0.95622 con un valor p = 1.577e-09, el cual es menor que el nivel de significancia habitual (α = 0.05). Por lo tanto, se rechaza la hipótesis nula de normalidad, concluyéndose que la distribución de la variable Starting_Salary no sigue una distribución normal.

shapiro.test(education_career_success$Starting_Salary)
## 
##  Shapiro-Wilk normality test
## 
## data:  education_career_success$Starting_Salary
## W = 0.95622, p-value = 1.577e-09

3. Estimación por intervalo

Proporciones por género en la carrera Psicología
Gender n proporcion error_estandar IC_inferior IC_superior
Female 34 0.676 0.0802309 0.519 0.834
Male 21 0.286 0.0985808 0.092 0.479
Diferencia entre proporciones (Hombres - Mujeres)
Diferencia IC_inferior IC_superior
-0.391 -0.64 -0.142

4. Interprete todas las medidas anteriores

Los resultados muestran una diferencia marcada entre hombres y mujeres en la carrera de Psicología. La proporción de mujeres con salario inicial superior al promedio (0.676) es considerablemente mayor que la de hombres (0.286). Esto sugiere que, dentro de este campo de estudio, las mujeres tienen mayor probabilidad de alcanzar salarios por encima del promedio general. Además, los intervalos de confianza no se superponen de manera significativa, lo que refuerza la idea de una brecha real en las proporciones.

La diferencia estimada entre las proporciones (–0.391) indica que los hombres presentan una proporción 39.1 puntos porcentuales menor que las mujeres en cuanto a salarios altos dentro de Psicología. Dado que el intervalo de confianza (–0.64, –0.142) no incluye el valor cero, se puede concluir con un 95 % de confianza que esta diferencia es estadísticamente significativa. En términos prácticos, la evidencia sugiere que el género sí influye en la probabilidad de percibir un salario inicial elevado en esta disciplina.

5.

Repita todo lo anterior, para lo que usted considere, de acuerdo a sus datos, pruebas de hipotesis para los parametros de una poblacion y de dos poblaciones, respectivamente. Tenga presente lo visto en el curso, es importante la notacion y debe dejar explcito parametro, estimadores, etc. La notacion tambien hace parte de la evaluacion, ademas, los calculos se deben realizar en R.

Prueba de hipótesis para dos poblaciones (por género): Parámetro de interés

Queremos contrastar si existe diferencia entre las medias poblacionales de los dos grupos.

\[ \mu_H = \text{media del salario inicial de los hombres} \]

\[ \mu_M = \text{media del salario inicial de las mujeres} \]

Queremos contrastar si existe diferencia entre las medias poblacionales de los dos grupos.

Hipótesis

\[ H_0: \mu_H = \mu_M \]

\[ H_1: \mu_H \neq \mu_M \]

Estimadores

Las medias muestrales y desviaciones estándar se denotan como:

  • Para hombres: \(\bar{X}_H, S_H\)
  • Para mujeres: \(\bar{X}_M, S_M\)

El estimador de la diferencia entre medias poblacionales es:

\[ \delta = \bar{X}_H - \bar{X}_M \]

Estadístico de prueba

\[ z = \frac{(\bar{X}_1 - \bar{X}_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \]

t.test(Starting_Salary ~ Gender, data = education_career_success, var.equal = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  Starting_Salary by Gender
## t = 3.3484, df = 385.84, p-value = 0.0008928
## alternative hypothesis: true difference in means between group Female and group Male is not equal to 0
## 95 percent confidence interval:
##   4051.74 15578.26
## sample estimates:
## mean in group Female   mean in group Male 
##                92470                82655

Con un nivel de significancia de 𝛼= 0.05 y un valor p de 0.0008928, se rechaza la hipótesis nula, ya que el valor p es menor que el nivel de significancia. Esto indica que existe evidencia estadísticamente significativa de que los salarios iniciales promedio difieren entre hombres y mujeres.