BASE DE DATOS SELECCIONADA

La información de este proyecto fue extraída de Kaggle, que es una plataforma de competencia de ciencia de datos y una comunidad en línea para científicos de datos y profesionales del aprendizaje automático de Google, la cual provee distintas bases de datos.

El conjunto de datos que seleccionamos contiene información sobre los salarios de los empleados de una empresa. Cada fila representa a un empleado diferente y las columnas incluyen información como edad, género, nivel educativo, puesto de trabajo, años de experiencia y salario.

IDENTIFICACIÓN DE DATA SET TRATAMIENTO DE DATOS

Variables cualitativas nominales

  1. Gender: Esta columna contiene el género de cada empleado, que puede ser masculino o femenino. Male, Female.

  2. Job title: Esta columna contiene el cargo de cada empleado. Los cargos pueden variar según la empresa y pueden incluir puestos como gerente, analista, ingeniero o administrador.

Variables cualitativas ordinales

  1. Education level:Esta columna contiene el nivel educativo de cada empleado, que puede ser bachillerato, licenciatura, maestría o doctorado.

Variables cuantitativas discretas

  1. Age: Esta columna representa la edad de cada empleado en años.

  2. Years of experience: Esta columna representa el número de años de experiencia laboral de cada empleado.

  3. Salary: Esta columna representa el salario anual de cada empleado en dólares estadounidenses.

Información General

Age: Se puede observar que la edad promedio en la muestra tomada es de 37,5. Por otro lado, se puede apreciar que el trabajador más joven tiene 23 años, mientras que el más adulto tiene 53 años.Además la mediana es de 36 años, esto quiere decir que la mitad de los trabajadores tienen más de esta edad, y la otra mitad tiene menos de esta edad.

Gender: De los 373 personas estrevistadas, 179 son mujeres, lo que equivale al (\(48.0\%\)) de la muestra, mientras que 194 son hombres, representando al \(52.0\%\) de la muestra.

Education level: De las personas entrevistadas, 224 son bachilleres, es decir, el \(60.1\%\); 98 personas poseen una maestría, representando el \(23,3\%\); mientras que tan solo 51 personas poseen un doctorado, es decir, un \(13,7\%\). Se puede concluir que la mayoría de las personas censadas, alcanzaron tan solo un nivel educativo de bachillerato.

Job Title: De las personas entrevistadas, 12 son directores de marketing, 11 son directores de operaciones, 8 son analistas junior de negocios,7 son analistas junior de desarrollo, 10 son analistas senior de negocios, 7 son científicos de datos Senior, etc.

Years of experience: Se puede observar que los años de experiencia van de 0 a 9. En este caso, 31 personas (\(8,3\%\) de los entrevistados) tienen tan solo 2 años de experiencia, mientras que los más experimentados en el ámbito laboral son el \(5,9\%\) de la muestra, es decir, 22 personas.

Salary: El salario promedio anual es de 101.000 USD, mientras que la persona que menos ingresos por salario recibe en el año es por un monto de 300, y la que más recibe es de 250.000 USD

DIAGRAMA DE CORRELACIÓN DE EDAD Y SALARIO

Se puede observar que la variable de edad y salario están correlacionadas positivamente, esto quiere decir que, a medida que aumenta la edad de las personas, su salario también tiende a aumentar. En este caso, la correlación es del \(92,23\%\)

## `geom_smooth()` using formula = 'y ~ x'

## [1] 0.9223352

Se puede observar que las variables de años de experiencia y salario están correlacionadas de forma positiva, lo que significa que a medida que aumenten los años de experiencia, el salario también incrementará.

Diagrama de barras de trabajadores por género

Podemos observar que hay más cantidad de hombres censados en esta muestra, en este caso de 194, mientras que mujeres hay solo 179.

Diagrama de barras sobre el nivel educativo en la población femenina

Se puede observar que la mayoría de mujeres solo lograron culminar sus estudios hasta bachillerato, en este caso, alrededor de 100 de ellas. Por otro lado, 50 mujeres lograron obtener el título de maestras, y tan solo 26 aproximadamente de ellas, son doctoras en alguna disciplina.

Diagrama de barras sobre el nivel educativo en la población masculina

Se puede observar que la mayoría de hombres solo lograron culminar sus estudios hasta bachillerato, en este caso, alrededor de 124 de ellos. Por otro lado, menos de 50 hombres lograron obtener el título de maestros, y tan solo 25 aproximadamente de ellos, son doctores en alguna disciplina.

Histograma de la variable salario

## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Se puede observar que la mayoría de los trabajadores gana entre 100.000 y 150.000 USD.

Por otro lado, un porcentaje muy mínimo de trabajadores gana más de 250.000 USD.

Diagrama de Caja de Género vs Edad

En este diagrama de cajas de la edad, podemos observar que la mediana de la edad en mujeres es de aproximadamente 38, mientras que la mayoría de ellas tienen una edad que está entre los 31 y 43, la mujer más joven de la muestra tiene aproximadamente 23 años, y la más experimentada 53 años. Por otro lado, en el caso de los hombres, la mediana es de 36 años, mientras que el 50% de ellos tiene entre 32 y 48 años (aproximadamente). El hombre más joven tiene 24 años y el más viejo 54 años. Las edades medias en la población femenina y masculina son similares, y no se presenta gran variabilidad entre las edades de ambos grupos, es decir, el tamaño de las cajas es bastante similar.

Diagrama de cajas de género vs salario

Se puede observar que la mediana en el salario de los hombres está ubicado en los 100.000 USD, lo que significa que la mitad de hombres gana más de esa cantidad al año. En el caso de las mujeres, la mediana está en aproximadamente 80.000 USD, esto quiere decir que la mitad de las mujeres ganan más de este valor al año. Por otro lado se puede observar entre las dos poblaciones, la persona que más dinero al año gana pertenece al género masculino, y también quien menos gana, en este caso 350 USD.

INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS

En nuestra base de datos contamos con Dos variables cuantitativas, en este caso, años de experiencia y salario, ademas de una variable cualitativa, la cual hace referencia al genero, esta tiene dos opciones (masculino, femenino)

Variable Salario

## 
##  One Sample t-test
## 
## data:  data$salary
## t = 40.267, df = 372, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   95665.82 105488.87
## sample estimates:
## mean of x 
##  100577.3
## [1] 48240.01

La media para la variable del salario es 100577.3, la desviación estandar del mismo es 48240.01. Además, con una confiabilidad del \(95\%\) se puede afirmar que el promedio del salario se encuentra entre (95665.82 , 105488.87).

Variable Años de Experiencia

## 
##  One Sample t-test
## 
## data:  data$experience
## t = 29.545, df = 372, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   9.363234 10.698428
## sample estimates:
## mean of x 
##  10.03083
## [1] 6.557007

La variable de los años de experiencia tiene una desviación estandar igual a 6.557007. Ademas, se puede afirmar con una confiabilidad del \(95\%\) que el promedio de años de experiencia de la población se encuentra entre (9.363234 , 10.698428). En este caso, el promedio de años de experiencia es de 10.03

PRUEBA DE HIPÓTESIS

Prueba de Hipótesis para el Salario

Se quiere comprobar que el promedio del salario es mayor a 110.000 con una confiabilidad del \(99\%\)

## 
##  One Sample t-test
## 
## data:  data$salary
## t = -3.7724, df = 372, p-value = 0.9999
## alternative hypothesis: true mean is greater than 110000
## 99 percent confidence interval:
##  94741.51      Inf
## sample estimates:
## mean of x 
##  100577.3

Se puede afirmar con un \(99\%\) de confiabilidad que la media del salario de la población es menor o igual a 110.000. En este caso, como el p-value fue mayor que el alpha, no se rechaza \(H_o\)

Prueba de Hipótesis para los Años de Experiencia

Se estima que el promedio de los años de experiencia es mayor o igual a 8 años.

## 
##  One Sample t-test
## 
## data:  data$experience
## t = 5.9817, df = 372, p-value = 1
## alternative hypothesis: true mean is less than 8
## 99 percent confidence interval:
##      -Inf 10.82406
## sample estimates:
## mean of x 
##  10.03083

Con la prueba de hipótesis se puede afirmar con un \(99\%\) de confiabilidad que la media de los años de experiencia de la población es mayor o igual a 8, es decir en promedio las personas han trabajado entre 8 o mas años. Esto debido a que el valor p fue mayor al nivel de significancia, por lo tanto se aceptó \(H_o\)

Prueba de Hipótesis para la proporción de las mujeres

En el equipo se considera que la proporcion de mujeres es menor al \(60\%\)

## 
##  1-sample proportions test with continuity correction
## 
## data:  179 out of 373, null probability 0.6
## X-squared = 21.922, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.6
## 99 percent confidence interval:
##  0.4191186 1.0000000
## sample estimates:
##         p 
## 0.4798928

Se puede considerar que la proporción de las mujeres es menor o igual al \(60\%\), es decir se acepta el \(H_o\). En este caso \(H_o\):\(P\) <= 0,6. \(H_a\): \(P\) > 0,6. Ya que p-value (1) fue mayor que el alpha, no rechazo el \(H_o\).

Prueba de Hipótesis para la proporción de las hombres

En el análisis se considera que la proporcion de hombres es mayor o igual a 0.7

## 
##  1-sample proportions test with continuity correction
## 
## data:  194 out of 373, null probability 0.7
## X-squared = 56.627, df = 1, p-value = 2.635e-14
## alternative hypothesis: true p is less than 0.7
## 99 percent confidence interval:
##  0.0000000 0.5808814
## sample estimates:
##         p 
## 0.5201072

Con una confiabilidad del \(99\%\) se puede confirmar que la proporción de hombres es menor del \(70\%\), es decir se rechaza \(H_o\). Dado que el p-value es menor que el alpha, rechazo \(H_o\), por tanto se afirma que la proporción de hombres es menor al \(70\%\)

Promedio de Salario por Genero

## # A tibble: 2 × 2
##   gender prom_sal
##   <chr>     <dbl>
## 1 Female   97011.
## 2 Male    103868.

El salario promedio de las mujeres es de 97.011,17, mientras que el salario promedio de los hombres es de 103.867,78

Promedio de Años de Experiencia por Genero

El promedio de años de experiencia de los hombres es de 10.04897, mientras que el promedio de las mujeres es de 10.01117.

Diferencia de Medias en Años de Experiencia

Se considera que el promedio de años de experiencia entre hombres y mujeres es igual.

## 
##  Welch Two Sample t-test
## 
## data:  ageF and ageM
## t = -0.055688, df = 370.91, p-value = 0.9556
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
##  -1.795075  1.719484
## sample estimates:
## mean of x mean of y 
##  10.01117  10.04897

Como p-value es mayor que el nivel de significancia, que en este caso es de 0.01, no se rechaza Ho. Es decir, que el promedio de los años de experiencia entre los hombres y las mujeres es igual y Esto se puede afirmar con una confiabilidad del \(99\%\)

Diferencia de Medias entre los salarios de las mujeres y los hombres

Se considera que el promedio del salario de los hombres es superior al de las mujeres por al menos 5.000

## 
##  Welch Two Sample t-test
## 
## data:  salM and salF
## t = 0.37312, df = 370.98, p-value = 0.3546
## alternative hypothesis: true difference in means is greater than 5000
## 99 percent confidence interval:
##  -4769.151       Inf
## sample estimates:
## mean of x mean of y 
## 103867.78  97011.17

El promedio del salario de los hombres no es superior al de las mujeres en al menos 5.000, es decir, que la diferencia entre los salarios es menor o igual a 5.000. Esto debido a que el valor p es mayor que el nivel de significancia, por tanto se acepta \(H_o\).

Diferencia de Proporciones

Se quiere conocer si la proporción de hombres es igual a la de las mujeres

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(x1, x2) out of c(n1, n2)
## X-squared = 1.0509, df = 1, p-value = 0.3053
## alternative hypothesis: two.sided
## 99 percent confidence interval:
##  -0.05669801  0.13712697
## sample estimates:
##    prop 1    prop 2 
## 0.5201072 0.4798928

En este caso, se puede afirmar con una confiabilidad del \(99\%\), que la proporción de hombres y mujeres es igual.Esto debido a que el valor p fue mayor al nivel de significancia, dando como resultado la aceptación de la hipótesis nula, la cual afirmaba que las proporciones eran iguales.

REGRESIÓN LINEAL SIMPLE

## 
## Call:
## lm(formula = salary ~ experience, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -69589  -7188   1189   9634  78567 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  31921.2     1677.8   19.02   <2e-16 ***
## experience    6844.5      140.1   48.87   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17710 on 371 degrees of freedom
## Multiple R-squared:  0.8655, Adjusted R-squared:  0.8652 
## F-statistic:  2388 on 1 and 371 DF,  p-value: < 2.2e-16

Ecuación:
\[ Salary = 31921,2 + 6844,5 experience \]

A medida que aumentan los años de experiencia, el salario se aumenta. Si se posee 0 años de experiencia, el salario sera 31,921.2

\(Intercepto\)= 31921,2 (\(\beta_o\)) \(Pendiente\) = 6844,5 (\(\beta_1\))

Prueba de Hipotesis Bo

\[H_0 : \beta_o = 0\] \[H_a : \beta_o ≠ 0\] Lo que me dice si funciona o no funciona es el r^2 del modelo, es decir el “Multiple R-squared”, si es mayor a 0.5 del modelo es significativo. Es decir la variabilidad del salario esta siendo explicado con el 0.86 de la variabilidad de los años de experiencia.

Si el valor \(Pr(>|t|)\) < α, entonces rechazo \(H_o\)

REGRESIÓN LINEAL MULTIPLE

## 
## Call:
## lm(formula = salary ~ experience + age, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -64540  -7436    678   9304  78062 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -18700.4    17060.3  -1.096  0.27373    
## experience    4853.8      681.9   7.118 5.74e-12 ***
## age           1885.8      632.5   2.981  0.00306 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17530 on 370 degrees of freedom
## Multiple R-squared:  0.8687, Adjusted R-squared:  0.868 
## F-statistic:  1224 on 2 and 370 DF,  p-value: < 2.2e-16

\[Salary = -18700,4 + 4853,8 experience + 1885,8age\]

SUPUESTOS

Para realizar una regresión lineal, deben cumplirse los siguientes cuatro supuestos: linealidad, normalidad, homocedasticidad, e independencia. A continuación, se verifica cada uno de estos supuestos.

Linealidad

La relación entre \("salary"\) y \("experience"\) debe ser lineal. Se verifica si la media de los residuos es aproximadamente \(0\)

## [1] 3.062025e-12

En este caso, se cumple la linealidad, dado que la media de los residuos es prácticamente \(0\)

Normalidad

Para cumplir con el supuesto de normalidad de los errores, utilizamos el test de Shapiro-Wilk para los residuos y representamos los resultados gráficamente

\[H_o : Normalidad\] \[H_a : No.normal\]

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.94527, p-value = 1.636e-10

Rechazamos \(H_o\), lo que indica que los residuos no son normales. El \(p-value\) es menor que el nivel de significancia \(1.636e-10 < 0.05\)

Gráficamente

## [1] 106 117

Homocedasticidad

Este supuesto indica que la varianza de los residuos es constante a lo largo de los de \(experience\). Se utiliza el test de Breush-Pagan para evaluarlo

\[H_o : homogeneidad \] \[H_a : No.homogeneidad\]

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 31.117, df = 1, p-value = 2.429e-08

Como el p-value \(2.429e-08\) es menor que el valor de significancia \(0,05\). Esto indica que las varianzas no son constantes, es decir, las variazas son distintas. En decir, se rechaza \(H_o\)

Independencia

Se verifica la independencia de los residuos utilizando el test de Durbin-Watson para detectar autocorrelación.

\[H_o : Independiente\] \[H_a : Dependiente\]

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.862, p-value = 0.1896
## alternative hypothesis: true autocorrelation is not 0

Como el p-value (0.1896) es superior al valor de significancia \(0.5\) No se rechaza \(H_o\). Esto indica que la autocorrelación es cercana a cero y, por lo tanto, los residuos son independientes.

CONCLUSIÓN

El análisis realizado con los datos obtenidos permite observar y comprender varios patrones y relaciones significativas entre las variables. El salario está positivamente correlacionado tanto con la edad como con los años de experiencia, lo cual sugiere que estos factores contribuyen al incremento de ingresos. La mayoría de los empleados tiene niveles educativos de bachillerato, y se identifica una ligera predominancia masculina en la muestra, aunque las diferencias en la proporción de género no son estadísticamente significativas.

Al analizar las diferencias salariales, se observa que los hombres en promedio ganan más que las mujeres; sin embargo, esta diferencia no es tan pronunciada como para ser significativa a un nivel de confianza alto. Además, los análisis de regresión lineal y pruebas de hipótesis confirman que la variabilidad del salario es explicada en un 86% por la experiencia, sugiriendo que este es un factor determinante en la estructura salarial de la empresa.

Finalmente, el cumplimiento de los supuestos de la regresión indica que, aunque se mantiene la independencia y linealidad, existen indicios de heterocedasticidad y no normalidad en los residuos, lo cual podría influir en la precisión del modelo. Estos hallazgos ofrecen una base sólida para comprender la dinámica salarial y plantear estrategias de compensación equitativas en la organización.