1 Introducción

Contexto: La deserción laboral representa un problema enorme para las organizaciones actuales, es por eso que mediante el presente informe con información de dataset IBM HR Analytics se identificaran patrones demográficos y laborales que influyen en la decisión de los empleados de abandonar la empresa, utilizando la estadistica como herramienta teorica.

Objetivo General: Analizar los factores que inciden en la deserción laboral mediante técnicas de probabilidad e inferencia estadística.


2 Tareas

2.1 Tarea 1 — Exploración inicial

a) Reporte de dimesiones

## Rows: 1,470
## Columns: 35
## $ Age                      <dbl> 41, 49, 37, 33, 27, 32, 59, 30, 38, 36, 35, 2…
## $ Attrition                <chr> "Yes", "No", "Yes", "No", "No", "No", "No", "…
## $ BusinessTravel           <chr> "Travel_Rarely", "Travel_Frequently", "Travel…
## $ DailyRate                <dbl> 1102, 279, 1373, 1392, 591, 1005, 1324, 1358,…
## $ Department               <chr> "Sales", "Research & Development", "Research …
## $ DistanceFromHome         <dbl> 1, 8, 2, 3, 2, 2, 3, 24, 23, 27, 16, 15, 26, …
## $ Education                <dbl> 2, 1, 2, 4, 1, 2, 3, 1, 3, 3, 3, 2, 1, 2, 3, …
## $ EducationField           <chr> "Life Sciences", "Life Sciences", "Other", "L…
## $ EmployeeCount            <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ EmployeeNumber           <dbl> 1, 2, 4, 5, 7, 8, 10, 11, 12, 13, 14, 15, 16,…
## $ EnvironmentSatisfaction  <dbl> 2, 3, 4, 4, 1, 4, 3, 4, 4, 3, 1, 4, 1, 2, 3, …
## $ Gender                   <chr> "Female", "Male", "Male", "Female", "Male", "…
## $ HourlyRate               <dbl> 94, 61, 92, 56, 40, 79, 81, 67, 44, 94, 84, 4…
## $ JobInvolvement           <dbl> 3, 2, 2, 3, 3, 3, 4, 3, 2, 3, 4, 2, 3, 3, 2, …
## $ JobLevel                 <dbl> 2, 2, 1, 1, 1, 1, 1, 1, 3, 2, 1, 2, 1, 1, 1, …
## $ JobRole                  <chr> "Sales Executive", "Research Scientist", "Lab…
## $ JobSatisfaction          <dbl> 4, 2, 3, 3, 2, 4, 1, 3, 3, 3, 2, 3, 3, 4, 3, …
## $ MaritalStatus            <chr> "Single", "Married", "Single", "Married", "Ma…
## $ MonthlyIncome            <dbl> 5993, 5130, 2090, 2909, 3468, 3068, 2670, 269…
## $ MonthlyRate              <dbl> 19479, 24907, 2396, 23159, 16632, 11864, 9964…
## $ NumCompaniesWorked       <dbl> 8, 1, 6, 1, 9, 0, 4, 1, 0, 6, 0, 0, 1, 0, 5, …
## $ Over18                   <chr> "Y", "Y", "Y", "Y", "Y", "Y", "Y", "Y", "Y", …
## $ OverTime                 <chr> "Yes", "No", "Yes", "Yes", "No", "No", "Yes",…
## $ PercentSalaryHike        <dbl> 11, 23, 15, 11, 12, 13, 20, 22, 21, 13, 13, 1…
## $ PerformanceRating        <dbl> 3, 4, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 3, 3, 3, …
## $ RelationshipSatisfaction <dbl> 1, 4, 2, 3, 4, 3, 1, 2, 2, 2, 3, 4, 4, 3, 2, …
## $ StandardHours            <dbl> 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 8…
## $ StockOptionLevel         <dbl> 0, 1, 0, 0, 1, 0, 3, 1, 0, 2, 1, 0, 1, 1, 0, …
## $ TotalWorkingYears        <dbl> 8, 10, 7, 8, 6, 8, 12, 1, 10, 17, 6, 10, 5, 3…
## $ TrainingTimesLastYear    <dbl> 0, 3, 3, 3, 3, 2, 3, 2, 2, 3, 5, 3, 1, 2, 4, …
## $ WorkLifeBalance          <dbl> 1, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, 3, …
## $ YearsAtCompany           <dbl> 6, 10, 0, 8, 2, 7, 1, 1, 9, 7, 5, 9, 5, 2, 4,…
## $ YearsInCurrentRole       <dbl> 4, 7, 0, 7, 2, 7, 0, 0, 7, 7, 4, 5, 2, 2, 2, …
## $ YearsSinceLastPromotion  <dbl> 0, 1, 0, 3, 2, 3, 0, 0, 1, 7, 0, 0, 4, 1, 0, …
## $ YearsWithCurrManager     <dbl> 5, 7, 0, 0, 2, 6, 0, 0, 8, 7, 3, 8, 3, 2, 3, …
## El dataset contiene 1470 filas y 35 columnas.
## 
## character   numeric 
##         9        26

Dimensiones: El dataset contiene, 35 variables con un total de 1470 registros los cuales se distribuye en 9 variables character de las cuales 8 se transforman en factor como buena practica, las restantes 26 son valores númericos.

b) Frecuencias absolutas y relativas de Attrition.
Tabla 1: Distribución de Frecuencias de Attrition)
N° de Colaboradores Proporción Participación (%)
No 1233 0.8387755 83.88%
Yes 237 0.1612245 16.12%

c) Frecuencias absolutas y relativas de Attrition. RTA // La distribución de la variable Attrition se encuentra fuertemente desbalanceada. Como se evidencia en los resultados anteriores, el 83.88% de los empleados permanecen en la compañía, mientras que solo el 16.12% corresponden a casos de deserción.

Para un proyecto de clasificación, este desbalanceo representa un desafío crítico ya que un un modelo básico podría alcanzar una alta precisión (accuracy) simplemente prediciendo siempre la clase mayoritaria (“No”), ignorando la clase de interés (“Yes”).

2.2 Tarea 2 —Tabla de contingencia y probabilidades: Attrition vs. OverTime

a) Tabla de contingencia entre OverTime VS Attrition

Tabla 2: Contingencia entre Horas Extra y Deserción
Estado de Attrition
Condición ATT = No ATT = Yes Total
No realiza horas extra 944 110 1054
Realiza horas extra 289 127 416
Total 1233 237 1470

b) Tabla de tabla de probabilidades conjuntas

Tabla 3: Probabilidades Conjuntas y Marginales (Distribución Relativa)
Estado ATT = No ATT = Yes Marginal Fila
OT = No 0.6422 0.0748 0.717
OT = Yes 0.1966 0.0864 0.283
Marginal col.  0.8388 0.1612 1.000
  • El 71.7% de los empleados no realiza horas extra, mientras que el 28.3% sí las realiza.
  • El 83.88% de los empleados permanece en la organización, mientras que el 16.12% deserta.

c) probabilidades marginales

Probabilidad de deserción según las horas extra
Tabla 4: Probabilidades condicionales por fila
Estado ATT = No ATT = Yes Total fila
OT = No 0.8956 0.1044 1
OT = Yes 0.6947 0.3053 1

Para empleados que no realizan horas extra:

  • Probabilidad de permanecer: 89.56%

  • Probabilidad de desertar: 10.44%

Para empleados que sí realizan horas extra:

  • Probabilidad de permanecer: 69.47%

  • Probabilidad de desertar: 30.53%

Conclusión La probabilidad de deserción es considerablemente mayor entre los empleados que realizan horas extra.

Proporción de empleados con horas extra dentro de cada grupo de deserción
Tabla 5: Probabilidades condicionales por columna
Estado ATT = No ATT = Yes
OT = No 0.7656 0.4641
OT = Yes 0.2344 0.5359
Totales 1.0000 1.0000

Para empleados que no desertan:

  • 76.56% no realiza horas extra

  • 23.44% sí realiza horas extra

Para empleados que sí desertan:

  • 46.41% no realiza horas extra

  • 53.59% sí realiza horas extra

Conclusión Más de la mitad de los empleados que desertan realizan horas extra.

d) Calcule las probabilidades condicionales P(Att=Yes dado OT=Yes) y P(Att=Yes dado OT=No) usando la definición. Compárelas con P(Att=Yes) y concluya: ¿las horas extra influyen en la deserción?

  • P(ATT = Yes) El 16.12% deserta.
  • P(ATT = Yes dado OT = No) El 10.44% deserta dado que no hace horas extra.
  • P(ATT = Yes dado OT = Yes) El 30.53%% deserta dado que sí hace horas extra.

Esto indica que las horas extra influyen significativamente en la deserción laboral, ya que la probabilidad de que un colaborador deserte al hacer horas extras es considerablemente mayor, esta deducido gracias a la información de la tabla 4.

e) Evalúe si Attrition y OverTime son independientes verificando si P(A ∩ B) = P(A) · P(B) para alguna combinación.

Se debe tomar un caso puntual para cada conjunto A y B:

  • A: ATT = Yes
  • B: OT = Yes

P(A∩B)=0,0864 <- Esto según la Tabla 3.

Tomando la misma Tabla 3 se observa: P(A) = 0,1612 <- Según nuestra probabilidad marginal de ATT = Yes en la tabla 3. P(B) = 0,283 <- Según nuestra probabilidad marginal de OT = Yes en la tabla 3.

P(A)⋅P(B) 0.1612 × 0.283 = 0.0456

0.0864 != 0.0456

Conclusión Dado que estas variables no cumplen la condición de P(A ∩ B) = P(A) · P(B) se consideran variables dependientes, demostrando así que entre las horas extras y la deserción existe una relación.

2.3 Tarea 3 —Segunda tabla: Department vs. Attrition

a) Construya la tabla de contingencia entre Department y Attrition con frecuencias absolutas y marginales.

Tabla 6: Contingencia entre Department y Attrition (Frecuencias absolutas)
Estado de Attrition
Department ATT = No ATT = Yes Total
Human Resources 51 12 63
Research & Development 828 133 961
Sales 354 92 446
Sum 1233 237 1470

b) Tablas de probabilidades conjuntas, marginales y condicionales

Tabla 7: Probabilidades Conjuntas y Marginales por departamento (Distribución Relativa)
Departamento ATT = No ATT = Yes Marginal Fila
Human Resources 0.0347 0.0082 0.0429
Research & Development 0.5633 0.0905 0.6537
Sales 0.2408 0.0626 0.3034
Sum 0.8388 0.1612 1.0000
Probabilidad de deserción según departamento
Tabla 8: Probabilidades condicionales por deaprtamento
Departamento No Yes Total fila
Human Resources 0.8095 0.1905 1
Research & Development 0.8616 0.1384 1
Sales 0.7937 0.2063 1

Para empleados de Human Resources:

  • Probabilidad de desertar: 19,05%

Para empleados de Research & Development:

  • Probabilidad de desertar: 13,84%

Para empleados de Sales:

  • Probabilidad de desertar: 20,63%
Proporción de empleados por departamento dentro de cada grupo de deserción
Tabla 9: Probabilidades condicionales por Deserción
Departamento ATT = No ATT = Yes
Human Resources 0.0414 0.0506
Research & Development 0.6715 0.5612
Sales 0.2871 0.3882
Totales 1.0000 1.0000

Para empleados que desertan:

  • 5,06% es de Human Resources

  • 56,12% es de Research & Development

  • 38,82% es de Sales

c) ¿En cuál departamento es más probable la deserción?

RTA//: En Sales ya que en este se tienen un (20,63%) de probabilidad desertar.

2.4 Tarea 4 — Probabilidad total con Department

a) Complete la tabla y aplique la regla de probabilidad total:
Tabla 10: Regla de probabilidad total
Departamento P(Bi) P(A dado Bi) P(A dado Bi) * P(Bi)
Human Resources 0.0429 0.1905 0.0082
Research & Development 0.6537 0.1384 0.0905
Sales 0.3034 0.2063 0.0626
Total 1.0000 NA 0.1612

b) Verifique que P P(A dado Bi) P(Bi) = 237/1470. Explique por qué esto siempre debe cumplirse.

RTA// La probabilidad total de deserción en la empresa es 16,12%, ya que 237/1470=0.1612. Este valor coincide con la suma de las probabilidades P(A∣B_i)P(B_i)para cada departamento, como se observa en la tabla 7. Esto verifica la Regla de Probabilidad Totla

2.5 Tarea 5 — Probabilidad total con otra partición

a) Use JobSatisfaction (niveles 1 a 4) como partición y calcule P(Att=Yes) con laregla de probabilidad total. Presente una tabla análoga.

Tabla 10: Regla de probabilidad total usando JobSatisfaction como partición
Nivel de satisfacción laboral P(Bi) P(Att = Yes dado Bi) P(Att = Yes dado Bi) * P(Bi)
1 0.1966 0.2284 0.0449
2 0.1905 0.1643 0.0313
3 0.3007 0.1652 0.0497
4 0.3122 0.1133 0.0354
Total 1.0000 NA 0.1612

b) ¿Se obtiene el mismo resultado global que en la Tarea 4? Explique por qué es una consecuencia directa de la definición de partición. RTA//: Sí, se obtiene el mismo resultado global. Esto ocurre porque la proporción de empleados que desertan respecto al total de empleados es la misma que en la Tarea 4, es decir 237/1470=0.1612. La diferencia radica en cómo se construyen las particiones del espacio muestral: en un caso se utilizan los departamentos y en el otro los niveles de satisfacción. Sin embargo, en ambos casos los grupos conforman una partición, es decir, son mutuamente excluyentes.

2.6 Tarea 6 — Bayes: ¿de qué departamento proviene quien desertó?

a) Calcule P(Bi | A) para cada departamento y complete:

Tabla 11: Probabilidades a priori, condicionales y a posteriori por departamento
Bi P(Bi) P(A dado Bi) P(A dado Bi) P(Bi) P(Bi dado A)
Human Resources 0.0429 0.1905 0.0082 0.0506
Research & Development 0.6537 0.1384 0.0905 0.5612
Sales 0.3034 0.2063 0.0626 0.3882
Total 1.0000 NA 0.1612 1.0000

b) ¿Cuál departamento tiene la mayor probabilidad a posteriori? ¿Es el mismo con la mayor tasa de deserción? Explique la diferencia entre P(A | Bi) y P(Bi | A).

RTA//: El departamento con mayor probabilidad a posteriori es R&D, con P(R&D|A) = 0.5612. No coincide con el departamento de mayor tasa de deserción, el cual es Sales esto como lo muestra la tabla 10, la cual para la deserción de este departamento registra 20,63% mientras que Research & Development reporta 13,84%.La diferencia se debe a que P(A|Bi) mide la probabilidad de deserción dentro de cada departamento, mientras que P(Bi|A) indica la probabilidad de que un empleado pertenezca a cierto departamento dado que desertó.

c) Verifique contando directamente del subconjunto Attrition == “Yes”.
Tabla 12: Verificación de probabilidades a posteriori (Attrition = Yes)
Departamento Frecuencia P(Bi dado A)
Human Resources 12 0.0506
Research & Development 133 0.5612
Sales 92 0.3882
Total 237 1.0000

RTA//: Al filtrar directamente el subconjunto de empleados con Attrition = Yes, se observa que 12 pertenecen a HR, 133 a R&D y 92 a Sales, para un total de 237 empleados. Por tanto, las probabilidades a posteriori son 12/237 = 0.0506, 133/237 =0.5612 y 92/237 = 0.3882. Estos valores coinciden con los obtenidos mediante la fórmula de Bayes y adicionalmente son los valores contenidos en la tablas 9 y 11 donde ya se realizo dicho ejercicio.

2.7 Tarea 7 — Bayes aplicado a un clasificador de ML

  • Sensibilidad: P(Predice Yes | Att=Yes) = 0.80
  • Tasa de falsos positivos: P(Predice Yes | Att=No) = 0.10
  • Tasa base: P(Att=Yes) = 0.1612

a) Calcule el valor predictivo positivo P(Att=Yes | Predice Yes) con Bayes.

El valor predictivo positivo se calcula utilizando el Teorema de Bayes:

\[ P(\text{Att=Yes} \mid \text{Predice Yes}) = \frac{P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes})} {P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes}) + P(\text{Predice Yes} \mid \text{Att=No}) \cdot P(\text{Att=No})} \]

El valor obtenido es:

## [1] 0.6059

Por lo tanto:

\[ P(\text{Att=Yes} \mid \text{Predice Yes}) \approx 0.6059 \]

RTA// El valor predictivo positivo del modelo es aproximadamente 0.6059 (60.59%), lo que indica que, cuando el modelo predice deserción, la probabilidad de que el empleado realmente deserte es del 60.59%.

b) Si el modelo predice deserción, ¿qué tan confiable es? Interprete.

RTA//: Si el modelo predice deserción, la probabilidad de que el empleado realmente deserte es aproximadamente 60.59%. Esto indica que el modelo tiene una confiabilidad moderada, ya que aunque identifica correctamente una buena proporción de casos positivos, aún presenta un porcentaje importante de falsos positivos. Por lo tanto, la predicción del modelo debe interpretarse como una probabilidad y no como una certeza, siendo útil como herramienta de apoyo para la toma de decisiones, pero no como un criterio definitivo.

c) Recalcule suponiendo una tasa base del 50 %. Compare y reflexione sobre la falacia de la tasa base.

Ahora se supone una tasa base de deserción del 50 %, es decir:

\[ P(\text{Att=Yes}) = 0.50 \qquad \text{y} \qquad P(\text{Att=No}) = 0.50 \]

Aplicando nuevamente el Teorema de Bayes:

\[ P(\text{Att=Yes} \mid \text{Predice Yes}) = \frac{P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes})} {P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes}) + P(\text{Predice Yes} \mid \text{Att=No}) \cdot P(\text{Att=No})} \]

## [1] 0.8888889

El valor obtenido es:

## [1] 0.8889

Esto equivale a:

## [1] 88.89

%.

Para comparar ambos escenarios:

Tabla 13 Comparación del valor predictivo positivo según la tasa base
Escenario Valor predictivo positivo
Tasa base real (16.12%) 0.6059
Tasa base hipotética (50%) 0.8889

RTA//: Al suponer una tasa base del 50 %, el valor predictivo positivo aumenta a aproximadamente (88.89 %). Esto muestra que la confiabilidad de una predicción positiva no depende únicamente de la sensibilidad y de la tasa de falsos positivos, sino también de la frecuencia real del evento en la población. Esta situación ilustra la falacia de la tasa base, que consiste en ignorar la probabilidad previa del evento y evaluar la predicción solo a partir del desempeño aparente del modelo. En consecuencia, aunque el modelo conserve los mismos indicadores, una mayor tasa base hace que una predicción positiva sea mucho más confiable.

2.8 Tarea 8 — Verificación empírica del TLC

La variable MonthlyIncome es sesgada a la derecha. Realice:

a) Calcule la media (μ) y desviación estándar (σ) de MonthlyIncome. Grafique su histograma y comente la forma.

La variable presenta una media poblacional de \(\mu = 6502.93\) y una desviación estándar de \(\sigma = 4707.96\).

RTA//: Presenta una distribución asimétrica positiva (sesgada a la derecha). Esto indica la presencia de algunos empleados con ingresos significativamente superiores al promedio. Esta forma no es normal.

b) Para cada n ∈ {5, 10, 30, 50, 100, 200}, extraiga B = 10 000 muestras con reemplazo de tamaño n, calcule la media de cada una, y grafique el histograma superponiendo la curva N(μ, σ2/n). Presente los 6 gráficos en una grilla 2 × 3.

RTA//: Al comparar los histogramas de las medias muestrales con la curva normal teórica \(N(\mu, \sigma^2/n)\), se observa que, a medida que aumenta el tamaño de muestra \(n\), la distribución de \(\bar{X}\) se aproxima cada vez más a una distribución normal. Para tamaños pequeños como \(n=5\) y \(n=10\), aún puede notarse cierta asimetría; sin embargo, a partir de tamaños mayores como \(n=30\), \(50\), \(100\) y \(200\), la forma se vuelve más simétrica y concentrada alrededor de \(\mu\), en concordancia con el Teorema del Límite Central.

c) Complete la tabla comparativa:

Tabla 14 Comparación entre desviación teórica y observada de la media muestral
n σ / sqrt(n) (teórico) Desv. est. observada
5 2105.46 2092.04
30 859.55 856.64
100 470.80 469.02
200 332.90 331.67

d) ¿A partir de qué n la distribución de ¯X luce razonablemente normal?

RTA//: De manera empírica, en este ejercicio la distribución de \(\bar{X}\) luce razonablemente normal desde𝑛 = 30, aunque la aproximación mejora claramente para tamaños mayores.

2.9 Tarea 9 — TLC: aplicaciones numéricas

a )Repita la simulación con DistanceFromHome. ¿La convergencia a la normalidad es más rápida o más lenta? Justifique comparando la asimetría de ambas variables.

Tabla 15 Comparación de media, desviación estándar y asimetría
Variable Media Desv. Est. Asimetria
MonthlyIncome 6502.93 4707.96 1.37
DistanceFromHome 9.19 8.11 0.96

RTA//: La variable MonthlyIncome presenta una mayor asimetría positiva en comparación con DistanceFromHome, lo cual se evidencia tanto en el coeficiente de asimetría como en la forma de su histograma, por otro lado, DistanceFromHome presenta una distribución más cercana a la simetría por lo que en consecuencia, la convergencia a la normalidad de la media muestral es más rápida para DistanceFromHome.

b) Si n = 50, ¿cuál es P(6000 ≤ \(\bar{X}\) ≤ 7000) para MonthlyIncome? Use la aproximación normal.

## [1] 0.5473249

El valor obtenido es:

## [1] 0.5473

Por tanto:

\[ P(6000 \le \bar{X} \le 7000) \approx 0.5473 \]

RTA//: Aplicando el Teorema del Límite Central, la media muestral \(\bar{X}\) para muestras de tamaño \(n=50\) se distribuye aproximadamente como:

\[ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{50}\right) \]

Por ello, la probabilidad de que la media muestral se encuentre entre 6000 y 7000 se calcula mediante la distribución normal, obteniendo un valor aproximado de 0.5473.

2.10 Tarea 10 — Estimaciones puntuales

a) Calcule y complete:

Tabla 16 Estimación de parámetros poblacionales
Parámetro Estimador Valor
Media de MonthlyIncome (μ) \(\bar{X}\) 6502.93
Desviación estándar (σ) \(S\) 4707.96
Mediana de MonthlyIncome \(\tilde{X}\) 4919.00
Proporción de deserción (p) \(\hat{p}\) 0.16
μ_No − μ_Yes (ingreso) \(\bar{X}_1 - \bar{X}_2\) 2045.65

b) Compare media y mediana de MonthlyIncome. ¿Qué dice la diferencia sobre la distribución? ¿Cuál es más robusta?

RTA//: La media de MonthlyIncome es 6502.93, mientras que la mediana es 4919. La media es considerablemente mayor que la mediana, lo que indica que la distribución presenta asimetría positiva (sesgo a la derecha). Esto ocurre porque existen valores altos (ingresos elevados) que desplazan la media hacia arriba.

En cuanto a robustez, la mediana es más robusta que la media, ya que no se ve afectada por valores extremos o atípicos. Por el contrario, la media es sensible a estos valores, lo que explica la diferencia observada entre ambas medidas.

c) Calcule el error estándar de \[ SE_{\hat{p}} = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}\].

El valor obtenido es:

## [1] 0.0096

\[ SE_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

RTA// El error estándar de la proporción estimada es aproximadamente 0.0096, lo que indica la variabilidad de \(\hat{p}\) como estimador de la proporción poblacional. Dado que este valor es pequeño, la estimación de la proporción de deserción es relativamente precisa.

d) Calcule la media y varianza de YearsAtCompany por departamento. Presente en una tabla.
Tabla 17 Media y varianza de YearsAtCompany por departamento
Departamento Media Varianza
Human Resources 7.24 47.47
Research & Development 6.86 36.29
Sales 7.28 38.87

2.11 Tarea 11 — IC para la media del ingreso

a) Calcule a mano el IC al 95 % para μ(MonthlyIncome): identifique \(\bar{X}\) , S, n, SE, y use z0.025 = 1.96.

Se tiene que:

\[ IC_{95\%} = \bar{X} \pm z_{0.025}\cdot \frac{S}{\sqrt{n}} \]

Por lo tanto:

  • \(\bar{X} =\) 6502.93
  • \(S =\) 4707.96
  • \(n =\) 1470
  • \(SE = \frac{S}{\sqrt{n}} =\) 122.7931

Así, el intervalo de confianza al 95 % para \(\mu\) es:

\[ IC_{95\%} = (6262.26, 6743.61) \] b) Verifique con R:

El intervalo de confianza obtenido es:

## [1] 6262.06 6743.80
## attr(,"conf.level")
## [1] 0.95

Por tanto:

\[ IC_{95\%} = (6262.06, 6743.8) \]

RTA// El intervalo de confianza al 95 % obtenido mediante la función t.test() es muy similar al calculado manualmente.

c) Calcule también los ICs al 90 % y 99 %. ¿Qué relación hay entre nivel de confianza y amplitud?

Tabla 18 Intervalos de confianza para la media de MonthlyIncome
Nivel de confianza Límite inferior Límite superior Amplitud
90 % 6300.83 6705.04 404.21
95 % 6262.06 6743.80 481.74
99 % 6186.23 6819.64 633.41

RTA//: Al calcular los intervalos de confianza al 90 %, 95 % y 99 %, se observa que a mayor nivel de confianza, mayor es la amplitud del intervalo, ya que al intervalo asegurar que se contenga el verdadero valor de la media poblacional su intevalo aumenta.

d) Interprete el IC al 95 % en el contexto del problema.

RTA//: El intervalo de confianza al 95 % para la media de MonthlyIncome indica que, con base en la muestra analizada, el ingreso mensual promedio de los empleados en la población se encuentra plausiblemente entre 6262.06 y 6743.8. En otras palabras, este rango representa los valores más consistentes con la información observada para la media poblacional de 6502.93 del ingreso mensual.

2.12 Tarea 12 — IC para proporción y diferencia de medias

a) Calcule a mano el IC al 95 % para p(Att=Yes). Interprete.

## [1] 0.1612245
## [1] 0.009591349
## [1] 0.1424254
## [1] 0.1800235

\[ IC_{95\%} = \hat{p} \pm 1.96 \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

\[ IC_{95\%} = (0.1424, 0.18) \]

RTA// Con un nivel de confianza del 95%, se estima que la proporción verdadera de empleados que desertan en la población total de la empresa se encuentra entre el 0.1424 y el 0.18. Dado que el intervalo es relativamente estrecho, el margen de error es pequeño, lo que indica una estimación robusta de la tasa de rotación.”

b) Construya ICs al 95 % para la proporción de deserción en cada departamento por separado. ¿Se traslapan? ¿Qué sugiere?

Tabla 19: Intervalos de confianza por departamento
Departamento Proporción (p̂)
Límite inferior
Human Resources 0.1905 0.1064 0.3129
Research & Development 0.1384 0.1175 0.1622
Sales 0.2063 0.1703 0.2474

RTA//: Los resultados sugieren que el departamento de Research & Development tiene una tasa de deserción significativamente menor que Sales, mientras que Human Resources presenta mayor incertidumbre debido a su alta variabilidad.

c) Calcule el IC al 95 % para μNo − μYes del ingreso mensual (use Welch). ¿Contiene el cero? Interprete

## [1] 1508.244 2583.050
## attr(,"conf.level")
## [1] 0.95

\[ IC_{95\%} = (1508.24, 2583.05) \]

RTA//: El intervalo de confianza (1508.24, 2583.05). Si este intervalo no contiene el valor cero, se concluye que existe una diferencia significativa. El ingreso mensual es, por tanto, un factor determinante en la deserción.

d) Tome una submuestra de n = 100 y recalcule el IC para la media de MonthlyIncome. Compare el ancho con el de la Tarea 11 y comente.

## [1] 6556.665 8898.615
## attr(,"conf.level")
## [1] 0.95

Intervalo obtenido:

## [1] 6556.67 8898.61
## attr(,"conf.level")
## [1] 0.95

\[ IC_{95\%}^{(n=100)} = (6556.67, 8898.61) \] RTA//: Al reducir el tamaño de la muestra de \(n = 1470\) (total de la base de datos) a una submuestra de \(n = 100\), se observa que el intervalo de confianza para la media del ingreso mensual (\(MonthlyIncome\)) se vuelve significativamente más ancho.

2.13 Tarea 13 — Prueba t: ¿el ingreso de quienes desertan es menor?

H0 : μYes = μNo vs. H1 : μYes < μNo

a) Aplique la prueba t de Welch unilateral. Pista en R

## 
##  Welch Two Sample t-test
## 
## data:  MonthlyIncome by Attrition
## t = 7.4826, df = 412.74, p-value = 2.217e-13
## alternative hypothesis: true difference in means between group No and group Yes is greater than 0
## 95 percent confidence interval:
##  1594.955      Inf
## sample estimates:
##  mean in group No mean in group Yes 
##          6832.740          4787.093

b) Reporte: estadístico t, valor-p, conclusión con α = 0.05.

##        t 
## 7.482622
## [1] 2.216794e-13

RTA// El estadístico de prueba es \(t = 7.4826\) y el valor-p es 0.

Dado que el valor-p es menor que \(\alpha = 0.05\), se rechaza la hipótesis nula \(H_0\). Esto indica que existe evidencia estadísticamente significativa para afirmar que el ingreso promedio de los empleados que no desertan es mayor que el de aquellos que sí desertan.

c) ¿Es consistente este resultado con el IC de la Tarea 12c?

RTA// El resultado de la prueba de hipótesis es consistente con el intervalo de confianza calculado previamente. En particular, si el intervalo de confianza para la diferencia de medias \(\mu_{No} - \mu_{Yes}\) no contiene el valor cero, esto indica que existe una diferencia significativa entre los grupos. Esto coincide con el rechazo de la hipótesis nula en la prueba t de Welch.

Por lo tanto, ambos enfoques (intervalos de confianza y prueba de hipótesis) conducen a la misma conclusión.

2.14 Tarea 14 — Prueba χ2 de independencia

a) Aplique la prueba χ2 sobre la tabla de la Tarea 2.

RTA// El estadístico de prueba es \(\chi2 = 87.5643\), con 1 grados de libertad y un valor-p de 0.

Dado que el valor-p es menor que 0.05, se rechaza la hipótesis nula, lo que indica que existe una asociación significativa entre OverTime y Attrition.

b)Reporte: χ2, grados de libertad, valor-p. ¿Hay asociación significativa?

RTA//: El estadístico de prueba es \(\chi^2 = 87.5643\), con 1 grado de libertad y un valor-p de 0.

Dado que el valor-p es menor que \(\alpha = 0.05\), se rechaza la hipótesis nula de independencia, lo que indica que existe una asociación significativa entre OverTime y Attrition.

c)Repita entre Department y Attrition. ¿Hay evidencia de asociación?

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_dep
## X-squared = 10.796, df = 2, p-value = 0.004526
## X-squared 
##  10.79601
## df 
##  2
## [1] 0.004525607

RTA// El estadístico de prueba es \(\chi^2 = 10.796\), con 2 grados de libertad y un valor-p de 0.0045.

Dado que el valor-p es menor que \(\alpha = 0.05\), se concluye que existe evidencia de asociación entre Department y Attrition.

2.15 Tarea 15 — Prueba Z para una proporción y reflexión

H0 : p = 0.15 vs. H1 : p > 0.15

a) Calcule a mano el estadístico:

\[ H_0: p = 0.15 \qquad \text{vs} \qquad H_1: p > 0.15 \]

a) Calcule a mano el estadístico:

\[ Z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} \] Determine el valor-p y concluya con α = 0.05.

## [1] 1.205231
## [1] 0.1140571

El estadístico es:

\[ Z = 1.2052 \]

El valor-p es:

\[ p\text{-value} = 0.1141 \]

Prueba

## 
##  1-sample proportions test without continuity correction
## 
## data:  sum(df$Attrition == "Yes") out of nrow(df), null probability 0.15
## X-squared = 1.4526, df = 1, p-value = 0.1141
## alternative hypothesis: true p is greater than 0.15
## 95 percent confidence interval:
##  0.1460727 1.0000000
## sample estimates:
##         p 
## 0.1612245

Por lo tanto:

  • \(\hat p =\) 0.1612
  • \(Z =\) 1.2052
  • valor-p = 0.1141

RTA// Como el valor-p es mayor que 0.05, no se rechaza la hipótesis nula. No existe evidencia estadísticamente significativa para afirmar que la proporción de deserción sea mayor a 0.15.

b) Pruebe si la edad promedio de quienes desertan difiere de la de quienes permanecen (bilateral).

Se contrasta:

\[ H_0: \mu_{Yes} = \mu_{No} \qquad \text{vs} \qquad H_1: \mu_{Yes} \neq \mu_{No} \]

## 
##  Welch Two Sample t-test
## 
## data:  Age by Attrition
## t = 5.828, df = 316.93, p-value = 1.38e-08
## alternative hypothesis: true difference in means between group No and group Yes is not equal to 0
## 95 percent confidence interval:
##  2.618930 5.288346
## sample estimates:
##  mean in group No mean in group Yes 
##          37.56123          33.60759
## [1] 33.60759
## [1] 37.56123
##        t 
## 5.828012
## [1] 1.37976e-08
## [1] 2.618930 5.288346
## attr(,"conf.level")
## [1] 0.95

RTA// La edad promedio de quienes desertan es 33.61 años, mientras que la de quienes permanecen es 37.56 años. El estadístico de prueba es \(t = 5.828\) y el valor-p es 0. Como el valor-p es menor que 0.05, se rechaza \(H_0\). Existe evidencia estadísticamente significativa de que la edad promedio difiere entre quienes desertan y quienes permanecen.

c) Discuta la diferencia entre significancia estadística y significancia práctica. Ilustre con algún resultado del taller.

RTA//:La significancia estadística confirma que la diferencia de 4 años (33 vs. 37) es real y no producto del azar, pues el intervalo de confianza excluye el cero. No obstante, carece de significancia práctica: en una población de 1,470 personas, una brecha tan sutil no permite establecer un patrón de deserción claro basado únicamente en la edad. Este caso demuestra que un p-valor bajo identifica una diferencia matemática, pero no necesariamente una oportunidad de detectar patrones de deserción por la edad.

2.16 Tarea 16 — Bootstrap para la mediana del ingreso

a) Con B = 10 000 remuestreos de MonthlyIncome, calcule la mediana en cada uno. Estime: error estándar, sesgo e IC al 95 % por percentiles.

## [1] 105.9144
## [1] 7.9591
##  2.5% 97.5% 
##  4736  5154

Por tanto:

  • Error estándar bootstrap: 105.91
  • Sesgo: 7.96

\[ IC_{95\%} = (4736, 5154) \] b) Grafique el histograma de las medianas bootstrap con líneas verticales para el IC y la mediana muestral.

c) ¿El sesgo es grande respecto al error estándar? ¿Qué indica sobre la calidad del estimador?

RTA// El sesgo estimado es 7.96, el cual es pequeño en comparación con el error estándar bootstrap de 105.91. Esto indica que la mediana es un estimador aproximadamente insesgado y estable para el ingreso mensual. En consecuencia, el estimador presenta buena calidad, ya que su variabilidad es mayor que su sesgo, lo que sugiere que las estimaciones no están sistemáticamente desplazadas respecto al valor real.

2.17 Tarea 17 — Bootstrap para la diferencia de proporciones

a) Separe los empleados por OverTime. Para B = 10 000 iteraciones, remuestree cada grupo por separado y calcule ˆp∗ OT=Yes − ˆp∗ OT=No.

## [1] 0.2009241

RTA//: Gracias al muestreo y simulaciones se puede concluir que los colaboradores que trabajan horas extra desertaron un 20% más que la que no trabajó horas extra, adicionalmete realizar horas exra siempre aumetna la probabilidad de deserción ya que en el intervalo no esta el 0.

b) Construya el IC al 95 % por percentiles. ¿Contiene el cero? ¿Qué concluye?

##      2.5%     97.5% 
## 0.1534158 0.2490011

Por tanto:

\[ IC_{95\%} = (0.1534, 0.249) \]

RTA// El intervalo de confianza bootstrap al 95 % para la diferencia de proporciones \(\hat{p}_{OT=Yes} - \hat{p}_{OT=No}\) es (0.1534, 0.249).El intervalo no contiene el valor 0 por ende existe evidencia de que las proporciones de deserción difieren entre los empleados con y sin horas extra.

c) Grafique la distribución bootstrap y marque el IC.

RTA//: Se observa como la media esta distribuida entre el intervalo de confianza

2.18 Tarea 18 — Bootstrap BCa y comparaciones

a) Use el paquete boot para calcular el IC BCa al 95 % de la media de MonthlyIncome.

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 9999 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = b_media, conf = 0.95, type = "bca")
## 
## Intervals : 
## Level       BCa          
## 95%   (6267, 6756 )  
## Calculations and Intervals on Original Scale

b) Compare el IC BCa con el IC paramétrico de la Tarea 11. ¿Son similares? ¿Cuándo preferiría uno sobre el otro?

Comparación entre IC paramétrico e IC BCa para la media de MonthlyIncome
Método Límite inferior Límite superior Amplitud
Paramétrico (t) 6262.06 6743.80 481.74
Bootstrap BCa 6266.68 6755.66 488.98

RTA// Para este caso los intervalos de confianza BCa y paramétrico son similares ya que el tamaño de muestra es grande y la media es un estimador estable. Sin embargo, según la literatura el intervalo BCa resulta preferible cuando la distribución original presenta asimetría, de paramétricos fuertes. En cambio, el intervalo paramétrico es más simple y eficiente cuando los supuestos de normalidad son razonables o el tamaño muestral es suficientemente grande.

c) Usando bootstrap, estime el coeficiente de correlación de Pearson entre MonthlyIncome y YearsAtCompany con un IC al 95 %.

## [1] 0.5142848
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 9999 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = b_cor, conf = 0.95, type = "bca")
## 
## Intervals : 
## Level       BCa          
## 95%   ( 0.4603,  0.5650 )  
## Calculations and Intervals on Original Scale

RTA// Al intervalo no contiener el valor 0, se sugiere la existencia de asociación lineal entre ambas variables lo que se interpreta cómo una relación entre la variable de MonthlyIncome y YearsAtCompany.

d) Implemente bootstrap para el coeficiente de Gini de MonthlyIncome: estime su error estándar y construya un IC.

## [1] 0.374069
## [1] 0.00473291
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 9999 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = b_gini, conf = 0.95, type = "bca")
## 
## Intervals : 
## Level       BCa          
## 95%   ( 0.3650,  0.3835 )  
## Calculations and Intervals on Original Scale

RTA// La empresa tiene una estructura salarial con una concentración de ingresos del 37%,

3 Declaración de uso de herramientas de IA

En la elaboración del presente trabajo se utilizaron herramientas de inteligencia artificial, específicamente ChatGPT, como apoyo en el proceso de aprendizaje y desarrollo del contenido.

Estas herramientas fueron empleadas para:

  • Apoyar la comprensión de conceptos estadísticos (intervalos de confianza, pruebas de hipótesis, bootstrap, entre otros).
  • Sugerir estructuras de código en lenguaje R para la implementación de los análisis.
  • Mejorar la redacción y claridad de algunas explicaciones.

Es importante destacar que todos los resultados, interpretaciones y conclusiones presentadas fueron revisadas, comprendidas y validadas por el autor, quien asume la responsabilidad total del contenido entregado.

El uso de inteligencia artificial se realizó como una herramienta de apoyo académico y no como sustituto del proceso de aprendizaje ni del trabajo autónomo.