Taller de Probabilidad e Inferencia Estadística
Dataset: IBM HR Analytics Employee Attrition
Contexto: La deserción laboral representa un problema enorme para las organizaciones actuales, es por eso que mediante el presente informe con información de dataset IBM HR Analytics se identificaran patrones demográficos y laborales que influyen en la decisión de los empleados de abandonar la empresa, utilizando la estadistica como herramienta teorica.
Objetivo General: Analizar los factores que inciden en la deserción laboral mediante técnicas de probabilidad e inferencia estadística.
a) Reporte de dimesiones
## Rows: 1,470
## Columns: 35
## $ Age <dbl> 41, 49, 37, 33, 27, 32, 59, 30, 38, 36, 35, 2…
## $ Attrition <chr> "Yes", "No", "Yes", "No", "No", "No", "No", "…
## $ BusinessTravel <chr> "Travel_Rarely", "Travel_Frequently", "Travel…
## $ DailyRate <dbl> 1102, 279, 1373, 1392, 591, 1005, 1324, 1358,…
## $ Department <chr> "Sales", "Research & Development", "Research …
## $ DistanceFromHome <dbl> 1, 8, 2, 3, 2, 2, 3, 24, 23, 27, 16, 15, 26, …
## $ Education <dbl> 2, 1, 2, 4, 1, 2, 3, 1, 3, 3, 3, 2, 1, 2, 3, …
## $ EducationField <chr> "Life Sciences", "Life Sciences", "Other", "L…
## $ EmployeeCount <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ EmployeeNumber <dbl> 1, 2, 4, 5, 7, 8, 10, 11, 12, 13, 14, 15, 16,…
## $ EnvironmentSatisfaction <dbl> 2, 3, 4, 4, 1, 4, 3, 4, 4, 3, 1, 4, 1, 2, 3, …
## $ Gender <chr> "Female", "Male", "Male", "Female", "Male", "…
## $ HourlyRate <dbl> 94, 61, 92, 56, 40, 79, 81, 67, 44, 94, 84, 4…
## $ JobInvolvement <dbl> 3, 2, 2, 3, 3, 3, 4, 3, 2, 3, 4, 2, 3, 3, 2, …
## $ JobLevel <dbl> 2, 2, 1, 1, 1, 1, 1, 1, 3, 2, 1, 2, 1, 1, 1, …
## $ JobRole <chr> "Sales Executive", "Research Scientist", "Lab…
## $ JobSatisfaction <dbl> 4, 2, 3, 3, 2, 4, 1, 3, 3, 3, 2, 3, 3, 4, 3, …
## $ MaritalStatus <chr> "Single", "Married", "Single", "Married", "Ma…
## $ MonthlyIncome <dbl> 5993, 5130, 2090, 2909, 3468, 3068, 2670, 269…
## $ MonthlyRate <dbl> 19479, 24907, 2396, 23159, 16632, 11864, 9964…
## $ NumCompaniesWorked <dbl> 8, 1, 6, 1, 9, 0, 4, 1, 0, 6, 0, 0, 1, 0, 5, …
## $ Over18 <chr> "Y", "Y", "Y", "Y", "Y", "Y", "Y", "Y", "Y", …
## $ OverTime <chr> "Yes", "No", "Yes", "Yes", "No", "No", "Yes",…
## $ PercentSalaryHike <dbl> 11, 23, 15, 11, 12, 13, 20, 22, 21, 13, 13, 1…
## $ PerformanceRating <dbl> 3, 4, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 3, 3, 3, …
## $ RelationshipSatisfaction <dbl> 1, 4, 2, 3, 4, 3, 1, 2, 2, 2, 3, 4, 4, 3, 2, …
## $ StandardHours <dbl> 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 80, 8…
## $ StockOptionLevel <dbl> 0, 1, 0, 0, 1, 0, 3, 1, 0, 2, 1, 0, 1, 1, 0, …
## $ TotalWorkingYears <dbl> 8, 10, 7, 8, 6, 8, 12, 1, 10, 17, 6, 10, 5, 3…
## $ TrainingTimesLastYear <dbl> 0, 3, 3, 3, 3, 2, 3, 2, 2, 3, 5, 3, 1, 2, 4, …
## $ WorkLifeBalance <dbl> 1, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, 3, …
## $ YearsAtCompany <dbl> 6, 10, 0, 8, 2, 7, 1, 1, 9, 7, 5, 9, 5, 2, 4,…
## $ YearsInCurrentRole <dbl> 4, 7, 0, 7, 2, 7, 0, 0, 7, 7, 4, 5, 2, 2, 2, …
## $ YearsSinceLastPromotion <dbl> 0, 1, 0, 3, 2, 3, 0, 0, 1, 7, 0, 0, 4, 1, 0, …
## $ YearsWithCurrManager <dbl> 5, 7, 0, 0, 2, 6, 0, 0, 8, 7, 3, 8, 3, 2, 3, …
## El dataset contiene 1470 filas y 35 columnas.
##
## character numeric
## 9 26
Dimensiones: El dataset contiene, 35 variables con un total de 1470 registros los cuales se distribuye en 9 variables character de las cuales 8 se transforman en factor como buena practica, las restantes 26 son valores númericos.
b) Frecuencias absolutas y relativas de Attrition.| N° de Colaboradores | Proporción | Participación (%) | |
|---|---|---|---|
| No | 1233 | 0.8387755 | 83.88% |
| Yes | 237 | 0.1612245 | 16.12% |
c) Frecuencias absolutas y relativas de Attrition. RTA
// La distribución de la variable Attrition se encuentra fuertemente
desbalanceada. Como se evidencia en los resultados anteriores, el 83.88%
de los empleados permanecen en la compañía, mientras que solo el 16.12%
corresponden a casos de deserción.
Para un proyecto de clasificación, este desbalanceo representa un desafío crítico ya que un un modelo básico podría alcanzar una alta precisión (accuracy) simplemente prediciendo siempre la clase mayoritaria (“No”), ignorando la clase de interés (“Yes”).
a) Tabla de contingencia entre OverTime VS Attrition
| Condición | ATT = No | ATT = Yes | Total |
|---|---|---|---|
| No realiza horas extra | 944 | 110 | 1054 |
| Realiza horas extra | 289 | 127 | 416 |
| Total | 1233 | 237 | 1470 |
b) Tabla de tabla de probabilidades conjuntas
| Estado | ATT = No | ATT = Yes | Marginal Fila |
|---|---|---|---|
| OT = No | 0.6422 | 0.0748 | 0.717 |
| OT = Yes | 0.1966 | 0.0864 | 0.283 |
| Marginal col. | 0.8388 | 0.1612 | 1.000 |
c) probabilidades marginales
Probabilidad de deserción según las horas extra| Estado | ATT = No | ATT = Yes | Total fila |
|---|---|---|---|
| OT = No | 0.8956 | 0.1044 | 1 |
| OT = Yes | 0.6947 | 0.3053 | 1 |
Para empleados que no realizan horas extra:
Probabilidad de permanecer: 89.56%
Probabilidad de desertar: 10.44%
Para empleados que sí realizan horas extra:
Probabilidad de permanecer: 69.47%
Probabilidad de desertar: 30.53%
Conclusión La probabilidad de deserción es considerablemente mayor entre los empleados que realizan horas extra.
Proporción de empleados con horas extra dentro de cada grupo de deserción| Estado | ATT = No | ATT = Yes |
|---|---|---|
| OT = No | 0.7656 | 0.4641 |
| OT = Yes | 0.2344 | 0.5359 |
| Totales | 1.0000 | 1.0000 |
Para empleados que no desertan:
76.56% no realiza horas extra
23.44% sí realiza horas extra
Para empleados que sí desertan:
46.41% no realiza horas extra
53.59% sí realiza horas extra
Conclusión Más de la mitad de los empleados que desertan realizan horas extra.
d) Calcule las probabilidades condicionales P(Att=Yes dado OT=Yes) y P(Att=Yes dado OT=No) usando la definición. Compárelas con P(Att=Yes) y concluya: ¿las horas extra influyen en la deserción?
Esto indica que las horas extra influyen significativamente en la deserción laboral, ya que la probabilidad de que un colaborador deserte al hacer horas extras es considerablemente mayor, esta deducido gracias a la información de la tabla 4.
e) Evalúe si Attrition y OverTime son independientes verificando si P(A ∩ B) = P(A) · P(B) para alguna combinación.
Se debe tomar un caso puntual para cada conjunto A y B:
P(A∩B)=0,0864 <- Esto según la Tabla 3.
Tomando la misma Tabla 3 se observa: P(A) = 0,1612 <- Según nuestra probabilidad marginal de ATT = Yes en la tabla 3. P(B) = 0,283 <- Según nuestra probabilidad marginal de OT = Yes en la tabla 3.
P(A)⋅P(B) 0.1612 × 0.283 = 0.0456
0.0864 != 0.0456
Conclusión Dado que estas variables no cumplen la condición de P(A ∩ B) = P(A) · P(B) se consideran variables dependientes, demostrando así que entre las horas extras y la deserción existe una relación.
a) Construya la tabla de contingencia entre Department y Attrition con frecuencias absolutas y marginales.
| Department | ATT = No | ATT = Yes | Total |
|---|---|---|---|
| Human Resources | 51 | 12 | 63 |
| Research & Development | 828 | 133 | 961 |
| Sales | 354 | 92 | 446 |
| Sum | 1233 | 237 | 1470 |
b) Tablas de probabilidades conjuntas, marginales y condicionales
| Departamento | ATT = No | ATT = Yes | Marginal Fila |
|---|---|---|---|
| Human Resources | 0.0347 | 0.0082 | 0.0429 |
| Research & Development | 0.5633 | 0.0905 | 0.6537 |
| Sales | 0.2408 | 0.0626 | 0.3034 |
| Sum | 0.8388 | 0.1612 | 1.0000 |
| Departamento | No | Yes | Total fila |
|---|---|---|---|
| Human Resources | 0.8095 | 0.1905 | 1 |
| Research & Development | 0.8616 | 0.1384 | 1 |
| Sales | 0.7937 | 0.2063 | 1 |
Para empleados de Human Resources:
Para empleados de Research & Development:
Para empleados de Sales:
| Departamento | ATT = No | ATT = Yes |
|---|---|---|
| Human Resources | 0.0414 | 0.0506 |
| Research & Development | 0.6715 | 0.5612 |
| Sales | 0.2871 | 0.3882 |
| Totales | 1.0000 | 1.0000 |
Para empleados que desertan:
5,06% es de Human Resources
56,12% es de Research & Development
38,82% es de Sales
c) ¿En cuál departamento es más probable la deserción?
RTA//: En Sales ya que en este se tienen un (20,63%) de probabilidad desertar.
| Departamento | P(Bi) | P(A dado Bi) | P(A dado Bi) * P(Bi) |
|---|---|---|---|
| Human Resources | 0.0429 | 0.1905 | 0.0082 |
| Research & Development | 0.6537 | 0.1384 | 0.0905 |
| Sales | 0.3034 | 0.2063 | 0.0626 |
| Total | 1.0000 | NA | 0.1612 |
b) Verifique que P P(A dado Bi) P(Bi) = 237/1470. Explique por qué esto siempre debe cumplirse.
RTA// La probabilidad total de deserción en la empresa es 16,12%, ya que 237/1470=0.1612. Este valor coincide con la suma de las probabilidades P(A∣B_i)P(B_i)para cada departamento, como se observa en la tabla 7. Esto verifica la Regla de Probabilidad Totla
a) Use JobSatisfaction (niveles 1 a 4) como partición y calcule P(Att=Yes) con laregla de probabilidad total. Presente una tabla análoga.
| Nivel de satisfacción laboral | P(Bi) | P(Att = Yes dado Bi) | P(Att = Yes dado Bi) * P(Bi) |
|---|---|---|---|
| 1 | 0.1966 | 0.2284 | 0.0449 |
| 2 | 0.1905 | 0.1643 | 0.0313 |
| 3 | 0.3007 | 0.1652 | 0.0497 |
| 4 | 0.3122 | 0.1133 | 0.0354 |
| Total | 1.0000 | NA | 0.1612 |
b) ¿Se obtiene el mismo resultado global que en la Tarea 4? Explique por qué es una consecuencia directa de la definición de partición. RTA//: Sí, se obtiene el mismo resultado global. Esto ocurre porque la proporción de empleados que desertan respecto al total de empleados es la misma que en la Tarea 4, es decir 237/1470=0.1612. La diferencia radica en cómo se construyen las particiones del espacio muestral: en un caso se utilizan los departamentos y en el otro los niveles de satisfacción. Sin embargo, en ambos casos los grupos conforman una partición, es decir, son mutuamente excluyentes.
a) Calcule P(Bi | A) para cada departamento y complete:
| Bi | P(Bi) | P(A dado Bi) | P(A dado Bi) P(Bi) | P(Bi dado A) |
|---|---|---|---|---|
| Human Resources | 0.0429 | 0.1905 | 0.0082 | 0.0506 |
| Research & Development | 0.6537 | 0.1384 | 0.0905 | 0.5612 |
| Sales | 0.3034 | 0.2063 | 0.0626 | 0.3882 |
| Total | 1.0000 | NA | 0.1612 | 1.0000 |
b) ¿Cuál departamento tiene la mayor probabilidad a posteriori? ¿Es el mismo con la mayor tasa de deserción? Explique la diferencia entre P(A | Bi) y P(Bi | A).
RTA//: El departamento con mayor probabilidad a posteriori es R&D, con P(R&D|A) = 0.5612. No coincide con el departamento de mayor tasa de deserción, el cual es Sales esto como lo muestra la tabla 10, la cual para la deserción de este departamento registra 20,63% mientras que Research & Development reporta 13,84%.La diferencia se debe a que P(A|Bi) mide la probabilidad de deserción dentro de cada departamento, mientras que P(Bi|A) indica la probabilidad de que un empleado pertenezca a cierto departamento dado que desertó.
c) Verifique contando directamente del subconjunto Attrition == “Yes”.| Departamento | Frecuencia | P(Bi dado A) |
|---|---|---|
| Human Resources | 12 | 0.0506 |
| Research & Development | 133 | 0.5612 |
| Sales | 92 | 0.3882 |
| Total | 237 | 1.0000 |
RTA//: Al filtrar directamente el subconjunto de empleados con Attrition = Yes, se observa que 12 pertenecen a HR, 133 a R&D y 92 a Sales, para un total de 237 empleados. Por tanto, las probabilidades a posteriori son 12/237 = 0.0506, 133/237 =0.5612 y 92/237 = 0.3882. Estos valores coinciden con los obtenidos mediante la fórmula de Bayes y adicionalmente son los valores contenidos en la tablas 9 y 11 donde ya se realizo dicho ejercicio.
a) Calcule el valor predictivo positivo P(Att=Yes | Predice Yes) con Bayes.
El valor predictivo positivo se calcula utilizando el Teorema de Bayes:
\[ P(\text{Att=Yes} \mid \text{Predice Yes}) = \frac{P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes})} {P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes}) + P(\text{Predice Yes} \mid \text{Att=No}) \cdot P(\text{Att=No})} \]
El valor obtenido es:
## [1] 0.6059
Por lo tanto:
\[ P(\text{Att=Yes} \mid \text{Predice Yes}) \approx 0.6059 \]
RTA// El valor predictivo positivo del modelo es aproximadamente 0.6059 (60.59%), lo que indica que, cuando el modelo predice deserción, la probabilidad de que el empleado realmente deserte es del 60.59%.
b) Si el modelo predice deserción, ¿qué tan confiable es? Interprete.
RTA//: Si el modelo predice deserción, la probabilidad de que el empleado realmente deserte es aproximadamente 60.59%. Esto indica que el modelo tiene una confiabilidad moderada, ya que aunque identifica correctamente una buena proporción de casos positivos, aún presenta un porcentaje importante de falsos positivos. Por lo tanto, la predicción del modelo debe interpretarse como una probabilidad y no como una certeza, siendo útil como herramienta de apoyo para la toma de decisiones, pero no como un criterio definitivo.
c) Recalcule suponiendo una tasa base del 50 %. Compare y reflexione sobre la falacia de la tasa base.
Ahora se supone una tasa base de deserción del 50 %, es decir:
\[ P(\text{Att=Yes}) = 0.50 \qquad \text{y} \qquad P(\text{Att=No}) = 0.50 \]
Aplicando nuevamente el Teorema de Bayes:
\[ P(\text{Att=Yes} \mid \text{Predice Yes}) = \frac{P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes})} {P(\text{Predice Yes} \mid \text{Att=Yes}) \cdot P(\text{Att=Yes}) + P(\text{Predice Yes} \mid \text{Att=No}) \cdot P(\text{Att=No})} \]
## [1] 0.8888889
El valor obtenido es:
## [1] 0.8889
Esto equivale a:
## [1] 88.89
%.
Para comparar ambos escenarios:
| Escenario | Valor predictivo positivo |
|---|---|
| Tasa base real (16.12%) | 0.6059 |
| Tasa base hipotética (50%) | 0.8889 |
RTA//: Al suponer una tasa base del 50 %, el valor predictivo positivo aumenta a aproximadamente (88.89 %). Esto muestra que la confiabilidad de una predicción positiva no depende únicamente de la sensibilidad y de la tasa de falsos positivos, sino también de la frecuencia real del evento en la población. Esta situación ilustra la falacia de la tasa base, que consiste en ignorar la probabilidad previa del evento y evaluar la predicción solo a partir del desempeño aparente del modelo. En consecuencia, aunque el modelo conserve los mismos indicadores, una mayor tasa base hace que una predicción positiva sea mucho más confiable.
La variable MonthlyIncome es sesgada a la derecha. Realice:
a) Calcule la media (μ) y desviación estándar (σ) de MonthlyIncome. Grafique su histograma y comente la forma.
La variable presenta una media poblacional de \(\mu = 6502.93\) y una desviación estándar de \(\sigma = 4707.96\).
RTA//: Presenta una distribución asimétrica positiva (sesgada a la derecha). Esto indica la presencia de algunos empleados con ingresos significativamente superiores al promedio. Esta forma no es normal.
b) Para cada n ∈ {5, 10, 30, 50, 100, 200}, extraiga B = 10 000 muestras con reemplazo de tamaño n, calcule la media de cada una, y grafique el histograma superponiendo la curva N(μ, σ2/n). Presente los 6 gráficos en una grilla 2 × 3.
RTA//: Al comparar los histogramas de las medias muestrales con la curva normal teórica \(N(\mu, \sigma^2/n)\), se observa que, a medida que aumenta el tamaño de muestra \(n\), la distribución de \(\bar{X}\) se aproxima cada vez más a una distribución normal. Para tamaños pequeños como \(n=5\) y \(n=10\), aún puede notarse cierta asimetría; sin embargo, a partir de tamaños mayores como \(n=30\), \(50\), \(100\) y \(200\), la forma se vuelve más simétrica y concentrada alrededor de \(\mu\), en concordancia con el Teorema del Límite Central.
c) Complete la tabla comparativa:
| n | σ / sqrt(n) (teórico) | Desv. est. observada |
|---|---|---|
| 5 | 2105.46 | 2092.04 |
| 30 | 859.55 | 856.64 |
| 100 | 470.80 | 469.02 |
| 200 | 332.90 | 331.67 |
d) ¿A partir de qué n la distribución de ¯X luce razonablemente normal?
RTA//: De manera empírica, en este ejercicio la distribución de \(\bar{X}\) luce razonablemente normal desde𝑛 = 30, aunque la aproximación mejora claramente para tamaños mayores.
a )Repita la simulación con DistanceFromHome. ¿La convergencia a la normalidad es más rápida o más lenta? Justifique comparando la asimetría de ambas variables.
| Variable | Media | Desv. Est. | Asimetria |
|---|---|---|---|
| MonthlyIncome | 6502.93 | 4707.96 | 1.37 |
| DistanceFromHome | 9.19 | 8.11 | 0.96 |
RTA//: La variable MonthlyIncome presenta una mayor asimetría positiva en comparación con DistanceFromHome, lo cual se evidencia tanto en el coeficiente de asimetría como en la forma de su histograma, por otro lado, DistanceFromHome presenta una distribución más cercana a la simetría por lo que en consecuencia, la convergencia a la normalidad de la media muestral es más rápida para DistanceFromHome.
b) Si n = 50, ¿cuál es P(6000 ≤ \(\bar{X}\) ≤ 7000) para MonthlyIncome? Use la aproximación normal.
## [1] 0.5473249
El valor obtenido es:
## [1] 0.5473
Por tanto:
\[ P(6000 \le \bar{X} \le 7000) \approx 0.5473 \]
RTA//: Aplicando el Teorema del Límite Central, la media muestral \(\bar{X}\) para muestras de tamaño \(n=50\) se distribuye aproximadamente como:
\[ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{50}\right) \]
Por ello, la probabilidad de que la media muestral se encuentre entre 6000 y 7000 se calcula mediante la distribución normal, obteniendo un valor aproximado de 0.5473.
a) Calcule y complete:
| Parámetro | Estimador | Valor |
|---|---|---|
| Media de MonthlyIncome (μ) | \(\bar{X}\) | 6502.93 |
| Desviación estándar (σ) | \(S\) | 4707.96 |
| Mediana de MonthlyIncome | \(\tilde{X}\) | 4919.00 |
| Proporción de deserción (p) | \(\hat{p}\) | 0.16 |
| μ_No − μ_Yes (ingreso) | \(\bar{X}_1 - \bar{X}_2\) | 2045.65 |
b) Compare media y mediana de MonthlyIncome. ¿Qué dice la diferencia sobre la distribución? ¿Cuál es más robusta?
RTA//: La media de MonthlyIncome es 6502.93, mientras que la mediana es 4919. La media es considerablemente mayor que la mediana, lo que indica que la distribución presenta asimetría positiva (sesgo a la derecha). Esto ocurre porque existen valores altos (ingresos elevados) que desplazan la media hacia arriba.
En cuanto a robustez, la mediana es más robusta que la media, ya que no se ve afectada por valores extremos o atípicos. Por el contrario, la media es sensible a estos valores, lo que explica la diferencia observada entre ambas medidas.
c) Calcule el error estándar de \[ SE_{\hat{p}} = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}\].
El valor obtenido es:
## [1] 0.0096
\[ SE_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
RTA// El error estándar de la proporción estimada es aproximadamente 0.0096, lo que indica la variabilidad de \(\hat{p}\) como estimador de la proporción poblacional. Dado que este valor es pequeño, la estimación de la proporción de deserción es relativamente precisa.
d) Calcule la media y varianza de YearsAtCompany por departamento. Presente en una tabla.| Departamento | Media | Varianza |
|---|---|---|
| Human Resources | 7.24 | 47.47 |
| Research & Development | 6.86 | 36.29 |
| Sales | 7.28 | 38.87 |
a) Calcule a mano el IC al 95 % para μ(MonthlyIncome): identifique \(\bar{X}\) , S, n, SE, y use z0.025 = 1.96.
Se tiene que:
\[ IC_{95\%} = \bar{X} \pm z_{0.025}\cdot \frac{S}{\sqrt{n}} \]
Por lo tanto:
Así, el intervalo de confianza al 95 % para \(\mu\) es:
\[ IC_{95\%} = (6262.26, 6743.61) \] b) Verifique con R:
El intervalo de confianza obtenido es:
## [1] 6262.06 6743.80
## attr(,"conf.level")
## [1] 0.95
Por tanto:
\[ IC_{95\%} = (6262.06, 6743.8) \]
RTA// El intervalo de confianza al 95 % obtenido
mediante la función t.test() es muy similar al calculado
manualmente.
c) Calcule también los ICs al 90 % y 99 %. ¿Qué relación hay entre nivel de confianza y amplitud?
| Nivel de confianza | Límite inferior | Límite superior | Amplitud |
|---|---|---|---|
| 90 % | 6300.83 | 6705.04 | 404.21 |
| 95 % | 6262.06 | 6743.80 | 481.74 |
| 99 % | 6186.23 | 6819.64 | 633.41 |
RTA//: Al calcular los intervalos de confianza al 90 %, 95 % y 99 %, se observa que a mayor nivel de confianza, mayor es la amplitud del intervalo, ya que al intervalo asegurar que se contenga el verdadero valor de la media poblacional su intevalo aumenta.
d) Interprete el IC al 95 % en el contexto del problema.
RTA//: El intervalo de confianza al 95 % para la media de MonthlyIncome indica que, con base en la muestra analizada, el ingreso mensual promedio de los empleados en la población se encuentra plausiblemente entre 6262.06 y 6743.8. En otras palabras, este rango representa los valores más consistentes con la información observada para la media poblacional de 6502.93 del ingreso mensual.
a) Calcule a mano el IC al 95 % para p(Att=Yes). Interprete.
## [1] 0.1612245
## [1] 0.009591349
## [1] 0.1424254
## [1] 0.1800235
\[ IC_{95\%} = \hat{p} \pm 1.96 \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
\[ IC_{95\%} = (0.1424, 0.18) \]
RTA// Con un nivel de confianza del 95%, se estima que la proporción verdadera de empleados que desertan en la población total de la empresa se encuentra entre el 0.1424 y el 0.18. Dado que el intervalo es relativamente estrecho, el margen de error es pequeño, lo que indica una estimación robusta de la tasa de rotación.”
b) Construya ICs al 95 % para la proporción de deserción en cada departamento por separado. ¿Se traslapan? ¿Qué sugiere?
| Departamento | Proporción (p̂) |
Límite inferior
| |
|---|---|---|---|
| Human Resources | 0.1905 | 0.1064 | 0.3129 |
| Research & Development | 0.1384 | 0.1175 | 0.1622 |
| Sales | 0.2063 | 0.1703 | 0.2474 |
RTA//: Los resultados sugieren que el departamento de Research & Development tiene una tasa de deserción significativamente menor que Sales, mientras que Human Resources presenta mayor incertidumbre debido a su alta variabilidad.
c) Calcule el IC al 95 % para μNo − μYes del ingreso mensual (use Welch). ¿Contiene el cero? Interprete
## [1] 1508.244 2583.050
## attr(,"conf.level")
## [1] 0.95
\[ IC_{95\%} = (1508.24, 2583.05) \]
RTA//: El intervalo de confianza (1508.24, 2583.05). Si este intervalo no contiene el valor cero, se concluye que existe una diferencia significativa. El ingreso mensual es, por tanto, un factor determinante en la deserción.
d) Tome una submuestra de n = 100 y recalcule el IC para la media de MonthlyIncome. Compare el ancho con el de la Tarea 11 y comente.
## [1] 6556.665 8898.615
## attr(,"conf.level")
## [1] 0.95
Intervalo obtenido:
## [1] 6556.67 8898.61
## attr(,"conf.level")
## [1] 0.95
\[ IC_{95\%}^{(n=100)} = (6556.67, 8898.61) \] RTA//: Al reducir el tamaño de la muestra de \(n = 1470\) (total de la base de datos) a una submuestra de \(n = 100\), se observa que el intervalo de confianza para la media del ingreso mensual (\(MonthlyIncome\)) se vuelve significativamente más ancho.
H0 : μYes = μNo vs. H1 : μYes < μNo
a) Aplique la prueba t de Welch unilateral. Pista en R
##
## Welch Two Sample t-test
##
## data: MonthlyIncome by Attrition
## t = 7.4826, df = 412.74, p-value = 2.217e-13
## alternative hypothesis: true difference in means between group No and group Yes is greater than 0
## 95 percent confidence interval:
## 1594.955 Inf
## sample estimates:
## mean in group No mean in group Yes
## 6832.740 4787.093
b) Reporte: estadístico t, valor-p, conclusión con α = 0.05.
## t
## 7.482622
## [1] 2.216794e-13
RTA// El estadístico de prueba es \(t = 7.4826\) y el valor-p es 0.
Dado que el valor-p es menor que \(\alpha = 0.05\), se rechaza la hipótesis nula \(H_0\). Esto indica que existe evidencia estadísticamente significativa para afirmar que el ingreso promedio de los empleados que no desertan es mayor que el de aquellos que sí desertan.
c) ¿Es consistente este resultado con el IC de la Tarea 12c?
RTA// El resultado de la prueba de hipótesis es consistente con el intervalo de confianza calculado previamente. En particular, si el intervalo de confianza para la diferencia de medias \(\mu_{No} - \mu_{Yes}\) no contiene el valor cero, esto indica que existe una diferencia significativa entre los grupos. Esto coincide con el rechazo de la hipótesis nula en la prueba t de Welch.
Por lo tanto, ambos enfoques (intervalos de confianza y prueba de hipótesis) conducen a la misma conclusión.
a) Aplique la prueba χ2 sobre la tabla de la Tarea 2.
RTA// El estadístico de prueba es \(\chi2 = 87.5643\), con 1 grados de libertad y un valor-p de 0.
Dado que el valor-p es menor que 0.05, se rechaza la hipótesis nula, lo que indica que existe una asociación significativa entre OverTime y Attrition.
b)Reporte: χ2, grados de libertad, valor-p. ¿Hay asociación significativa?
RTA//: El estadístico de prueba es \(\chi^2 = 87.5643\), con 1 grado de libertad y un valor-p de 0.
Dado que el valor-p es menor que \(\alpha = 0.05\), se rechaza la hipótesis nula de independencia, lo que indica que existe una asociación significativa entre OverTime y Attrition.
c)Repita entre Department y Attrition. ¿Hay evidencia de asociación?
##
## Pearson's Chi-squared test
##
## data: tabla_dep
## X-squared = 10.796, df = 2, p-value = 0.004526
## X-squared
## 10.79601
## df
## 2
## [1] 0.004525607
RTA// El estadístico de prueba es \(\chi^2 = 10.796\), con 2 grados de libertad y un valor-p de 0.0045.
Dado que el valor-p es menor que \(\alpha = 0.05\), se concluye que existe evidencia de asociación entre Department y Attrition.
H0 : p = 0.15 vs. H1 : p > 0.15
a) Calcule a mano el estadístico:
\[ H_0: p = 0.15 \qquad \text{vs} \qquad H_1: p > 0.15 \]
a) Calcule a mano el estadístico:
\[ Z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} \] Determine el valor-p y concluya con α = 0.05.
## [1] 1.205231
## [1] 0.1140571
El estadístico es:
\[ Z = 1.2052 \]
El valor-p es:
\[ p\text{-value} = 0.1141 \]
Prueba
##
## 1-sample proportions test without continuity correction
##
## data: sum(df$Attrition == "Yes") out of nrow(df), null probability 0.15
## X-squared = 1.4526, df = 1, p-value = 0.1141
## alternative hypothesis: true p is greater than 0.15
## 95 percent confidence interval:
## 0.1460727 1.0000000
## sample estimates:
## p
## 0.1612245
Por lo tanto:
RTA// Como el valor-p es mayor que 0.05, no se rechaza la hipótesis nula. No existe evidencia estadísticamente significativa para afirmar que la proporción de deserción sea mayor a 0.15.
b) Pruebe si la edad promedio de quienes desertan difiere de la de quienes permanecen (bilateral).
Se contrasta:
\[ H_0: \mu_{Yes} = \mu_{No} \qquad \text{vs} \qquad H_1: \mu_{Yes} \neq \mu_{No} \]
##
## Welch Two Sample t-test
##
## data: Age by Attrition
## t = 5.828, df = 316.93, p-value = 1.38e-08
## alternative hypothesis: true difference in means between group No and group Yes is not equal to 0
## 95 percent confidence interval:
## 2.618930 5.288346
## sample estimates:
## mean in group No mean in group Yes
## 37.56123 33.60759
## [1] 33.60759
## [1] 37.56123
## t
## 5.828012
## [1] 1.37976e-08
## [1] 2.618930 5.288346
## attr(,"conf.level")
## [1] 0.95
RTA// La edad promedio de quienes desertan es 33.61 años, mientras que la de quienes permanecen es 37.56 años. El estadístico de prueba es \(t = 5.828\) y el valor-p es 0. Como el valor-p es menor que 0.05, se rechaza \(H_0\). Existe evidencia estadísticamente significativa de que la edad promedio difiere entre quienes desertan y quienes permanecen.
c) Discuta la diferencia entre significancia estadística y significancia práctica. Ilustre con algún resultado del taller.
RTA//:La significancia estadística confirma que la diferencia de 4 años (33 vs. 37) es real y no producto del azar, pues el intervalo de confianza excluye el cero. No obstante, carece de significancia práctica: en una población de 1,470 personas, una brecha tan sutil no permite establecer un patrón de deserción claro basado únicamente en la edad. Este caso demuestra que un p-valor bajo identifica una diferencia matemática, pero no necesariamente una oportunidad de detectar patrones de deserción por la edad.
a) Con B = 10 000 remuestreos de MonthlyIncome, calcule la mediana en cada uno. Estime: error estándar, sesgo e IC al 95 % por percentiles.
## [1] 105.9144
## [1] 7.9591
## 2.5% 97.5%
## 4736 5154
Por tanto:
\[ IC_{95\%} = (4736, 5154) \] b) Grafique el histograma de las medianas bootstrap con líneas verticales para el IC y la mediana muestral.
c) ¿El sesgo es grande respecto al error estándar? ¿Qué indica sobre la calidad del estimador?
RTA// El sesgo estimado es 7.96, el cual es pequeño en comparación con el error estándar bootstrap de 105.91. Esto indica que la mediana es un estimador aproximadamente insesgado y estable para el ingreso mensual. En consecuencia, el estimador presenta buena calidad, ya que su variabilidad es mayor que su sesgo, lo que sugiere que las estimaciones no están sistemáticamente desplazadas respecto al valor real.
a) Separe los empleados por OverTime. Para B = 10 000 iteraciones, remuestree cada grupo por separado y calcule ˆp∗ OT=Yes − ˆp∗ OT=No.
## [1] 0.2009241
RTA//: Gracias al muestreo y simulaciones se puede concluir que los colaboradores que trabajan horas extra desertaron un 20% más que la que no trabajó horas extra, adicionalmete realizar horas exra siempre aumetna la probabilidad de deserción ya que en el intervalo no esta el 0.
b) Construya el IC al 95 % por percentiles. ¿Contiene el cero? ¿Qué concluye?
## 2.5% 97.5%
## 0.1534158 0.2490011
Por tanto:
\[ IC_{95\%} = (0.1534, 0.249) \]
RTA// El intervalo de confianza bootstrap al 95 % para la diferencia de proporciones \(\hat{p}_{OT=Yes} - \hat{p}_{OT=No}\) es (0.1534, 0.249).El intervalo no contiene el valor 0 por ende existe evidencia de que las proporciones de deserción difieren entre los empleados con y sin horas extra.
c) Grafique la distribución bootstrap y marque el IC.
RTA//: Se observa como la media esta distribuida entre el intervalo de confianza
a) Use el paquete boot para calcular el IC BCa al 95 % de la media de MonthlyIncome.
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 9999 bootstrap replicates
##
## CALL :
## boot.ci(boot.out = b_media, conf = 0.95, type = "bca")
##
## Intervals :
## Level BCa
## 95% (6267, 6756 )
## Calculations and Intervals on Original Scale
b) Compare el IC BCa con el IC paramétrico de la Tarea 11. ¿Son similares? ¿Cuándo preferiría uno sobre el otro?
| Método | Límite inferior | Límite superior | Amplitud |
|---|---|---|---|
| Paramétrico (t) | 6262.06 | 6743.80 | 481.74 |
| Bootstrap BCa | 6266.68 | 6755.66 | 488.98 |
RTA// Para este caso los intervalos de confianza BCa y paramétrico son similares ya que el tamaño de muestra es grande y la media es un estimador estable. Sin embargo, según la literatura el intervalo BCa resulta preferible cuando la distribución original presenta asimetría, de paramétricos fuertes. En cambio, el intervalo paramétrico es más simple y eficiente cuando los supuestos de normalidad son razonables o el tamaño muestral es suficientemente grande.
c) Usando bootstrap, estime el coeficiente de correlación de Pearson entre MonthlyIncome y YearsAtCompany con un IC al 95 %.
## [1] 0.5142848
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 9999 bootstrap replicates
##
## CALL :
## boot.ci(boot.out = b_cor, conf = 0.95, type = "bca")
##
## Intervals :
## Level BCa
## 95% ( 0.4603, 0.5650 )
## Calculations and Intervals on Original Scale
RTA// Al intervalo no contiener el valor 0, se sugiere la existencia de asociación lineal entre ambas variables lo que se interpreta cómo una relación entre la variable de MonthlyIncome y YearsAtCompany.
d) Implemente bootstrap para el coeficiente de Gini de MonthlyIncome: estime su error estándar y construya un IC.
## [1] 0.374069
## [1] 0.00473291
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 9999 bootstrap replicates
##
## CALL :
## boot.ci(boot.out = b_gini, conf = 0.95, type = "bca")
##
## Intervals :
## Level BCa
## 95% ( 0.3650, 0.3835 )
## Calculations and Intervals on Original Scale
RTA// La empresa tiene una estructura salarial con una concentración de ingresos del 37%,
En la elaboración del presente trabajo se utilizaron herramientas de inteligencia artificial, específicamente ChatGPT, como apoyo en el proceso de aprendizaje y desarrollo del contenido.
Estas herramientas fueron empleadas para:
Es importante destacar que todos los resultados, interpretaciones y conclusiones presentadas fueron revisadas, comprendidas y validadas por el autor, quien asume la responsabilidad total del contenido entregado.
El uso de inteligencia artificial se realizó como una herramienta de apoyo académico y no como sustituto del proceso de aprendizaje ni del trabajo autónomo.