📌 Problema de aplicación utilizando la base de datos

📊 Una empresa multinacional está analizando el desempeño de sus empleados en distintos departamentos:
💰 Finanzas, ⚙️ Operaciones, 📈 Ventas y 🏢 Recursos Humanos (RRHH).

Se recopilaron datos sobre:

🔹 Salario mensual (en dólares)
Para evaluar la remuneración en función del área de trabajo.

🔹 Años de experiencia
Para analizar la relación entre trayectoria laboral y compensación.

🔹 Evaluación de desempeño (escala de 1 a 5)
Para medir la calidad del trabajo realizado por los empleados. Se categorizo de la siguiente forma:

Si la calificación es 1, 2 o 3 → “Bajo Desempeño”

Si la calificación es 4 o 5 → “Alto Desempeño”

✨ Objetivo:
Realizar estimaciones estadísticas para identificar tendencias salariales, la relación entre experiencia y evaluación de desempeño, y posibles áreas de mejora en la gestión del talento dentro de la empresa.

📊 Un equipo de analistas de Recursos Humanos desea estimar el salario promedio de los empleados en el departamento de Finanzas.
Para ello, selecciona una muestra aleatoria de 50 empleados de este departamento y registra su salario mensual.

📊 Análisis exploratorio de la base

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readr)

datos <- read_csv("datos_negocios_var_1_empleados.csv")

## Rows: 100 Columns: 4

## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): Departamento
## dbl (3): Salario, Años_Experiencia, Evaluacion_Desempeno
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

head(datos)

## # A tibble: 6 × 4
##   Departamento Salario Años_Experiencia Evaluacion_Desempeno
##   <chr>          <dbl>            <dbl>                <dbl>
## 1 Finanzas       5705.               21                  4.3
## 2 Operaciones    2614.               30                  5  
## 3 Finanzas       2514.                4                  4.2
## 4 Operaciones    5799.               30                  4.6
## 5 Operaciones    5424.               20                  3.4
## 6 Finanzas       2920.               13                  3.7

📊 Resumen estadístico de las variables numéricas

summary(datos)

##  Departamento          Salario     Años_Experiencia Evaluacion_Desempeno
##  Length:100         Min.   :2171   Min.   : 1.00    Min.   :3.000       
##  Class :character   1st Qu.:3344   1st Qu.: 8.00    1st Qu.:3.500       
##  Mode  :character   Median :4840   Median :15.00    Median :3.900       
##                     Mean   :4835   Mean   :14.64    Mean   :3.951       
##                     3rd Qu.:6085   3rd Qu.:21.00    3rd Qu.:4.525       
##                     Max.   :7904   Max.   :30.00    Max.   :5.000

✅ La mediana (4840) y la media (4835) están muy cercanas, lo que sugiere que la distribución de los salarios es aproximadamente simétrica.

✅ Se observa una variabilidad significativa, con valores que oscilan entre 2171 y 7904.

✅ El rango intercuartílico (IQR), calculado como Q3 - Q1 = 6085 - 3344 = 2741, indica que la mayoría de los datos se concentra en este intervalo.

📊 La simetría en la distribución sugiere que los salarios no están fuertemente sesgados, mientras que el IQR nos muestra el rango donde se encuentra la mayor parte de los empleados.

if (!require(ggplot2)) install.packages("ggplot2", dependencies = TRUE)

## Loading required package: ggplot2

library(ggplot2)

ggplot(datos, aes(x = Departamento, y = Salario, fill = Departamento)) +
  geom_boxplot() +
  labs(title = "Distribución de Salarios por Departamento",
       x = "Departamento",
       y = "Salario Mensual") +
  theme_minimal()

📊 Análisis de la distribución salarial por departamento

✅ Este gráfico muestra que la distribución de los salarios en los cuatro departamentos es relativamente similar.

✅ Sin embargo, los departamentos de RRHH y Ventas presentan una mayor dispersión, lo que indica que hay una diferencia más amplia entre los salarios más bajos y más altos.

✅ En contraste, los departamentos de Finanzas y Operaciones tienen una distribución más compacta, lo que sugiere menor variabilidad en los salarios.

🔍 La variabilidad en RRHH y Ventas puede estar relacionada con diferencias en niveles de experiencia, roles o políticas de compensación dentro de estos departamentos.

Años_Experiencia_Departamento <- datos %>%
  group_by(Departamento) %>%
  summarise(Años_Experiencia_Porcentaje = mean(Años_Experiencia) * 100)

print(Años_Experiencia_Departamento)

## # A tibble: 4 × 2
##   Departamento Años_Experiencia_Porcentaje
##   <chr>                              <dbl>
## 1 Finanzas                           1167.
## 2 Operaciones                        1513.
## 3 RRHH                               1697.
## 4 Ventas                             1422.

📊 Análisis de Experiencia por Departamento

El estudio revela diferencias significativas en los años de experiencia promedio entre los departamentos:

💼 RRHH lidera con 1696.67 años, lo que indica una plantilla con mayor trayectoria y conocimientos clave para la gestión organizacional.

⚙️ Operaciones y 🛒 Ventas presentan valores intermedios (1513.04 y 1421.74 años respectivamente), reflejando un balance entre renovación y experiencia.

💰 Finanzas muestra el menor promedio (1166.67 años), lo que podría estar asociado a una mayor rotación o un enfoque en nuevas contrataciones.

🔍 RRHH cuenta con la mayor experiencia, clave para la gestión organizacional. Finanzas tiene la menor, posiblemente por alta rotación o nuevas contrataciones. Operaciones y Ventas mantienen un equilibrio entre estabilidad y renovación.

library(ggplot2)
library(dplyr)


datos <- datos %>%
  mutate(Desempeno_Categorizado = ifelse(Evaluacion_Desempeno >= 4, "Alto Desempeño", "Bajo Desempeño"))


ggplot(datos, aes(x = Departamento, fill = Desempeno_Categorizado)) +
  geom_bar(position = "stack") +
  labs(title = "Evaluación de Desempeño por Departamento",
       x = "Departamento",
       y = "Frecuencia",
       fill = "Desempeño") +
  scale_fill_manual(values = c("Alto Desempeño" = "darkgreen", "Bajo Desempeño" = "red")) +
  theme_minimal()

📊 Análisis de Desempeño por Departamento

La gráfica refleja la distribución de empleados según su evaluación de desempeño en Finanzas, Operaciones, RRHH y Ventas, segmentada en:

✅ Alto Desempeño (Verde): Calificación entre 4 y 5.

⚠️ Bajo Desempeño (Rojo): Calificación entre 1, 2 y 3.

Hallazgos

🔹 RRHH sobresale en alto desempeño, reflejando una gestión eficiente del talento.

🔹 Finanzas y Operaciones mantienen un balance entre alto y bajo desempeño.

🔹 Ventas registra un mayor porcentaje de bajo desempeño, lo que podría evidenciar desafíos en rendimiento o una necesidad de capacitación.

library(ggplot2)
library(dplyr)

datos <- datos %>%
  mutate(Desempeno_Categorizado = ifelse(Evaluacion_Desempeno >= 4, "Alto Desempeño", "Bajo Desempeño"))

ggplot(datos, aes(x = Desempeno_Categorizado, y = Salario, fill = Desempeno_Categorizado)) +
  geom_boxplot(alpha = 0.6) +
  labs(title = "Distribución de Salarios según Evaluación de Desempeño",
       x = "Evaluación de Desempeño",
       y = "Salario") +
  scale_fill_manual(values = c("red", "green")) + 
  theme_minimal()

📊 Análisis de la Distribución Salarial por Desempeño

✅ Los empleados con bajo desempeño tienen una mediana salarial ligeramente mayor que los de alto desempeño, lo cual es contraintuitivo y podría indicar estructuras salariales no alineadas con el rendimiento.

✅ Ambas categorías presentan una dispersión considerable, con rangos de salario desde aproximadamente 2,000 hasta 8,000.

🔍 Se observa que en ambas categorías hay empleados con salarios bajos y altos, lo que sugiere que otros factores pueden estar influyendo en la remuneración, como la antigüedad o el tipo de puesto.

library(ggplot2)

ggplot(datos, aes(x = Salario)) + 
  geom_histogram(aes(y = ..density..), bins = 30, fill = "red", color = "black", alpha = 0.7) + 
  geom_density(color = "darkgreen", size = 1.2) + 
  labs(title = "Distribución de los Salarios",
       x = "Salario",
       y = "Densidad") + 
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

📊 Análisis de la Distribución Salarial

🔹 La distribución es irregular y multimodal, con varios picos, lo que sugiere una estructura salarial diversa.

🔹 La mayoría de los salarios están concentrados entre 2,000 y 7,000, sin una clara tendencia normal.

🔹 Se observa una ligera asimetría a la derecha, indicando la presencia de salarios más altos en menor frecuencia.

📊 Intervalo de confianza para la media

Calcular un intervalo de confianza al 95% para la media poblacional de los salarios mensuales en en el departamento de Finanzas. Interpretar el intervalo obtenido y evaluar si es posible hacer inferencias sobre el total de empleados

Datos:

Muestra: n=50 Empleados
Media muestral (x̄): Calculada con la muestra
Desviación estándar muestral (s): Calculada con la muestra
Nivel de confianza: 95%

datos_Finanzas <- filter(datos, Departamento == "Finanzas")
datos_Finanzas

## # A tibble: 24 × 5
##    Departamento Salario Años_Experiencia Evaluacion_Desempeno
##    <chr>          <dbl>            <dbl>                <dbl>
##  1 Finanzas       5705.               21                  4.3
##  2 Finanzas       2514.                4                  4.2
##  3 Finanzas       2920.               13                  3.7
##  4 Finanzas       4823.                5                  3.6
##  5 Finanzas       2257.               19                  4.7
##  6 Finanzas       5005.                8                  4.3
##  7 Finanzas       5798.               26                  3.8
##  8 Finanzas       4060.                3                  3.9
##  9 Finanzas       2308.               14                  3.4
## 10 Finanzas       6009.               20                  4.7
## # ℹ 14 more rows
## # ℹ 1 more variable: Desempeno_Categorizado <chr>

media_Salario_Finanzas <- mean(datos_Finanzas$Salario)  
sd_Salario_Finanzas <- sd(datos_Finanzas$Salario)  
n_Finanzas <- nrow(datos_Finanzas)
error_media_Finanzas <- qt(0.975, df = n_Finanzas - 1) * sd_Salario_Finanzas / sqrt(n_Finanzas)  

IC_media_Finanzas <- c(media_Salario_Finanzas - error_media_Finanzas, media_Salario_Finanzas + error_media_Finanzas)

cat("Media de Salarios:", media_Salario_Finanzas, "\n")

## Media de Salarios: 4681.108

cat("Con un 95% de confianza la media poblacional de los salarios mensuales en el departamento de Finanzas esta entre:", IC_media_Finanzas, "\n")

## Con un 95% de confianza la media poblacional de los salarios mensuales en el departamento de Finanzas esta entre: 4019.891 5342.326

📊 Intervalo de confianza para la proporción

El equipo de analistas de Recursos Humanos desea estimar el porcentaje de empleados con una evaluación de desempeño alta (4 o 5 puntos) en el departamento de Finanzas. Para ello, selecciona una muestra aleatoria de 50 empleados de este departamento y revisa su evaluación de desempeño.

Con base en estos datos, se requiere:

Calcular un intervalo de confianza al 95% para la proporción de empleados con alta evaluación de desempeño en Finanzas.
Analizar si esta proporción indica una buena calidad del desempeño en el departamento.

Muestra: 𝑛=50 empleados Proporción muestral (𝑝^): Calculada con la muestra Nivel de confianza: 95%

evaluaciones_Finanzas <- datos_Finanzas$Evaluacion_Desempeno
empleados_alto_desempeno <- ifelse(evaluaciones_Finanzas >= 4, 1, 0)
n_Finanzas <- 50  
p_hat <- mean(empleados_alto_desempeno)
error_estandar <- sqrt((p_hat * (1 - p_hat)) / n_Finanzas)
z_critico <- qnorm(0.975)  # Valor crítico para un IC del 95%
error_margen <- z_critico * error_estandar


IC_proporcion_Finanzas <- c(p_hat - error_margen, p_hat + error_margen)

cat("Proporción muestral de empleados con alto desempeño en Finanzas:", round(p_hat * 100, 2), "%\n")

## Proporción muestral de empleados con alto desempeño en Finanzas: 54.17 %

cat("Tamaño de la muestra en Finanzas:", n_Finanzas, "\n")

## Tamaño de la muestra en Finanzas: 50

cat("Con una confianza del 95% se estima que el porcentaje de empleados con una evaluación de desempeño alta (4 o 5 puntos) en el departamento de Finanzas esta entre:\n")

## Con una confianza del 95% se estima que el porcentaje de empleados con una evaluación de desempeño alta (4 o 5 puntos) en el departamento de Finanzas esta entre:

cat("[", round(IC_proporcion_Finanzas[1] * 100, 2), "%,", round(IC_proporcion_Finanzas[2] * 100, 2), "%]\n")

## [ 40.36 %, 67.98 %]

Si el intervalo de confianza indica que una gran proporción de empleados tiene una evaluación de 4 o 5, entonces el departamento de Finanzas puede considerarse como un área con buen desempeño.

Si la proporción es baja, la empresa podría investigar posibles problemas como falta de motivación, dificultades en la gestión o falta de capacitación.

📊 Intervalo de confianza para la dif de proporciones

Una empresa multinacional desea comparar la proporción de empleados con alto desempeño entre los departamentos de Finanzas y Ventas, con el fin de evaluar si hay diferencias significativas en el rendimiento de sus trabajadores.

Para ello, se ha seleccionado una muestra aleatoria de 50 empleados de cada departamento y se ha categorizado su desempeño en función de su evaluación:

Alto desempeño (1 = Sí): Si el empleado obtuvo una calificación de 4 o 5 en la evaluación de desempeño.

Bajo desempeño (0 = No): Si el empleado obtuvo una calificación de 1, 2 o 3.

Con base en estos datos, se requiere:

Calcular un intervalo de confianza al 95% para la diferencia de proporciones de empleados con alto desempeño entre Finanzas y Ventas.
Interpretar el intervalo obtenido y evaluar si hay una diferencia significativa en el desempeño entre ambos departamentos.

Muestra en Finanzas: n𝐹=50 empleados

Muestra en Ventas: n𝑉=50 empleados

Proporción muestral en Finanzas: 𝑝^𝐹

Proporción muestral en Ventas: 𝑝^𝑉

Nivel de confianza: 95%

El intervalo de confianza para la diferencia de proporciones se calcula mediante la siguiente fórmula:

\[ IC = (\hat{p}_A - \hat{p}_B) \pm Z_{\alpha/2} \times \sqrt{\frac{\hat{p}_A (1 - \hat{p}_A)}{n_A} + \frac{\hat{p}_B (1 - \hat{p}_B)}{n_B}} \]

Donde:

\(Z_{\alpha/2}\) es el valor crítico de la distribución normal estándar.
\(\hat{p}_A\) y \(\hat{p}_B\) son las proporciones muestrales de cada ciudad.
\(n_A\) y \(n_B\) son los tamaños de muestra.

set.seed(123)  
datos <- data.frame(
  Departamento = rep(c("Finanzas", "Ventas"), each = 50),
  Evaluacion_Desempeno = sample(1:5, 100, replace = TRUE)  
)

datos$Alto_Desempeno <- ifelse(datos$Evaluacion_Desempeno >= 4, 1, 0)


p_F <- mean(datos$Alto_Desempeno[datos$Departamento == "Finanzas"])  
p_V <- mean(datos$Alto_Desempeno[datos$Departamento == "Ventas"])    


n_F <- sum(datos$Departamento == "Finanzas")
n_V <- sum(datos$Departamento == "Ventas")


confianza <- 0.95
z_alpha2 <- qnorm(1 - (1 - confianza) / 2)  


error_estandar <- sqrt((p_F * (1 - p_F) / n_F) + (p_V * (1 - p_V) / n_V))


limite_inferior <- (p_F - p_V) - z_alpha2 * error_estandar
limite_superior <- (p_F - p_V) + z_alpha2 * error_estandar


diferencia_proporciones <- p_F - p_V

cat("Proporción en Finanzas:", round(p_F, 3), "\n")

## Proporción en Finanzas: 0.34

cat("Proporción en Ventas:", round(p_V, 3), "\n")

## Proporción en Ventas: 0.38

cat("Diferencia de proporciones:", round(diferencia_proporciones, 3), "\n")

## Diferencia de proporciones: -0.04

cat("Intervalo de confianza (95%) :", round(limite_inferior, 3), "a", round(limite_superior, 3), "\n")

## Intervalo de confianza (95%) : -0.228 a 0.148

🔹 El intervalo de confianza del 95% para la diferencia de proporciones es [-0.228, 0.148], lo que significa que la diferencia real podría ser negativa, cero o incluso positiva.

🔹 Como el intervalo incluye el cero, no hay evidencia estadísticamente significativa para afirmar que un departamento tiene mayor proporción de alto desempeño que el otro.

📌 Prueba de hipotesis

Prueba de Hipótesis para la Media

El equipo de Recursos Humanos de una empresa multinacional desea saber si la duración promedio de las capacitaciones internas en el departamento de Recursos Humanos es de 10 minutos. Para validar esta hipótesis, se toma una muestra aleatoria de 50 sesiones de capacitación y se encuentra que la duración promedio es de 11 minutos, con una desviación estándar de 2.5 minutos.

✳️ 1. Hipótesis:

H₀: μ = 10 → La duración promedio es igual a 10 minutos

H₁: μ ≠ 10 → La duración promedio es diferente de 10 minutos

✳️ 2. Nivel de significancia: α = 0.05

# Datos conocidos
n <- 50                    # tamaño de la muestra
media_muestral <- 11       # media observada
desviacion <- 2.5          # desviación estándar muestral
mu_hipotetico <- 10       

# Generamos la muestra simulada para aplicar la prueba
set.seed(123)
duraciones <- rnorm(n, mean = media_muestral, sd = desviacion)

# Prueba t para una muestra (bilateral)
resultado <- t.test(duraciones, mu = mu_hipotetico, alternative = "two.sided", conf.level = 0.95)

# Mostrar resultado completo
print(resultado)

## 
##  One Sample t-test
## 
## data:  duraciones
## t = 3.3176, df = 49, p-value = 0.001717
## alternative hypothesis: true mean is not equal to 10
## 95 percent confidence interval:
##  10.42819 11.74383
## sample estimates:
## mean of x 
##  11.08601

#📌 Interpretación:

Con base en los resultados obtenidos de la prueba t para una muestra, se observa que el valor p (p-value = 0.001717) es menor al nivel de significancia establecido (α = 0.05), y el intervalo de confianza del 95% para la media (10.42 a 11.74) no incluye el valor hipotético de 10 minutos. Por lo tanto, se rechaza la hipótesis nula y se concluye que existe evidencia estadísticamente significativa para afirmar que la duración promedio de las capacitaciones en el departamento de Recursos Humanos es diferente de 10 minutos.

Prueba de Hipótesis para una Proporción

En una empresa multinacional, el equipo de Recursos Humanos desea saber si menos de la mitad de los empleados del área de Operaciones tienen un alto desempeño (evaluación igual a 4 o 5 en una escala de 1 a 5). Se toma una muestra aleatoria de 802 empleados del área y se encuentra que 378 fueron calificados con alto desempeño. Contrasta esta hipótesis al nivel de significancia del 10% (α = 0.10).

✳️ 1. Hipótesis: H₀: p ≥ 0.5 → Al menos la mitad de los empleados tienen alto desempeño

H₁: p < 0.5 → Menos de la mitad tienen alto desempeño

✳️ 2. Nivel de significancia: α = 0.10

# Datos
n <- 802                # tamaño de la muestra
x <- 378                # número de empleados con alto desempeño
p_hipotetico <- 0.5     # proporción bajo H0

# Prueba de proporciones (binomial aproximado normal)
resultado <- prop.test(x, n, p = p_hipotetico, alternative = "less", conf.level = 0.90, correct = FALSE)

# Mostrar resultados
print(resultado)

## 
##  1-sample proportions test without continuity correction
## 
## data:  x out of n, null probability p_hipotetico
## X-squared = 2.6384, df = 1, p-value = 0.05215
## alternative hypothesis: true p is less than 0.5
## 90 percent confidence interval:
##  0.0000000 0.4939466
## sample estimates:
##         p 
## 0.4713217

📌 Interpretación:

La proporción muestral de empleados con alto desempeño es aproximadamente 47.13%. El intervalo de confianza al 90% va de 0 a 0.493, y el valor 0.5 no está incluido en el intervalo. Además, el p-valor = 0.05215 < 0.10, por lo que se rechaza la hipótesis nula. En conclusión, existe evidencia estadística para afirmar que menos de la mitad de los empleados del área de Operaciones tienen un alto desempeño.

TALLER DE ANÁLISIS DESCRIPTIVO Y ESTIMACIONES ESTADÍSTICAS

Presentado por Maria Paula Santos, Daniela Salcedo y Jhonatan Rubio