Introducción

Se busca a través de este EDA responder algunas preguntas que consideramos importantes y relevantes para FORM. Y así tener información útil para tomar decisiones estratégicas en la administración y operación de la empresa.

Las preguntas se mostraran a continuación.

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(stringr)
library(readr)
library(dplyr)
library(tidyr)
library(grid)
library(psych)
## 
## Attaching package: 'psych'
## 
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
library(gplots)
## 
## Attaching package: 'gplots'
## 
## The following object is masked from 'package:stats':
## 
##     lowess

Pregunta 1

¿Que estado civil estan lo que se dan de baja?

Abrir base de datos

# file.choose()
BDD_FORM_BAJAS_2023 <- read_csv("/Users/davidcavazos/Desktop/BDD_FORM_BAJAS_2023.csv")
## Rows: 279 Columns: 28
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (24): Apellidos, Nombre, Fecha de Nacimiento, Género, RFC, Fecha de Alta...
## dbl  (4): No., SD, CP, Número de Télefono
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Seleccionar las variables de Motivo de baja y Estado Civil en un nuevo data frame.

mbaja <- select(BDD_FORM_BAJAS_2023,`Motivo de Baja`,`Estado Civil`) %>% na.omit(mbaja)

Agrupar la categoría con diferentes nombres cambiando a el mismo nombre

mbaja$"Motivo de Baja"[mbaja$"Motivo de Baja" == "Inducida."] <- "Inducida"

mbaja$"Motivo de Baja"[mbaja$"Motivo de Baja" == "Inducida (Faltas)"] <- "Inducida por faltas"

mbaja$"Motivo de Baja"[mbaja$"Motivo de Baja" == "Inducida (Faltas no dio los tiempos)"] <- "Inducida"

Calcular los porcentajes por categoría y estado civil

porcentajes <- mbaja %>%
  group_by(`Estado Civil`, `Motivo de Baja`) %>%
  summarise(Frecuencia = n()) %>%
  group_by(`Estado Civil`) %>%
  mutate(Pct = scales::percent(Frecuencia / sum(Frecuencia)))
## `summarise()` has grouped output by 'Estado Civil'. You can override using the
## `.groups` argument.

Gráfica de barras apliadas

plot <- ggplot(porcentajes, aes(x = `Estado Civil`, y = Frecuencia, fill = `Motivo de Baja`)) +
  geom_bar(stat = "identity") +
  theme_minimal() +
  theme(
    panel.grid.major = element_line(color = "grey", linewidth = 0.4, linetype = "dotted"),  # Líneas verticales
    panel.grid.minor = element_line(color = "grey", linewidth = 0.4, linetype = "dotted")  # Líneas horizontales
  )+
  ggtitle("Relación entre Motivo de Baja y Estado Civil")

Agregar etiquetas de porcentaje

plot + geom_text(aes(label = Pct), position = position_stack(vjust = 0.5),size=2)

Interpretación 1

Por lo que podemos ver en la gráfica, la gran mayoría de las bajas en todas las categorías son por separación voluntaria y realmente no se logra ver una correlación entre el estado civil de la persona y el motivo de baja, lo que podría indicar una alta rotación de empleados en los trabajos de maquila en general o podría ser un indicador de que hay varias áreas de oportunidad en cuestión de amenidades, salarios, bonos, oportunidades de crecimiento en la empresa, traslado o prestaciones que la empresa ofrece además de las básicas dictadas por la ley.

Pregunta 2

¿Cual es la relacion entre la edad y las bajas?

Carga de datos

#file.choose()
bajas<-read_csv("/Users/davidcavazos/Desktop/form_bajas_22.csv")
## Rows: 238 Columns: 25
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (23): APELLIDOS, NOMBRE, FECHA DE NACIMIENTO, GENERO, RFC, FECHA DE ALTA...
## dbl  (2): DIAS LABORADOS, SALARIO DIARIO IMSS
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
#view(bajas)

Modificación de base de datos

#Estoy creando un data frame nuevo con las columnas necesarias para hacer la gráfica

bajas1 <- select(bajas,"NOMBRE","APELLIDOS","FECHA DE NACIMIENTO","DIAS LABORADOS","SALARIO DIARIO IMSS") %>% na.omit(bajas1)
#view(bajas1)

Estadísiticos Descriptivos

Dias Laborados

summary(bajas1$`DIAS LABORADOS`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    8.75   19.00   80.00   49.25 1966.00

Salario

summary(bajas1$`SALARIO DIARIO IMSS`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   144.4   180.7   180.7   177.7   180.7   500.0

Edad de colaboradores

#Aquí reviso que formato tienen las columnas 

str(bajas1)
## tibble [212 × 5] (S3: tbl_df/tbl/data.frame)
##  $ NOMBRE             : chr [1:212] "MARIA FERNANDA" "EMANUEL" "TRINIDAD" "WILMAR" ...
##  $ APELLIDOS          : chr [1:212] "JIMENEZ ALANIS" "JAUREGUI SANCHEZ" "GARCIA CAZARES" "LOPEZ ROMERO" ...
##  $ FECHA DE NACIMIENTO: chr [1:212] "7/10/1998" "10/3/1998" "5/25/1997" "9/4/2001" ...
##  $ DIAS LABORADOS     : num [1:212] 423 35 102 63 34 23 30 6 0 141 ...
##  $ SALARIO DIARIO IMSS: num [1:212] 177 181 181 177 181 ...
##  - attr(*, "na.action")= 'omit' Named int [1:26] 8 27 28 58 67 110 135 136 137 141 ...
##   ..- attr(*, "names")= chr [1:26] "8" "27" "28" "58" ...
#Aquí estoy haciendo una extracción del año de nacimiento excluyendo los días y meses. 

#Decidí hacer esto porque hay filas en las que está escrito M/D/A y otras D/M/A


bajas1$ANIO<-str_sub(bajas1$`FECHA DE NACIMIENTO`,-4,-1)

#Convirtiendo la columna de "ANIO" en integer

bajas1$ANIO <- as.integer(bajas1$ANIO)

str(bajas1)
## tibble [212 × 6] (S3: tbl_df/tbl/data.frame)
##  $ NOMBRE             : chr [1:212] "MARIA FERNANDA" "EMANUEL" "TRINIDAD" "WILMAR" ...
##  $ APELLIDOS          : chr [1:212] "JIMENEZ ALANIS" "JAUREGUI SANCHEZ" "GARCIA CAZARES" "LOPEZ ROMERO" ...
##  $ FECHA DE NACIMIENTO: chr [1:212] "7/10/1998" "10/3/1998" "5/25/1997" "9/4/2001" ...
##  $ DIAS LABORADOS     : num [1:212] 423 35 102 63 34 23 30 6 0 141 ...
##  $ SALARIO DIARIO IMSS: num [1:212] 177 181 181 177 181 ...
##  $ ANIO               : int [1:212] 1998 1998 1997 2001 2002 2000 2000 1999 2002 1994 ...
##  - attr(*, "na.action")= 'omit' Named int [1:26] 8 27 28 58 67 110 135 136 137 141 ...
##   ..- attr(*, "names")= chr [1:26] "8" "27" "28" "58" ...
#Aquí creó una nueva columna llamada "EDAD" restando el año actual con el de "ANIO

bajas1$EDAD <- 2023-bajas1$ANIO

#Había un error en el cual existían tres filas que tenían edad de 1 por lo cual le pedí que solo mostrara los que son mayor a 18.

bajas1 <- bajas1[bajas1$EDAD >18,]

Histograma de frecuencias

hist(bajas1$EDAD,col = blues9,xlab = "Edad",ylab ="Frecuencia" ,main = "Bajas por Edad")

Interpretación 2

Nos damos cuenta de que la rotación de personal se ve más alta en los colaboradores más jóvenes. Esto es información útil ya que nos permite tomar decisiones adecuadas para mejorar la satisfacción laboral en específico para estos rangos de edades. Con esta gráfica podemos entrar más a detalle en el área de oportunidad y así entender las razones de la alta rotación. Nos damos cuenta de que se tiene que hacer un esfuerzo por mejorar la relación con las nuevas generaciones o contratar a personas mayores.

Pregunta 3

¿A que edad ingresan a trabajar nuevos empleados a FORM y que genero son?

Carga de datos

rh <- read.csv("/Users/davidcavazos/Desktop/form_rh_datos.csv")

#View(rh)

edad <- select(rh,"FECHA.DE.ALTA", "FECHA.DE.NACIMIENTO") 

#str(rh)

Modificacion de Datos

rh$año_alta <- str_sub(rh$FECHA.DE.ALTA, -4, -1) 
rh$año_nac <- str_sub(rh$FECHA.DE.NACIMIENTO, -4, -1)
rh$año_alta <- as.integer(rh$año_alta)
rh$año_nac <- as.integer(rh$año_nac)

rh <- rh[rh$año_alta > 2013,]
rh <- rh[-30,]

Calcular la edad de ingreso y Medidas de Dispersion

rh$edad_ingreso <- rh$año_alta - rh$año_nac
rh <- rh[rh$edad_ingreso > 18,]

edad_de_ingreso_max <- max(rh$edad_ingreso)
print(edad_de_ingreso_max)
## [1] 60
edad_de_ingreso_min <- min(rh$edad_ingreso)
print(edad_de_ingreso_min)
## [1] 19
edad_de_ingreso_mean <- mean(rh$edad_ingreso)
print(edad_de_ingreso_mean)
## [1] 34.92308

Histograma de Edad

hist(rh$edad_ingreso,col = "#009E73" ,xlab = "Edad",main = "Alta por Edad")

Histograma Genero

ggplot(rh, aes(edad_ingreso, fill = GENERO)) + 
  geom_histogram(bins=10) + 
  labs(y="") 

Interpretacion 3

Podemos analizar en las graficas que la edad mas comun para ingresar a trabajar a FORM es entre los 25 - 30 lo que nos puede ayudar a crear campañas de reclutamiento enfocadas en el mercado de edad al que los empleados de FORM estan enfocados, FORM cuenta con un gran rango de edades comenzando desde los 19 y llegando hasta los 60. Este ultimo siendo el grupo mas pequeño dentro de la empresa mientras que los jovenes de 18 - 20 tienden a ser un porcentaje mas alto de hombres. Nos damos cuenta con la grafica que FORM le abre las puertas a muchas personas y ofrece oportunidades de trabajo para nuevas generaciones y personas con experiencia

Tabla de frecuencia/contingencia

Importar datasets

bajas = read.csv("/Users/davidcavazos/Desktop/form_bajas_22.csv")
dfbajas = bajas 
#View(bajas)
empleados = read.csv("/Users/davidcavazos/Desktop/form_rh_datos.csv")
empleadosdf = empleados
#View(empleados)

LIMPIEZA BASE DE DATOS

bajas$ESTADO.CIVIL = gsub("MATRIOMONIO", "MATRIMONIO", bajas$ESTADO.CIVIL)

MOTIVO DE BAJA

motivo_bajas = ggplot(bajas, aes(x = MOTIVO.DE.BAJA)) +
  geom_bar() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))
estado_civil = ggplot(bajas, aes(x = ESTADO.CIVIL)) +
  geom_bar() 

FRECUENCIA DE DÍAS LABORADOS

hist(bajas$DIAS.LABORADOS,col = blues9,xlab = "DIAS LABORADOS",ylab ="Frecuencia" ,main = "Días Laborados")

SEPARACION DE FECHAS - BAJAS

df_rotacion = bajas %>% select(GENERO, FECHA.DE.ALTA,BAJA, MOTIVO.DE.BAJA, DIAS.LABORADOS, PUESTO)
df_rotacion = df_rotacion %>% separate(BAJA, into = c("MONTH_BAJA", "DAY_BAJA", "YEAR_BAJA"), sep = "/")
## Warning: Expected 3 pieces. Missing pieces filled with `NA` in 15 rows [27, 28, 58, 135,
## 137, 141, 151, 178, 179, 198, 203, 205, 207, 212, 238].

SEPARACION DE FECHAS - ALTAS

df_rotacion = df_rotacion %>% separate(FECHA.DE.ALTA, into = c("MONTH_ALTA", "DAY_ALTA", "YEAR_ALTA"), sep = "/")
## Warning: Expected 3 pieces. Missing pieces filled with `NA` in 1 rows [238].

HISTOGRAMAS MESES EN LOS QUE DAN BAJAS

df_rotacion$MONTH_BAJA = as.numeric(df_rotacion$MONTH_BAJA)
hist(df_rotacion$MONTH_BAJA,col = blues9,xlab = "MONTH_BAJA",ylab ="Frecuencia" ,main = "Bajas por Mes")

ASIGNACIÓN DE MESES

df_months <- df_rotacion %>%
  mutate(NAME_MONTH = case_when(
    MONTH_BAJA == 1 ~ "Enero",
    MONTH_BAJA == 2 ~ "Febrero",
    MONTH_BAJA == 3 ~ "Marzo",
    MONTH_BAJA == 4 ~ "Abril",
    MONTH_BAJA == 5 ~ "Mayo",
    MONTH_BAJA == 6 ~ "Junio",
    MONTH_BAJA == 7 ~ "Julio",
    MONTH_BAJA == 8 ~ "Agosto",
    MONTH_BAJA == 9 ~ "Septiembre",
    MONTH_BAJA == 10 ~ "Octubre",
    MONTH_BAJA == 11 ~ "Noviembre",
    MONTH_BAJA == 12 ~ "Diciembre"
  )) %>%
  filter(NAME_MONTH %in% c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")) %>%
  select(GENERO, MONTH_BAJA, DAY_ALTA, YEAR_ALTA, MOTIVO.DE.BAJA, NAME_MONTH, PUESTO)
#View(df_months)

GRAFICO DE BARRAS

barplot_subcategory <- ggplot(df_months, aes(x = NAME_MONTH)) +
  geom_bar(fill = "#F46C22", width = 0.5) +
  ggtitle("Bajas por Mes")
barplot_subcategory 

TABLA DE FRECUENCIAS

month_frecuencias = table(df_months$NAME_MONTH)
meses_cronologicos <- c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")

Datos adicionales requeridos

Para llevar a cabo un análisis más completo y una comprensión más profunda del clima organizacional en Form, resulta fundamental la implementación de encuestas cualitativas. Estas encuestas abordarán aspectos clave, tales como la satisfacción con las instalaciones laborales, las condiciones de trabajo, los horarios, el transporte al lugar de trabajo, la remuneración, la dinámica de liderazgo en Form, la comodidad en el entorno de trabajo y su posible correlación con las tasas de rotación, tanto voluntaria como involuntaria, y otras relaciones y respuestas relevantes que podrían identificarse.

