Introducción
Se busca a través de este EDA responder algunas preguntas que
consideramos importantes y relevantes para FORM. Y así tener información
útil para tomar decisiones estratégicas en la administración y operación
de la empresa.
Las preguntas se mostraran a continuación.
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(stringr)
library(readr)
library(dplyr)
library(tidyr)
library(grid)
library(psych)
##
## Attaching package: 'psych'
##
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library(gplots)
##
## Attaching package: 'gplots'
##
## The following object is masked from 'package:stats':
##
## lowess
Pregunta 1
¿Que estado civil estan lo que se dan de baja?
Abrir base de datos
# file.choose()
BDD_FORM_BAJAS_2023 <- read_csv("/Users/davidcavazos/Desktop/BDD_FORM_BAJAS_2023.csv")
## Rows: 279 Columns: 28
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (24): Apellidos, Nombre, Fecha de Nacimiento, Género, RFC, Fecha de Alta...
## dbl (4): No., SD, CP, Número de Télefono
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Seleccionar las variables de Motivo de baja y Estado Civil en un
nuevo data frame.
mbaja <- select(BDD_FORM_BAJAS_2023,`Motivo de Baja`,`Estado Civil`) %>% na.omit(mbaja)
Agrupar la categoría con diferentes nombres cambiando a el mismo
nombre
mbaja$"Motivo de Baja"[mbaja$"Motivo de Baja" == "Inducida."] <- "Inducida"
mbaja$"Motivo de Baja"[mbaja$"Motivo de Baja" == "Inducida (Faltas)"] <- "Inducida por faltas"
mbaja$"Motivo de Baja"[mbaja$"Motivo de Baja" == "Inducida (Faltas no dio los tiempos)"] <- "Inducida"
Calcular los porcentajes por categoría y estado civil
porcentajes <- mbaja %>%
group_by(`Estado Civil`, `Motivo de Baja`) %>%
summarise(Frecuencia = n()) %>%
group_by(`Estado Civil`) %>%
mutate(Pct = scales::percent(Frecuencia / sum(Frecuencia)))
## `summarise()` has grouped output by 'Estado Civil'. You can override using the
## `.groups` argument.
Gráfica de barras
apliadas
plot <- ggplot(porcentajes, aes(x = `Estado Civil`, y = Frecuencia, fill = `Motivo de Baja`)) +
geom_bar(stat = "identity") +
theme_minimal() +
theme(
panel.grid.major = element_line(color = "grey", linewidth = 0.4, linetype = "dotted"), # Líneas verticales
panel.grid.minor = element_line(color = "grey", linewidth = 0.4, linetype = "dotted") # Líneas horizontales
)+
ggtitle("Relación entre Motivo de Baja y Estado Civil")
Agregar etiquetas de porcentaje
plot + geom_text(aes(label = Pct), position = position_stack(vjust = 0.5),size=2)

Interpretación 1
Por lo que podemos ver en la gráfica, la gran mayoría de las bajas en
todas las categorías son por separación voluntaria y realmente no se
logra ver una correlación entre el estado civil de la persona y el
motivo de baja, lo que podría indicar una alta rotación de empleados en
los trabajos de maquila en general o podría ser un indicador de que hay
varias áreas de oportunidad en cuestión de amenidades, salarios, bonos,
oportunidades de crecimiento en la empresa, traslado o prestaciones que
la empresa ofrece además de las básicas dictadas por la ley.
Pregunta 2
¿Cual es la relacion entre la edad y las bajas?
Carga de datos
#file.choose()
bajas<-read_csv("/Users/davidcavazos/Desktop/form_bajas_22.csv")
## Rows: 238 Columns: 25
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (23): APELLIDOS, NOMBRE, FECHA DE NACIMIENTO, GENERO, RFC, FECHA DE ALTA...
## dbl (2): DIAS LABORADOS, SALARIO DIARIO IMSS
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
#view(bajas)
Modificación de base de datos
#Estoy creando un data frame nuevo con las columnas necesarias para hacer la gráfica
bajas1 <- select(bajas,"NOMBRE","APELLIDOS","FECHA DE NACIMIENTO","DIAS LABORADOS","SALARIO DIARIO IMSS") %>% na.omit(bajas1)
#view(bajas1)
Estadísiticos
Descriptivos
Dias Laborados
summary(bajas1$`DIAS LABORADOS`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 8.75 19.00 80.00 49.25 1966.00
Salario
summary(bajas1$`SALARIO DIARIO IMSS`)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 144.4 180.7 180.7 177.7 180.7 500.0
Edad de colaboradores
#Aquí reviso que formato tienen las columnas
str(bajas1)
## tibble [212 × 5] (S3: tbl_df/tbl/data.frame)
## $ NOMBRE : chr [1:212] "MARIA FERNANDA" "EMANUEL" "TRINIDAD" "WILMAR" ...
## $ APELLIDOS : chr [1:212] "JIMENEZ ALANIS" "JAUREGUI SANCHEZ" "GARCIA CAZARES" "LOPEZ ROMERO" ...
## $ FECHA DE NACIMIENTO: chr [1:212] "7/10/1998" "10/3/1998" "5/25/1997" "9/4/2001" ...
## $ DIAS LABORADOS : num [1:212] 423 35 102 63 34 23 30 6 0 141 ...
## $ SALARIO DIARIO IMSS: num [1:212] 177 181 181 177 181 ...
## - attr(*, "na.action")= 'omit' Named int [1:26] 8 27 28 58 67 110 135 136 137 141 ...
## ..- attr(*, "names")= chr [1:26] "8" "27" "28" "58" ...
#Aquí estoy haciendo una extracción del año de nacimiento excluyendo los días y meses.
#Decidí hacer esto porque hay filas en las que está escrito M/D/A y otras D/M/A
bajas1$ANIO<-str_sub(bajas1$`FECHA DE NACIMIENTO`,-4,-1)
#Convirtiendo la columna de "ANIO" en integer
bajas1$ANIO <- as.integer(bajas1$ANIO)
str(bajas1)
## tibble [212 × 6] (S3: tbl_df/tbl/data.frame)
## $ NOMBRE : chr [1:212] "MARIA FERNANDA" "EMANUEL" "TRINIDAD" "WILMAR" ...
## $ APELLIDOS : chr [1:212] "JIMENEZ ALANIS" "JAUREGUI SANCHEZ" "GARCIA CAZARES" "LOPEZ ROMERO" ...
## $ FECHA DE NACIMIENTO: chr [1:212] "7/10/1998" "10/3/1998" "5/25/1997" "9/4/2001" ...
## $ DIAS LABORADOS : num [1:212] 423 35 102 63 34 23 30 6 0 141 ...
## $ SALARIO DIARIO IMSS: num [1:212] 177 181 181 177 181 ...
## $ ANIO : int [1:212] 1998 1998 1997 2001 2002 2000 2000 1999 2002 1994 ...
## - attr(*, "na.action")= 'omit' Named int [1:26] 8 27 28 58 67 110 135 136 137 141 ...
## ..- attr(*, "names")= chr [1:26] "8" "27" "28" "58" ...
#Aquí creó una nueva columna llamada "EDAD" restando el año actual con el de "ANIO
bajas1$EDAD <- 2023-bajas1$ANIO
#Había un error en el cual existían tres filas que tenían edad de 1 por lo cual le pedí que solo mostrara los que son mayor a 18.
bajas1 <- bajas1[bajas1$EDAD >18,]
Histograma de
frecuencias
hist(bajas1$EDAD,col = blues9,xlab = "Edad",ylab ="Frecuencia" ,main = "Bajas por Edad")

Interpretación
2
Nos damos cuenta de que la rotación de personal se ve más alta en los
colaboradores más jóvenes. Esto es información útil ya que nos permite
tomar decisiones adecuadas para mejorar la satisfacción laboral en
específico para estos rangos de edades. Con esta gráfica podemos entrar
más a detalle en el área de oportunidad y así entender las razones de la
alta rotación. Nos damos cuenta de que se tiene que hacer un esfuerzo
por mejorar la relación con las nuevas generaciones o contratar a
personas mayores.
Pregunta 3
¿A que edad ingresan a trabajar nuevos empleados a FORM y que
genero son?
Carga de datos
rh <- read.csv("/Users/davidcavazos/Desktop/form_rh_datos.csv")
#View(rh)
edad <- select(rh,"FECHA.DE.ALTA", "FECHA.DE.NACIMIENTO")
#str(rh)
Modificacion de Datos
rh$año_alta <- str_sub(rh$FECHA.DE.ALTA, -4, -1)
rh$año_nac <- str_sub(rh$FECHA.DE.NACIMIENTO, -4, -1)
rh$año_alta <- as.integer(rh$año_alta)
rh$año_nac <- as.integer(rh$año_nac)
rh <- rh[rh$año_alta > 2013,]
rh <- rh[-30,]
Calcular la edad de ingreso y Medidas de Dispersion
rh$edad_ingreso <- rh$año_alta - rh$año_nac
rh <- rh[rh$edad_ingreso > 18,]
edad_de_ingreso_max <- max(rh$edad_ingreso)
print(edad_de_ingreso_max)
## [1] 60
edad_de_ingreso_min <- min(rh$edad_ingreso)
print(edad_de_ingreso_min)
## [1] 19
edad_de_ingreso_mean <- mean(rh$edad_ingreso)
print(edad_de_ingreso_mean)
## [1] 34.92308
Histograma de
Edad
hist(rh$edad_ingreso,col = "#009E73" ,xlab = "Edad",main = "Alta por Edad")

Histograma
Genero
ggplot(rh, aes(edad_ingreso, fill = GENERO)) +
geom_histogram(bins=10) +
labs(y="")

Interpretacion
3
Podemos analizar en las graficas que la edad mas comun para ingresar
a trabajar a FORM es entre los 25 - 30 lo que nos puede ayudar a crear
campañas de reclutamiento enfocadas en el mercado de edad al que los
empleados de FORM estan enfocados, FORM cuenta con un gran rango de
edades comenzando desde los 19 y llegando hasta los 60. Este ultimo
siendo el grupo mas pequeño dentro de la empresa mientras que los
jovenes de 18 - 20 tienden a ser un porcentaje mas alto de hombres. Nos
damos cuenta con la grafica que FORM le abre las puertas a muchas
personas y ofrece oportunidades de trabajo para nuevas generaciones y
personas con experiencia
Tabla de
frecuencia/contingencia
Importar datasets
bajas = read.csv("/Users/davidcavazos/Desktop/form_bajas_22.csv")
dfbajas = bajas
#View(bajas)
empleados = read.csv("/Users/davidcavazos/Desktop/form_rh_datos.csv")
empleadosdf = empleados
#View(empleados)
LIMPIEZA BASE DE DATOS
bajas$ESTADO.CIVIL = gsub("MATRIOMONIO", "MATRIMONIO", bajas$ESTADO.CIVIL)
MOTIVO DE BAJA
motivo_bajas = ggplot(bajas, aes(x = MOTIVO.DE.BAJA)) +
geom_bar() +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
estado_civil = ggplot(bajas, aes(x = ESTADO.CIVIL)) +
geom_bar()
FRECUENCIA DE DÍAS LABORADOS
hist(bajas$DIAS.LABORADOS,col = blues9,xlab = "DIAS LABORADOS",ylab ="Frecuencia" ,main = "Días Laborados")

SEPARACION DE FECHAS - BAJAS
df_rotacion = bajas %>% select(GENERO, FECHA.DE.ALTA,BAJA, MOTIVO.DE.BAJA, DIAS.LABORADOS, PUESTO)
df_rotacion = df_rotacion %>% separate(BAJA, into = c("MONTH_BAJA", "DAY_BAJA", "YEAR_BAJA"), sep = "/")
## Warning: Expected 3 pieces. Missing pieces filled with `NA` in 15 rows [27, 28, 58, 135,
## 137, 141, 151, 178, 179, 198, 203, 205, 207, 212, 238].
SEPARACION DE FECHAS - ALTAS
df_rotacion = df_rotacion %>% separate(FECHA.DE.ALTA, into = c("MONTH_ALTA", "DAY_ALTA", "YEAR_ALTA"), sep = "/")
## Warning: Expected 3 pieces. Missing pieces filled with `NA` in 1 rows [238].
HISTOGRAMAS MESES EN LOS QUE DAN BAJAS
df_rotacion$MONTH_BAJA = as.numeric(df_rotacion$MONTH_BAJA)
hist(df_rotacion$MONTH_BAJA,col = blues9,xlab = "MONTH_BAJA",ylab ="Frecuencia" ,main = "Bajas por Mes")

ASIGNACIÓN DE MESES
df_months <- df_rotacion %>%
mutate(NAME_MONTH = case_when(
MONTH_BAJA == 1 ~ "Enero",
MONTH_BAJA == 2 ~ "Febrero",
MONTH_BAJA == 3 ~ "Marzo",
MONTH_BAJA == 4 ~ "Abril",
MONTH_BAJA == 5 ~ "Mayo",
MONTH_BAJA == 6 ~ "Junio",
MONTH_BAJA == 7 ~ "Julio",
MONTH_BAJA == 8 ~ "Agosto",
MONTH_BAJA == 9 ~ "Septiembre",
MONTH_BAJA == 10 ~ "Octubre",
MONTH_BAJA == 11 ~ "Noviembre",
MONTH_BAJA == 12 ~ "Diciembre"
)) %>%
filter(NAME_MONTH %in% c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")) %>%
select(GENERO, MONTH_BAJA, DAY_ALTA, YEAR_ALTA, MOTIVO.DE.BAJA, NAME_MONTH, PUESTO)
#View(df_months)
GRAFICO DE BARRAS
barplot_subcategory = ggplot(df_months, aes(NAME_MONTH))+geom_bar(aes(), width = 0.5)
barplot_subcategory

TABLA DE FRECUENCIAS
month_frecuencias = table(df_months$NAME_MONTH)
meses_cronologicos <- c("Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre")
Datos adicionales
requeridos
Para llevar a cabo un análisis más completo y una comprensión más
profunda del clima organizacional en Form, resulta fundamental la
implementación de encuestas cualitativas. Estas encuestas abordarán
aspectos clave, tales como la satisfacción con las instalaciones
laborales, las condiciones de trabajo, los horarios, el transporte al
lugar de trabajo, la remuneración, la dinámica de liderazgo en Form, la
comodidad en el entorno de trabajo y su posible correlación con las
tasas de rotación, tanto voluntaria como involuntaria, y otras
relaciones y respuestas relevantes que podrían identificarse.
