¿Qué se realizará?

A lo largo de este archivo se podrá visualizar el proceso de limpieza de datos que se realizó en las bases de datos proporcionadas por FORM para solucionar las problemáticas de Pronostico de ventas y Rotación del personal. Este proceso de limpieza fue realizado tanto en R como en Excel dependiendo de la acción a realizar. De este proceso se busca obtener bases homologadas e incluso unificadas si es requerido según la situación problema.

Librerias

library(dplyr)     # Manipulación de datos: filtros, transformaciones, agrupaciones y más.
library(ggplot2)   # Visualización de datos: gráficos y diagramas elegantes y personalizables.
library(xts)       # Manejo y manipulación de series temporales en R.
library(dygraphs)  # Visualización interactiva de series temporales.
library(tseries)   # Análisis de series temporales y pruebas estadísticas.
library(forecast)  # Pronóstico de series temporales: modelos ARIMA, ETS, etc.
library(zoo)       # Manipulación de series temporales irregulares o regulares.
library(corrplot)  # Visualización de matrices de correlación.
library(ggpubr)    # Mejoras en la visualización de gráficos 'ggplot2' para publicaciones.
library(kableExtra)# Mejora de tablas en formato 'knitr' y 'kable' para reportes.
library(openxlsx)  # Lectura y escritura de archivos Excel sin necesidad de Java.
library(lubridate)
library(tidyr)
library(stringr)
library(writexl)

Datos

setwd("C:\\Users\\Silva\\Documents\\Concentración\\Form_E3")
RH_A = read.csv("Bases\\RH_ACTIVOS.csv")
RH_B = readxl::read_xlsx("Bases\\Datos_FORM_RH_FJ2024.xlsx")
ventas1 = readxl::read_xlsx("Bases\\form_bajas.xlsx", sheet = "Ventas_mensuales")
ventas2_2021 = readxl::read_xlsx("Bases\\Datos_FORM_Ventas_FJ2024.xlsx", sheet = "2021")
ventas2_2022 = readxl::read_xlsx("Bases\\Datos_FORM_Ventas_FJ2024.xlsx", sheet = "2022")
ventas2_2023 = readxl::read_xlsx("Bases\\Datos_FORM_Ventas_FJ2024.xlsx", sheet = "2023")

Sobre los datos
Todas las bases utilizadas en este proceso fueron proporcionadas por Form y previo a su utilización fueron seleccionas ciertas variables que el equipo consideró importantes y que no impactaran en problemas de seguridad de información de datos personales.

Ventas

Ventas carton, retornable, servicios y total 2020-2022

Cambiar formato de datos en columna “Fecha”

ventas1$Fecha <- as.Date(ventas1$Fecha, format = "%d/%m/%Y")

Identificación de NAs

NAdetecter= data.frame(colSums(is.na(ventas1)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s Ventas 1" = 2))%>%
  kable_styling()
Cantidad de NA´s Ventas 1
NA’s
Fecha 0
Carton 15
Retornable 15
Servicios 24
Total 3

Manejo de NAs

# Extraer Mes y Año a columnas nuevas 
ventas1 <- ventas1 %>%
  mutate(Mes = format(Fecha, "%m"),
         Año = format(Fecha, "%Y"))

La forma en la que imputaremos los datos faltantes será con el promedio de las ventas del mismo mes de los demás años. POr ejemplo, si Enero 2020 es un NA, lo imputaremos con el promedio de enero 2021 y enero 2022. En caso de no haber datos suficientes para sacar el promedio, lo haremos con el promedio de las demás cantidades de ese año y categoria. Los datos pueden no ser muy precisos, pero consideramos que es la forma más acertada.

# Carton

# Calcular el promedio de Carton por mes
promedios_carton <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Carton = mean(Carton, na.rm = TRUE))

# Unir los promedios con los datos originales
ventas1 <- ventas1 %>%
  left_join(promedios_carton, by = "Mes")

# Imputar los valores faltantes en Carton con los promedios
ventas1$Carton <- ifelse(is.na(ventas1$Carton), ventas1$promedio_Carton, ventas1$Carton)
# Repetir el proceso para Retornable 

promedios_retornable <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Retornable = mean(Retornable, na.rm = TRUE))

ventas1 <- ventas1 %>%
  left_join(promedios_retornable, by = "Mes")

ventas1$Retornable <- ifelse(is.na(ventas1$Retornable), ventas1$promedio_Retornable, ventas1$Retornable)
# Servicios

promedios_servicios <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Servicios = mean(Servicios, na.rm = TRUE))

ventas1 <- ventas1 %>%
  left_join(promedios_servicios, by = "Mes")

ventas1$Servicios <- ifelse(is.na(ventas1$Servicios), ventas1$promedio_Servicios, ventas1$Servicios)
# Total

promedios_total <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Total = mean(Total, na.rm = TRUE))

ventas1 <- ventas1 %>%
  left_join(promedios_total, by = "Mes")

ventas1$Total <- ifelse(is.na(ventas1$Total), ventas1$promedio_Total, ventas1$Total)
# Eliminar las columnas de promedios
ventas1 <- ventas1 %>%
  select(-promedio_Carton, -promedio_Retornable, -promedio_Servicios, -promedio_Total)

Aún quedan NaNs en la columna de servicios en los meses donde no hay datos en ningún año.

sum(is.nan(ventas1$Servicios))
## [1] 6

Imputaremos estos datos con el promedio de Servicios del año al que pertenece ese NaN.

# Calcular el promedio anual de Servicios
promedios_servicios <- ventas1 %>%
  group_by(Año) %>%
  summarise(promedio_Servicios = mean(Servicios, na.rm = TRUE))

# Unir los promedios anuales con los datos originales
ventas1 <- ventas1 %>%
  left_join(promedios_servicios, by = "Año")

# Reemplazar los valores NaN en Servicios con los promedios anuales
ventas1 <- ventas1 %>%
  mutate(Servicios = ifelse(is.nan(Servicios), promedio_Servicios, Servicios))

# Eliminar la columna de promedios
ventas1 <- ventas1 %>%
  select(-promedio_Servicios)

Estructura final de Ventas 1

La estructura de esta base de datos consta en 5 variables principales las cuales son Fecha (por mes de 2020 - 2022), Carton, Servicios, Retornable y Total. Agregamos 2 columnas, una extrayendo el mes y la otra el año, esto para poder también analizar el efecto que tiene cada mes y cada año que va transcurriendo. Usaremos esta base de datos para predecir las ventas de los siguientes años, pero debido a que los últimos datos que tenemos son de 2022, nuestras predicciones pueden no ser muy precisas al llegar a 2024.

Ventas por categoría de productos

# Unimos las tres pestañas para tener una base de datos completa con los años 2021, 2022 y 2023. 
ventas2_actualizado <- rbind(ventas2_2021, ventas2_2022,ventas2_2023)

Identificación de NAs

NAdetecter= data.frame(colSums(is.na(ventas2_actualizado)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s Ventas 2" = 2))%>%
  kable_styling()
Cantidad de NA´s Ventas 2
NA’s
Folio de Factura 0
Fecha 0
No. OC Cliente 26
Ref. cliente 30
Cliente 0
Producto 0
Cantidad 0
Categoría de producto 0
Estado 0
moda <- names(sort(table(ventas2_actualizado$`No. OC Cliente`), decreasing = TRUE))[1]
moda1 <- names(sort(table(ventas2_actualizado$`Ref. cliente`), decreasing = TRUE))[1]
# Imputar los valores faltantes en 'No OC Cliente' con la moda 
ventas2_actualizado[is.na(ventas2_actualizado)] <- moda

# Imputar los valores faltantes en 'Ref Cliente' con la moda
ventas2_actualizado[is.na(ventas2_actualizado)] <- moda1
# Verificamos que ya no haya NA's
NAdetecter= data.frame(colSums(is.na(ventas2_actualizado)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s Ventas 2" = 2))%>%
  kable_styling()
Cantidad de NA´s Ventas 2
NA’s
Folio de Factura 0
Fecha 0
No. OC Cliente 0
Ref. cliente 0
Cliente 0
Producto 0
Cantidad 0
Categoría de producto 0
Estado 0
# Quitamos los espacios en los nombres de las variables y reemplazamos con guión bajo

nombres_variables <- names(ventas2_actualizado)
nombres_variables_nuevos <- gsub(" ", "_", nombres_variables)
names(ventas2_actualizado) <- nombres_variables_nuevos
#Agregamos una columna con el año de la venta (ya que unimos las tres pestañas con cada año)
ventas2_actualizado$Fecha <- as.Date(ventas2_actualizado$Fecha)

ventas2_actualizado$Año <- year(ventas2_actualizado$Fecha)
# Cambiamos los nombres de los clientes a MAYUSCULAS
ventas2_actualizado$Cliente <- toupper(ventas2_actualizado$Cliente)
# Juntamos clientes con nombres iguales
ventas2_actualizado$Cliente <- gsub("YANFENG SEATING MEXICO SA DE CV", "YANFENG SEATING MEXICO", ventas2_actualizado$Cliente)
# Verificamos que ya no haya mismos clientes con nombre diferente
frecuencia_clientes <- ventas2_actualizado %>%
  count(Cliente)

frecuencia_clientes
## # A tibble: 35 × 2
##    Cliente                                         n
##    <chr>                                       <int>
##  1 AGP WORLDWIDE OPERATIONS GMBH                   1
##  2 AISLANTES Y EMPAQUES                            1
##  3 ANTOLIN INTERIORS MEXICO                        5
##  4 APTIV SERVICES US, LLC                         54
##  5 AVANZAR INTERIOR PRODUCTS DE MEXICO            10
##  6 DENSO MEXICO                                 1698
##  7 DRAEXLMAIER COMPONENTS AUTOMOTIVE DE MEXICO    16
##  8 EFP OPERATIONS MEXICANA                        85
##  9 ELRINGKLINGER TEXAS LLC                        39
## 10 ESTAPACK S.A.P.I  DE C.V                        1
## # ℹ 25 more rows
# Agrupar por producto (Es muy dificil identificar si hay productos iguales que tengan nombre diferente ya que la cantidad es muy grande y los nombre muy largos)
frecuencia_producto <- ventas2_actualizado %>%
  count(Producto)

frecuencia_producto
## # A tibble: 799 × 2
##    Producto                                                                    n
##    <chr>                                                                   <int>
##  1 "[#01651-BURBUJA GRANDE EN ROLLO] 61010001 #01651-BURBUJA GRANDE EN RO…     1
##  2 "[- 430969 FS 30 99 0000 00 000 LISTONES TRIANGULAR - CORNER BOARD 48\…     1
##  3 "[- 431208 FS 30 99 0000 00 000 LISTONES TRIANGULAR - CORNER BOARD 45\…     1
##  4 "[00010 817904 AS 30 99 0000 00 000 INSERTO] 18891. Coupe. Charola Arm…   118
##  5 "[00010 Caja individual para toyota] 19559 Caja individual para toyota"     2
##  6 "[00010] Thermoformed Tray for 252.181-00"                                  1
##  7 "[00020] Thermoformed Tray for 252.541-00"                                  1
##  8 "[00200 882195] AS  30 99 0000 00 000 CARTÓN (EMPAQUE). MEVEREST. EMPA…     6
##  9 "[00690 565289] FS 30 99 0000 00 000 INSERTO A"                            11
## 10 "[00700  565528] FS 30 99 0000 00 000 INSERTO B"                           11
## # ℹ 789 more rows
# Agrugar las observaciones en la columna de 'Estado' solamente para verificar cuales son las categorías (Estaría bien preguntar a FORM las razones de los pedidos cancelados)

frecuencia_estado <- ventas2_actualizado %>%
  count(Estado)

frecuencia_estado
## # A tibble: 2 × 2
##   Estado     n
##   <chr>  <int>
## 1 cancel   143
## 2 posted 16563

Estructura final Ventas 2

Esta base tiene una gran cantidad de datos tanto categóricos como numéricos, las modificaciones se hicieron más que nada en los nombres de los clientes la cual es una variable importante al analizar sus pedidos en FORM, y en donde tuvimos que asegurarnos que no se tomara el mismo cliente como diferente por estar mal escrito.

RH

Contexto

Para la problemática de rotación de personal inicialmente se decidió mantener únicamente variables que fueran relevantes para el equipo y no involucraran problemas hacia la seguridad de la información, de igual forma se buscó generar variables claves con los datos proporcionados, como su edad y duración en la empresa.

Las variables explicativas con las que buscamos quedarnos son:

  • Genero: Sexo del colaborador (MASCULINO, FEMENINO).
  • Fecha_Alta: Fecha en que se dio de alta al colaborador.
  • Fecha_Baja: Fecha en que se dio de baja al colaborador.
  • Puesto: Cargo o posición que ocupa el colaborador.
  • SD: Salario Diario del colaborador.
  • Lugar_Nacimiento: Ciudad o localidad donde nació el colaborador.
  • Municipio: Municipio de residencia del colaborador.
  • Estado: Estado o entidad federativa de residencia del colaborador.
  • CP: Código Postal del lugar de residencia del colaborador.
  • Estado_Civil: Estado civil del colaborador (MATRIMONIO, SOLTERIA, etc.).
  • dias_trabajados: Número de días trabajados por el colaborador.
  • diferencias_meses: Número de meses trabajados por el colaborador.
  • Edad: Edad del colaborador.

Activos

Excel

Tiempos y Edad

Para las variables referentes al tiempo trabajado y a la edad se pensó en sacar la diferencia de días entre ciertas fechas clave(Nacimiento, Alta, Baja). La edad fue sacada hasta el día que se trabajó dentro de la organización.

La variable de edad consideramos que era de suma importancia agregarla a la base de datos, debido a temas generacionales que llegaba a mencionar el socio formador y de ciertos comportamientos que ya habían sido considerados, en cuanto al tiempo de trabajo fue considerado importante para poder considerar diferentes variables independientes en el futuro.

¿Fecha de baja en activos?
Puede sonar ilogico que los activos en la organización tengan una fecha de salida, pero era necesario que tuvieran alguna para poder hacer analisis posteriores con los días trabajos, es por eso que se tomo como refencia el día en el cual se trató la variable.

Tipo y Activo

La variable de Activo es la variable dependiente “predeterminada” del caso, pero consideramos que no era suficiente, al tener una problemática muy punzante en la rotación del personal decidimos enfocarnos principalmente en el proceso de selección

Los modelos de IA manejan un concepto de Garbage in, garbage out donde los resultados que obtengas dependerán en gran medida de la calidad de datos que ingreses, decidimos manejar la misma ideología en la rotación del personal. Se busca definir a los prospectos con probabilidades que cumplan cierto tiempo en la organización, de esta manera se puede ir mejorando las medidas de duración y disminuyendo poco a poco la rotación.

¿Qué son Tipo y Activo?
Las variables “Tipo” y “Activo” son nuestras variables dependientes, Activo significando que siguen trabajando en la empresa y Tipo es creada apartir de una condicional sobre “diferencia_meses” donde aquellos que hayan o han durado minimo 2 meses en la empresa serán marcados como “1”.

R

Homologar lugares de nacimiento

# LUGAR DE NACIMIENTO
RH_A$Lugar_Nacimiento <- gsub('.*NUEVO LEON.*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*SAN NICOLAS DE LOS GARZA*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*N.L.*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*MONTERREY*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*MTY*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*TAMAULIPAS.*', 'TAMAULIPAS', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*COAHUILA.*', 'COAHUILA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*VERACRUZ*', 'VERACRUZ', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*SAN LUIS POTOSI*', 'SAN LUIS POTOSI', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*CHIAPAS*', 'CHIAPAS', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*ZACATECAS*', 'ZACATECAS', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*OAXACA*', 'OAXACA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*HIDALGO*', 'HIDALGO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*DURANGO*', 'DURANGO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*GUANAJUATO*', 'GUANAJUATO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*PUEBLA*', 'PUEBLA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*TABASCO*', 'TABASCO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*CHIHUAHUA*', 'CHIHUAHUA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*MEXICO*', 'CDMX', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*DISTRITO FEDERAL*', 'CDMX', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*QUINTANA ROO*', 'QUINTANA ROO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*JALISCO*', 'JALISCO', RH_A$Lugar_Nacimiento)

RH_A$Lugar_Nacimiento[RH_A$Lugar_Nacimiento == ""] = RH_A$Estado[RH_A$Lugar_Nacimiento == ""]


# ESTADO
RH_A$Estado[which(RH_A$Estado == 'NUEVO LEÓN')] <- 'NUEVO LEON'

En ambas bases se busco homologar un poco el lugar de nacimiento del personal, dejando de considera las ciudades o municipios donde nacieron y concentrándonos únicamente en el estado, disminuyendo la cantidad de niveles al momento de hacer la variable factor y buscando que la variable pueda tener algo de significancia en los modelos.

Identificación y Remplazo de NA´s

RH_A <- subset(RH_A, select = -c(X, X.1, X.2, X.3))
NAdetecter= data.frame(colSums(is.na(RH_A)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s RH Activos" = 2))%>%
  kable_styling()
Cantidad de NA´s RH Activos
NA’s
Fecha_Nacimiento 0
Genero 0
Fecha_Alta 0
Fecha_Baja 0
Puesto 0
SD 0
Lugar_Nacimiento 0
Municipio 0
Estado 0
CP 0
Estado_Civil 0
dias_trabajados 0
diferencias_meses 0
Edad 0
Tipo 0
Activo 0

Al terminar con los procesos de limpieza la base de Activos terminó sin más valores faltantes que tratar y se encuentra lista para unir con la base de Bajas.

Bajas

Excel en Bajas
En el caso de la base de datos de bajas solo se utilizó la herramienta Excel para hacer le primer subset de variables enfocado en la seguridad de datos personales de los colaboradores de FORM

R

Homologar lugares de nacimiento

# MAYUSCULAS
RH_B <- mutate_if(RH_B, is.character, toupper) # Poner todos los caracteres en mayusculas

Debido a la forma en la que fueron guardando la información proporcionada se encontraron diferentes formatos de respuesta ej.(respuesta, Respuesta, RESPUESTA), por lo que se tuvo que homologar en todas las columnas para que al momento de convertir las variables a factores manejen los mismo niveles, se decidió convertir todo a mayúsculas.

Identificación NA´s

# Hacer un subset de variables iguales
RH_B <- subset(RH_B, select = -c(Banco, Causa_Baja, Observaciones_baja))
NAdetecter= data.frame(colSums(is.na(RH_B)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s en RH Bajas" = 2))%>%
  kable_styling()
Cantidad de NA´s en RH Bajas
NA’s
Fecha_Nacimiento 0
Género 0
Fecha_Alta 0
Fecha_Baja 141
Puesto 2
SD 19
Lugar_Nacimiento 17
Municipio 0
Estado 0
CP 5
Estado_Civil 0

¿Nulos en CP?
Se puede observar que se cuentan con 5 valores nulos en el código postal, estos valores no fueron tratados debido a lo poco problable que sea implementado un analisis espacial donde fueran necesarios, de serlos se trataría con la moda dependiendo de su municipio.

Homologar lugares de nacimiento

# LUGAR DE NACIMIENTO
RH_B$Lugar_Nacimiento <- gsub('.*NUEVO LEON.*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*SAN NICOLAS DE LOS GARZA*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*N.L.*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*MONTERREY*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*MTY*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*TAMAULIPAS.*', 'TAMAULIPAS', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*COAHUILA.*', 'COAHUILA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*VERACRUZ*', 'VERACRUZ', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*SAN LUIS POTOSI*', 'SAN LUIS POTOSI', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*CHIAPAS*', 'CHIAPAS', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*ZACATECAS*', 'ZACATECAS', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*OAXACA*', 'OAXACA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*HIDALGO*', 'HIDALGO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*DURANGO*', 'DURANGO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*GUANAJUATO*', 'GUANAJUATO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*PUEBLA*', 'PUEBLA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*TABASCO*', 'TABASCO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*CHIHUAHUA*', 'CHIHUAHUA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*MEXICO*', 'CDMX', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*DISTRITO FEDERAL*', 'CDMX', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*QUINTANA ROO*', 'QUINTANA ROO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*JALISCO*', 'JALISCO', RH_B$Lugar_Nacimiento)

#RH_B$Lugar_Nacimiento[RH_B$Lugar_Nacimiento == ""] = RH_B$Estado[RH_B$Lugar_Nacimiento == ""]

# ESTADO
RH_B$Estado[which(RH_B$Estado == 'NUEVO LEÓN')] <- 'NUEVO LEON'

En este tratamiento se repitió lo realizado en la base de Activos.

Variables de tiempo y edad

datos_filtrados <- RH_B[!is.na(RH_B$Fecha_Alta) & !is.na(RH_B$Fecha_Baja),]

# Calcular la diferencia en días y almacenarla en una nueva columna
datos_filtrados$diferencia_dias <- as.numeric(difftime(datos_filtrados$Fecha_Baja, datos_filtrados$Fecha_Alta, units = "days"))

medianas_dias = round(median(datos_filtrados$diferencia_dias))
RH_B$Fecha_Baja[is.na(RH_B$Fecha_Baja)] <- RH_B$Fecha_Alta[is.na(RH_B$Fecha_Baja)] + medianas_dias
options(scipen = 999)
RH_B$dias_trabajados <- trunc(as.numeric(difftime(RH_B$Fecha_Baja, RH_B$Fecha_Alta, units = "days")))
RH_B$diferencias_meses <- round(as.numeric(RH_B$dias_trabajados/30))
RH_B$Edad = trunc(as.numeric(difftime(RH_B$Fecha_Baja, RH_B$Fecha_Nacimiento, units = "days")) / 365.25)

Tratamiento de nulos en fechas
Para el tratamiento de los nulos en las fechas de bajas se decidió por imputar valores debido a la importancia de la variable y la cantidad de cosas que nos permitía hacer teniendola completa, es por eso que se saco la mediana de dias trabajados contando unicamente los registros con ambas fechas (Alta y Baja) y se valor de días fue sumado a la fecha de alta de que aquellos con baja faltante.

Manejo de NA´s

# NA´s en variable de Genero
RH_B$Puesto <- ifelse(is.na(RH_B$Puesto), "SERVICIO AL CLIENTE", RH_B$Puesto )

Tipo y Activo

RH_B$Tipo <- ifelse(RH_B$diferencias_meses <= 2, "0", "1")
RH_B$Tipo = as.factor(RH_B$Tipo)
RH_B$Activo = 0

Homologar niveles (varios)

# Preparar formato de fechas
RH_B$Fecha_Nacimiento <- as.Date(RH_B$Fecha_Nacimiento, format = "%d-%m-%Y")

# Igualar el formato de "Estado_Civil" en ambas bases 
RH_B$Estado_Civil[RH_B$Estado_Civil == "SOLTERA"] <- "SOLTERIA"
RH_B$Estado_Civil[RH_B$Estado_Civil == "CASADA"] <- "MATRIMONIO"
RH_B$Estado_Civil[RH_B$Estado_Civil == "DIVORCIADA"] <- "DIVORCIO"

names(RH_B)[names(RH_B) == "Género"] <- "Genero" # Renombrar la columna de "Género" para que cuadren ambas 

Unificación

# Unir bases de datos
RH <- rbind(RH_B, RH_A)

# Definir los formatos a utiliazr por la variables
RH$Genero = as.factor(RH$Genero)
RH$Puesto = as.factor(RH$Puesto)
RH$Lugar_Nacimiento = as.factor(RH$Lugar_Nacimiento)
RH$Municipio = as.factor(RH$Municipio)
RH$Estado = as.factor(RH$Estado)
RH$Estado_Civil = as.factor(RH$Estado_Civil)
RH$CP = as.character(RH$CP)
RH$SD = as.numeric(RH$SD)
RH$Tipo = as.factor(RH$Tipo)
RH$Activo = as.factor(RH$Activo)

# Obtener una visualización de las primeras 5 filas
head(RH)
## # A tibble: 6 × 16
##   Fecha_Nacimiento Genero   Fecha_Alta          Fecha_Baja          Puesto    SD
##   <date>           <fct>    <dttm>              <dttm>              <fct>  <dbl>
## 1 1985-08-18       FEMENINO 2017-02-20 00:00:00 2023-10-02 00:00:00 COSTU…  153.
## 2 1969-06-27       MASCULI… 2017-12-01 00:00:00 2023-01-05 00:00:00 GESTOR  177.
## 3 1989-06-21       MASCULI… 2018-03-23 00:00:00 2023-10-31 00:00:00 CHOFER  177.
## 4 1997-11-20       FEMENINO 2018-09-06 00:00:00 2018-09-06 00:00:22 LIDER   144.
## 5 1984-08-19       FEMENINO 2019-05-02 00:00:00 2024-02-20 00:00:00 AYUDA…  144.
## 6 1990-06-24       MASCULI… 2019-07-30 00:00:00 2023-01-18 00:00:00 RESID…  177.
## # ℹ 10 more variables: Lugar_Nacimiento <fct>, Municipio <fct>, Estado <fct>,
## #   CP <chr>, Estado_Civil <fct>, dias_trabajados <dbl>,
## #   diferencias_meses <dbl>, Edad <dbl>, Tipo <fct>, Activo <fct>

Extraccíon de base

#write.xlsx(RH, "BASE_RH_FORM_PERSONA.xlsx")
#write_xlsx(ventas1, "ventas1_limpio.xlsx")
#write_xlsx(ventas2, "ventas2_limpio.xlsx")
---
title: "Limpieza de Bases de Datos"
author: "Equipo 3"
output: 
  html_document:
    theme: cosmo
    toc: TRUE
    toc_float: true
    code_download: true
---

![](C:\\Users\\Silva\\Documents\\Concentración\\Form_E3\\Imagenes_apoyo\\Banner.jpg)
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning=FALSE, message = FALSE)
```

### ¿Qué se realizará?
A lo largo de este archivo se podrá visualizar el proceso de limpieza de datos que se realizó en las bases de datos proporcionadas por *FORM* para solucionar las problemáticas de **Pronostico de ventas** y **Rotación del personal**. Este proceso de limpieza fue realizado tanto en *R* como en *Excel* dependiendo de la acción a realizar. De este proceso se busca obtener bases homologadas e incluso unificadas si es requerido según la situación problema.

## Librerias 
```{r}
library(dplyr)     # Manipulación de datos: filtros, transformaciones, agrupaciones y más.
library(ggplot2)   # Visualización de datos: gráficos y diagramas elegantes y personalizables.
library(xts)       # Manejo y manipulación de series temporales en R.
library(dygraphs)  # Visualización interactiva de series temporales.
library(tseries)   # Análisis de series temporales y pruebas estadísticas.
library(forecast)  # Pronóstico de series temporales: modelos ARIMA, ETS, etc.
library(zoo)       # Manipulación de series temporales irregulares o regulares.
library(corrplot)  # Visualización de matrices de correlación.
library(ggpubr)    # Mejoras en la visualización de gráficos 'ggplot2' para publicaciones.
library(kableExtra)# Mejora de tablas en formato 'knitr' y 'kable' para reportes.
library(openxlsx)  # Lectura y escritura de archivos Excel sin necesidad de Java.
library(lubridate)
library(tidyr)
library(stringr)
library(writexl)
```

## Datos 
```{r}
setwd("C:\\Users\\Silva\\Documents\\Concentración\\Form_E3")
RH_A = read.csv("Bases\\RH_ACTIVOS.csv")
RH_B = readxl::read_xlsx("Bases\\Datos_FORM_RH_FJ2024.xlsx")
ventas1 = readxl::read_xlsx("Bases\\form_bajas.xlsx", sheet = "Ventas_mensuales")
ventas2_2021 = readxl::read_xlsx("Bases\\Datos_FORM_Ventas_FJ2024.xlsx", sheet = "2021")
ventas2_2022 = readxl::read_xlsx("Bases\\Datos_FORM_Ventas_FJ2024.xlsx", sheet = "2022")
ventas2_2023 = readxl::read_xlsx("Bases\\Datos_FORM_Ventas_FJ2024.xlsx", sheet = "2023")
```

>**Sobre los datos**  
Todas las bases utilizadas en este proceso fueron proporcionadas por *Form* y previo a su utilización fueron seleccionas ciertas variables que el equipo consideró importantes y que no impactaran en problemas de seguridad de información de datos personales.

# Ventas
![](C:\\Users\\Silva\\Documents\\Concentración\\Form_E3\\Imagenes_apoyo\\prodd.jpg)

## Ventas carton, retornable, servicios y total 2020-2022


#### Cambiar formato de datos en columna "Fecha"

```{r}
ventas1$Fecha <- as.Date(ventas1$Fecha, format = "%d/%m/%Y")
```

#### Identificación de NAs
```{r}
NAdetecter= data.frame(colSums(is.na(ventas1)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s Ventas 1" = 2))%>%
  kable_styling()
```

#### Manejo de NAs
```{r}
# Extraer Mes y Año a columnas nuevas 
ventas1 <- ventas1 %>%
  mutate(Mes = format(Fecha, "%m"),
         Año = format(Fecha, "%Y"))
```

La forma en la que imputaremos los datos faltantes será con el promedio de las ventas del mismo mes de los demás años. POr ejemplo, si Enero 2020 es un NA, lo imputaremos con el promedio de enero 2021 y enero 2022. En caso de no haber datos suficientes para sacar el promedio, lo haremos con el promedio de las demás cantidades de ese año y categoria. Los datos pueden no ser muy precisos, pero consideramos que es la forma más acertada. 

```{r}
# Carton

# Calcular el promedio de Carton por mes
promedios_carton <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Carton = mean(Carton, na.rm = TRUE))

# Unir los promedios con los datos originales
ventas1 <- ventas1 %>%
  left_join(promedios_carton, by = "Mes")

# Imputar los valores faltantes en Carton con los promedios
ventas1$Carton <- ifelse(is.na(ventas1$Carton), ventas1$promedio_Carton, ventas1$Carton)
```


```{r}
# Repetir el proceso para Retornable 

promedios_retornable <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Retornable = mean(Retornable, na.rm = TRUE))

ventas1 <- ventas1 %>%
  left_join(promedios_retornable, by = "Mes")

ventas1$Retornable <- ifelse(is.na(ventas1$Retornable), ventas1$promedio_Retornable, ventas1$Retornable)
```

```{r}
# Servicios

promedios_servicios <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Servicios = mean(Servicios, na.rm = TRUE))

ventas1 <- ventas1 %>%
  left_join(promedios_servicios, by = "Mes")

ventas1$Servicios <- ifelse(is.na(ventas1$Servicios), ventas1$promedio_Servicios, ventas1$Servicios)
```

```{r}
# Total

promedios_total <- ventas1 %>%
  group_by(Mes) %>%
  summarise(promedio_Total = mean(Total, na.rm = TRUE))

ventas1 <- ventas1 %>%
  left_join(promedios_total, by = "Mes")

ventas1$Total <- ifelse(is.na(ventas1$Total), ventas1$promedio_Total, ventas1$Total)
```

```{r}
# Eliminar las columnas de promedios
ventas1 <- ventas1 %>%
  select(-promedio_Carton, -promedio_Retornable, -promedio_Servicios, -promedio_Total)
```

Aún quedan NaNs en la columna de servicios en los meses donde no hay datos en ningún año.

```{r}
sum(is.nan(ventas1$Servicios))
```
Imputaremos estos datos con el promedio de Servicios del año al que pertenece ese NaN.

```{r}
# Calcular el promedio anual de Servicios
promedios_servicios <- ventas1 %>%
  group_by(Año) %>%
  summarise(promedio_Servicios = mean(Servicios, na.rm = TRUE))

# Unir los promedios anuales con los datos originales
ventas1 <- ventas1 %>%
  left_join(promedios_servicios, by = "Año")

# Reemplazar los valores NaN en Servicios con los promedios anuales
ventas1 <- ventas1 %>%
  mutate(Servicios = ifelse(is.nan(Servicios), promedio_Servicios, Servicios))

# Eliminar la columna de promedios
ventas1 <- ventas1 %>%
  select(-promedio_Servicios)
```


#### Estructura final de Ventas 1

La estructura de esta base de datos consta en 5 variables principales las cuales son Fecha (por mes de 2020 - 2022), Carton, Servicios, Retornable y Total. Agregamos 2 columnas, una extrayendo el mes y la otra el año, esto para poder también analizar el efecto que tiene cada mes y cada año que va transcurriendo. Usaremos esta base de datos para predecir las ventas de los siguientes años, pero debido a que los últimos datos que tenemos son de 2022, nuestras predicciones pueden no ser muy precisas al llegar a 2024. 

## Ventas por categoría de productos

```{r}
# Unimos las tres pestañas para tener una base de datos completa con los años 2021, 2022 y 2023. 
ventas2_actualizado <- rbind(ventas2_2021, ventas2_2022,ventas2_2023)
```

## Identificación de NAs  
```{r}
NAdetecter= data.frame(colSums(is.na(ventas2_actualizado)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s Ventas 2" = 2))%>%
  kable_styling()
```

```{r}
moda <- names(sort(table(ventas2_actualizado$`No. OC Cliente`), decreasing = TRUE))[1]
moda1 <- names(sort(table(ventas2_actualizado$`Ref. cliente`), decreasing = TRUE))[1]
```

```{r}
# Imputar los valores faltantes en 'No OC Cliente' con la moda 
ventas2_actualizado[is.na(ventas2_actualizado)] <- moda

# Imputar los valores faltantes en 'Ref Cliente' con la moda
ventas2_actualizado[is.na(ventas2_actualizado)] <- moda1
```

```{r}
# Verificamos que ya no haya NA's
NAdetecter= data.frame(colSums(is.na(ventas2_actualizado)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s Ventas 2" = 2))%>%
  kable_styling()
```

```{r}
# Quitamos los espacios en los nombres de las variables y reemplazamos con guión bajo

nombres_variables <- names(ventas2_actualizado)
nombres_variables_nuevos <- gsub(" ", "_", nombres_variables)
names(ventas2_actualizado) <- nombres_variables_nuevos
```

```{r}
#Agregamos una columna con el año de la venta (ya que unimos las tres pestañas con cada año)
ventas2_actualizado$Fecha <- as.Date(ventas2_actualizado$Fecha)

ventas2_actualizado$Año <- year(ventas2_actualizado$Fecha)
```

```{r}
# Cambiamos los nombres de los clientes a MAYUSCULAS
ventas2_actualizado$Cliente <- toupper(ventas2_actualizado$Cliente)
```

```{r}
# Juntamos clientes con nombres iguales
ventas2_actualizado$Cliente <- gsub("YANFENG SEATING MEXICO SA DE CV", "YANFENG SEATING MEXICO", ventas2_actualizado$Cliente)
```

```{r}
# Verificamos que ya no haya mismos clientes con nombre diferente
frecuencia_clientes <- ventas2_actualizado %>%
  count(Cliente)

frecuencia_clientes
```

```{r}
# Agrupar por producto (Es muy dificil identificar si hay productos iguales que tengan nombre diferente ya que la cantidad es muy grande y los nombre muy largos)
frecuencia_producto <- ventas2_actualizado %>%
  count(Producto)

frecuencia_producto
```

```{r}
# Agrugar las observaciones en la columna de 'Estado' solamente para verificar cuales son las categorías (Estaría bien preguntar a FORM las razones de los pedidos cancelados)

frecuencia_estado <- ventas2_actualizado %>%
  count(Estado)

frecuencia_estado
```

#### Estructura final Ventas 2

Esta base tiene una gran cantidad de datos tanto categóricos como numéricos, las modificaciones se hicieron más que nada en los nombres de los clientes la cual es una variable importante al analizar sus pedidos en FORM, y en donde tuvimos que asegurarnos que no se tomara el mismo cliente como diferente por estar mal escrito. 


# RH
![](C:\\Users\\Silva\\Documents\\Concentración\\Form_E3\\Imagenes_apoyo\\rotacion2.jpeg)

#### Contexto  
Para la problemática de rotación de personal inicialmente se decidió **mantener únicamente variables que fueran relevantes** para el equipo y no involucraran problemas hacia la seguridad de la información, de igual forma se buscó **generar variables** claves con los datos proporcionados, como su **edad y duración en la empresa**.

Las variables explicativas con las que buscamos quedarnos son:  

* Genero: Sexo del colaborador (MASCULINO, FEMENINO).
* Fecha_Alta: Fecha en que se dio de alta al colaborador.
* Fecha_Baja: Fecha en que se dio de baja al colaborador.
* Puesto: Cargo o posición que ocupa el colaborador.
* SD: Salario Diario del colaborador.
* Lugar_Nacimiento: Ciudad o localidad donde nació el colaborador.
* Municipio: Municipio de residencia del colaborador.
* Estado: Estado o entidad federativa de residencia del colaborador.
* CP: Código Postal del lugar de residencia del colaborador.
* Estado_Civil: Estado civil del colaborador (MATRIMONIO, SOLTERIA, etc.).
* dias_trabajados: Número de días trabajados por el colaborador.
* diferencias_meses: Número de meses trabajados por el colaborador.
* Edad: Edad del colaborador.

## Activos
### Excel
#### Tiempos y Edad

```{r, echo=FALSE, out.width='80%', fig.align='center'}
knitr::include_graphics("Imagenes_apoyo\\TiempoEdad2.png")
```

Para las variables referentes al tiempo trabajado y a la edad se pensó en sacar la diferencia de días entre ciertas fechas clave(Nacimiento, Alta, Baja). La edad fue sacada hasta el día que se trabajó dentro de la organización.

La variable de edad consideramos que era de suma importancia agregarla a la base de datos, debido a temas **generacionales** que llegaba a mencionar el socio formador y de ciertos comportamientos que ya habían sido considerados, en cuanto al tiempo de trabajo fue considerado importante para poder considerar **diferentes variables independientes** en el futuro.
  
  
> **¿Fecha de baja en activos?**  
Puede sonar ilogico que los activos en la organización tengan una fecha de salida, pero era necesario que tuvieran alguna para poder hacer analisis posteriores con los días trabajos, es por eso que se tomo como refencia el día en el cual se trató la variable. 

#### Tipo y Activo
```{r, echo=FALSE, out.width='80%', fig.align='center'}
knitr::include_graphics("Imagenes_apoyo\\TipoActivo2.png")
```

La variable de **Activo** es la variable dependiente "predeterminada" del caso, pero consideramos que no era suficiente, al tener una problemática muy punzante en la rotación del personal decidimos enfocarnos principalmente en el proceso de **selección**

 Los modelos de IA manejan un concepto de *Garbage in, garbage out* donde los resultados que obtengas dependerán en gran medida de la calidad de datos que ingreses, decidimos manejar la **misma ideología en la rotación del personal**. Se busca definir a los prospectos con probabilidades que cumplan cierto tiempo en la organización, de esta manera se puede ir **mejorando las medidas de duración y disminuyendo poco a poco la rotación**. 
   
    
> **¿Qué son Tipo y Activo?**  
Las variables "Tipo" y "Activo" son nuestras variables dependientes, *Activo* significando que siguen trabajando en la empresa y *Tipo* es creada apartir de una condicional sobre "diferencia_meses" donde aquellos que hayan o han durado minimo 2 meses en la empresa serán marcados como "1".

### R
#### Homologar lugares de nacimiento
```{r}
# LUGAR DE NACIMIENTO
RH_A$Lugar_Nacimiento <- gsub('.*NUEVO LEON.*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*SAN NICOLAS DE LOS GARZA*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*N.L.*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*MONTERREY*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*MTY*', 'NUEVO LEON', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*TAMAULIPAS.*', 'TAMAULIPAS', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*COAHUILA.*', 'COAHUILA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*VERACRUZ*', 'VERACRUZ', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*SAN LUIS POTOSI*', 'SAN LUIS POTOSI', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*CHIAPAS*', 'CHIAPAS', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*ZACATECAS*', 'ZACATECAS', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*OAXACA*', 'OAXACA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*HIDALGO*', 'HIDALGO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*DURANGO*', 'DURANGO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*GUANAJUATO*', 'GUANAJUATO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*PUEBLA*', 'PUEBLA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*TABASCO*', 'TABASCO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*CHIHUAHUA*', 'CHIHUAHUA', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*MEXICO*', 'CDMX', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*DISTRITO FEDERAL*', 'CDMX', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*QUINTANA ROO*', 'QUINTANA ROO', RH_A$Lugar_Nacimiento)
RH_A$Lugar_Nacimiento <- gsub('.*JALISCO*', 'JALISCO', RH_A$Lugar_Nacimiento)

RH_A$Lugar_Nacimiento[RH_A$Lugar_Nacimiento == ""] = RH_A$Estado[RH_A$Lugar_Nacimiento == ""]


# ESTADO
RH_A$Estado[which(RH_A$Estado == 'NUEVO LEÓN')] <- 'NUEVO LEON'
```

En ambas bases se busco homologar un poco el lugar de nacimiento del personal, dejando de considera las ciudades o municipios donde nacieron y **concentrándonos únicamente en el estado**, disminuyendo la cantidad de niveles al momento de hacer la variable factor y buscando que la variable pueda tener algo de significancia en los modelos. 

#### Identificación y Remplazo de NA´s 
```{r}
RH_A <- subset(RH_A, select = -c(X, X.1, X.2, X.3))
NAdetecter= data.frame(colSums(is.na(RH_A)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s RH Activos" = 2))%>%
  kable_styling()
```

```{r include=FALSE}
RH_A$Fecha_Nacimiento <- as.Date(RH_A$Fecha_Nacimiento, format = "%d-%m-%Y")
```


Al terminar con los procesos de limpieza la base de **Activos** terminó sin más valores faltantes que tratar y se encuentra lista para unir con la base de Bajas.  

## Bajas
> **Excel en Bajas**  
En el caso de la base de datos de bajas solo se utilizó la herramienta *Excel* para hacer le primer subset de variables enfocado en la seguridad de datos personales de los colaboradores de *FORM*

### R
#### Homologar lugares de nacimiento
```{r}
# MAYUSCULAS
RH_B <- mutate_if(RH_B, is.character, toupper) # Poner todos los caracteres en mayusculas
```

Debido a la forma en la que fueron guardando la información proporcionada se encontraron diferentes formatos de respuesta ej.(respuesta, Respuesta, RESPUESTA), por lo que se tuvo que homologar en todas las columnas para que al momento de convertir las variables a factores manejen los mismo niveles, se decidió convertir todo a mayúsculas.  

#### Identificación NA´s 
```{r}
# Hacer un subset de variables iguales
RH_B <- subset(RH_B, select = -c(Banco, Causa_Baja, Observaciones_baja))
NAdetecter= data.frame(colSums(is.na(RH_B)))
colnames(NAdetecter) <- c("NA's")
NAdetecter %>%
  kbl() %>%
  add_header_above(c("Cantidad de NA´s en RH Bajas" = 2))%>%
  kable_styling()
```

> **¿Nulos en CP?**  
Se puede observar que se cuentan con 5 valores nulos en el código postal, estos valores no fueron tratados debido a lo poco problable que sea implementado un analisis espacial donde fueran necesarios, de serlos se trataría con la moda dependiendo de su municipio.

#### Homologar lugares de nacimiento
```{r}
# LUGAR DE NACIMIENTO
RH_B$Lugar_Nacimiento <- gsub('.*NUEVO LEON.*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*SAN NICOLAS DE LOS GARZA*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*N.L.*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*MONTERREY*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*MTY*', 'NUEVO LEON', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*TAMAULIPAS.*', 'TAMAULIPAS', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*COAHUILA.*', 'COAHUILA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*VERACRUZ*', 'VERACRUZ', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*SAN LUIS POTOSI*', 'SAN LUIS POTOSI', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*CHIAPAS*', 'CHIAPAS', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*ZACATECAS*', 'ZACATECAS', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*OAXACA*', 'OAXACA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*HIDALGO*', 'HIDALGO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*DURANGO*', 'DURANGO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*GUANAJUATO*', 'GUANAJUATO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*PUEBLA*', 'PUEBLA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*TABASCO*', 'TABASCO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*CHIHUAHUA*', 'CHIHUAHUA', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*MEXICO*', 'CDMX', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*DISTRITO FEDERAL*', 'CDMX', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*QUINTANA ROO*', 'QUINTANA ROO', RH_B$Lugar_Nacimiento)
RH_B$Lugar_Nacimiento <- gsub('.*JALISCO*', 'JALISCO', RH_B$Lugar_Nacimiento)

#RH_B$Lugar_Nacimiento[RH_B$Lugar_Nacimiento == ""] = RH_B$Estado[RH_B$Lugar_Nacimiento == ""]

# ESTADO
RH_B$Estado[which(RH_B$Estado == 'NUEVO LEÓN')] <- 'NUEVO LEON'
```
*En este tratamiento se repitió lo realizado en la base de ***Activos***.*  

#### Variables de tiempo y edad
```{r}
datos_filtrados <- RH_B[!is.na(RH_B$Fecha_Alta) & !is.na(RH_B$Fecha_Baja),]

# Calcular la diferencia en días y almacenarla en una nueva columna
datos_filtrados$diferencia_dias <- as.numeric(difftime(datos_filtrados$Fecha_Baja, datos_filtrados$Fecha_Alta, units = "days"))

medianas_dias = round(median(datos_filtrados$diferencia_dias))
RH_B$Fecha_Baja[is.na(RH_B$Fecha_Baja)] <- RH_B$Fecha_Alta[is.na(RH_B$Fecha_Baja)] + medianas_dias

```

```{r}
options(scipen = 999)
RH_B$dias_trabajados <- trunc(as.numeric(difftime(RH_B$Fecha_Baja, RH_B$Fecha_Alta, units = "days")))
RH_B$diferencias_meses <- round(as.numeric(RH_B$dias_trabajados/30))
RH_B$Edad = trunc(as.numeric(difftime(RH_B$Fecha_Baja, RH_B$Fecha_Nacimiento, units = "days")) / 365.25)
```

> **Tratamiento de nulos en fechas**  
Para el tratamiento de los nulos en las fechas de bajas se decidió por imputar valores debido a la importancia de la variable y la cantidad de cosas que nos permitía hacer teniendola completa, es por eso que se saco la mediana de dias trabajados contando unicamente los registros con ambas fechas (Alta y Baja) y se valor de días fue sumado a la fecha de alta de que aquellos con baja faltante. 

#### Manejo de NA´s 
```{r}
# NA´s en variable de Genero
RH_B$Puesto <- ifelse(is.na(RH_B$Puesto), "SERVICIO AL CLIENTE", RH_B$Puesto )
```

#### Tipo y Activo
```{r}
RH_B$Tipo <- ifelse(RH_B$diferencias_meses <= 2, "0", "1")
RH_B$Tipo = as.factor(RH_B$Tipo)
RH_B$Activo = 0
```

#### Homologar niveles (varios)
```{r}
# Preparar formato de fechas
RH_B$Fecha_Nacimiento <- as.Date(RH_B$Fecha_Nacimiento, format = "%d-%m-%Y")

# Igualar el formato de "Estado_Civil" en ambas bases 
RH_B$Estado_Civil[RH_B$Estado_Civil == "SOLTERA"] <- "SOLTERIA"
RH_B$Estado_Civil[RH_B$Estado_Civil == "CASADA"] <- "MATRIMONIO"
RH_B$Estado_Civil[RH_B$Estado_Civil == "DIVORCIADA"] <- "DIVORCIO"

names(RH_B)[names(RH_B) == "Género"] <- "Genero" # Renombrar la columna de "Género" para que cuadren ambas 
```

## Unificación
```{r}
# Unir bases de datos
RH <- rbind(RH_B, RH_A)

# Definir los formatos a utiliazr por la variables
RH$Genero = as.factor(RH$Genero)
RH$Puesto = as.factor(RH$Puesto)
RH$Lugar_Nacimiento = as.factor(RH$Lugar_Nacimiento)
RH$Municipio = as.factor(RH$Municipio)
RH$Estado = as.factor(RH$Estado)
RH$Estado_Civil = as.factor(RH$Estado_Civil)
RH$CP = as.character(RH$CP)
RH$SD = as.numeric(RH$SD)
RH$Tipo = as.factor(RH$Tipo)
RH$Activo = as.factor(RH$Activo)

# Obtener una visualización de las primeras 5 filas
head(RH)
```

### Extraccíon de base
```{r}
#write.xlsx(RH, "BASE_RH_FORM_PERSONA.xlsx")
#write_xlsx(ventas1, "ventas1_limpio.xlsx")
#write_xlsx(ventas2, "ventas2_limpio.xlsx")
```




