Seccion 1 & 2

Limpieza, Transformación, y Organización de Bases de Datos

Análisis Exploratorio de las Bases de Datos, Predicción del Desempeño de la Industria Automotriz, Pronóstico del Desempeño de la Industria Automotriz y la Empresa FORM

Recursos Humanos

#file.choose()

RhColab<-read.csv("C:\\Users\\jimen\\Downloads\\BaseDatosL RH_Colaboradores.csv")
RhBajas<-read.csv("C:\\Users\\jimen\\Downloads\\BaseD_Limpia RH_ Bajas .csv")

Antes de cualquier cosa fue necesario crear dos csv separados para cada una de las sheets de las bases de datos, tanto para Colaboradores como para bajas para asi poder trabajar de una manera mas optima.

Tipos de Variables Existentes para RHCOLAB

variable<-c("numero_de_empleado","nombre_completo", "edad", "genero", "fecha_de_alta", "antioguedad", "BAJA", "puesto", "departamento", "mano_de_obra", "salario_diario", "colonia", "municipio")

type<-c("Cualitativo (nominal)","Cualitativo (nominal)", "Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(discreta)", "cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cuantitativo (continua)", "Cualitativo (nominal)", "Cualitativo (nominal)")

Escala_de_Medición<-c("Numero", "Fecha", "Departamento", "Salario", "Estado")


table<-data.frame(variable,type)
knitr::kable(table)

variable	type
numero_de_empleado	Cualitativo (nominal)
nombre_completo	Cualitativo (nominal)
edad	Cuantitativo(discreta)
genero	Cualitativo (nominal)
fecha_de_alta	Cuantitativo(discreta)
antioguedad	cualitativo (nominal)
BAJA	Cualitativo (nominal)
puesto	Cualitativo (nominal)
departamento	Cualitativo (nominal)
mano_de_obra	Cualitativo (nominal)
salario_diario	Cuantitativo (continua)
colonia	Cualitativo (nominal)
municipio	Cualitativo (nominal)

Tipos de Variables Existentes para RHBAJAS

variable<-c ("nombre","edad", "genero", "fecha_alta", "motivo_baja", "dias_de_trabajo", "baja", "puesto_que_desempeña", "salario_imss", "colonia", "municipio", "estado", "estado_civil" )


type<-c ("Cualitativo (nominal)","Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(discreta)", "Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(Continua)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)" )

Escala_de_Medición<-c("Numero", "Fecha", "Departamento", "Salario", "Estado")


table<-data.frame(variable,type)
knitr::kable(table)

variable	type
nombre	Cualitativo (nominal)
edad	Cuantitativo(discreta)
genero	Cualitativo (nominal)
fecha_alta	Cuantitativo(discreta)
motivo_baja	Cualitativo (nominal)
dias_de_trabajo	Cuantitativo(discreta)
baja	Cuantitativo(discreta)
puesto_que_desempeña	Cualitativo (nominal)
salario_imss	Cuantitativo(Continua)
colonia	Cualitativo (nominal)
municipio	Cualitativo (nominal)
estado	Cualitativo (nominal)
estado_civil	Cualitativo (nominal)

Lo siguiente fue ver los tipos de variables de las bases de datos y esto para poder saber bien de que manera iba a ser mejor y mas eficiente tratar cada una de las variables dependiendo si eras cualitativas, cuantitatvas, nominales, discretas y continuas

Llamar librerias

library(foreign)
library(dplyr)        # data manipulation 
library(forcats)      # to work with categorical variables
library(ggplot2)      # data visualization 
library(janitor)      # data exploration and cleaning 
library(Hmisc)        # several useful functions for data analysis 
library(psych)        # functions for multivariate analysis 
library(naniar)       # summaries and visualization of missing values NAs
library(dlookr)       # summaries and visualization of missing values NAs
library(corrplot)     # correlation plots
library(jtools)       # presentation of regression analysis 
library(lmtest)       # diagnostic checks - linear regression analysis 
library(car)          # diagnostic checks - linear regression analysis
library(olsrr)        # diagnostic checks - linear regression analysis 
library(kableExtra)   # HTML table attributes

Verificar la estructura de la base de datos

str(RhColab)

## 'data.frame':    999 obs. of  13 variables:
##  $ numero_de_empleado: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ nombre_completo   : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ edad              : int  67 43 73 32 57 38 55 26 27 37 ...
##  $ genero            : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ fecha_de_alta     : chr  "1/7/2010" "1/7/2011" "22/11/2011" "30/1/2013" ...
##  $ antiguedad        : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ BAJA              : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ puesto            : chr  "Supervisor de Máquin" "Supervisor de pegado" "Externo" "SUPERVISORA" ...
##  $ departamento      : chr  "Produccion Cartón MDL" "Produccion Cartón MDL" "Externo" "Produccion Cartón MC" ...
##  $ mano_de_obra      : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ salario_diario    : num  177 177 177 337 441 ...
##  $ colonia           : chr  "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
##  $ municipio         : chr  "SAN NICOLAS DE LOS G" "APODACA" "APODACA" "APODACA" ...

str(RhBajas)

## 'data.frame':    237 obs. of  13 variables:
##  $ nombre              : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ edad                : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ genero              : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ fecha_de_alta       : chr  "9/3/2020" "9/11/2021" "10/11/2021" "10/11/2021" ...
##  $ motivo_de_baja      : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ dias_de_trabajo     : int  628 60 59 59 51 37 37 31 18 224 ...
##  $ baja                : chr  "27/11/2021" "8/1/2022" "8/1/2022" "8/1/2022" ...
##  $ puesto_que_desempeña: chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ salario_imss        : num  500 152 152 152 152 ...
##  $ colonia             : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ municipio           : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ estado              : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ estado_civil        : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...

seleccionar columnas / variables

RhColab1<-RhColab 
RhBajas1<-RhBajas

Limpieza de datos

RhColab1<-RhColab %>% select(-one_of('numero_de_empleado','Fecha_alta' , 'BAJA', 'edad'))



# lets rename the selected columns / variables
summary(RhColab1)

##  nombre_completo       genero          fecha_de_alta        antiguedad    
##  Length:999         Length:999         Length:999         Min.   : 0.000  
##  Class :character   Class :character   Class :character   1st Qu.: 0.000  
##  Mode  :character   Mode  :character   Mode  :character   Median : 0.000  
##                                                           Mean   : 1.425  
##                                                           3rd Qu.: 2.000  
##                                                           Max.   :12.000  
##                                                           NA's   :886     
##     puesto          departamento       mano_de_obra       salario_diario 
##  Length:999         Length:999         Length:999         Min.   :144.4  
##  Class :character   Class :character   Class :character   1st Qu.:176.7  
##  Mode  :character   Mode  :character   Mode  :character   Median :180.7  
##                                                           Mean   :181.4  
##                                                           3rd Qu.:180.7  
##                                                           Max.   :441.4  
##                                                           NA's   :886    
##    colonia           municipio        
##  Length:999         Length:999        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##                                       
##

names(RhColab1)<-c('Nom_Comp', 'Gen', 'Fecha_alta', 'Ant', 'Puesto', 'Dep', 'MDO', 'Sal_Diario', 'Col', 'Mun')
names(RhBajas1)<-c('Nom', 'Edad', 'Gen', 'Fecha_alta', 'MB', 'Días_trab', 'Baja', 'PuestDes', 'Sal_IMSS', 'Col', 'Mun', 'Estado', 'EstCiv')

##lets convert fecha_nacimiento to date format 


RhColab1$Fecha_alta<-as.Date(RhColab$fecha_de_alta, format = "%d/%m/%Y")
RhBajas1$Fecha_alta<-as.Date(RhBajas1$Fecha_alta, format = "%d/%m/%Y")
RhBajas1$Baja<-as.Date(RhBajas1$Baja, format = "%d/%m/%Y")

str(RhColab1)

## 'data.frame':    999 obs. of  10 variables:
##  $ Nom_Comp  : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2010-07-01" "2011-07-01" ...
##  $ Ant       : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ Puesto    : chr  "Supervisor de Máquin" "Supervisor de pegado" "Externo" "SUPERVISORA" ...
##  $ Dep       : chr  "Produccion Cartón MDL" "Produccion Cartón MDL" "Externo" "Produccion Cartón MC" ...
##  $ MDO       : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ Sal_Diario: num  177 177 177 337 441 ...
##  $ Col       : chr  "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "APODACA" "APODACA" "APODACA" ...

str(RhBajas1)

## 'data.frame':    237 obs. of  13 variables:
##  $ Nom       : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ Edad      : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2020-03-09" "2021-11-09" ...
##  $ MB        : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ Días_trab : int  628 60 59 59 51 37 37 31 18 224 ...
##  $ Baja      : Date, format: "2021-11-27" "2022-01-08" ...
##  $ PuestDes  : chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ Sal_IMSS  : num  500 152 152 152 152 ...
##  $ Col       : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ Estado    : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ EstCiv    : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...

# Eliminar NA's y sustituir con 0's

sum(is.na(RhColab1))

## [1] 2658

sum(is.na(RhBajas1))

## [1] 0

summary(RhColab1)

##    Nom_Comp             Gen              Fecha_alta              Ant        
##  Length:999         Length:999         Min.   :2010-07-01   Min.   : 0.000  
##  Class :character   Class :character   1st Qu.:2020-08-28   1st Qu.: 0.000  
##  Mode  :character   Mode  :character   Median :2022-02-23   Median : 0.000  
##                                        Mean   :2021-01-16   Mean   : 1.425  
##                                        3rd Qu.:2022-07-05   3rd Qu.: 2.000  
##                                        Max.   :2022-08-23   Max.   :12.000  
##                                        NA's   :886          NA's   :886     
##     Puesto              Dep                MDO              Sal_Diario   
##  Length:999         Length:999         Length:999         Min.   :144.4  
##  Class :character   Class :character   Class :character   1st Qu.:176.7  
##  Mode  :character   Mode  :character   Mode  :character   Median :180.7  
##                                                           Mean   :181.4  
##                                                           3rd Qu.:180.7  
##                                                           Max.   :441.4  
##                                                           NA's   :886    
##      Col                Mun           
##  Length:999         Length:999        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##                                       
##

summary(RhBajas1)

##      Nom                 Edad           Gen              Fecha_alta        
##  Length:237         Min.   : 0.00   Length:237         Min.   :2016-10-12  
##  Class :character   1st Qu.:23.00   Class :character   1st Qu.:2022-01-19  
##  Mode  :character   Median :29.00   Mode  :character   Median :2022-04-04  
##                     Mean   :30.52                      Mean   :2022-02-10  
##                     3rd Qu.:37.00                      3rd Qu.:2022-06-14  
##                     Max.   :61.00                      Max.   :2022-08-17  
##       MB              Días_trab            Baja              PuestDes        
##  Length:237         Min.   :   0.00   Min.   :2021-11-27   Length:237        
##  Class :character   1st Qu.:   9.00   1st Qu.:2022-03-01   Class :character  
##  Mode  :character   Median :  21.00   Median :2022-05-06   Mode  :character  
##                     Mean   :  83.42   Mean   :2022-05-05                     
##                     3rd Qu.:  49.00   3rd Qu.:2022-07-07                     
##                     Max.   :1966.00   Max.   :2022-08-25                     
##     Sal_IMSS         Col                Mun               Estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##     EstCiv         
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
##

RhColab1 <- na.omit(RhColab1)
RhBajas1 <- na.omit(RhBajas1)


summary(RhColab1)

##    Nom_Comp             Gen              Fecha_alta              Ant        
##  Length:113         Length:113         Min.   :2010-07-01   Min.   : 0.000  
##  Class :character   Class :character   1st Qu.:2020-08-28   1st Qu.: 0.000  
##  Mode  :character   Mode  :character   Median :2022-02-23   Median : 0.000  
##                                        Mean   :2021-01-16   Mean   : 1.425  
##                                        3rd Qu.:2022-07-05   3rd Qu.: 2.000  
##                                        Max.   :2022-08-23   Max.   :12.000  
##     Puesto              Dep                MDO              Sal_Diario   
##  Length:113         Length:113         Length:113         Min.   :144.4  
##  Class :character   Class :character   Class :character   1st Qu.:176.7  
##  Mode  :character   Mode  :character   Mode  :character   Median :180.7  
##                                                           Mean   :181.4  
##                                                           3rd Qu.:180.7  
##                                                           Max.   :441.4  
##      Col                Mun           
##  Length:113         Length:113        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##

summary(RhBajas1)

##      Nom                 Edad           Gen              Fecha_alta        
##  Length:237         Min.   : 0.00   Length:237         Min.   :2016-10-12  
##  Class :character   1st Qu.:23.00   Class :character   1st Qu.:2022-01-19  
##  Mode  :character   Median :29.00   Mode  :character   Median :2022-04-04  
##                     Mean   :30.52                      Mean   :2022-02-10  
##                     3rd Qu.:37.00                      3rd Qu.:2022-06-14  
##                     Max.   :61.00                      Max.   :2022-08-17  
##       MB              Días_trab            Baja              PuestDes        
##  Length:237         Min.   :   0.00   Min.   :2021-11-27   Length:237        
##  Class :character   1st Qu.:   9.00   1st Qu.:2022-03-01   Class :character  
##  Mode  :character   Median :  21.00   Median :2022-05-06   Mode  :character  
##                     Mean   :  83.42   Mean   :2022-05-05                     
##                     3rd Qu.:  49.00   3rd Qu.:2022-07-07                     
##                     Max.   :1966.00   Max.   :2022-08-25                     
##     Sal_IMSS         Col                Mun               Estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##     EstCiv         
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
##

str(RhColab1)

## 'data.frame':    113 obs. of  10 variables:
##  $ Nom_Comp  : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2010-07-01" "2011-07-01" ...
##  $ Ant       : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ Puesto    : chr  "Supervisor de Máquin" "Supervisor de pegado" "Externo" "SUPERVISORA" ...
##  $ Dep       : chr  "Produccion Cartón MDL" "Produccion Cartón MDL" "Externo" "Produccion Cartón MC" ...
##  $ MDO       : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ Sal_Diario: num  177 177 177 337 441 ...
##  $ Col       : chr  "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "APODACA" "APODACA" "APODACA" ...
##  - attr(*, "na.action")= 'omit' Named int [1:886] 114 115 116 117 118 119 120 121 122 123 ...
##   ..- attr(*, "names")= chr [1:886] "114" "115" "116" "117" ...

str(RhBajas1)

## 'data.frame':    237 obs. of  13 variables:
##  $ Nom       : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ Edad      : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2020-03-09" "2021-11-09" ...
##  $ MB        : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ Días_trab : int  628 60 59 59 51 37 37 31 18 224 ...
##  $ Baja      : Date, format: "2021-11-27" "2022-01-08" ...
##  $ PuestDes  : chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ Sal_IMSS  : num  500 152 152 152 152 ...
##  $ Col       : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ Estado    : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ EstCiv    : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...

Caracteristicas Adicionales

library(lubridate)

## 
## Attaching package: 'lubridate'

## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union

edad<-trunc((RhColab1$Fecha_alta %--% RhColab1$Fecha_alta) / years(1)) # %--% creates a time interval based on as.date() format
RhColab1$edad<-edad

edad<-trunc((RhBajas1$Fecha_alta %--% RhBajas1$Fecha_alta) / years(1))
edad<-trunc((RhBajas1$Baja %--% RhBajas1$Baja) / years(1))

Necesario realizar el calculo de la variable “año” para proseguir con las caracteristicas adicionales de los colaboradores

Conversion de variables mediantes as.factor para poder ser utilizadas durante el analisis

###  Colab1
RhColab1$Gen<-as.factor(RhColab1$Gen)
RhColab1$Puesto<-as.factor(RhColab1$Puesto)
RhColab1$Dep<-as.factor(RhColab1$Dep)
RhColab1$Mun<-as.factor(RhColab1$Mun)
RhColab1$Col<-as.factor(RhColab1$Col)


###  Bajas1 

RhBajas1$Gen<-as.factor(RhBajas1$Gen)
RhBajas1$MB<-as.factor(RhBajas1$MB)
RhBajas1$Días_trab<-as.factor(RhBajas1$Días_trab)
RhBajas1$PuestDes<-as.factor(RhBajas1$PuestDes)
RhBajas1$Col<-as.factor(RhBajas1$Col)
RhBajas1$Mun<-as.factor(RhBajas1$Mun)
RhBajas1$Estado<-as.factor(RhBajas1$Estado)
RhBajas1$EstCiv<-as.factor(RhBajas1$EstCiv)

Estructura de las bases de datos RhColab1 y RhBajas1

str(RhColab1)

## 'data.frame':    113 obs. of  11 variables:
##  $ Nom_Comp  : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ Gen       : Factor w/ 2 levels "FEMENINO","MASCULINO": 2 1 2 1 1 2 1 2 2 1 ...
##  $ Fecha_alta: Date, format: "2010-07-01" "2011-07-01" ...
##  $ Ant       : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ Puesto    : Factor w/ 29 levels "AY. GENERAL",..: 27 28 10 29 29 8 7 4 3 7 ...
##  $ Dep       : Factor w/ 22 levels "","Ay.flexo",..: 18 18 13 17 8 4 8 19 4 10 ...
##  $ MDO       : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ Sal_Diario: num  177 177 177 337 441 ...
##  $ Col       : Factor w/ 73 levels "ALAMOS DEL PARQUE",..: 64 61 69 51 56 18 1 52 14 5 ...
##  $ Mun       : Factor w/ 9 levels "APODACA","CAÑADA BLANCA",..: 9 1 1 1 1 8 1 1 8 9 ...
##  $ edad      : num  0 0 0 0 0 0 0 0 0 0 ...
##  - attr(*, "na.action")= 'omit' Named int [1:886] 114 115 116 117 118 119 120 121 122 123 ...
##   ..- attr(*, "names")= chr [1:886] "114" "115" "116" "117" ...

summary(RhColab1)

##    Nom_Comp                Gen       Fecha_alta              Ant        
##  Length:113         FEMENINO :61   Min.   :2010-07-01   Min.   : 0.000  
##  Class :character   MASCULINO:52   1st Qu.:2020-08-28   1st Qu.: 0.000  
##  Mode  :character                  Median :2022-02-23   Median : 0.000  
##                                    Mean   :2021-01-16   Mean   : 1.425  
##                                    3rd Qu.:2022-07-05   3rd Qu.: 2.000  
##                                    Max.   :2022-08-23   Max.   :12.000  
##                                                                         
##               Puesto                      Dep         MDO           
##  AYUDANTE GENERAL:59                        :40   Length:113        
##  COSTURERA       :10   Producción Retorn    :10   Class :character  
##  AY. GENERAL     : 7   Costura              : 7   Mode  :character  
##  SOLDADOR        : 5   Produccion Cartón MDL: 7                     
##  CHOFER          : 4   Stabilus             : 7                     
##  RESIDENTE       : 4   Cedis                : 6                     
##  (Other)         :24   (Other)              :36                     
##    Sal_Diario                      Col            Mun          edad  
##  Min.   :144.4   PUEBLO NUEVO        :27   APODACA  :72   Min.   :0  
##  1st Qu.:176.7   CANTORAL            : 4   JUAREZ   :10   1st Qu.:0  
##  Median :180.7   CAÑADA BLANCA       : 3   PESQUERIA: 9   Median :0  
##  Mean   :181.4   MISION SAN PABLO    : 3   GUADALUPE: 6   Mean   :0  
##  3rd Qu.:180.7   PORTAL DE HUINALA   : 3   SALTILLO : 5   3rd Qu.:0  
##  Max.   :441.4   VALLE DE SANTA MARIA: 3   MONTERREY: 4   Max.   :0  
##                  (Other)             :70   (Other)  : 7

str(RhBajas1)

## 'data.frame':    237 obs. of  13 variables:
##  $ Nom       : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ Edad      : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ Gen       : Factor w/ 2 levels "FEMENINO","MASCULINO": 2 1 1 1 1 1 1 2 2 2 ...
##  $ Fecha_alta: Date, format: "2020-03-09" "2021-11-09" ...
##  $ MB        : Factor w/ 5 levels "ABANDONO","BAJA POR FALTAS",..: 4 4 4 4 4 2 2 2 2 4 ...
##  $ Días_trab : Factor w/ 95 levels "0","1","2","3",..: 88 53 52 52 48 37 37 31 19 79 ...
##  $ Baja      : Date, format: "2021-11-27" "2022-01-08" ...
##  $ PuestDes  : Factor w/ 31 levels "ANALISTA DE NOMINAS /AUX DE R.H.",..: 15 9 9 9 9 9 9 9 9 4 ...
##  $ Sal_IMSS  : num  500 152 152 152 152 ...
##  $ Col       : Factor w/ 98 levels "ACANTO RESIDENCIAL",..: 82 18 72 72 73 28 72 48 15 80 ...
##  $ Mun       : Factor w/ 13 levels "APODACA","CADEREYTA",..: 10 7 1 1 1 1 1 5 4 1 ...
##  $ Estado    : Factor w/ 3 levels "COAHUILA","NUEVO LEÓN",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ EstCiv    : Factor w/ 5 levels "CASADO","DIVORCIADO",..: 3 5 1 3 3 3 5 5 3 3 ...

summary(RhBajas1)

##      Nom                 Edad              Gen        Fecha_alta        
##  Length:237         Min.   : 0.00   FEMENINO :140   Min.   :2016-10-12  
##  Class :character   1st Qu.:23.00   MASCULINO: 97   1st Qu.:2022-01-19  
##  Mode  :character   Median :29.00                   Median :2022-04-04  
##                     Mean   :30.52                   Mean   :2022-02-10  
##                     3rd Qu.:37.00                   3rd Qu.:2022-06-14  
##                     Max.   :61.00                   Max.   :2022-08-17  
##                                                                         
##                    MB        Días_trab        Baja           
##  ABANDONO           :  1   15     : 11   Min.   :2021-11-27  
##  BAJA POR FALTAS    :141   1      :  9   1st Qu.:2022-03-01  
##  JUBILACION         :  1   6      :  9   Median :2022-05-06  
##  RENUNCIA VOLUNTARIA: 86   9      :  8   Mean   :2022-05-05  
##  TERMINO DE CONTRATO:  8   0      :  7   3rd Qu.:2022-07-07  
##                            8      :  7   Max.   :2022-08-25  
##                            (Other):186                       
##                   PuestDes      Sal_IMSS                       Col     
##  AYUDANTE GENERAL     :173   Min.   :144.4   PUEBLO NUEVO        : 67  
##  SOLDADOR             : 11   1st Qu.:180.7   VALLE DE SANTA MARIA: 15  
##  COSTURERA            : 10   Median :180.7   CANTORAL            : 10  
##  MONTACARGUISTA       :  5   Mean   :178.6   PORTAL DE HUINALA   :  6  
##  AY. GENERAL          :  4   3rd Qu.:180.7   SAN ISIDRO          :  6  
##  AUXILIAR DE EMBARQUES:  3   Max.   :500.0   BOSQUES DE HUINALA  :  4  
##  (Other)              : 31                   (Other)             :129  
##                        Mun             Estado            EstCiv   
##  APODACA                 :162   COAHUILA  :  9   CASADO     : 64  
##  PESQUERIA               : 32   NUEVO LEÓN:227   DIVORCIADO :  3  
##  JUAREZ                  : 15   SALTILLO  :  1   SOLTERO    :110  
##  GUADALUPE               : 10                    Unión libre:  1  
##  RAMOS ARIZPE            :  8                    UNIÓN LIBRE: 59  
##  SAN NICOLAS DE LOS GARZA:  3                                     
##  (Other)                 :  7

Tablas de Visualizacion

## Colaboradores


tapply(RhColab1$Sal_Diario,
       list(RhColab1$Gen,RhColab1$Puesto), mean)

##           AY. GENERAL AYUDANTE DE MANTENIMIENTO Ayudante general
## FEMENINO       151.61                        NA               NA
## MASCULINO      151.61                    180.68           176.72
##           AYUDANTE GENERAL CHOFER CHOFER GESTOR COSTURERA CUSTOMER SERVICE INF
## FEMENINO          177.4222     NA            NA  191.7533                   NA
## MASCULINO         176.2268 177.71        180.68  176.7200               176.72
##           ENFERMERA Externo EXTERNO GESTOR GUARDIA DE SEGURIDAD
## FEMENINO     176.72      NA      NA     NA                   NA
## MASCULINO        NA  176.72  151.67 176.72               180.68
##           INSPECTOR DE CALIDAD INSPECTORA DE CALIDAD  LIDER LIMPIEZA
## FEMENINO                208.65                180.68 144.45   176.72
## MASCULINO                   NA                    NA     NA       NA
##           MANTENIMIENTO MONTACARGUISTA   MOZO OP. FLEXO-RANURADORA-REFILADORA
## FEMENINO             NA             NA     NA                              NA
## MASCULINO        279.61         180.68 180.68                          176.72
##           OPERADOR SIERRA PINTOR RECIBO RESIDENTE SOLDADOR Supervisor de Máquin
## FEMENINO               NA     NA 176.72        NA       NA                   NA
## MASCULINO          180.68 176.72     NA    177.71  179.888               176.72
##           Supervisor de pegado SUPERVISORA
## FEMENINO                176.72      389.21
## MASCULINO                   NA          NA

tapply(RhColab1$Sal_Diario,
       list(RhColab1$Gen,RhColab1$Dep), mean)

##                    Ay.flexo Calidad  Cedis  CEDIS Celdas CORTADORAS Costura
## FEMENINO  178.7544       NA 194.665     NA     NA 180.68         NA 245.375
## MASCULINO 176.5400   180.68      NA 176.72 180.68     NA     180.68 176.720
##           COSTURA Costura T2     EHS Embarques Externo Limpieza Materiales
## FEMENINO   151.61     152.86 176.720        NA      NA   176.72     176.72
## MASCULINO      NA         NA 230.145    177.71 164.195       NA         NA
##           Paileria Produccion Cartón MC Produccion Cartón MDL Producción Retorn
## FEMENINO        NA              194.405              156.0975          161.3000
## MASCULINO    178.7              151.670              168.3700          183.8443
##           Rotativa Stabilus Troquel
## FEMENINO        NA   180.68  180.68
## MASCULINO   151.61   180.68  180.68

## Bajas

tapply(RhBajas1$Sal_IMSS,RhBajas1$Gen,mean)

##  FEMENINO MASCULINO 
##  177.3126  180.5544

Reemplazamientos

RhColab1$Sal_Diario<-replace(RhColab1$Sal_Diario,RhColab1$Sal_Diario>1000000,181)

Necesario reemplazar el valor arrojado de salario_diario por la mediana para asi poder tener un analisis mas certero ya que es bastante comun que con esta se puedan realizar estos tipos de cambios.

Graficos

tapply(RhColab1$Sal_Diario,
       list(RhColab1$Gen,RhColab1$Dep), mean)

##                    Ay.flexo Calidad  Cedis  CEDIS Celdas CORTADORAS Costura
## FEMENINO  178.7544       NA 194.665     NA     NA 180.68         NA 245.375
## MASCULINO 176.5400   180.68      NA 176.72 180.68     NA     180.68 176.720
##           COSTURA Costura T2     EHS Embarques Externo Limpieza Materiales
## FEMENINO   151.61     152.86 176.720        NA      NA   176.72     176.72
## MASCULINO      NA         NA 230.145    177.71 164.195       NA         NA
##           Paileria Produccion Cartón MC Produccion Cartón MDL Producción Retorn
## FEMENINO        NA              194.405              156.0975          161.3000
## MASCULINO    178.7              151.670              168.3700          183.8443
##           Rotativa Stabilus Troquel
## FEMENINO        NA   180.68  180.68
## MASCULINO   151.61   180.68  180.68

hist(RhBajas1$Edad, freq=TRUE, col='orange', main="Histograma de Edad",xlab="Edad en AC1os")

ggplot(RhBajas1, aes(x=Gen, y=Edad, fill=Gen)) + 
  geom_boxplot()

ggplot(RhColab1, aes(x=Gen, y=Sal_Diario, fill=Gen)) + 
  geom_boxplot()

ggplot(RhColab1, aes(Gen,Sal_Diario,fill=Gen)) +                                    
  geom_bar(stat = "identity") +
  scale_fill_brewer(palette = "Set2") + ggtitle("Salario Diario por Genero")

ggplot(RhBajas1, aes(x=Gen, y=Sal_IMSS, fill=Gen)) + 
  geom_bar(stat="identity") + 
  facet_grid(~EstCiv) + scale_fill_brewer(palette = "Set1")

Conclusiones

La edad promedi de los colaboradores es de entre 20 y 30 años, teniendo outliers de hasta 56 y 60 años de edad y dando como resultado un rango aproximado de entre 20 y 40 años

En cuanto al salario el promedio aproximado es de entre 170 y 180 pesos la hora, teniendo un outlier de una persona del sexo femenino con un ingreso de 441 pesos, duplicando el promedio de la mayoria de los demas empleados de FORM

En cuanto al estatus civil, se logra observar que una persona del sexo femenino ya sea soltera, casada o en union libre cuenta con un salario por encima del de una persona del sexo masculino

Delivery Plan

Descargar Librerias

library(data.table)
library(dplyr)
library(plyr)
library(ggplot2)
library(naniar)
library(Hmisc)         
library(psych)
library(tidyverse)
library(janitor)
library(knitr)
library(pollster)
library(epiDisplay)
library(descr)
library(tidyr)

Limpieza

Importar base de datos

setwd("C:\\Users\\jimen\\Downloads")

del_plan <- read.csv("DP_1.csv")

summary (del_plan)

##  CLIENTE.PLANTA       PROYECTO           ID.ODOO              ITEM          
##  Length:231         Length:231         Length:231         Length:231        
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##      JUNIO             JULIO             AGOSTO          SEPTIEMBRE  
##  Min.   :   0.00   Min.   :    0.0   Min.   :   0.00   Min.   :   0  
##  1st Qu.:   0.00   1st Qu.:    0.0   1st Qu.:   0.00   1st Qu.:   0  
##  Median :   0.00   Median :    0.0   Median :   0.00   Median :   0  
##  Mean   :  29.06   Mean   :  135.9   Mean   :  77.45   Mean   :  81  
##  3rd Qu.:   0.00   3rd Qu.:    0.0   3rd Qu.:   0.00   3rd Qu.:   0  
##  Max.   :1280.00   Max.   :13120.0   Max.   :3200.00   Max.   :3200  
##     OCTUBRE         NOVIEMBRE         DICIEMBRE          ene.22       
##  Min.   :   0.0   Min.   :   0.00   Min.   :   0.0   Min.   :   0.00  
##  1st Qu.:   0.0   1st Qu.:   0.00   1st Qu.:   0.0   1st Qu.:   0.00  
##  Median :   0.0   Median :   0.00   Median :   0.0   Median :   0.00  
##  Mean   :  62.0   Mean   :  89.69   Mean   : 100.4   Mean   :  82.37  
##  3rd Qu.:  11.5   3rd Qu.:   4.00   3rd Qu.:   1.5   3rd Qu.:  26.50  
##  Max.   :3200.0   Max.   :6400.00   Max.   :6400.0   Max.   :3200.00  
##      feb.22           mar.22           abr.22            may.22       
##  Min.   :   0.0   Min.   :   0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:   0.0   1st Qu.:   0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :   0.0   Median :   0.0   Median :    0.0   Median :    0.0  
##  Mean   : 103.5   Mean   : 153.9   Mean   :  186.5   Mean   :  187.6  
##  3rd Qu.:   0.0   3rd Qu.:  20.0   3rd Qu.:   24.0   3rd Qu.:   22.0  
##  Max.   :9600.0   Max.   :9600.0   Max.   :16354.0   Max.   :17665.0  
##      jun.22            jul.22            ago.22            sep.22       
##  Min.   :    0.0   Min.   :    0.0   Min.   :    0.0   Min.   :    0.0  
##  1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0   1st Qu.:    0.0  
##  Median :    0.0   Median :    0.0   Median :    0.0   Median :    0.0  
##  Mean   :  171.2   Mean   :  316.9   Mean   :  131.5   Mean   :  272.3  
##  3rd Qu.:    1.0   3rd Qu.:   15.5   3rd Qu.:    0.0   3rd Qu.:    0.0  
##  Max.   :11050.0   Max.   :25900.0   Max.   :13200.0   Max.   :29379.0  
##    OCTUBRE.22          nov.22            dic.22            ene.23        
##  Min.   :    0.0   Min.   :  0.000   Min.   :  0.000   Min.   :  0.0000  
##  1st Qu.:    0.0   1st Qu.:  0.000   1st Qu.:  0.000   1st Qu.:  0.0000  
##  Median :    0.0   Median :  0.000   Median :  0.000   Median :  0.0000  
##  Mean   :  120.9   Mean   :  2.113   Mean   :  1.225   Mean   :  0.5974  
##  3rd Qu.:    0.0   3rd Qu.:  0.000   3rd Qu.:  0.000   3rd Qu.:  0.0000  
##  Max.   :16421.0   Max.   :324.000   Max.   :276.000   Max.   :138.0000  
##      feb.23      mar.23   TOTAL.MESES    
##  Min.   :0   Min.   :0   Min.   :     0  
##  1st Qu.:0   1st Qu.:0   1st Qu.:    16  
##  Median :0   Median :0   Median :   115  
##  Mean   :0   Mean   :0   Mean   :  2306  
##  3rd Qu.:0   3rd Qu.:0   3rd Qu.:   724  
##  Max.   :0   Max.   :0   Max.   :136754

str (del_plan)

## 'data.frame':    231 obs. of  27 variables:
##  $ CLIENTE.PLANTA: chr  "STB3" "STB4" "STB5" "STB6" ...
##  $ PROYECTO      : chr  "CANASTILLA GRIS" "Caja inter chica" "CHAROLA G09" "" ...
##  $ ID.ODOO       : chr  "15.785" "" "19.12" "19.211" ...
##  $ ITEM          : chr  "CABLE SET CAJA BACK UP CANASTILLA" "Caja intercompa√±√≠a chica" "CHAROLA G09 915898  " "MOTOR GEAR BOX" ...
##  $ JUNIO         : int  0 0 0 0 0 0 0 0 0 192 ...
##  $ JULIO         : int  140 0 0 0 0 300 0 0 0 463 ...
##  $ AGOSTO        : int  530 0 0 0 0 0 0 50 0 226 ...
##  $ SEPTIEMBRE    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ OCTUBRE       : int  200 0 0 0 0 0 0 0 0 0 ...
##  $ NOVIEMBRE     : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ DICIEMBRE     : int  150 184 75 1 0 0 9 0 0 0 ...
##  $ ene.22        : int  230 125 126 0 0 0 0 0 0 0 ...
##  $ feb.22        : int  500 55 10 1 0 0 0 0 0 0 ...
##  $ mar.22        : int  0 55 5 0 0 0 0 0 0 0 ...
##  $ abr.22        : int  0 0 0 1 0 400 0 0 0 0 ...
##  $ may.22        : int  0 0 15 3 0 0 0 0 0 0 ...
##  $ jun.22        : int  200 0 5 2 100 0 0 0 0 0 ...
##  $ jul.22        : int  900 0 10 5 100 0 0 0 0 0 ...
##  $ ago.22        : int  1000 0 0 3 0 0 0 0 0 0 ...
##  $ sep.22        : int  0 0 5 4 0 0 0 0 0 0 ...
##  $ OCTUBRE.22    : int  0 0 50 6 0 0 0 0 0 0 ...
##  $ nov.22        : int  0 0 125 7 0 0 0 0 0 0 ...
##  $ dic.22        : int  0 0 0 7 0 0 0 0 0 0 ...
##  $ ene.23        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ feb.23        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ mar.23        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ TOTAL.MESES   : int  3850 419 426 40 200 700 9 50 0 881 ...

Convertir meses en una columna

Esto fue necesario primeramente para poder tener mejor manejo de las unidades de produccion mensuales ya que originalmente en la base de datos estas eran registradas diariamente lo cual tornaria el analisis mil veces mas tedioso. Despues de eso con la funcion de pivot_longer se logro cambiar de posicion para que asi se pudieran ver las variables de una manera mas optima para poder realizar los siguienres analisis

del_plan <- clean_names(del_plan)
del_plan<-del_plan %>% dplyr::rename(jun_21=junio,
                               jul_21=julio,
                               ago_21=agosto, sep_21=septiembre, oct_21= octubre, nov_21=noviembre, dic_21=diciembre, oct_22=octubre_22)
del_plan<-pivot_longer(del_plan, cols=5:16, names_to = "mes", values_to = "unidades")

del_plan <- dplyr::select(del_plan, -c(5:15))

Eliminar columnas no necesarias

Despues tambien fue necesario eliminar columnas no necesarias como ID ODOO, Proyecto e ITEM ya que a pesar de que son importantes generalmente, en este momento exacto no iban a ser de mucha ayuda ya que lo que nos interesa se encuentra en otras columnas.

del_plan <- dplyr::select(del_plan, -c(2:4))

Por lo tantoi solo vamos a mantener solo cliente_planta, mes y unidades

Formato de las variables

str(del_plan)

## tibble [2,772 × 3] (S3: tbl_df/tbl/data.frame)
##  $ cliente_planta: chr [1:2772] "STB3" "STB3" "STB3" "STB3" ...
##  $ mes           : chr [1:2772] "jun_21" "jul_21" "ago_21" "sep_21" ...
##  $ unidades      : int [1:2772] 0 140 530 0 200 0 150 230 500 0 ...

Al ver el formato nos damos cuenta que esta bien y no hacemos ningun cambio

NA’s y valores atipicos

Al observar la base de datos no se encuentran NA ni valores atipicos, unicamente eliminaremos los registros que tienen 0 unidades programadas.

del_plan <- filter(del_plan, unidades>0)
sum(is.na(del_plan))

## [1] 0

Exportar la base de datos

del_plan_limpia<-del_plan

write.csv(del_plan_limpia,file = "CLEANDBDeliveryPlan.csv", row.names = FALSE)

Cuantas variables

Variable<-c("cliente_planta","mes","unidades")
Type<-c("qualitative (ordinal)", "qualitative(nominal)", "quantitative (continuous)")  
table<-data.frame(Variable,Type)
knitr::kable(table)

Variable	Type
cliente_planta	qualitative (ordinal)
mes	qualitative(nominal)
unidades	quantitative (continuous)

summary (del_plan_limpia)

##  cliente_planta         mes               unidades      
##  Length:733         Length:733         Min.   :    1.0  
##  Class :character   Class :character   1st Qu.:   30.0  
##  Mode  :character   Mode  :character   Median :   76.0  
##                                        Mean   :  406.4  
##                                        3rd Qu.:  300.0  
##                                        Max.   :17665.0

str (del_plan_limpia)

## tibble [733 × 3] (S3: tbl_df/tbl/data.frame)
##  $ cliente_planta: chr [1:733] "STB3" "STB3" "STB3" "STB3" ...
##  $ mes           : chr [1:733] "jul_21" "ago_21" "oct_21" "dic_21" ...
##  $ unidades      : int [1:733] 140 530 200 150 230 500 184 125 55 55 ...

Graficas

Tabla estadisticas

tabla_estadisticos <- describe(del_plan)
tabla_estadisticos

## # A tibble: 1 × 26
##   described_…¹     n    na  mean    sd se_mean   IQR skewn…² kurto…³   p00   p01
##   <chr>        <int> <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl> <dbl>
## 1 unidades       733     0  406. 1337.    49.4   270    8.38    85.8     1     1
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## #   p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## #   p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## #   variable names ¹described_variables, ²skewness, ³kurtosis

Al realizar una tabla estadistica, R nos arroja diferentes metodos como son la media, la mediana y la moda, ademas de la desviacion estandar las cuales son descripciones bastante importantes al momento de realizar un analisis de datos. En cuanto a la media podemos ver que para Unidades es 406 lo que quiere decir que esta cantidad es lo que suelen tener programado mensualmente. Por otro lado si vemos nuestra mediana podemos ver que existe un numero muy diferente el cual es 76, lo que nos habla de un rango bastante amplio de cantidades de unidades programadas ya que a pesar de que el promedio es alto, tambien hay muchas unidades que llegan con cantidades menores a 76.

Bar plots

library(dplyr)
str(del_plan)

## tibble [733 × 3] (S3: tbl_df/tbl/data.frame)
##  $ cliente_planta: chr [1:733] "STB3" "STB3" "STB3" "STB3" ...
##  $ mes           : chr [1:733] "jul_21" "ago_21" "oct_21" "dic_21" ...
##  $ unidades      : int [1:733] 140 530 200 150 230 500 184 125 55 55 ...

del_plan$cliente_planta<-as.factor(del_plan$cliente_planta)
del_plan$unidades<-as.numeric(del_plan$unidades) 

del_plan2<-aggregate(unidades~cliente_planta, data = del_plan,sum)%>% arrange(desc(unidades))
del_plan3<-filter(del_plan2, unidades>4000)

ggplot(del_plan3, aes(x=reorder(cliente_planta,unidades), y=unidades)) +
  geom_bar(stat="identity")+
  coord_flip()

Para este Bar Plot fue necesario realizar un proceso en el cual primero se convirtieron las variables mediante las funciones de as.factor y as.numeric para asi poder volver datos cualitativos a cuantitativos para tornarlos mas manejables. Despues de esto se procedio a graficar y al realizar esto se logro ver que salia un grafico bastante largo en el cual hasta se mostraban unidades programadas tan pequenas como de una sola unidad por lo tanto despues se pidio que solamente mostrara valores mayores a 4000 lo cual nos resulto en una grafica donde se podian observar los Clientes con mayor numero de unidades en orden descendiente.

Dispersion

del_plan2$unidades<-as.numeric(del_plan2$unidades)

ggplot(del_plan, aes(x=cliente_planta, y=unidades, fill=cliente_planta)) + 
  geom_boxplot()

boxplot(del_plan3$cliente_planta,del_plan3$unidades)

class(del_plan2$unidades)

## [1] "numeric"

Para este paso tambien fue necesario utilizar la funcion “as.numeric” para poder contar con datos mas manejables para poder realizar el boxplot

Antes de cualquier cosa se tuvo la intencion de eliminar los datos menores a 4000 como en uno de los pasos anteriores para asi contar con un grafico mas eficiente pero no fue posible, pero aun asi es posible ver las observaciones en el grafico.

A pesar de que en el eje de las X no se logran distinguir los nombres de los clientes, al lado derrecho se puede conectar con el color y de esta manera podemos ver que en efecto Hella Es aquel cliente con mayor cantidad de unidades y ademas de eso cuenta con algunos outliers muy por encima de la median, seguido por TRMX el cual no cuenta con outliers.

Diciendonos que con estos datos se podria realizar un modelo bastante acertado ya que se cuenta con muchos registros, los cuales probablemente si usamos TRMX sean aun mas certeros para proximas unidades programadas del mismo cliente.

Time series plot

del_plan4<-aggregate(unidades~cliente_planta+mes, data = del_plan,sum)%>% arrange(desc(unidades))
del_plan5<-filter(del_plan4, cliente_planta=="HELLA" & cliente_planta=="TRMX" & cliente_planta=="VARROC" & cliente_planta=="DENSO")
ggplot(del_plan,aes(x=mes, y=unidades,color=cliente_planta))+
  geom_line()+
  labs(x="Fecha",y="Delay in Minutes", color="Legend")+
  ggtitle("Delays in Performance by Client")

Para esta ultima grafica fue necesario introducir la variable de tiempo que en este caso es mes para poder realizar este plot de series de tiempo donde se muestra claramente la dispersion de las variables. Como podemos ver en la segunda mitad del periodo anual se ve un incremento notorio, ademas de un decremento justo por finales del segundo semestre.

Delivery Performance

Importar base de datos

#file.choose()
bd<-read.csv ("C:\\Users\\jimen\\Downloads\\DELIVERYPERORMANCE 2.csv") 
bdclientes<-read.csv ("C:\\Users\\jimen\\Downloads\\DeliveryPerformancefinal1.csv")

Instalar Librerias

library (tidyverse)
library (janitor)
library (dplyr)
#install.packages ("ggplot2")
library (ggplot2)
library (Hmisc)

Analizar base de datos

summary (bd)

##     fecha             cliente               dif       
##  Length:52          Length:52          Min.   : 0.00  
##  Class :character   Class :character   1st Qu.: 0.00  
##  Mode  :character   Mode  :character   Median : 0.00  
##                                        Mean   :16.07  
##                                        3rd Qu.:29.38  
##                                        Max.   :71.25

str (bd)

## 'data.frame':    52 obs. of  3 variables:
##  $ fecha  : chr  "31/07/21" "31/07/21" "31/07/21" "31/07/21" ...
##  $ cliente: chr  "PRINTEL " "MAHLE" "MAGNA" "VARROC" ...
##  $ dif    : num  4.9 15.7 0 0 27.7 ...

names(bd)<-c('FECHA', 'CLIENTE', 'DIFERENCIA' )

Tipos de variables

Variable<-c("FECHA","CLIENTE","DIFERENCIA")
Type<-c("qualitative (ordinal)", "qualitative(nominal)", "quantitative (continuous)")  
table<-data.frame(Variable,Type)
knitr::kable(table)

Variable	Type
FECHA	qualitative (ordinal)
CLIENTE	qualitative(nominal)
DIFERENCIA	quantitative (continuous)

Limpieza de base de datos

Eliminar NA’s y sustituir con 0’s

sum(is.na(bd))

## [1] 0

bd[is.na(bd)]<-0


bd1<-bd
bd1<-as.data.frame(bd1) 
bd1$FECHA<-as.Date(bd1$FECHA,format="%d/%m/%Y") 
bd1$CLIENTE<-as.factor(bd1$CLIENTE) 
tabyl(bd1, FECHA, CLIENTE)

##       FECHA MAGNA MAHLE PRINTEL  VARROC
##  0021-07-31     1     1        1      1
##  0021-08-31     1     1        1      1
##  0021-09-30     1     1        1      1
##  0021-10-31     1     1        1      1
##  0021-11-30     1     1        1      1
##  0021-12-31     1     1        1      1
##  0022-01-31     1     1        1      1
##  0022-02-28     1     1        1      1
##  0022-03-31     1     1        1      1
##  0022-04-30     1     1        1      1
##  0022-05-31     1     1        1      1
##  0022-06-30     1     1        1      1
##  0022-07-31     1     1        1      1

tabyl(bd1, FECHA, DIFERENCIA)

##       FECHA 0 1.6 10.92 15.7 18.41 27.7 28.77 31.21 33.24 4.9 41.65 46.27 50.65
##  0021-07-31 2   0     0    1     0    0     0     0     0   1     0     0     0
##  0021-08-31 2   0     0    0     0    1     0     0     0   0     0     0     0
##  0021-09-30 2   0     0    0     0    0     0     0     0   0     0     0     0
##  0021-10-31 3   0     0    0     0    0     0     0     0   0     0     0     0
##  0021-11-30 2   0     1    0     0    0     0     0     0   0     0     0     0
##  0021-12-31 2   0     0    0     1    0     0     0     0   0     0     1     0
##  0022-01-31 2   0     0    0     0    0     1     0     0   0     0     0     0
##  0022-02-28 2   0     0    0     0    0     0     1     0   0     0     0     0
##  0022-03-31 3   0     0    0     0    0     0     0     0   0     0     0     0
##  0022-04-30 3   0     0    0     0    0     0     0     0   0     0     0     1
##  0022-05-31 3   0     0    0     0    0     0     0     0   0     0     0     0
##  0022-06-30 3   0     0    0     0    0     0     0     0   0     1     0     0
##  0022-07-31 2   1     0    0     0    0     0     0     1   0     0     0     0
##  56.82 60.1 62.63 63.68 66.44 67.31 67.98 71.25 8.6
##      0    0     0     0     0     0     0     0   0
##      0    0     0     0     0     1     0     0   0
##      1    0     0     0     0     0     0     0   1
##      0    0     0     0     0     0     1     0   0
##      0    1     0     0     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
##      0    0     0     0     1     0     0     0   0
##      0    0     0     0     0     0     0     1   0
##      0    0     0     1     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
##      0    0     1     0     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0

tibble(bd1)

## # A tibble: 52 × 3
##    FECHA      CLIENTE    DIFERENCIA
##    <date>     <fct>           <dbl>
##  1 0021-07-31 "PRINTEL "        4.9
##  2 0021-07-31 "MAHLE"          15.7
##  3 0021-07-31 "MAGNA"           0  
##  4 0021-07-31 "VARROC"          0  
##  5 0021-08-31 "PRINTEL "       27.7
##  6 0021-08-31 "MAHLE"          67.3
##  7 0021-08-31 "MAGNA"           0  
##  8 0021-08-31 "VARROC"          0  
##  9 0021-09-30 "PRINTEL "        8.6
## 10 0021-09-30 "MAHLE"          56.8
## # … with 42 more rows

Limpieza bdclientes2

bdclientes2<-bdclientes
bdclientes2<-as.data.frame(bdclientes2)
bdclientes2$FECHA<-as.Date(bdclientes2$FECHA,format="%m/%d/%Y")
bdclientes2$PRINTEL<-as.factor(bdclientes2$PRINTEL)
tabyl(bdclientes2, FECHA, PRINTEL)

##       FECHA 0 1.6 4.9 8.6 10.92 18.41 27.7 28.77 31.21
##  2021-01-07 0   0   1   0     0     0    0     0     0
##  2021-01-08 0   0   0   0     0     0    1     0     0
##  2021-01-09 0   0   0   1     0     0    0     0     0
##  2021-01-10 1   0   0   0     0     0    0     0     0
##  2021-01-11 0   0   0   0     1     0    0     0     0
##  2021-01-12 0   0   0   0     0     1    0     0     0
##  2022-01-01 0   0   0   0     0     0    0     1     0
##  2022-01-02 0   0   0   0     0     0    0     0     1
##  2022-01-03 1   0   0   0     0     0    0     0     0
##  2022-01-04 1   0   0   0     0     0    0     0     0
##  2022-01-05 1   0   0   0     0     0    0     0     0
##  2022-01-06 1   0   0   0     0     0    0     0     0
##  2022-01-07 0   1   0   0     0     0    0     0     0

tabyl(bdclientes2, FECHA, MAHLE)

##       FECHA 15.7 33.24 41.65 46.27 50.65 56.82 60.1 62.63 63.68 66.44 67.31
##  2021-01-07    1     0     0     0     0     0    0     0     0     0     0
##  2021-01-08    0     0     0     0     0     0    0     0     0     0     1
##  2021-01-09    0     0     0     0     0     1    0     0     0     0     0
##  2021-01-10    0     0     0     0     0     0    0     0     0     0     0
##  2021-01-11    0     0     0     0     0     0    1     0     0     0     0
##  2021-01-12    0     0     0     1     0     0    0     0     0     0     0
##  2022-01-01    0     0     0     0     0     0    0     0     0     1     0
##  2022-01-02    0     0     0     0     0     0    0     0     0     0     0
##  2022-01-03    0     0     0     0     0     0    0     0     1     0     0
##  2022-01-04    0     0     0     0     1     0    0     0     0     0     0
##  2022-01-05    0     0     0     0     0     0    0     1     0     0     0
##  2022-01-06    0     0     1     0     0     0    0     0     0     0     0
##  2022-01-07    0     1     0     0     0     0    0     0     0     0     0
##  67.98 71.25
##      0     0
##      0     0
##      0     0
##      1     0
##      0     0
##      0     0
##      0     0
##      0     1
##      0     0
##      0     0
##      0     0
##      0     0
##      0     0

tibble(bdclientes2)

## # A tibble: 13 × 5
##    FECHA      PRINTEL MAHLE MAGNA VARROC
##    <date>     <fct>   <dbl> <int>  <int>
##  1 2021-01-07 4.9      15.7     0      0
##  2 2021-01-08 27.7     67.3     0      0
##  3 2021-01-09 8.6      56.8     0      0
##  4 2021-01-10 0        68.0     0      0
##  5 2021-01-11 10.92    60.1     0      0
##  6 2021-01-12 18.41    46.3     0      0
##  7 2022-01-01 28.77    66.4     0      0
##  8 2022-01-02 31.21    71.2     0      0
##  9 2022-01-03 0        63.7     0      0
## 10 2022-01-04 0        50.6     0      0
## 11 2022-01-05 0        62.6     0      0
## 12 2022-01-06 0        41.6     0      0
## 13 2022-01-07 1.6      33.2     0      0

Analisis Profundo de la Base de datos

media_bd <- mean(bd$DIFERENCIA)
media_bd

## [1] 16.07365

median_bd <- median(bd$DIFERENCIA)
median_bd

## [1] 0

mode_bd <- mode(bd$DIFERENCIA)
mode_bd

## [1] "numeric"

hist(bd1$DIFERENCIA)

Con esta grafica se logra observar una diferencia de 0 a 10 dentro de un rango de 0 a 80 en cuanto a la efectividad del delivery performance de los clientes.

Analisis Profundo de la Base de datos BDCLIENTES

media_bdclientes <- mean(bdclientes$PRINTEL)
media_bdclientes

## [1] 10.16231

median_bdclientes <- median(bdclientes$PRINTEL)
median_bdclientes

## [1] 4.9

mode_bdclientes <- mode(bdclientes$PRINTEL)
mode_bdclientes

## [1] "numeric"

media_bdclientes <- mean(bdclientes$MAHLE)
media_bdclientes

## [1] 54.13231

median_bdclientes <- median(bdclientes$MAHLE)
median_bdclientes

## [1] 60.1

mode_bdclientes <- mode(bdclientes$MAHLE)
mode_bdclientes

## [1] "numeric"

bdclientes3 <-bdclientes
bdclientes3 <- subset (bdclientes3, select = -c (MAGNA,VARROC))


hist(bdclientes3$PRINTEL)

hist(bdclientes3$MAHLE)

Aqui podemos ver claramente la deferncia entre dos provedores siendo Printel y MAHLE los cuales se diferencian ya que cada uno tiene un sesgo hacia diferente lado, lo que nos habla de una frecuencia de retrasos en los pedidos

Graficas

Clientes con los Retrasos mas Altos

ggplot(bd,aes(x=FECHA, y=DIFERENCIA,fill=CLIENTE))+
  geom_bar(stat="identity")+
  geom_hline(yintercept=33,linetype="dashed",color="black")+
  labs(x="Fecha",y="Retraso en Minutos", color="Legend")+
  ggtitle("Retraso en Desempeño de los Clientes")

En esta ultima grafica podemos observar que MAHLE es el cliente que cuenta con la mayor cantidad de retrasos a comparacion de los otros proveedores.

Produccion

Importar la base de datos producción de la empresa FORM

producciontotal <- read.csv ("C:\\Users\\jimen\\Downloads\\BD Producción csv.csv")

Entender la base de datos

str(producciontotal)

## 'data.frame':    5410 obs. of  17 variables:
##  $ Fecha               : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ No.                 : chr  "1" "2" "3" "4" ...
##  $ CLIENTE             : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ ID.FORM             : chr  "" "N.A." "CORTE." "ST-026-13892" ...
##  $ PRODUCTO            : chr  "STABOMAT 643920. CAJA IMP. CORTE. AZUL.PC0011. ( 2 Pza/Caja)." "KR55006. CAJA IMP. AZUL. CORTE. ( 1 pieza)." "241B KIT. EXPORT. INSERTO CON INSERTO. CORTE para Troquel." "MOPAR GDE. 754549. CAJA IMP. NEGRA. PC0022. ( PC0043: solo si autoriza Calidad). ( 1 Pieza). CORTE." ...
##  $ PIEZAS.PROG.        : chr  "200" "100" "216" "100" ...
##  $ TMO..MIN.           : chr  "20" "15" "20" "10" ...
##  $ HR..FIN             : chr  "9:20" "9:35" "9:55" "10:05" ...
##  $ ESTACION.ARRANQUE   : chr  "C1" "C1" "C1" "C1" ...
##  $ Laminas.procesadas  : chr  "402" "134" "110" "100" ...
##  $ INICIO.SEP.UP       : chr  "9:05" "10:05" "9:40" "11.2" ...
##  $ FIN.INICIO.DE.SEP.UP: chr  "9.1" "10:16" "9:43" "11:26" ...
##  $ INICIO.de.PROCESO   : chr  "9:12" "10.17" "9:45" "11:30" ...
##  $ FIN.de.PROCESO      : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD      : chr  "1" "1" "1" "1" ...
##  $ TIEMPO.MATERIALES   : int  NA NA NA 7 NA NA NA NA NA NA ...
##  $ MERMAS.Maquinas.    : chr  "" "" "" "" ...

Eliminar columnas irrelevantes para el análisis

producciontotal <- subset (producciontotal,select = -c(No. , ID.FORM , PRODUCTO,  HR..FIN , ESTACION.ARRANQUE , INICIO.SEP.UP ,FIN.INICIO.DE.SEP.UP , INICIO.de.PROCESO , TIEMPO.MATERIALES , MERMAS.Maquinas. ))
summary (producciontotal)

##     Fecha             CLIENTE          PIEZAS.PROG.        TMO..MIN.        
##  Length:5410        Length:5410        Length:5410        Length:5410       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##  Laminas.procesadas FIN.de.PROCESO     TIEMPO.CALIDAD    
##  Length:5410        Length:5410        Length:5410       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character

Instalar librerias necesarias

# install.packages("tibble")
library(tibble)

Cambiar a entero las variables cuantitativas

producciontotal$PIEZAS.PROG. <- substr(producciontotal$PIEZAS.PROG., start = 1, stop = 2)
tibble (producciontotal)

## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>      <chr>        <chr>     <chr>              <chr>   <chr>  
##  1 15/07/22 STABILUS 1 20           20        402                10:04   1      
##  2 15/07/22 STABILUS 1 10           15        134                11:05   1      
##  3 15/07/22 STABILUS 1 21           20        110                9.57    1      
##  4 15/07/22 STABILUS 1 10           10        100                11:49   1      
##  5 15/07/22 YANFENG    20           10        51                 12:31   1      
##  6 15/07/22 TRMX       20           20        402                2:00    1      
##  7 15/07/22 STABILUS 1 10           10        22                 2.44    1      
##  8 15/07/22 YANFENG    12           10        13                 3:00    1      
##  9 15/07/22 YANFENG    32           10        33                 2:12    1      
## 10 15/07/22 YANFENG    50           60        501/501            10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹FIN.de.PROCESO,
## #   ²TIEMPO.CALIDAD

producciontotal$PIEZAS.PROG. <- as.integer(producciontotal$PIEZAS.PROG.)
str(producciontotal)

## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : chr  "20" "15" "20" "10" ...
##  $ Laminas.procesadas: chr  "402" "134" "110" "100" ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : chr  "1" "1" "1" "1" ...

producciontotal$TMO..MIN. <- substr(producciontotal$TMO..MIN., start = 1, stop = 2)
tibble (producciontotal)

## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>             <int> <chr>     <chr>              <chr>   <chr>  
##  1 15/07/22 STABILUS 1           20 20        402                10:04   1      
##  2 15/07/22 STABILUS 1           10 15        134                11:05   1      
##  3 15/07/22 STABILUS 1           21 20        110                9.57    1      
##  4 15/07/22 STABILUS 1           10 10        100                11:49   1      
##  5 15/07/22 YANFENG              20 10        51                 12:31   1      
##  6 15/07/22 TRMX                 20 20        402                2:00    1      
##  7 15/07/22 STABILUS 1           10 10        22                 2.44    1      
##  8 15/07/22 YANFENG              12 10        13                 3:00    1      
##  9 15/07/22 YANFENG              32 10        33                 2:12    1      
## 10 15/07/22 YANFENG              50 60        501/501            10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹FIN.de.PROCESO,
## #   ²TIEMPO.CALIDAD

producciontotal$TMO..MIN. <- as.integer(producciontotal$TMO..MIN.)
str(producciontotal)

## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: chr  "402" "134" "110" "100" ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : chr  "1" "1" "1" "1" ...

producciontotal$Laminas.procesadas <- substr(producciontotal$Laminas.procesadas, start = 1, stop = 2)
tibble (producciontotal)

## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>             <int>     <int> <chr>              <chr>   <chr>  
##  1 15/07/22 STABILUS 1           20        20 40                 10:04   1      
##  2 15/07/22 STABILUS 1           10        15 13                 11:05   1      
##  3 15/07/22 STABILUS 1           21        20 11                 9.57    1      
##  4 15/07/22 STABILUS 1           10        10 10                 11:49   1      
##  5 15/07/22 YANFENG              20        10 51                 12:31   1      
##  6 15/07/22 TRMX                 20        20 40                 2:00    1      
##  7 15/07/22 STABILUS 1           10        10 22                 2.44    1      
##  8 15/07/22 YANFENG              12        10 13                 3:00    1      
##  9 15/07/22 YANFENG              32        10 33                 2:12    1      
## 10 15/07/22 YANFENG              50        60 50                 10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹FIN.de.PROCESO,
## #   ²TIEMPO.CALIDAD

producciontotal$Laminas.procesadas <- as.integer(producciontotal$Laminas.procesadas)
str(producciontotal)

## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: int  40 13 11 10 51 40 22 13 33 50 ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : chr  "1" "1" "1" "1" ...

producciontotal$TIEMPO.CALIDAD <- substr(producciontotal$TIEMPO.CALIDAD, start = 1, stop = 2)
tibble (producciontotal)

## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>             <int>     <int>              <int> <chr>   <chr>  
##  1 15/07/22 STABILUS 1           20        20                 40 10:04   1      
##  2 15/07/22 STABILUS 1           10        15                 13 11:05   1      
##  3 15/07/22 STABILUS 1           21        20                 11 9.57    1      
##  4 15/07/22 STABILUS 1           10        10                 10 11:49   1      
##  5 15/07/22 YANFENG              20        10                 51 12:31   1      
##  6 15/07/22 TRMX                 20        20                 40 2:00    1      
##  7 15/07/22 STABILUS 1           10        10                 22 2.44    1      
##  8 15/07/22 YANFENG              12        10                 13 3:00    1      
##  9 15/07/22 YANFENG              32        10                 33 2:12    1      
## 10 15/07/22 YANFENG              50        60                 50 10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹FIN.de.PROCESO,
## #   ²TIEMPO.CALIDAD

producciontotal$TIEMPO.CALIDAD <- as.integer(producciontotal$TIEMPO.CALIDAD)
str(producciontotal)

## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: int  40 13 11 10 51 40 22 13 33 50 ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : int  1 1 1 1 1 1 1 1 1 2 ...

Convertir formato de la fecha

producciontotal$Fecha <- as.Date(producciontotal$Fecha, format = "%d/%m/%Y")
tibble(producciontotal)

## # A tibble: 5,410 × 7
##    Fecha      CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.proces…¹ FIN.d…² TIEMP…³
##    <date>     <chr>             <int>     <int>            <int> <chr>     <int>
##  1 0022-07-15 STABILUS 1           20        20               40 10:04         1
##  2 0022-07-15 STABILUS 1           10        15               13 11:05         1
##  3 0022-07-15 STABILUS 1           21        20               11 9.57          1
##  4 0022-07-15 STABILUS 1           10        10               10 11:49         1
##  5 0022-07-15 YANFENG              20        10               51 12:31         1
##  6 0022-07-15 TRMX                 20        20               40 2:00          1
##  7 0022-07-15 STABILUS 1           10        10               22 2.44          1
##  8 0022-07-15 YANFENG              12        10               13 3:00          1
##  9 0022-07-15 YANFENG              32        10               33 2:12          1
## 10 0022-07-15 YANFENG              50        60               50 10:59         2
## # … with 5,400 more rows, and abbreviated variable names ¹Laminas.procesadas,
## #   ²FIN.de.PROCESO, ³TIEMPO.CALIDAD

Convertir variable “Cliente” para análisis descriptivo

producciontotal$CLIENTE<-as.factor(producciontotal$CLIENTE)  
str(producciontotal)

## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : Date, format: "0022-07-15" "0022-07-15" ...
##  $ CLIENTE           : Factor w/ 12 levels "","DENSO","HANON SYSTEMS",..: 6 6 6 6 12 8 6 12 12 12 ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: int  40 13 11 10 51 40 22 13 33 50 ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : int  1 1 1 1 1 1 1 1 1 2 ...

Identificar valores faltantes

sum(is.na(producciontotal))

## [1] 4283

Cantidad de NA por variable

sapply(producciontotal, function(x) sum (is.na(x)))

##              Fecha            CLIENTE       PIEZAS.PROG.          TMO..MIN. 
##                  0                  1                117               1528 
## Laminas.procesadas     FIN.de.PROCESO     TIEMPO.CALIDAD 
##               1227                  0               1410

Reemplazar los registros NA de la tabla con la mediana

Paquetes y librerias

# install.packages("dplyr")
library(dplyr)

producciontotal<-producciontotal %>% mutate(PIEZAS.PROG.=ifelse(is.na(PIEZAS.PROG.),median(PIEZAS.PROG.,na.rm=T),PIEZAS.PROG.))
producciontotal<-producciontotal %>% mutate(TMO..MIN.=ifelse(is.na(TMO..MIN.),median(TMO..MIN.,na.rm=T),TMO..MIN.))
producciontotal<-producciontotal %>% mutate(laminas_procesadas=ifelse(is.na(Laminas.procesadas),median(Laminas.procesadas,na.rm=T),Laminas.procesadas))
producciontotal<-producciontotal %>% mutate(TIEMPO.CALIDAD=ifelse(is.na(TIEMPO.CALIDAD),median(TIEMPO.CALIDAD,na.rm=T),TIEMPO.CALIDAD))

Verificar la suma de NAs

sum(is.na(producciontotal))
sapply(producciontotal, function(x) sum (is.na(x)))

Omitir los valores irrelevantes identificados

producciontotal <- na.omit(producciontotal)
summary(producciontotal)

##      Fecha                  CLIENTE      PIEZAS.PROG.    TMO..MIN. 
##  Min.   :0022-07-15   STABILUS 1:1354   Min.   : 1.0   Min.   : 0  
##  1st Qu.:0022-08-03   TRMX      : 704   1st Qu.:14.0   1st Qu.:15  
##  Median :0022-08-19   STABILUS 3: 642   Median :20.0   Median :20  
##  Mean   :0022-08-19   YANFENG   : 506   Mean   :27.8   Mean   :22  
##  3rd Qu.:0022-09-05   DENSO     : 414   3rd Qu.:40.0   3rd Qu.:25  
##  Max.   :0022-09-21   VARROC    : 315   Max.   :99.0   Max.   :90  
##                       (Other)   : 247                              
##  Laminas.procesadas FIN.de.PROCESO     TIEMPO.CALIDAD    laminas_procesadas
##  Min.   : 0.00      Length:4182        Min.   : 0.0000   Min.   : 0.00     
##  1st Qu.: 0.00      Class :character   1st Qu.: 1.0000   1st Qu.: 0.00     
##  Median :20.00      Mode  :character   Median : 1.0000   Median :20.00     
##  Mean   :21.87                         Mean   : 0.9173   Mean   :21.87     
##  3rd Qu.:33.00                         3rd Qu.: 1.0000   3rd Qu.:33.00     
##  Max.   :98.00                         Max.   :25.0000   Max.   :98.00     
##

sum(is.na(producciontotal))

## [1] 0

Las tecnicas de limpieza utilizadas fueron mayormente para eliminar columas irrelevantes, cambiar variables a entero siendo estas cuantitativas, cambiar el formato de la fecha, realizar cambios de la variable “Cliente” para asi proseguir con el analisis descriptivo. Reemplazo de registros NA con la mediana como se hizo igualmente en RH colaboradores y Bajas.

Para al final unicamente tener que rectificar la suma de NA y omitir valores irrelevantes

Exportar base de datos

write.csv(producciontotal,"producciontotal.csv", row.names=FALSE)

Yanfeng destaca por se rl cliente con mas piezas programadas con un tiempo dedicado proemdio de 1.1 minuto mientras que por otro lado el cliente VL-017-1486 es el que tiene una cantidad aproximada de la mitad de piezas programadas que YANFENG pero se le dedica mas tiempo de calidad por lo que se podria suponer que sus piezas pudieran tener un margen de error mas amplio.

Prediccion de Desempeño de la industria automotriz*

Modelo predictivo

Importar la base de datos y entenderla

externa <- read.csv("C:\\Users\\jimen\\Downloads\\us_motor_production_and_domestic_sales (1).csv")
summary(externa)

##       Year      Total_Production Production_Passenger_Cars
##  Min.   :2007   Min.   : 5710    Min.   :1924             
##  1st Qu.:2010   1st Qu.: 8709    1st Qu.:2745             
##  Median :2014   Median :10823    Median :3382             
##  Mean   :2014   Mean   :10077    Mean   :3326             
##  3rd Qu.:2017   3rd Qu.:11268    3rd Qu.:4061             
##  Max.   :2020   Max.   :12179    Max.   :4369             
##  NA's   :8      NA's   :8        NA's   :8                
##  Production_Commercial_Vehicles Domestic_Sales  Sales_Passenger_Cars
##  Min.   :3514                   Min.   : 7868   Min.   :2560        
##  1st Qu.:5820                   1st Qu.:10474   1st Qu.:3865        
##  Median :6891                   Median :12583   Median :4542        
##  Mean   :6751                   Mean   :11996   Mean   :4491        
##  3rd Qu.:8095                   3rd Qu.:13669   3rd Qu.:5184        
##  Max.   :8512                   Max.   :14128   Max.   :5610        
##  NA's   :8                      NA's   :8       NA's   :8           
##  Sales_Commercial_Vehicles US_Unemployment US_Consumer_Confidence
##  Min.   : 4309             Min.   :3.680   Min.   :63.75         
##  1st Qu.: 6088             1st Qu.:4.685   1st Qu.:73.02         
##  Median : 7634             Median :5.980   Median :82.83         
##  Mean   : 7505             Mean   :6.430   Mean   :82.29         
##  3rd Qu.: 8964             3rd Qu.:8.088   3rd Qu.:92.67         
##  Max.   :10133             Max.   :9.610   Max.   :98.37         
##  NA's   :8                 NA's   :8       NA's   :8             
##  US_Min_Hour_Wage
##  Min.   :5.500   
##  1st Qu.:7.250   
##  Median :7.250   
##  Mean   :7.025   
##  3rd Qu.:7.250   
##  Max.   :7.250   
##  NA's   :8

Instalar librerias necesarias

library(jtools)       
library(lmtest)      
library(car)          
library(olsrr)

Realizar regresión 1

regresion <- lm(Production_Commercial_Vehicles ~ US_Unemployment + US_Consumer_Confidence + US_Min_Hour_Wage , data=externa)
summary(regresion)

## 
## Call:
## lm(formula = Production_Commercial_Vehicles ~ US_Unemployment + 
##     US_Consumer_Confidence + US_Min_Hour_Wage, data = externa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1198.1  -257.4   109.0   286.7   623.0 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)  
## (Intercept)            -2217.25    2387.79  -0.929   0.3750  
## US_Unemployment         -226.91     159.03  -1.427   0.1841  
## US_Consumer_Confidence    82.82      28.06   2.952   0.0145 *
## US_Min_Hour_Wage         514.11     387.30   1.327   0.2139  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 525.3 on 10 degrees of freedom
##   (8 observations deleted due to missingness)
## Multiple R-squared:  0.9082, Adjusted R-squared:  0.8807 
## F-statistic: 32.99 on 3 and 10 DF,  p-value: 1.692e-05

Analisis de comportamiento de variables independientes

effect_plot(regresion,pred=US_Consumer_Confidence,interval=TRUE)

effect_plot(regresion,pred=US_Unemployment,interval=TRUE)

effect_plot(regresion,pred=US_Min_Hour_Wage,interval=TRUE)

Teniendo la produccion de autos comerciales como variable dependiente, vemos como las otras variables: como el salario, la confianza del consumidor y el desempleo impactan y crean cambios en ella.

Entonces podemos observar que la que cuenta con un mayor porcentaje de impacto es la confianza del cosnsuidor por estar por debajo del 10%, y se logra ver la correlacion al momento de ver un incremento ya que si la produccion crece, la confianza del consumidor lo hara de la misma manera.

Realizar regresión 2

regresion2 <- lm(Production_Passenger_Cars ~ US_Unemployment + US_Consumer_Confidence + US_Min_Hour_Wage , data=externa)
summary(regresion2)

## 
## Call:
## lm(formula = Production_Passenger_Cars ~ US_Unemployment + US_Consumer_Confidence + 
##     US_Min_Hour_Wage, data = externa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1096.8  -600.5  -162.9   763.0  1154.1 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)
## (Intercept)            6399.886   4071.397   1.572    0.147
## US_Unemployment        -194.101    271.160  -0.716    0.490
## US_Consumer_Confidence  -22.272     47.840  -0.466    0.652
## US_Min_Hour_Wage          1.058    660.387   0.002    0.999
## 
## Residual standard error: 895.7 on 10 degrees of freedom
##   (8 observations deleted due to missingness)
## Multiple R-squared:  0.09057,    Adjusted R-squared:  -0.1823 
## F-statistic: 0.3319 on 3 and 10 DF,  p-value: 0.8026

Analisis de variables independientes en la regresion

effect_plot(regresion2,pred=US_Consumer_Confidence,interval=TRUE)

effect_plot(regresion2,pred=US_Unemployment,interval=TRUE)

effect_plot(regresion2,pred=US_Min_Hour_Wage,interval=TRUE)

Contrariamente a la primera variable dependiente, vemos como la producción de carros produce estimaciones negativas en las variables independientes de desempleo y confianza del consumidor, por lo que su comportamiento en el gráfico tiende a disminuir, a pesar del alto volumen de producción.

Merma

Importar base de datos

#file.choose()
bd <-read.csv("C:\\Users\\jimen\\Downloads\\FORM - Merma limpia2 (1).csv")

Instalar librerias

# install.packages("tidyverse")
library(tidyverse)
# install.packages("janitor")
library(janitor)
library(dplyr)
library(ggplot2)

Analizar base de datos

summary(bd)

##     Fecha              ENERO             KilosEnero      Fecha1         
##  Length:10          Length:10          Min.   :2680   Length:10         
##  Class :character   Class :character   1st Qu.:2912   Class :character  
##  Mode  :character   Mode  :character   Median :3400   Mode  :character  
##                                        Mean   :3640                     
##                                        3rd Qu.:4128                     
##                                        Max.   :5080                     
##                                        NA's   :6                        
##    FEBRERO           KilosFebrero     Fecha2             MARZO          
##  Length:10          Min.   :3410   Length:10          Length:10         
##  Class :character   1st Qu.:3605   Class :character   Class :character  
##  Mode  :character   Median :3760   Mode  :character   Mode  :character  
##                     Mean   :3805                                        
##                     3rd Qu.:3915                                        
##                     Max.   :4380                                        
##                     NA's   :4                                           
##    KilosMarzo      Fecha3             ABRIL             KilosAbril  
##  Min.   :2980   Length:10          Length:10          Min.   :2950  
##  1st Qu.:3420   Class :character   Class :character   1st Qu.:3690  
##  Median :3905   Mode  :character   Mode  :character   Median :3940  
##  Mean   :3745                                         Mean   :3764  
##  3rd Qu.:4142                                         3rd Qu.:4050  
##  Max.   :4200                                         Max.   :4190  
##  NA's   :4                                            NA's   :5     
##     Fecha4              MAYO             KilosMayo       Fecha5         
##  Length:10          Length:10          Min.   :3680   Length:10         
##  Class :character   Class :character   1st Qu.:4310   Class :character  
##  Mode  :character   Mode  :character   Median :4510   Mode  :character  
##                                        Mean   :4682                     
##                                        3rd Qu.:4770                     
##                                        Max.   :6140                     
##                                        NA's   :5                        
##     JUNIO             KilosJunio      Fecha6             JULIO          
##  Length:10          Min.   :4260   Length:10          Length:10         
##  Class :character   1st Qu.:4312   Class :character   Class :character  
##  Mode  :character   Median :4505   Mode  :character   Mode  :character  
##                     Mean   :4570                                        
##                     3rd Qu.:4762                                        
##                     Max.   :5010                                        
##                     NA's   :6                                           
##    KilosJulio      Fecha7             AGOSTO           KilosAgosto  
##  Min.   :2130   Length:10          Length:10          Min.   :1040  
##  1st Qu.:3920   Class :character   Class :character   1st Qu.:3140  
##  Median :3960   Mode  :character   Mode  :character   Median :3780  
##  Mean   :3874                                         Mean   :3567  
##  3rd Qu.:4130                                         3rd Qu.:4210  
##  Max.   :5230                                         Max.   :5080  
##  NA's   :5                                            NA's   :1     
##     Fecha8           SEPTIEMBRE        KilosSeptiembre
##  Length:10          Length:10          Min.   :2830   
##  Class :character   Class :character   1st Qu.:2995   
##  Mode  :character   Mode  :character   Median :3394   
##                                        Mean   :3396   
##                                        3rd Qu.:3796   
##                                        Max.   :3967   
##                                        NA's   :6

str(bd)

## 'data.frame':    10 obs. of  27 variables:
##  $ Fecha          : chr  "11/01/22" "11/01/22" "22/01/22" "22/01/22" ...
##  $ ENERO          : chr  "Enero" "Enero" "Enero" "Enero" ...
##  $ KilosEnero     : int  5080 3810 2990 2680 NA NA NA NA NA NA
##  $ Fecha1         : chr  "18/02/22" "18/02/22" "18/02/22" "18/02/22" ...
##  $ FEBRERO        : chr  "Febrero" "Febrero" "Febrero" "Febrero" ...
##  $ KilosFebrero   : int  3650 4380 3870 3590 3410 3930 NA NA NA NA
##  $ Fecha2         : chr  "03/03/22" "08/03/22" "11/03/22" "16/03/22" ...
##  $ MARZO          : chr  "Marzo" "Marzo" "Marzo" "Marzo" ...
##  $ KilosMarzo     : int  4000 4190 2980 3290 4200 3810 NA NA NA NA
##  $ Fecha3         : chr  "04/04/22" "11/04/22" "14/04/22" "21/04/22" ...
##  $ ABRIL          : chr  "Abril" "Abril" "Abril" "Abril" ...
##  $ KilosAbril     : int  3940 4190 2950 3690 4050 NA NA NA NA NA
##  $ Fecha4         : chr  "02/05/22" "09/05/22" "14/05/22" "24/05/22" ...
##  $ MAYO           : chr  "Mayo" "Mayo" "Mayo" "Mayo" ...
##  $ KilosMayo      : int  4310 4770 3680 6140 4510 NA NA NA NA NA
##  $ Fecha5         : chr  "07/06/22" "15/06/22" "20/06/22" "27/06/22" ...
##  $ JUNIO          : chr  "Junio" "Junio" "Junio" "Junio" ...
##  $ KilosJunio     : int  4680 4330 5010 4260 NA NA NA NA NA NA
##  $ Fecha6         : chr  "04/07/22" "11/07/22" "16/07/22" "21/07/22" ...
##  $ JULIO          : chr  "Julio" "Julio" "Julio" "Julio" ...
##  $ KilosJulio     : int  5230 2130 4130 3920 3960 NA NA NA NA NA
##  $ Fecha7         : chr  "08/08/22" "10/08/22" "11/08/22" "13/08/22" ...
##  $ AGOSTO         : chr  "Agosto" "Agosto" "Agosto" "Agosto" ...
##  $ KilosAgosto    : int  3140 4210 3140 3780 4240 4200 5080 1040 3270 NA
##  $ Fecha8         : chr  "05/09/22" "07/09/22" "15/09/22" "21/09/22" ...
##  $ SEPTIEMBRE     : chr  "Septiembre" "Septiembre" "Septiembre" "Septiembre" ...
##  $ KilosSeptiembre: int  3050 2830 3967 3739 NA NA NA NA NA NA

Tipos de Variables

Variable<-c("Fecha","ENERO","KilosEnero","Fecha1","FEBRERO","KilosFebrero","Fecha2","MARZO","KilosMarzo","Fecha3","ABRIL","KilosAbril","Fecha4","MAYO","KilosMayo","Fecha5","JUNIO","KilosJunio","Fecha6","JULIO","KilosJulio","Fecha7","AGOSTO","KilosAgosto","Fecha8","SEPTIEMBRE","KilosSeptiembre")
Type<-c("qualitative (nominal)", "qualitative (ordinal)", "quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)")
table<-data.frame(Variable,Type)
knitr::kable(table)

Variable	Type
Fecha	qualitative (nominal)
ENERO	qualitative (ordinal)
KilosEnero	quantitative (discrete)
Fecha1	qualitative (nominal)
FEBRERO	qualitative (ordinal)
KilosFebrero	quantitative (discrete)
Fecha2	qualitative (nominal)
MARZO	qualitative (ordinal)
KilosMarzo	quantitative (discrete)
Fecha3	qualitative (nominal)
ABRIL	qualitative (ordinal)
KilosAbril	quantitative (discrete)
Fecha4	qualitative (nominal)
MAYO	qualitative (ordinal)
KilosMayo	quantitative (discrete)
Fecha5	qualitative (nominal)
JUNIO	qualitative (ordinal)
KilosJunio	quantitative (discrete)
Fecha6	qualitative (nominal)
JULIO	qualitative (ordinal)
KilosJulio	quantitative (discrete)
Fecha7	qualitative (nominal)
AGOSTO	qualitative (ordinal)
KilosAgosto	quantitative (discrete)
Fecha8	qualitative (nominal)
SEPTIEMBRE	qualitative (ordinal)
KilosSeptiembre	quantitative (discrete)

Eliminar NA’s y sustituir con 0’s

sum(is.na(bd))

## [1] 42

bd[is.na(bd)]<-0

Eliminar duplicados

bd[duplicated(bd), ]

##  [1] Fecha           ENERO           KilosEnero      Fecha1         
##  [5] FEBRERO         KilosFebrero    Fecha2          MARZO          
##  [9] KilosMarzo      Fecha3          ABRIL           KilosAbril     
## [13] Fecha4          MAYO            KilosMayo       Fecha5         
## [17] JUNIO           KilosJunio      Fecha6          JULIO          
## [21] KilosJulio      Fecha7          AGOSTO          KilosAgosto    
## [25] Fecha8          SEPTIEMBRE      KilosSeptiembre
## <0 rows> (or 0-length row.names)

sum(duplicated(bd))

## [1] 0

Eliminar negativos con cero

bd1<-bd
bd1[bd1 <0] <-0
summary(bd1)

##     Fecha              ENERO             KilosEnero      Fecha1         
##  Length:10          Length:10          Min.   :   0   Length:10         
##  Class :character   Class :character   1st Qu.:   0   Class :character  
##  Mode  :character   Mode  :character   Median :   0   Mode  :character  
##                                        Mean   :1456                     
##                                        3rd Qu.:2912                     
##                                        Max.   :5080                     
##    FEBRERO           KilosFebrero     Fecha2             MARZO          
##  Length:10          Min.   :   0   Length:10          Length:10         
##  Class :character   1st Qu.:   0   Class :character   Class :character  
##  Mode  :character   Median :3500   Mode  :character   Mode  :character  
##                     Mean   :2283                                        
##                     3rd Qu.:3815                                        
##                     Max.   :4380                                        
##    KilosMarzo      Fecha3             ABRIL             KilosAbril  
##  Min.   :   0   Length:10          Length:10          Min.   :   0  
##  1st Qu.:   0   Class :character   Class :character   1st Qu.:   0  
##  Median :3135   Mode  :character   Mode  :character   Median :1475  
##  Mean   :2247                                         Mean   :1882  
##  3rd Qu.:3952                                         3rd Qu.:3878  
##  Max.   :4200                                         Max.   :4190  
##     Fecha4              MAYO             KilosMayo       Fecha5         
##  Length:10          Length:10          Min.   :   0   Length:10         
##  Class :character   Class :character   1st Qu.:   0   Class :character  
##  Mode  :character   Mode  :character   Median :1840   Mode  :character  
##                                        Mean   :2341                     
##                                        3rd Qu.:4460                     
##                                        Max.   :6140                     
##     JUNIO             KilosJunio      Fecha6             JULIO          
##  Length:10          Min.   :   0   Length:10          Length:10         
##  Class :character   1st Qu.:   0   Class :character   Class :character  
##  Mode  :character   Median :   0   Mode  :character   Mode  :character  
##                     Mean   :1828                                        
##                     3rd Qu.:4312                                        
##                     Max.   :5010                                        
##    KilosJulio      Fecha7             AGOSTO           KilosAgosto  
##  Min.   :   0   Length:10          Length:10          Min.   :   0  
##  1st Qu.:   0   Class :character   Class :character   1st Qu.:3140  
##  Median :1065   Mode  :character   Mode  :character   Median :3525  
##  Mean   :1937                                         Mean   :3210  
##  3rd Qu.:3950                                         3rd Qu.:4208  
##  Max.   :5230                                         Max.   :5080  
##     Fecha8           SEPTIEMBRE        KilosSeptiembre
##  Length:10          Length:10          Min.   :   0   
##  Class :character   Class :character   1st Qu.:   0   
##  Mode  :character   Mode  :character   Median :   0   
##                                        Mean   :1359   
##                                        3rd Qu.:2995   
##                                        Max.   :3967

Analisis Profundo de la Base de datos

media_bd5 <- mean(bd$KilosMayo)
media_bd5

## [1] 2341

median_bd5 <- median(bd$KilosMayo)
median_bd5

## [1] 1840

mode_bd5 <- mode(bd$KilosMayo)
mode_bd5

## [1] "numeric"

media_bd8 <- mean(bd$KilosAgosto)
media_bd8

## [1] 3210

median_bd8 <- median(bd$KilosAgosto)
median_bd8

## [1] 3525

mode_bd8 <- mode(bd$KilosAgosto)
mode_bd8

## [1] "numeric"

Para esto punto lo mas importantes ha sido el remplazo de negativos por cero ya que no hace mucho sentido que existan numeros negativos en variables de ese tipo y tampoco queremos que haya algun tipo de sesgo si es que la solucion para esto fuera hacerlos positivos.

Despues se hizo un analisis mas a profundidad de la base de datos donde se consiguio la mediana de algunos datos para saber como estaba la empresa y porque valores rondaba.

Grafica Frecuencia (Fecha)

bd$Fecha7<- as.Date(bd$Fecha7,format = "%d/%m/%Y")
plot(bd$Fecha7, bd$KilosAgosto)

En esta grafica de Agosto se logra apreciar como por finales del mes esta el punto mas alto de produccion de kilos de merma ya que probablemente se junta de otras semanas, y justo despues se ve un decremento ya que es muy posible que se deshagan de los deshechos el ultimo dia del mes regresando asi al valor promedio de deshechos con lo que cuentan diaramente

Grafica de Mayo & Agosto (Mayor cantidad de merma y registros)

ggplot(bd, aes(x= Fecha4, y= KilosMayo)) + geom_bar(stat="identity", fill="blue") + scale_fill_grey() + labs(title = "Kilos de merma Agosto", x = "Fecha")

ggplot(bd, aes(x= Fecha7, y= KilosAgosto)) + geom_bar(stat="identity", fill="blue") + scale_fill_grey() + labs(title = "Kilos de merma Agosto", x = "Fecha")

## Warning: Removed 1 rows containing missing values (position_stack).

Nuevamente se logra observar lo que se vio en la grafica pasada ademas de encontrar que Mayo y Junio contaban con la mayor cantidad de merma.

Pronostico

Instalar paquetes y llamar librerias

#install.packages("forecast")
library(forecast)

Sumar el Total de KilosxMes

sum(bd$KilosEnero)

## [1] 14560

sum(bd$KilosFebrero)

## [1] 22830

sum(bd$KilosMarzo)

## [1] 22470

sum(bd$KilosAbril)

## [1] 18820

sum(bd$KilosMayo)

## [1] 23410

sum(bd$KilosJunio)

## [1] 18280

sum(bd$KilosJulio)

## [1] 19370

sum(bd$KilosAgosto)

## [1] 32100

sum(bd$KilosSeptiembre)

## [1] 13586

Crear serie de tiempo

merma <- c(14560,22830,22470,18820,23410,18280,19370,32100,13586)

produccion_st <- ts(data = merma, start = c(2022,1), frequency = 12)
produccion_st

##        Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep
## 2022 14560 22830 22470 18820 23410 18280 19370 32100 13586

Graficar Pronostico

modelo <- auto.arima(produccion_st)
modelo

## Series: produccion_st 
## ARIMA(0,0,0) with non-zero mean 
## 
## Coefficients:
##            mean
##       20602.889
## s.e.   1736.893
## 
## sigma^2 = 30544665:  log likelihood = -89.8
## AIC=183.59   AICc=185.59   BIC=183.99

pronostico <- forecast(modelo, level=c(95), h=3)
pronostico

##          Point Forecast    Lo 95    Hi 95
## Oct 2022       20602.89 9770.711 31435.07
## Nov 2022       20602.89 9770.711 31435.07
## Dec 2022       20602.89 9770.711 31435.07

plot(pronostico)

Para el pronostico fue necesario sumar los totales de todos los meses en cuanto a su merma para despues realizar una serie de tiempo para poder tener un pronostico certero el cual nos dice que para la segunda mitad del 2022 habra un decremento para la produccion de merma probablemente por la implementacion de procesos mas optimizados para el uso de la materia prima.

Scrap

Importar base de datos

bd <- read.csv ("C:\\Users\\jimen\\Documents\\FORM - Scrap Limpia .csv")

Tipos de Variables Existentes

variable<-c("Referencia","Fecha", "Hora", "Producto", "Cantidad", "Unidad.de.medida", "Ubicación.de.origen", "Ubicación.de.desecho", "Estado")

type<-c("Cualitativo (nominal)","Cuantitativo (disccreta)", "Cuantitativo (discreta)", "Cualitativo (nominal)","Cuantitativo (Continua)", "Cualitativo (nominal)", "Cualitativo (nominal)","Cualitativo (nominal)","Cualitativo (nominal)")

Escala_de_Medición<-c("Numero", "Fecha", "Categoría", "Kg", "Medición", "Posición", "Posición", "Estado")


table<-data.frame(variable,type)
knitr::kable(table)

variable	type
Referencia	Cualitativo (nominal)
Fecha	Cuantitativo (disccreta)
Hora	Cuantitativo (discreta)
Producto	Cualitativo (nominal)
Cantidad	Cuantitativo (Continua)
Unidad.de.medida	Cualitativo (nominal)
Ubicación.de.origen	Cualitativo (nominal)
Ubicación.de.desecho	Cualitativo (nominal)
Estado	Cualitativo (nominal)

Cantidad de productos por día

bd$Fecha<- as.Date(bd$Fecha,format = "%d/%m/%Y")
plot(bd$Fecha, bd$Cantidad)

summary(bd)

##   Referencia         Fecha_alta            Hora             Producto        
##  Length:250         Length:250         Length:250         Length:250        
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     Cantidad      Unidad.de.medida   Ubicacion.de.origen Ubicacion.de.desecho
##  Min.   : 0.000   Length:250         Length:250          Length:250          
##  1st Qu.: 1.000   Class :character   Class :character    Class :character    
##  Median : 2.000   Mode  :character   Mode  :character    Mode  :character    
##  Mean   : 6.696                                                              
##  3rd Qu.: 7.000                                                              
##  Max.   :96.000                                                              
##     Estado              Fecha           
##  Length:250         Min.   :2022-08-01  
##  Class :character   1st Qu.:2022-08-11  
##  Mode  :character   Median :2022-08-19  
##                     Mean   :2022-08-17  
##                     3rd Qu.:2022-08-25  
##                     Max.   :2022-08-31

#library(tidyverse)
#library(janitor)

Número de variables y registros en base de datos

#install.packages("psych")
library(psych)
#describe(bd)
str(bd)

## 'data.frame':    250 obs. of  10 variables:
##  $ Referencia          : chr  "SP/08731" "SP/08730" "SP/08729" "SP/08728" ...
##  $ Fecha_alta          : chr  "31/08/2022" "31/08/2022" "31/08/2022" "31/08/2022" ...
##  $ Hora                : chr  "14:55:40" "14:49:25" "13:49:29" "9:30:07" ...
##  $ Producto            : chr  "[BACKFRAME 60% CUELLO ARMADO] 18805. 60% Backframe. Cuello Armado." "[N61506747 CAJA] N61506747. Kit. Caja." "[N61506729 SEPARADOR] N61506729. Kit. Separador." "[341332 DIVISOR - U611 & U625] 341332. U611. U625. Divisor Troquelado." ...
##  $ Cantidad            : num  2 1 1 31 1 1 1 9 2 1 ...
##  $ Unidad.de.medida    : chr  "Unidad(es)" "Unidad(es)" "Unidad(es)" "Unidad(es)" ...
##  $ Ubicacion.de.origen : chr  "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Pre-Production" ...
##  $ Ubicacion.de.desecho: chr  "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" ...
##  $ Estado              : chr  "Hecho" "Hecho" "Hecho" "Hecho" ...
##  $ Fecha               : Date, format: "2022-08-31" "2022-08-31" ...

#tabyl(bd, Producto, Ubicación.de.origen)

Tipos de Variables Existentes

variable<-c("Referencia","Fecha", "Hora", "Producto", "Cantidad", "Unidad.de.medida", "Ubicación.de.origen", "Ubicación.de.desecho")

type<-c("Cualitativo (nominal)","Cuantitativo (disccreta)", "Cuantitativo (discreta)", "Cualitativo (nominal)","Cuantitativo (Continua)", "Cualitativo (nominal)", "Cualitativo (nominal)","Cualitativo (nominal)")

table<-data.frame(variable,type)
knitr::kable(table)

variable	type
Referencia	Cualitativo (nominal)
Fecha	Cuantitativo (disccreta)
Hora	Cuantitativo (discreta)
Producto	Cualitativo (nominal)
Cantidad	Cuantitativo (Continua)
Unidad.de.medida	Cualitativo (nominal)
Ubicación.de.origen	Cualitativo (nominal)
Ubicación.de.desecho	Cualitativo (nominal)

Limpieza de datos

## Eliminar columnas que no se usan  

bd1 <- bd
bd1<- subset(bd1, select = -c (Referencia, Producto, Unidad.de.medida, Hora, Ubicacion.de.desecho, Estado))

## Borrar N/A's

Las tecnicas que se utilizaron fueron la eliminacion de columnas innecesarias y el eliminar de igual manera los NA que no cuentan con informacion relevante para el analisis

bd2 <- bd
bd2<- subset(bd2, select = -c (Referencia, Producto, Unidad.de.medida, Hora, Ubicacion.de.desecho, Estado))

media <- mean(bd2$Cantidad)

mediana <- median(bd2$Cantidad)

mode <- function (x) {
  ux <- unique(x)
  ux [which.max(tabulate(match(x,ux)))]
}

mode <- mode(bd2$Cantidad)
mode

## [1] 1

hist(bd2$Cantidad)

ggplot(bd2, aes(x=media, y= Ubicacion.de.origen)) +
  geom_bar(stat="identity", fill="red") + scale_fill_grey() + # Add bars to the plot
  labs(title = "Scrap empresa FORM", # Add a title
       subtitle = "", # Add a subtitle
       caption = "Relación", # Add a caption
       x = "Toneladas")

El promedio de chatarra generado en agosto del 2021 estuvo en promedio por debajo de las 20 toneladas, siendo tambien el area de SAB/Pre-Production donde se genera mas desperdicio

Seccion 3

Definición de conceptos

K- Means Clustering**

Mediante la agrupación de datos parecidos K means clustering es de mucha ayuda para analizarlos ya que, si contamos con una cantidad muy grande de estos, es bastante sencillo y la manera de visualización aún mas

Unsupervised Learning**

Con el aprendizaje no supervisado no se clasifica de alguna manera el algoritmo de aprendizaje, ya que logra realizar esto de manera autónoma y puede lograr descubrir patrones de datos y hasta funciones

Eucliedean Distance**

Esta distancia es aquella que se utiliza para medir la diferencia entre dos datos y lo que se encuentra entre ellas

Instalar librerias

library(foreign)
library(dplyr)        # data manipulation 
library(ggplot2)      # data visualization 
#install.packages("psych")
library(psych)        # functions for multivariate analysis 
library(corrplot)     # correlation plots
#install.packages("jtools")
library(jtools)       # presentation of regression analysis 
library(lmtest)       # diagnostic checks - linear regression analysis 
library(car)          # diagnostic checks - linear regression analysis
library(factoextra)   # provides functions to extract and visualize the output of exploratory multivariate data analyses
#install.packages("ggfortify")
library(ggfortify)    # data visualization tools for statistical analysis results
library(plyr)
library(base)
library(tibble)

Cluster edad y salario diario

Leer la base de datos

bajasdata <-read.csv("C:\\Users\\jimen\\Downloads\\RHBAJASLIMPIA1.csv")
summary(bajasdata)

##     nombre               edad          genero           fecha_alta       
##  Length:237         Min.   : 0.00   Length:237         Length:237        
##  Class :character   1st Qu.:23.00   Class :character   Class :character  
##  Mode  :character   Median :29.00   Mode  :character   Mode  :character  
##                     Mean   :30.52                                        
##                     3rd Qu.:37.00                                        
##                     Max.   :61.00                                        
##  motivo_baja        dias_laborados     fecha_baja           puesto         
##  Length:237         Min.   :   0.00   Length:237         Length:237        
##  Class :character   1st Qu.:   9.00   Class :character   Class :character  
##  Mode  :character   Median :  21.00   Mode  :character   Mode  :character  
##                     Mean   :  83.42                                        
##                     3rd Qu.:  49.00                                        
##                     Max.   :1966.00                                        
##     sal_imss       colonia           municipio            estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##  estado_civil      
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
##

Limpieza. Seleccionar variables relevantes

bajasdata1<-bajasdata
bajasdata1<-subset(bajasdata,select = -c(genero,fecha_alta,motivo_baja,puesto,estado,nombre,colonia,municipio,motivo_baja, estado_civil, dias_laborados, fecha_baja))
summary(bajasdata1)

##       edad          sal_imss    
##  Min.   : 0.00   Min.   :144.4  
##  1st Qu.:23.00   1st Qu.:180.7  
##  Median :29.00   Median :180.7  
##  Mean   :30.52   Mean   :178.6  
##  3rd Qu.:37.00   3rd Qu.:180.7  
##  Max.   :61.00   Max.   :500.0

Limpieza. Eliminar edad 0

bajasdata2 <- bajasdata1
bajasdata2<-bajasdata1[-c(97,149),]

Normalizar la base de datos

bajas_data_norm <- scale(bajasdata2[1:2])

Identificar número de clusters

fviz_nbclust(bajas_data_norm, kmeans, method="wss")+ 
  geom_vline(xintercept=4, linetype=2)+           
  labs(subtitle = "Elbow method")

Visualizar el cluster

edad_cluster1<-kmeans(bajas_data_norm,3)
edad_cluster1

## K-means clustering with 3 clusters of sizes 69, 121, 45
## 
## Cluster means:
##         edad   sal_imss
## 1  0.2811317  0.2784633
## 2 -0.7792176 -0.1288413
## 3  1.6641609 -0.0805373
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   1   1   2   2   2   3   2   2   3   2   2   1   2   1   1   2   2   2   2   2 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   2   3   2   1   3   2   1   2   2   2   1   2   2   2   1   2   2   2   1   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   2   2   2   2   2   2   2   2   3   3   3   3   1   3   2   2   3   2   2   3 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   2   1   2   2   3   2   2   2   2   2   2   1   2   1   2   1   2   2   3 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  98  99 100 101 
##   2   2   2   2   3   2   3   2   2   2   1   3   3   2   2   2   3   2   2   1 
## 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 
##   2   2   3   1   2   2   1   2   1   1   2   1   1   2   1   1   1   3   3   3 
## 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 
##   2   2   2   2   2   1   2   1   3   2   1   2   3   2   2   2   1   3   1   3 
## 142 143 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 
##   1   1   1   3   3   2   1   1   1   2   2   2   1   3   3   2   1   2   1   3 
## 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 
##   3   3   3   1   3   2   2   1   2   2   3   1   3   2   3   1   1   3   1   1 
## 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 
##   2   2   2   1   3   3   1   2   2   1   1   1   1   1   1   1   1   2   1   2 
## 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 
##   1   1   2   1   3   1   2   2   2   3   2   2   2   1   1   2   2   1   1   1 
## 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 
##   2   2   1   2   2   2   2   3   1   3   2   2   2   2   2 
## 
## Within cluster sum of squares by cluster:
## [1] 204.19421  35.55499  17.05330
##  (between_SS / total_SS =  45.1 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

fviz_cluster(edad_cluster1,data=bajas_data_norm)

Análisis de clusters

bajasdata3<- bajasdata2
bajasdata3$Clusters<-edad_cluster1$cluster
bajasdata4<-bajasdata3 %>% group_by(Clusters) %>% summarise(edad=max(edad)) %>% arrange(desc(edad))
bajasdata3$Cluster_Names<-factor(bajasdata3$Clusters,levels = c(1,2,3), 
                                 labels=c("Jubilación", "Joven", "Adulto"))

bajasdata5 <- bajasdata3 %>% dplyr:: group_by(Cluster_Names) %>% dplyr:: summarize(edad_anos=max(edad), 
                                                             sal_imss=mean(sal_imss),
                                                             count=n())

clusters<-as.data.frame(bajasdata5)
clusters

##   Cluster_Names edad_anos sal_imss count
## 1    Jubilación        40 185.7365    69
## 2         Joven        32 175.3303   121
## 3        Adulto        61 176.5644    45

Gráfico de barras de las bajas con edad máxima de cluster

ggplot(bajasdata5, aes(x=Cluster_Names,y=edad_anos,fill= Cluster_Names,label=round(edad_anos,digits=2))) + 
  geom_col() + 
  geom_text()

Gráfico de barras de las bajas con su salario

ggplot(bajasdata5,aes(x=Cluster_Names,y=sal_imss ,fill= Cluster_Names,label=round(sal_imss,digits=2))) + 
  geom_col() +  
  geom_text()

Dispersión de la edad

ggplot(bajasdata3, aes(x=Cluster_Names, y=edad, fill=Cluster_Names)) +
  geom_boxplot()+
  ggtitle("Dispersion of 'Edad' by Clusters Names")

Dispersión del salario diario

ggplot(bajasdata3, aes(x=Cluster_Names, y=sal_imss, fill=Cluster_Names)) +
  geom_boxplot()+
  ggtitle("Dispersion of 'Salario_Diario' by Clusters Names")

Cluster edad y días laborados

RHBAJAS <-read.csv("C:\\Users\\jimen\\Downloads\\RHBAJASLIMPIA1.csv")

Analizar base de datos.

summary(RHBAJAS)

##     nombre               edad          genero           fecha_alta       
##  Length:237         Min.   : 0.00   Length:237         Length:237        
##  Class :character   1st Qu.:23.00   Class :character   Class :character  
##  Mode  :character   Median :29.00   Mode  :character   Mode  :character  
##                     Mean   :30.52                                        
##                     3rd Qu.:37.00                                        
##                     Max.   :61.00                                        
##  motivo_baja        dias_laborados     fecha_baja           puesto         
##  Length:237         Min.   :   0.00   Length:237         Length:237        
##  Class :character   1st Qu.:   9.00   Class :character   Class :character  
##  Mode  :character   Median :  21.00   Mode  :character   Mode  :character  
##                     Mean   :  83.42                                        
##                     3rd Qu.:  49.00                                        
##                     Max.   :1966.00                                        
##     sal_imss       colonia           municipio            estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##  estado_civil      
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
##

str(RHBAJAS)

## 'data.frame':    237 obs. of  13 variables:
##  $ nombre        : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ edad          : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ genero        : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ fecha_alta    : chr  "9/3/2020" "9/11/2021" "10/11/2021" "10/11/2021" ...
##  $ motivo_baja   : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ dias_laborados: int  628 60 59 59 51 37 37 31 18 224 ...
##  $ fecha_baja    : chr  "27/11/21" "8/1/2022" "8/1/2022" "8/1/2022" ...
##  $ puesto        : chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ sal_imss      : num  500 152 152 152 152 ...
##  $ colonia       : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ municipio     : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ estado        : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ estado_civil  : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...

describe(RHBAJAS)

## # A tibble: 3 × 26
##   described_…¹     n    na  mean    sd se_mean   IQR skewn…² kurto…³   p00   p01
##   <chr>        <int> <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl> <dbl>
## 1 edad           237     0  30.5  10.0   0.651    14   0.541   0.216    0    18 
## 2 dias_labora…   237     0  83.4 227.   14.7      40   5.40   33.2      0     0 
## 3 sal_imss       237     0 179.   25.4   1.65      0   9.51  115.     144.  152.
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## #   p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## #   p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## #   variable names ¹described_variables, ²skewness, ³kurtosis

Edad vs dias laborados-Clusters

RHBAJAS1<-RHBAJAS
RHBAJAS1<-subset(RHBAJAS1,select = -c(genero,fecha_alta,motivo_baja,puesto,estado,nombre,colonia,municipio,fecha_baja))
summary(RHBAJAS1)

##       edad       dias_laborados       sal_imss     estado_civil      
##  Min.   : 0.00   Min.   :   0.00   Min.   :144.4   Length:237        
##  1st Qu.:23.00   1st Qu.:   9.00   1st Qu.:180.7   Class :character  
##  Median :29.00   Median :  21.00   Median :180.7   Mode  :character  
##  Mean   :30.52   Mean   :  83.42   Mean   :178.6                     
##  3rd Qu.:37.00   3rd Qu.:  49.00   3rd Qu.:180.7                     
##  Max.   :61.00   Max.   :1966.00   Max.   :500.0

Eliminar renglones

Eliminamos dos reglones que tenian como edad (0)

RHBAJAS2 <- RHBAJAS1
RHBAJAS2 <- RHBAJAS2 [RHBAJAS2$edad> min(1), ]
summary(RHBAJAS2)

##       edad       dias_laborados       sal_imss     estado_civil      
##  Min.   :18.00   Min.   :   0.00   Min.   :144.4   Length:235        
##  1st Qu.:23.00   1st Qu.:   9.50   1st Qu.:180.7   Class :character  
##  Median :29.00   Median :  21.00   Median :180.7   Mode  :character  
##  Mean   :30.78   Mean   :  84.07   Mean   :178.6                     
##  3rd Qu.:37.00   3rd Qu.:  49.50   3rd Qu.:180.7                     
##  Max.   :61.00   Max.   :1966.00   Max.   :500.0

Normalizar la base de datos

RH_EDAD_NORM<-scale(RHBAJAS2[1:2])

Se visualizan el # correcto de clusters a realizar

fviz_nbclust(RH_EDAD_NORM, kmeans, method="wss")+ 
  geom_vline(xintercept=4, linetype=2)+         
  labs(subtitle = "Elbow method")

Visualizar el cluster

RHEDAD_Cluster1<-kmeans(RH_EDAD_NORM,4)
RHEDAD_Cluster1

## K-means clustering with 4 clusters of sizes 43, 107, 5, 80
## 
## Cluster means:
##         edad dias_laborados
## 1  1.6031879    -0.11611923
## 2 -0.8512555    -0.17238996
## 3  1.2245019     5.86438920
## 4  0.2003094    -0.07353867
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   4   4   2   2   4   1   4   4   1   2   2   4   2   4   4   2   2   2   2   2 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   4   3   2   4   1   2   4   2   2   2   4   2   2   2   4   2   2   4   4   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   2   2   2   2   2   2   2   2   1   1   1   1   4   1   2   2   1   2   2   3 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   2   4   2   2   1   2   2   4   2   2   2   4   2   4   2   4   2   2   1 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  98  99 100 101 
##   3   2   2   4   1   2   1   2   2   2   4   1   1   2   2   4   1   4   2   4 
## 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 
##   2   2   1   4   2   2   4   3   4   4   2   4   4   2   4   4   4   1   1   1 
## 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 
##   2   2   2   2   2   4   2   4   1   2   4   2   1   2   4   2   4   1   4   1 
## 142 143 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 
##   4   4   1   1   1   2   4   4   4   2   2   2   4   1   1   2   4   2   4   1 
## 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 
##   1   1   1   4   1   2   2   4   2   2   1   4   1   2   1   4   4   1   4   4 
## 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 
##   2   2   2   4   1   3   4   2   2   4   4   4   4   4   4   4   4   2   4   4 
## 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 
##   4   4   2   4   1   4   2   2   2   1   2   2   2   4   4   2   2   4   4   4 
## 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 
##   2   2   4   2   2   2   4   1   4   1   2   2   2   2   2 
## 
## Within cluster sum of squares by cluster:
## [1] 19.40753 15.18543 18.67351 39.82387
##  (between_SS / total_SS =  80.1 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

fviz_cluster(RHEDAD_Cluster1,data=RH_EDAD_NORM)

RHEDAD_Cluster1<-kmeans(RH_EDAD_NORM,4)
RHEDAD_Cluster1

## K-means clustering with 4 clusters of sizes 9, 111, 42, 73
## 
## Cluster means:
##         edad dias_laborados
## 1  0.9666914      4.3546434
## 2 -0.8318852     -0.1350561
## 3  1.5964199     -0.1776331
## 4  0.2272521     -0.2293147
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   1   4   2   2   4   3   4   4   3   2   2   4   2   4   4   2   2   2   2   2 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   4   1   2   4   3   2   4   2   2   2   4   2   2   2   4   2   2   2   4   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   2   2   2   2   2   2   2   2   3   3   3   3   1   3   2   2   3   2   2   1 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   2   4   2   2   3   2   2   2   2   2   2   4   2   4   2   4   2   2   3 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  98  99 100 101 
##   1   2   2   2   3   2   3   2   2   2   4   3   3   2   2   4   3   4   2   4 
## 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 
##   2   2   3   4   2   2   4   1   4   4   2   4   4   2   4   4   4   3   3   3 
## 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 
##   2   2   2   2   2   4   2   4   3   2   4   2   1   2   2   2   4   3   4   3 
## 142 143 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 
##   4   4   3   3   3   2   4   4   4   2   2   2   4   3   3   2   4   2   4   3 
## 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 
##   3   3   3   4   3   2   2   4   2   2   3   4   3   2   3   4   4   3   4   4 
## 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 
##   2   2   2   4   3   1   4   2   2   4   4   4   4   4   1   4   4   2   4   4 
## 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 
##   4   4   2   4   3   4   2   2   2   3   2   2   2   4   4   2   2   4   4   4 
## 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 
##   2   2   4   2   2   2   4   3   4   3   2   2   2   2   2 
## 
## Within cluster sum of squares by cluster:
## [1] 47.52052 21.82479 12.49099 12.27335
##  (between_SS / total_SS =  79.9 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Visualizacion del Cluster

fviz_cluster(RHEDAD_Cluster1,data=RH_EDAD_NORM)

Analisis Profundo del Cluster

RHBAJAS3 <- RHBAJAS2
RHBAJAS3$Clusters<-RHEDAD_Cluster1$cluster
RHBAJAS4<-RHBAJAS3 %>% group_by(Clusters) %>% summarise(edad=max(edad)) %>% arrange(desc(edad))
RHBAJAS3$Cluster_Names<-factor(RHBAJAS3$Clusters,levels = c(1,2,3,4), 
                                 labels=c("Adulto", "Principiante", "Mayor", "Juvenil"))

RHBAJAS6 <- RHBAJAS3 %>% group_by(Cluster_Names) %>% dplyr:: summarize(edad_anos=max(edad), 
dias_laborados=mean(dias_laborados),
Count=n())

clusters<-as.data.frame(RHBAJAS6)
clusters

##   Cluster_Names edad_anos dias_laborados Count
## 1        Adulto        61     1075.77778     9
## 2  Principiante        28       53.31532   111
## 3         Mayor        57       43.61905    42
## 4       Juvenil        39       31.84932    73

Analisis de Datos del cluster expresados por graficas

ggplot(RHBAJAS6,aes(x=reorder(Cluster_Names,Count),y=Count,fill=Cluster_Names)) +
  geom_bar(stat="identity")

Edades (maximas), al igual se puede realizar con un (barplot)

ggplot(RHBAJAS6, aes(x=Cluster_Names,y=edad_anos,fill= Cluster_Names,label=round(edad_anos,digits=2))) + 
  geom_col() + 
  geom_text()

Dias laborados (Maximos)

ggplot(RHBAJAS6,aes(x=Cluster_Names,y=dias_laborados,fill= Cluster_Names,label=round(dias_laborados,digits=2))) + 
  geom_col() + 
  geom_text()

Grafica de Boxplot (Analisis de las edades de los 4 grupos.)

ggplot(RHBAJAS3, aes(x=Cluster_Names, y=edad, fill=Cluster_Names)) +
  geom_boxplot()+
  ggtitle("Edad (Dispersion)")

Hallazgos identificacos

La base de datos en la que nos enfocamos para este analisis fue la de Recursos Humanos, con un enfoque a:

Edad Salario Dias trabajados

Los cuales fueron de utilidad para la construccion de los Clusters.

Hallazgos identificados

1.El sueldio diario promedio de un adulto que se encuentra entre los 33-44 es de 186.16 lo cual es mas alto que el promedio.

Al ver las bajas pudimos darnos cuenta que algunas eran a causa de jubilacion ya que estas se encontraban dentro de un rango de edad bastante interesante siendo 41 - 61

En cuanto a los cuatro clusters de edad y dias laborados que nos arrojo el analisis podemos ver diferentes observaciones:

Cluster Rojo “Adulto”: Personas de edad adulta que duran poco tiempo en el trabajo
Cluster Azul “Mayor”: En este cluster se encuentran la mayor parte de las personas ya que esta basado en el rango de edades que hay generalmente en la empresa
Cluster Morado “Juvenil”: Como lo dice su nombre son aquellas en un rango de edad de 30 a 36, con un incremento en el rango de 30 a 32

4 El cluster verde “Principiante”: En el rango de 20 y 30 teniendo a la gente mas joven de la empresa

En cuanto a los dias laborados, aquellos que trabajan mas son los adultos ya que igualmente o correlacionadamente cuentan con un salario mayor

Se puede ver que en las graficas analizadas con estas variables se tienen estos highlights:

Maximo numero de dias laborados
Recuento de los grupos que presentan mayor actividad en la empresa.
Manera de dispersion de grupos de edades a lo largo de la empresa.

Seccion 4

Identificación de Resultados Relevantes y Sugerencias

Meaningful insights

DP Como podemos ver en la segunda mitad del periodo anual se ve un incremento notorio de piezas programadas, además de un decremento justo por finales del segundo semestre.
DF Se logra observar una diferencia de 0 a 10 dentro de un rango de 0 a 80 en cuanto a la efectividad del delivery performance de los clientes.
DF MAHLE es el cliente que cuenta con la mayor cantidad de retrasos a comparación de los otros proveedores.

Pronostico

P Teniendo la producción de autos comerciales como variable dependiente, vemos como las otras variables: como el salario, la confianza del consumidor y el desempleo impactan y crean cambios en ella,
P Contrariamente a la primera variable dependiente, vemos como la producción de carros produce estimaciones negativas en las variables independientes de desempleo y confianza del consumidor, por lo que su comportamiento en el gráfico tiende a disminuir, a pesar del alto volumen de producción.

Entonces podemos observar que la que cuenta con un mayor porcentaje de impacto es la confianza del consumidor por estar por debajo del 10%, y se logra ver la correlación al momento de ver un incremento ya que, si la producción crece, la confianza del consumidor lo hará de la misma manera.

M En esta grafica de agosto se logra apreciar como por finales del mes está el punto más alto de producción de kilos de merma ya que probablemente se junta de otras semanas, y justo después se ve un decremento ya que es muy posible que se deshagan de los deshechos el ultimo día del mes regresando así al valor promedio de deshechos con lo que cuentan diariamente
Para el pronóstico fue necesario sumar los totales de todos los meses en cuanto a su merma para después realizar una serie de tiempo para poder tener un pronóstico certero el cual nos dice que para la segunda mitad del 2022 habrá un decremento para la producción de merma probablemente por la implementación de procesos más optimizados para el uso de la materia prima.

Sugerencias

A pesar de ya contar con un sistema como ODOO por el cual se crean columnas de información como ID ODOO en bases de datos como Delivery Plan, una forma aún más optima de crear y mantener un registro mas acertado de lo que sucede en el flujo de información de la empresa. La implementación de un HMI podría ser una muy buena decisión para la empresa. Pero ¿Que es un HMI? Es una interfaz de usuario o tablero que conecta a una persona a una máquina, sistema o dispositivo. Si bien el término técnicamente se puede aplicar a cualquier pantalla que permita a un usuario interactuar con un dispositivo, HMI se usa más comúnmente en el contexto de un proceso industrial. Y esto para que sin la necesidad de invertir en la automatización de procesos y hacer algún corte de personal tener un proceso muchísimo más rastreado y autónomo a lo largo de la línea de producción
La segunda sugerencia seria con base en la base de datos de delivery performance ya que me parecio muy interesante como de cuatro proveedores en una grafica solo se lograban ver dos por sus delays siendo el mas impactante MAHLE y por lo tanto podria ser mas optimo cambiar las fechas a antes para que el delivery si quede a tiempo contando y agregando el posible sesgo que se logro calcular
Tener un area especializada en toda la Inteligencia de Negocios donde haya un encargado por paso del proceso que se encargue de las bases de datos y la manera en la que se manejan para que sus bases esten mucho mas limpias y sean mas faciles de manejar.

Responder las siguientes preguntas:

Describir con tus propias palabras los términos Business Analytics y Business Intelligence. Así también, identificar y describir 3 principales diferencias entre Business Analytics y Business Intelligence.

Business Analytics

Es el generar conocimiento para que la empresa pueda tomar buenas decisiones para desarrollar una ventaja competitiva en la industria en la que se encuentren. Esta ventaja competitiva es lograda mediante la recabacion de datos para optimizar procesos de todos los tipos, de diferentes maneras como la estadística descriptiva y predictiva.

Business Intelligence

Mediante la extracción de bases de datos, Business Intelligence trata sobre el procesamiento y el análisis de estos para poder crear soluciones a problemas lo cuales una compañía, empresa o negocio se podría estar enfrentando, ya que mediante variables cuantitativas y cualitativas se puede entender objetivamente lo que esta aconteciendo alrededor de un ambiente empresarial y poder saber el siguiente paso para la creación de estrategias

Main differences

La principal diferencia entre estos dos términos es que Business Analytics trata principalmente de tomar la información generada para la creación de estrategias
Las decisiones tomadas por el área de Business Intelligence van mas encaminadas a la estrategia de negocios mientras que Business Analytics esta primeramente enfocado en la manera en la que se manejan estos datos
Es necesario emplear el uso de predicciones y estadísticos para la inteligencia de negocios y saber el porqué de los acontecimientos mientras que por otra parte la analítica de negocios no se hace cargo de esa parte de la data wrangling

KPI

Que literalmente traducido al español es el Indicador Clave de Desempeño que nos ayuda a poder tener un sentido de dirección en cuanto a alguna variable en específico ya que de esta manera es muchísimo más fácil poder medir su desempeño y así poder realizar cambios para la optimización de este.

Posibles KPI para la empresa

El principal KPI que podría permitir a la empresa a mantener un mejor control de sus procesos seria El Tiempo de ciclo de cumplimiento de pedidos en cuanto a sus proveedores ya que con el análisis realizado se pudo ver que existen algunos con un sesgo muy grande con diferencia a otros.
En cuanto a el área de Delivery Plan en la cual yo me enfoque en su mayor parte, puedo decir que un muy buen KPI para usar es “Rate de entrega completa a tiempo” de las unidades programadas ya que a diferencia del anterior este seria un porcentaje y no medida de tiempo para asi saber cuantas son entregadas eficazmente.
Y como tercer KPI “El costo funcional por empleado” tomando en cuenta el salario y las bajas podría ser de bastante ayuda ya que asi se vería la eficacia de empleados y si el costo esta bien o si es necesario un incremento o decremento en el salario, para asi siempre mantener un ojo en los costos de recursos humanos

Evidencia 2 A01382675

Jimena Munguia Quezada - A01382675

2022-10-19

Seccion 1 & 2

Recursos Humanos

Tipos de Variables Existentes para RHCOLAB

Tipos de Variables Existentes para RHBAJAS

Llamar librerias

Verificar la estructura de la base de datos

seleccionar columnas / variables

Limpieza de datos

Caracteristicas Adicionales

Conversion de variables mediantes as.factor para poder ser utilizadas durante el analisis

Estructura de las bases de datos RhColab1 y RhBajas1

Tablas de Visualizacion

Reemplazamientos

Graficos

Conclusiones

Delivery Plan

Descargar Librerias

Importar base de datos

Convertir meses en una columna

Eliminar columnas no necesarias

Formato de las variables

NA’s y valores atipicos

Exportar la base de datos

Cuantas variables

Graficas

Tabla estadisticas

Bar plots

Dispersion

Time series plot

Delivery Performance

Importar base de datos

Instalar Librerias

Analizar base de datos

Tipos de variables

Limpieza de base de datos

Eliminar NA’s y sustituir con 0’s

Limpieza bdclientes2

Analisis Profundo de la Base de datos

Analisis Profundo de la Base de datos BDCLIENTES

Graficas

Clientes con los Retrasos mas Altos

Produccion

Importar la base de datos producción de la empresa FORM

Entender la base de datos

Eliminar columnas irrelevantes para el análisis

Instalar librerias necesarias

Cambiar a entero las variables cuantitativas

Convertir formato de la fecha

Convertir variable “Cliente” para análisis descriptivo

Identificar valores faltantes

Cantidad de NA por variable

Reemplazar los registros NA de la tabla con la mediana

Paquetes y librerias

Verificar la suma de NAs

Omitir los valores irrelevantes identificados

Exportar base de datos

Prediccion de Desempeño de la industria automotriz*

Modelo predictivo

Importar la base de datos y entenderla

Instalar librerias necesarias

Realizar regresión 1

Analisis de comportamiento de variables independientes

Realizar regresión 2

Analisis de variables independientes en la regresion

Merma

Importar base de datos

Instalar librerias

Analizar base de datos

Tipos de Variables

Eliminar NA’s y sustituir con 0’s

Eliminar duplicados

Eliminar negativos con cero

Analisis Profundo de la Base de datos

Grafica Frecuencia (Fecha)

Grafica de Mayo & Agosto (Mayor cantidad de merma y registros)

Pronostico

Instalar paquetes y llamar librerias