Limpieza, Transformacion y Organizacion

Recursos Humanos (Colaboradores y Bajas)

#file.choose()

RhColab<-read.csv("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/BaseDatosL RH_Colaboradores.csv")
RhBajas<-read.csv("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/BaseD_Limpia RH_ Bajas .csv")

Tipos de Variables Existentes para RHCOLAB

variable<-c("numero_de_empleado","nombre_completo", "edad", "genero", "fecha_de_alta", "antioguedad", "BAJA", "puesto", "departamento", "mano_de_obra", "salario_diario", "colonia", "municipio")

type<-c("Cualitativo (nominal)","Cualitativo (nominal)", "Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(discreta)", "cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cuantitativo (continua)", "Cualitativo (nominal)", "Cualitativo (nominal)")

Escala_de_Medición<-c("Numero", "Fecha", "Departamento", "Salario", "Estado")


table<-data.frame(variable,type)
knitr::kable(table)
variable type
numero_de_empleado Cualitativo (nominal)
nombre_completo Cualitativo (nominal)
edad Cuantitativo(discreta)
genero Cualitativo (nominal)
fecha_de_alta Cuantitativo(discreta)
antioguedad cualitativo (nominal)
BAJA Cualitativo (nominal)
puesto Cualitativo (nominal)
departamento Cualitativo (nominal)
mano_de_obra Cualitativo (nominal)
salario_diario Cuantitativo (continua)
colonia Cualitativo (nominal)
municipio Cualitativo (nominal)

Tipos de Variables Existentes para RHBAJAS

variable<-c ("nombre","edad", "genero", "fecha_alta", "motivo_baja", "dias_de_trabajo", "baja", "puesto_que_desempeña", "salario_imss", "colonia", "municipio", "estado", "estado_civil" )


type<-c ("Cualitativo (nominal)","Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(discreta)", "Cuantitativo(discreta)", "Cualitativo (nominal)", "Cuantitativo(Continua)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)", "Cualitativo (nominal)" )

Escala_de_Medición<-c("Numero", "Fecha", "Departamento", "Salario", "Estado")


table<-data.frame(variable,type)
knitr::kable(table)
variable type
nombre Cualitativo (nominal)
edad Cuantitativo(discreta)
genero Cualitativo (nominal)
fecha_alta Cuantitativo(discreta)
motivo_baja Cualitativo (nominal)
dias_de_trabajo Cuantitativo(discreta)
baja Cuantitativo(discreta)
puesto_que_desempeña Cualitativo (nominal)
salario_imss Cuantitativo(Continua)
colonia Cualitativo (nominal)
municipio Cualitativo (nominal)
estado Cualitativo (nominal)
estado_civil Cualitativo (nominal)

Llamar librerias

library(foreign)
library(dplyr)        # data manipulation 
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(forcats)      # to work with categorical variables
library(ggplot2)      # data visualization 
library(janitor)      # data exploration and cleaning 
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
library(Hmisc)        # several useful functions for data analysis 
## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
## 
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:dplyr':
## 
##     src, summarize
## The following objects are masked from 'package:base':
## 
##     format.pval, units
library(psych)        # functions for multivariate analysis 
## 
## Attaching package: 'psych'
## The following object is masked from 'package:Hmisc':
## 
##     describe
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
library(naniar)       # summaries and visualization of missing values NAs
library(dlookr)       # summaries and visualization of missing values NAs
## 
## Attaching package: 'dlookr'
## The following object is masked from 'package:psych':
## 
##     describe
## The following object is masked from 'package:Hmisc':
## 
##     describe
## The following object is masked from 'package:base':
## 
##     transform
library(corrplot)     # correlation plots
## corrplot 0.92 loaded
library(jtools)       # presentation of regression analysis 
## 
## Attaching package: 'jtools'
## The following object is masked from 'package:Hmisc':
## 
##     %nin%
library(lmtest)       # diagnostic checks - linear regression analysis 
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(car)          # diagnostic checks - linear regression analysis
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:psych':
## 
##     logit
## The following object is masked from 'package:dplyr':
## 
##     recode
library(olsrr)        # diagnostic checks - linear regression analysis 
## 
## Attaching package: 'olsrr'
## The following object is masked from 'package:datasets':
## 
##     rivers
library(kableExtra)   # HTML table attributes
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows

Verificar la estructura de la base de datos

str(RhColab)
## 'data.frame':    999 obs. of  13 variables:
##  $ numero_de_empleado: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ nombre_completo   : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ edad              : int  67 43 73 32 57 38 55 26 27 37 ...
##  $ genero            : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ fecha_de_alta     : chr  "1/7/2010" "1/7/2011" "22/11/2011" "30/1/2013" ...
##  $ antiguedad        : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ BAJA              : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ puesto            : chr  "Supervisor de Máquin" "Supervisor de pegado" "Externo" "SUPERVISORA" ...
##  $ departamento      : chr  "Produccion Cartón MDL" "Produccion Cartón MDL" "Externo" "Produccion Cartón MC" ...
##  $ mano_de_obra      : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ salario_diario    : num  177 177 177 337 441 ...
##  $ colonia           : chr  "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
##  $ municipio         : chr  "SAN NICOLAS DE LOS G" "APODACA" "APODACA" "APODACA" ...
str(RhBajas)
## 'data.frame':    237 obs. of  13 variables:
##  $ nombre              : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ edad                : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ genero              : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ fecha_de_alta       : chr  "9/3/2020" "9/11/2021" "10/11/2021" "10/11/2021" ...
##  $ motivo_de_baja      : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ dias_de_trabajo     : int  628 60 59 59 51 37 37 31 18 224 ...
##  $ baja                : chr  "27/11/2021" "8/1/2022" "8/1/2022" "8/1/2022" ...
##  $ puesto_que_desempeña: chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ salario_imss        : num  500 152 152 152 152 ...
##  $ colonia             : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ municipio           : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ estado              : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ estado_civil        : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...

seleccionar columnas / variables

RhColab1<-RhColab 
RhBajas1<-RhBajas

Limpieza de datos

RhColab1<-RhColab %>% select(-one_of('numero_de_empleado','Fecha_alta' , 'BAJA', 'edad'))



# lets rename the selected columns / variables
summary(RhColab1)
##  nombre_completo       genero          fecha_de_alta        antiguedad    
##  Length:999         Length:999         Length:999         Min.   : 0.000  
##  Class :character   Class :character   Class :character   1st Qu.: 0.000  
##  Mode  :character   Mode  :character   Mode  :character   Median : 0.000  
##                                                           Mean   : 1.425  
##                                                           3rd Qu.: 2.000  
##                                                           Max.   :12.000  
##                                                           NA's   :886     
##     puesto          departamento       mano_de_obra       salario_diario 
##  Length:999         Length:999         Length:999         Min.   :144.4  
##  Class :character   Class :character   Class :character   1st Qu.:176.7  
##  Mode  :character   Mode  :character   Mode  :character   Median :180.7  
##                                                           Mean   :181.4  
##                                                           3rd Qu.:180.7  
##                                                           Max.   :441.4  
##                                                           NA's   :886    
##    colonia           municipio        
##  Length:999         Length:999        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##                                       
## 
names(RhColab1)<-c('Nom_Comp', 'Gen', 'Fecha_alta', 'Ant', 'Puesto', 'Dep', 'MDO', 'Sal_Diario', 'Col', 'Mun')
names(RhBajas1)<-c('Nom', 'Edad', 'Gen', 'Fecha_alta', 'MB', 'Días_trab', 'Baja', 'PuestDes', 'Sal_IMSS', 'Col', 'Mun', 'Estado', 'EstCiv')

##lets convert fecha_nacimiento to date format 


RhColab1$Fecha_alta<-as.Date(RhColab$fecha_de_alta, format = "%d/%m/%Y")
RhBajas1$Fecha_alta<-as.Date(RhBajas1$Fecha_alta, format = "%d/%m/%Y")
RhBajas1$Baja<-as.Date(RhBajas1$Baja, format = "%d/%m/%Y")

str(RhColab1)
## 'data.frame':    999 obs. of  10 variables:
##  $ Nom_Comp  : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2010-07-01" "2011-07-01" ...
##  $ Ant       : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ Puesto    : chr  "Supervisor de Máquin" "Supervisor de pegado" "Externo" "SUPERVISORA" ...
##  $ Dep       : chr  "Produccion Cartón MDL" "Produccion Cartón MDL" "Externo" "Produccion Cartón MC" ...
##  $ MDO       : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ Sal_Diario: num  177 177 177 337 441 ...
##  $ Col       : chr  "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "APODACA" "APODACA" "APODACA" ...
str(RhBajas1)
## 'data.frame':    237 obs. of  13 variables:
##  $ Nom       : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ Edad      : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2020-03-09" "2021-11-09" ...
##  $ MB        : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ Días_trab : int  628 60 59 59 51 37 37 31 18 224 ...
##  $ Baja      : Date, format: "2021-11-27" "2022-01-08" ...
##  $ PuestDes  : chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ Sal_IMSS  : num  500 152 152 152 152 ...
##  $ Col       : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ Estado    : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ EstCiv    : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...
# Eliminar NA's y sustituir con 0's

sum(is.na(RhColab1))
## [1] 2658
sum(is.na(RhBajas1))
## [1] 0
summary(RhColab1)
##    Nom_Comp             Gen              Fecha_alta              Ant        
##  Length:999         Length:999         Min.   :2010-07-01   Min.   : 0.000  
##  Class :character   Class :character   1st Qu.:2020-08-28   1st Qu.: 0.000  
##  Mode  :character   Mode  :character   Median :2022-02-23   Median : 0.000  
##                                        Mean   :2021-01-16   Mean   : 1.425  
##                                        3rd Qu.:2022-07-05   3rd Qu.: 2.000  
##                                        Max.   :2022-08-23   Max.   :12.000  
##                                        NA's   :886          NA's   :886     
##     Puesto              Dep                MDO              Sal_Diario   
##  Length:999         Length:999         Length:999         Min.   :144.4  
##  Class :character   Class :character   Class :character   1st Qu.:176.7  
##  Mode  :character   Mode  :character   Mode  :character   Median :180.7  
##                                                           Mean   :181.4  
##                                                           3rd Qu.:180.7  
##                                                           Max.   :441.4  
##                                                           NA's   :886    
##      Col                Mun           
##  Length:999         Length:999        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
##                                       
## 
summary(RhBajas1)
##      Nom                 Edad           Gen              Fecha_alta        
##  Length:237         Min.   : 0.00   Length:237         Min.   :2016-10-12  
##  Class :character   1st Qu.:23.00   Class :character   1st Qu.:2022-01-19  
##  Mode  :character   Median :29.00   Mode  :character   Median :2022-04-04  
##                     Mean   :30.52                      Mean   :2022-02-10  
##                     3rd Qu.:37.00                      3rd Qu.:2022-06-14  
##                     Max.   :61.00                      Max.   :2022-08-17  
##       MB              Días_trab            Baja              PuestDes        
##  Length:237         Min.   :   0.00   Min.   :2021-11-27   Length:237        
##  Class :character   1st Qu.:   9.00   1st Qu.:2022-03-01   Class :character  
##  Mode  :character   Median :  21.00   Median :2022-05-06   Mode  :character  
##                     Mean   :  83.42   Mean   :2022-05-05                     
##                     3rd Qu.:  49.00   3rd Qu.:2022-07-07                     
##                     Max.   :1966.00   Max.   :2022-08-25                     
##     Sal_IMSS         Col                Mun               Estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##     EstCiv         
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 
RhColab1 <- na.omit(RhColab1)
RhBajas1 <- na.omit(RhBajas1)


summary(RhColab1)
##    Nom_Comp             Gen              Fecha_alta              Ant        
##  Length:113         Length:113         Min.   :2010-07-01   Min.   : 0.000  
##  Class :character   Class :character   1st Qu.:2020-08-28   1st Qu.: 0.000  
##  Mode  :character   Mode  :character   Median :2022-02-23   Median : 0.000  
##                                        Mean   :2021-01-16   Mean   : 1.425  
##                                        3rd Qu.:2022-07-05   3rd Qu.: 2.000  
##                                        Max.   :2022-08-23   Max.   :12.000  
##     Puesto              Dep                MDO              Sal_Diario   
##  Length:113         Length:113         Length:113         Min.   :144.4  
##  Class :character   Class :character   Class :character   1st Qu.:176.7  
##  Mode  :character   Mode  :character   Mode  :character   Median :180.7  
##                                                           Mean   :181.4  
##                                                           3rd Qu.:180.7  
##                                                           Max.   :441.4  
##      Col                Mun           
##  Length:113         Length:113        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
## 
summary(RhBajas1)  
##      Nom                 Edad           Gen              Fecha_alta        
##  Length:237         Min.   : 0.00   Length:237         Min.   :2016-10-12  
##  Class :character   1st Qu.:23.00   Class :character   1st Qu.:2022-01-19  
##  Mode  :character   Median :29.00   Mode  :character   Median :2022-04-04  
##                     Mean   :30.52                      Mean   :2022-02-10  
##                     3rd Qu.:37.00                      3rd Qu.:2022-06-14  
##                     Max.   :61.00                      Max.   :2022-08-17  
##       MB              Días_trab            Baja              PuestDes        
##  Length:237         Min.   :   0.00   Min.   :2021-11-27   Length:237        
##  Class :character   1st Qu.:   9.00   1st Qu.:2022-03-01   Class :character  
##  Mode  :character   Median :  21.00   Median :2022-05-06   Mode  :character  
##                     Mean   :  83.42   Mean   :2022-05-05                     
##                     3rd Qu.:  49.00   3rd Qu.:2022-07-07                     
##                     Max.   :1966.00   Max.   :2022-08-25                     
##     Sal_IMSS         Col                Mun               Estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##     EstCiv         
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 
str(RhColab1)
## 'data.frame':    113 obs. of  10 variables:
##  $ Nom_Comp  : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2010-07-01" "2011-07-01" ...
##  $ Ant       : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ Puesto    : chr  "Supervisor de Máquin" "Supervisor de pegado" "Externo" "SUPERVISORA" ...
##  $ Dep       : chr  "Produccion Cartón MDL" "Produccion Cartón MDL" "Externo" "Produccion Cartón MC" ...
##  $ MDO       : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ Sal_Diario: num  177 177 177 337 441 ...
##  $ Col       : chr  "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "APODACA" "APODACA" "APODACA" ...
##  - attr(*, "na.action")= 'omit' Named int [1:886] 114 115 116 117 118 119 120 121 122 123 ...
##   ..- attr(*, "names")= chr [1:886] "114" "115" "116" "117" ...
str(RhBajas1)
## 'data.frame':    237 obs. of  13 variables:
##  $ Nom       : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ Edad      : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ Gen       : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ Fecha_alta: Date, format: "2020-03-09" "2021-11-09" ...
##  $ MB        : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ Días_trab : int  628 60 59 59 51 37 37 31 18 224 ...
##  $ Baja      : Date, format: "2021-11-27" "2022-01-08" ...
##  $ PuestDes  : chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ Sal_IMSS  : num  500 152 152 152 152 ...
##  $ Col       : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ Mun       : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ Estado    : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ EstCiv    : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...

Calcular la variable “año” en años para realizar caracteristicas adicionales de los colaboradores

library(lubridate)
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
edad<-trunc((RhColab1$Fecha_alta %--% RhColab1$Fecha_alta) / years(1)) # %--% creates a time interval based on as.date() format
RhColab1$edad<-edad

edad<-trunc((RhBajas1$Fecha_alta %--% RhBajas1$Fecha_alta) / years(1))
edad<-trunc((RhBajas1$Baja %--% RhBajas1$Baja) / years(1))

Convertir las variables a factor para poder crear graficas descriptivas

###  Colab1
RhColab1$Gen<-as.factor(RhColab1$Gen)
RhColab1$Puesto<-as.factor(RhColab1$Puesto)
RhColab1$Dep<-as.factor(RhColab1$Dep)
RhColab1$Mun<-as.factor(RhColab1$Mun)
RhColab1$Col<-as.factor(RhColab1$Col)


###  Bajas1 

RhBajas1$Gen<-as.factor(RhBajas1$Gen)
RhBajas1$MB<-as.factor(RhBajas1$MB)
RhBajas1$Días_trab<-as.factor(RhBajas1$Días_trab)
RhBajas1$PuestDes<-as.factor(RhBajas1$PuestDes)
RhBajas1$Col<-as.factor(RhBajas1$Col)
RhBajas1$Mun<-as.factor(RhBajas1$Mun)
RhBajas1$Estado<-as.factor(RhBajas1$Estado)
RhBajas1$EstCiv<-as.factor(RhBajas1$EstCiv)

Verificar la estructura de las bases de datos RhColab1 y RhBajas1

str(RhColab1)
## 'data.frame':    113 obs. of  11 variables:
##  $ Nom_Comp  : chr  "NICOLAS MARTINEZ DE LOERA" "MARIANA DE LEON MORENO" "JOSE LUIS HERNANDEZ CERVANTES" "MARIA CAZARES MORALES" ...
##  $ Gen       : Factor w/ 2 levels "FEMENINO","MASCULINO": 2 1 2 1 1 2 1 2 2 1 ...
##  $ Fecha_alta: Date, format: "2010-07-01" "2011-07-01" ...
##  $ Ant       : int  12 11 11 9 8 8 7 6 5 5 ...
##  $ Puesto    : Factor w/ 29 levels "AY. GENERAL",..: 27 28 10 29 29 8 7 4 3 7 ...
##  $ Dep       : Factor w/ 22 levels "","Ay.flexo",..: 18 18 13 17 8 4 8 19 4 10 ...
##  $ MDO       : chr  "Indirecto" "Indirecto" "Indirecto" "Indirecto" ...
##  $ Sal_Diario: num  177 177 177 337 441 ...
##  $ Col       : Factor w/ 73 levels "ALAMOS DEL PARQUE",..: 64 61 69 51 56 18 1 52 14 5 ...
##  $ Mun       : Factor w/ 9 levels "APODACA","CAÑADA BLANCA",..: 9 1 1 1 1 8 1 1 8 9 ...
##  $ edad      : num  0 0 0 0 0 0 0 0 0 0 ...
##  - attr(*, "na.action")= 'omit' Named int [1:886] 114 115 116 117 118 119 120 121 122 123 ...
##   ..- attr(*, "names")= chr [1:886] "114" "115" "116" "117" ...
summary(RhColab1)
##    Nom_Comp                Gen       Fecha_alta              Ant        
##  Length:113         FEMENINO :61   Min.   :2010-07-01   Min.   : 0.000  
##  Class :character   MASCULINO:52   1st Qu.:2020-08-28   1st Qu.: 0.000  
##  Mode  :character                  Median :2022-02-23   Median : 0.000  
##                                    Mean   :2021-01-16   Mean   : 1.425  
##                                    3rd Qu.:2022-07-05   3rd Qu.: 2.000  
##                                    Max.   :2022-08-23   Max.   :12.000  
##                                                                         
##               Puesto                      Dep         MDO           
##  AYUDANTE GENERAL:59                        :40   Length:113        
##  COSTURERA       :10   Producción Retorn    :10   Class :character  
##  AY. GENERAL     : 7   Costura              : 7   Mode  :character  
##  SOLDADOR        : 5   Produccion Cartón MDL: 7                     
##  CHOFER          : 4   Stabilus             : 7                     
##  RESIDENTE       : 4   Cedis                : 6                     
##  (Other)         :24   (Other)              :36                     
##    Sal_Diario                      Col            Mun          edad  
##  Min.   :144.4   PUEBLO NUEVO        :27   APODACA  :72   Min.   :0  
##  1st Qu.:176.7   CANTORAL            : 4   JUAREZ   :10   1st Qu.:0  
##  Median :180.7   CAÑADA BLANCA       : 3   PESQUERIA: 9   Median :0  
##  Mean   :181.4   MISION SAN PABLO    : 3   GUADALUPE: 6   Mean   :0  
##  3rd Qu.:180.7   PORTAL DE HUINALA   : 3   SALTILLO : 5   3rd Qu.:0  
##  Max.   :441.4   VALLE DE SANTA MARIA: 3   MONTERREY: 4   Max.   :0  
##                  (Other)             :70   (Other)  : 7
str(RhBajas1)
## 'data.frame':    237 obs. of  13 variables:
##  $ Nom       : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ Edad      : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ Gen       : Factor w/ 2 levels "FEMENINO","MASCULINO": 2 1 1 1 1 1 1 2 2 2 ...
##  $ Fecha_alta: Date, format: "2020-03-09" "2021-11-09" ...
##  $ MB        : Factor w/ 5 levels "ABANDONO","BAJA POR FALTAS",..: 4 4 4 4 4 2 2 2 2 4 ...
##  $ Días_trab : Factor w/ 95 levels "0","1","2","3",..: 88 53 52 52 48 37 37 31 19 79 ...
##  $ Baja      : Date, format: "2021-11-27" "2022-01-08" ...
##  $ PuestDes  : Factor w/ 31 levels "ANALISTA DE NOMINAS /AUX DE R.H.",..: 15 9 9 9 9 9 9 9 9 4 ...
##  $ Sal_IMSS  : num  500 152 152 152 152 ...
##  $ Col       : Factor w/ 98 levels "ACANTO RESIDENCIAL",..: 82 18 72 72 73 28 72 48 15 80 ...
##  $ Mun       : Factor w/ 13 levels "APODACA","CADEREYTA",..: 10 7 1 1 1 1 1 5 4 1 ...
##  $ Estado    : Factor w/ 3 levels "COAHUILA","NUEVO LEÓN",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ EstCiv    : Factor w/ 5 levels "CASADO","DIVORCIADO",..: 3 5 1 3 3 3 5 5 3 3 ...
summary(RhBajas1)
##      Nom                 Edad              Gen        Fecha_alta        
##  Length:237         Min.   : 0.00   FEMENINO :140   Min.   :2016-10-12  
##  Class :character   1st Qu.:23.00   MASCULINO: 97   1st Qu.:2022-01-19  
##  Mode  :character   Median :29.00                   Median :2022-04-04  
##                     Mean   :30.52                   Mean   :2022-02-10  
##                     3rd Qu.:37.00                   3rd Qu.:2022-06-14  
##                     Max.   :61.00                   Max.   :2022-08-17  
##                                                                         
##                    MB        Días_trab        Baja           
##  ABANDONO           :  1   15     : 11   Min.   :2021-11-27  
##  BAJA POR FALTAS    :141   1      :  9   1st Qu.:2022-03-01  
##  JUBILACION         :  1   6      :  9   Median :2022-05-06  
##  RENUNCIA VOLUNTARIA: 86   9      :  8   Mean   :2022-05-05  
##  TERMINO DE CONTRATO:  8   0      :  7   3rd Qu.:2022-07-07  
##                            8      :  7   Max.   :2022-08-25  
##                            (Other):186                       
##                   PuestDes      Sal_IMSS                       Col     
##  AYUDANTE GENERAL     :173   Min.   :144.4   PUEBLO NUEVO        : 67  
##  SOLDADOR             : 11   1st Qu.:180.7   VALLE DE SANTA MARIA: 15  
##  COSTURERA            : 10   Median :180.7   CANTORAL            : 10  
##  MONTACARGUISTA       :  5   Mean   :178.6   PORTAL DE HUINALA   :  6  
##  AY. GENERAL          :  4   3rd Qu.:180.7   SAN ISIDRO          :  6  
##  AUXILIAR DE EMBARQUES:  3   Max.   :500.0   BOSQUES DE HUINALA  :  4  
##  (Other)              : 31                   (Other)             :129  
##                        Mun             Estado            EstCiv   
##  APODACA                 :162   COAHUILA  :  9   CASADO     : 64  
##  PESQUERIA               : 32   NUEVO LEÓN:227   DIVORCIADO :  3  
##  JUAREZ                  : 15   SALTILLO  :  1   SOLTERO    :110  
##  GUADALUPE               : 10                    Unión libre:  1  
##  RAMOS ARIZPE            :  8                    UNIÓN LIBRE: 59  
##  SAN NICOLAS DE LOS GARZA:  3                                     
##  (Other)                 :  7

Mostrar tablas de visualización para identificar perspectivas relevantes de las bases de datos RhColab1 y RhBajas1

## Colaboradores


tapply(RhColab1$Sal_Diario,
       list(RhColab1$Gen,RhColab1$Puesto), mean)
##           AY. GENERAL AYUDANTE DE MANTENIMIENTO Ayudante general
## FEMENINO       151.61                        NA               NA
## MASCULINO      151.61                    180.68           176.72
##           AYUDANTE GENERAL CHOFER CHOFER GESTOR COSTURERA CUSTOMER SERVICE INF
## FEMENINO          177.4222     NA            NA  191.7533                   NA
## MASCULINO         176.2268 177.71        180.68  176.7200               176.72
##           ENFERMERA Externo EXTERNO GESTOR GUARDIA DE SEGURIDAD
## FEMENINO     176.72      NA      NA     NA                   NA
## MASCULINO        NA  176.72  151.67 176.72               180.68
##           INSPECTOR DE CALIDAD INSPECTORA DE CALIDAD  LIDER LIMPIEZA
## FEMENINO                208.65                180.68 144.45   176.72
## MASCULINO                   NA                    NA     NA       NA
##           MANTENIMIENTO MONTACARGUISTA   MOZO OP. FLEXO-RANURADORA-REFILADORA
## FEMENINO             NA             NA     NA                              NA
## MASCULINO        279.61         180.68 180.68                          176.72
##           OPERADOR SIERRA PINTOR RECIBO RESIDENTE SOLDADOR Supervisor de Máquin
## FEMENINO               NA     NA 176.72        NA       NA                   NA
## MASCULINO          180.68 176.72     NA    177.71  179.888               176.72
##           Supervisor de pegado SUPERVISORA
## FEMENINO                176.72      389.21
## MASCULINO                   NA          NA
tapply(RhColab1$Sal_Diario,
       list(RhColab1$Gen,RhColab1$Dep), mean)
##                    Ay.flexo Calidad  Cedis  CEDIS Celdas CORTADORAS Costura
## FEMENINO  178.7544       NA 194.665     NA     NA 180.68         NA 245.375
## MASCULINO 176.5400   180.68      NA 176.72 180.68     NA     180.68 176.720
##           COSTURA Costura T2     EHS Embarques Externo Limpieza Materiales
## FEMENINO   151.61     152.86 176.720        NA      NA   176.72     176.72
## MASCULINO      NA         NA 230.145    177.71 164.195       NA         NA
##           Paileria Produccion Cartón MC Produccion Cartón MDL Producción Retorn
## FEMENINO        NA              194.405              156.0975          161.3000
## MASCULINO    178.7              151.670              168.3700          183.8443
##           Rotativa Stabilus Troquel
## FEMENINO        NA   180.68  180.68
## MASCULINO   151.61   180.68  180.68
## Bajas

tapply(RhBajas1$Sal_IMSS,RhBajas1$Gen,mean)
##  FEMENINO MASCULINO 
##  177.3126  180.5544

Reemplazar el valor atípico de salario_diario con la mediana

RhColab1$Sal_Diario<-replace(RhColab1$Sal_Diario,RhColab1$Sal_Diario>1000000,181)

Mostrar gráficos de visualización de datos para que podamos identificar información relevante de nuestro conjunto de datos RHColab y RHBajas

tapply(RhColab1$Sal_Diario,
       list(RhColab1$Gen,RhColab1$Dep), mean)
##                    Ay.flexo Calidad  Cedis  CEDIS Celdas CORTADORAS Costura
## FEMENINO  178.7544       NA 194.665     NA     NA 180.68         NA 245.375
## MASCULINO 176.5400   180.68      NA 176.72 180.68     NA     180.68 176.720
##           COSTURA Costura T2     EHS Embarques Externo Limpieza Materiales
## FEMENINO   151.61     152.86 176.720        NA      NA   176.72     176.72
## MASCULINO      NA         NA 230.145    177.71 164.195       NA         NA
##           Paileria Produccion Cartón MC Produccion Cartón MDL Producción Retorn
## FEMENINO        NA              194.405              156.0975          161.3000
## MASCULINO    178.7              151.670              168.3700          183.8443
##           Rotativa Stabilus Troquel
## FEMENINO        NA   180.68  180.68
## MASCULINO   151.61   180.68  180.68
hist(RhBajas1$Edad, freq=TRUE, col='orange', main="Histograma de Edad",xlab="Edad en Años")

ggplot(RhBajas1, aes(x=Gen, y=Edad, fill=Gen)) + 
  geom_boxplot() 

ggplot(RhColab1, aes(x=Gen, y=Sal_Diario, fill=Gen)) + 
  geom_boxplot() 

ggplot(RhColab1, aes(Gen,Sal_Diario,fill=Gen)) +                                    
  geom_bar(stat = "identity") +
  scale_fill_brewer(palette = "Set2") + ggtitle("Salario Diario por Genero")

ggplot(RhBajas1, aes(x=Gen, y=Sal_IMSS, fill=Gen)) + 
  geom_bar(stat="identity") + 
  facet_grid(~EstCiv) + scale_fill_brewer(palette = "Set1")

Tecnicas Utilizadas

Tecnicas de Limpieza: Las tecnicas que se utilizaron con el fin de poder obtener una mejor visualizacion de los datos fueron: Cambiar el nombre de las variables. Se cambio el nombre de las variables de forma que se pudiera obtener mejor comprension de la variable analizada.

Tecnica 2: Se cambio la avriable de fecha_nacimiento a date format

Tecnica 3: Se eliminaron NAs los cuales se sustituyeron con 0s.

Variables: 122 Registros:28

2 propuestas concretas:

Analisis Exploratorio En promedio la mayor parte de los colaboradores de Form tienen una edad de entre 20 y 30 años, hay empleadas que tienen un máximo de 56 años mientras que hay un empleado que pasa ya de los 60 años de edad. Entre hombres y mujeres están en un rango de 20 a 40 años de edad

El saldo promedio tanto para hombres como para mujeres ronda en un monto de 170 y 180 pesos, pero hay una empleada que llega a un salario diario de 441 pesos, duplicando el saldo promedio de la mayor parte de los empleados de la compañía.

Las mujeres tienen un sueldo mas elevado que los hombres

Delivery Plan

Descargar librerias

#library(data.table)
library(dplyr)
library(plyr)
## ------------------------------------------------------------------------------
## You have loaded plyr after dplyr - this is likely to cause problems.
## If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
## library(plyr); library(dplyr)
## ------------------------------------------------------------------------------
## 
## Attaching package: 'plyr'
## The following objects are masked from 'package:Hmisc':
## 
##     is.discrete, summarize
## The following objects are masked from 'package:dplyr':
## 
##     arrange, count, desc, failwith, id, mutate, rename, summarise,
##     summarize
library(ggplot2)
library(naniar)
library(Hmisc)         
#library(psych)
library(tidyverse)
## Registered S3 methods overwritten by 'broom':
##   method            from  
##   tidy.glht         jtools
##   tidy.summary.glht jtools
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ tibble  3.1.8     ✔ purrr   0.3.4
## ✔ tidyr   1.2.1     ✔ stringr 1.4.1
## ✔ readr   2.1.3     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%()             masks ggplot2::%+%()
## ✖ psych::alpha()           masks ggplot2::alpha()
## ✖ plyr::arrange()          masks dplyr::arrange()
## ✖ lubridate::as.difftime() masks base::as.difftime()
## ✖ purrr::compact()         masks plyr::compact()
## ✖ plyr::count()            masks dplyr::count()
## ✖ lubridate::date()        masks base::date()
## ✖ tidyr::extract()         masks dlookr::extract()
## ✖ plyr::failwith()         masks dplyr::failwith()
## ✖ dplyr::filter()          masks stats::filter()
## ✖ kableExtra::group_rows() masks dplyr::group_rows()
## ✖ plyr::id()               masks dplyr::id()
## ✖ lubridate::intersect()   masks base::intersect()
## ✖ dplyr::lag()             masks stats::lag()
## ✖ plyr::mutate()           masks dplyr::mutate()
## ✖ car::recode()            masks dplyr::recode()
## ✖ plyr::rename()           masks dplyr::rename()
## ✖ lubridate::setdiff()     masks base::setdiff()
## ✖ purrr::some()            masks car::some()
## ✖ Hmisc::src()             masks dplyr::src()
## ✖ plyr::summarise()        masks dplyr::summarise()
## ✖ plyr::summarize()        masks Hmisc::summarize(), dplyr::summarize()
## ✖ lubridate::union()       masks base::union()
library(janitor)
library(knitr)
library(pollster)
## 
## Attaching package: 'pollster'
## 
## The following object is masked from 'package:janitor':
## 
##     crosstab
library(epiDisplay)
## Loading required package: MASS
## 
## Attaching package: 'MASS'
## 
## The following object is masked from 'package:olsrr':
## 
##     cement
## 
## The following object is masked from 'package:dplyr':
## 
##     select
## 
## Loading required package: nnet
## 
## Attaching package: 'epiDisplay'
## 
## The following object is masked from 'package:lmtest':
## 
##     lrtest
## 
## The following object is masked from 'package:jtools':
## 
##     summ
## 
## The following objects are masked from 'package:psych':
## 
##     alpha, cs, lookup
## 
## The following object is masked from 'package:lattice':
## 
##     dotplot
## 
## The following object is masked from 'package:ggplot2':
## 
##     alpha
library(descr)
## 
## Attaching package: 'descr'
## 
## The following object is masked from 'package:pollster':
## 
##     crosstab
## 
## The following object is masked from 'package:janitor':
## 
##     crosstab
library(tidyr)

Limpieza

Importar base de datos

del_plan <-read.csv ("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/DP_1.csv")
del_plan <- read.csv ("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/DP_1.csv")

Convertir meses en una columna

del_plan <- clean_names(del_plan)
del_plan<-del_plan %>% dplyr::rename(jun_21=junio,
                               jul_21=julio,
                               ago_21=agosto, sep_21=septiembre, oct_21= octubre, nov_21=noviembre, dic_21=diciembre, oct_22=octubre_22)
del_plan<-pivot_longer(del_plan, cols=5:16, names_to = "mes", values_to = "unidades")

del_plan <- dplyr::select(del_plan, -c(5:15))

Eliminar columnas no necesarias

del_plan <- dplyr::select(del_plan, -c(2:4))

Formato de las variables

str(del_plan)
## tibble [2,772 × 3] (S3: tbl_df/tbl/data.frame)
##  $ cliente_planta: chr [1:2772] "STB3" "STB3" "STB3" "STB3" ...
##  $ mes           : chr [1:2772] "jun_21" "jul_21" "ago_21" "sep_21" ...
##  $ unidades      : int [1:2772] 0 140 530 0 200 0 150 230 500 0 ...

NA’s y valores atipicos

del_plan <- filter(del_plan, unidades>0)
sum(is.na(del_plan))
## [1] 0

Exportar la base de datos

del_plan_limpia<-del_plan
write.csv(del_plan_limpia,file = "CLEANDBDeliveryPlan.csv", row.names = FALSE)

Tecnicas Utilizadas: Tecnicas de Limpieza: Convertir meses en una columna: Esta tecnica se implemento para poder tener un manejo optimo de las unidades de produccion mensual debido a que en la base original estan registradas por meses lo cual dificulta a la hora de hacer un analisis.

Eliminar columnas: Se eliminaron las columnas “ID” “ODOO” “Proyecto” e “Item” ya que no eran de gran relevancia para este analisis

Eliminar NA’s y Valores atipicos: No se encontraron NA’s ni valores atipicos en la base asi que se eliminaron los registros que tienen 0 unidades programadas.

Registros: 231 Variables:27

Graficas

Tabla estadisticas

tabla_estadisticos <- describe(del_plan)
tabla_estadisticos
## # A tibble: 1 × 26
##   described_…¹     n    na  mean    sd se_mean   IQR skewn…² kurto…³   p00   p01
##   <chr>        <int> <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl> <dbl>
## 1 unidades       733     0  406. 1337.    49.4   270    8.38    85.8     1     1
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## #   p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## #   p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## #   variable names ¹​described_variables, ²​skewness, ³​kurtosis

Bar plots

library(dplyr)
str(del_plan)
## tibble [733 × 3] (S3: tbl_df/tbl/data.frame)
##  $ cliente_planta: chr [1:733] "STB3" "STB3" "STB3" "STB3" ...
##  $ mes           : chr [1:733] "jul_21" "ago_21" "oct_21" "dic_21" ...
##  $ unidades      : int [1:733] 140 530 200 150 230 500 184 125 55 55 ...
del_plan$cliente_planta<-as.factor(del_plan$cliente_planta)
del_plan$unidades<-as.numeric(del_plan$unidades) 

del_plan2<-aggregate(unidades~cliente_planta, data = del_plan,sum)%>% arrange(desc(unidades))
del_plan3<-filter(del_plan2, unidades>4000)

ggplot(del_plan3, aes(x=reorder(cliente_planta,unidades), y=unidades)) +
  geom_bar(stat="identity")+
  coord_flip()

### Dispersion

del_plan2$unidades<-as.numeric(del_plan2$unidades)

ggplot(del_plan, aes(x=cliente_planta, y=unidades, fill=cliente_planta)) + 
  geom_boxplot() 

boxplot(del_plan3$cliente_planta,del_plan3$unidades)

class(del_plan2$unidades)
## [1] "numeric"

Time series plot

del_plan4<-aggregate(unidades~cliente_planta+mes, data = del_plan,sum)%>% arrange(desc(unidades))
del_plan5<-filter(del_plan4, cliente_planta=="HELLA" & cliente_planta=="TRMX" & cliente_planta=="VARROC" & cliente_planta=="DENSO")
ggplot(del_plan,aes(x=mes, y=unidades,color=cliente_planta))+
  geom_line()+
  labs(x="Fecha",y="Delay in Minutes", color="Legend")+
  ggtitle("Delays in Performance by Client")

Analisis exploratorio

Bar Plot: Las funciones utilizadas para la realizacion de este bar plot fueron: as.factor y as.numeric de esta forma volviendo los datos cualitativos a cuantitativos lo cual los hace mas manejables. El resultado de la grafica mostro a los clientes con mayor numero de unidades en orden descendiente.

Box Plot: Se utilizo la funcion as.numeric. Un hallazgo importante obtenido fue que “Hella” es el cliente con mayor cantidad de unidades y cuenta con algunos outliers por encima de la media, seguido por TRMX el cual no cuenta con outliers.

Time Series Plot: Para la realizacion de esta grafica fue nnecesario introducir la variable de tiempo mes. Un hallazgo importante fue que en la segunda mitad del año se nota un incremento considerable y un decremento justo a finalizar el segundo semestre

Delivery Performance

#file.choose()
bd<-read.csv ("/Users/andreapaolasosa/Desktop/DELIVERYPERORMANCE 2.csv") 
bdclientes<-read.csv ("/Users/andreapaolasosa/Desktop/DeliveryPerformancefinal1.csv")

Instalar Librerias

library (tidyverse)
library (janitor)
library (dplyr)
#install.packages ("ggplot2")
library (ggplot2)
library (Hmisc)

Analizar base de datos

summary (bd)
##     fecha             cliente               dif       
##  Length:52          Length:52          Min.   : 0.00  
##  Class :character   Class :character   1st Qu.: 0.00  
##  Mode  :character   Mode  :character   Median : 0.00  
##                                        Mean   :16.07  
##                                        3rd Qu.:29.38  
##                                        Max.   :71.25
str (bd)
## 'data.frame':    52 obs. of  3 variables:
##  $ fecha  : chr  "31/07/21" "31/07/21" "31/07/21" "31/07/21" ...
##  $ cliente: chr  "PRINTEL " "MAHLE" "MAGNA" "VARROC" ...
##  $ dif    : num  4.9 15.7 0 0 27.7 ...
names(bd)<-c('FECHA', 'CLIENTE', 'DIFERENCIA' )

Tipos de variables

Variable<-c("FECHA","CLIENTE","DIFERENCIA")
Type<-c("qualitative (ordinal)", "qualitative(nominal)", "quantitative (continuous)")  
table<-data.frame(Variable,Type)
knitr::kable(table)
Variable Type
FECHA qualitative (ordinal)
CLIENTE qualitative(nominal)
DIFERENCIA quantitative (continuous)

Limpieza de base de datos

Eliminar NA’s y sustituir con 0’s

sum(is.na(bd))
## [1] 0
bd[is.na(bd)]<-0


bd1<-bd
bd1<-as.data.frame(bd1) 
bd1$FECHA<-as.Date(bd1$FECHA,format="%d/%m/%Y") 
bd1$CLIENTE<-as.factor(bd1$CLIENTE) 
tabyl(bd1, FECHA, CLIENTE)
##       FECHA MAGNA MAHLE PRINTEL  VARROC
##  0021-07-31     1     1        1      1
##  0021-08-31     1     1        1      1
##  0021-09-30     1     1        1      1
##  0021-10-31     1     1        1      1
##  0021-11-30     1     1        1      1
##  0021-12-31     1     1        1      1
##  0022-01-31     1     1        1      1
##  0022-02-28     1     1        1      1
##  0022-03-31     1     1        1      1
##  0022-04-30     1     1        1      1
##  0022-05-31     1     1        1      1
##  0022-06-30     1     1        1      1
##  0022-07-31     1     1        1      1
tabyl(bd1, FECHA, DIFERENCIA)
##       FECHA 0 1.6 10.92 15.7 18.41 27.7 28.77 31.21 33.24 4.9 41.65 46.27 50.65
##  0021-07-31 2   0     0    1     0    0     0     0     0   1     0     0     0
##  0021-08-31 2   0     0    0     0    1     0     0     0   0     0     0     0
##  0021-09-30 2   0     0    0     0    0     0     0     0   0     0     0     0
##  0021-10-31 3   0     0    0     0    0     0     0     0   0     0     0     0
##  0021-11-30 2   0     1    0     0    0     0     0     0   0     0     0     0
##  0021-12-31 2   0     0    0     1    0     0     0     0   0     0     1     0
##  0022-01-31 2   0     0    0     0    0     1     0     0   0     0     0     0
##  0022-02-28 2   0     0    0     0    0     0     1     0   0     0     0     0
##  0022-03-31 3   0     0    0     0    0     0     0     0   0     0     0     0
##  0022-04-30 3   0     0    0     0    0     0     0     0   0     0     0     1
##  0022-05-31 3   0     0    0     0    0     0     0     0   0     0     0     0
##  0022-06-30 3   0     0    0     0    0     0     0     0   0     1     0     0
##  0022-07-31 2   1     0    0     0    0     0     0     1   0     0     0     0
##  56.82 60.1 62.63 63.68 66.44 67.31 67.98 71.25 8.6
##      0    0     0     0     0     0     0     0   0
##      0    0     0     0     0     1     0     0   0
##      1    0     0     0     0     0     0     0   1
##      0    0     0     0     0     0     1     0   0
##      0    1     0     0     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
##      0    0     0     0     1     0     0     0   0
##      0    0     0     0     0     0     0     1   0
##      0    0     0     1     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
##      0    0     1     0     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
##      0    0     0     0     0     0     0     0   0
tibble(bd1)
## # A tibble: 52 × 3
##    FECHA      CLIENTE    DIFERENCIA
##    <date>     <fct>           <dbl>
##  1 0021-07-31 "PRINTEL "        4.9
##  2 0021-07-31 "MAHLE"          15.7
##  3 0021-07-31 "MAGNA"           0  
##  4 0021-07-31 "VARROC"          0  
##  5 0021-08-31 "PRINTEL "       27.7
##  6 0021-08-31 "MAHLE"          67.3
##  7 0021-08-31 "MAGNA"           0  
##  8 0021-08-31 "VARROC"          0  
##  9 0021-09-30 "PRINTEL "        8.6
## 10 0021-09-30 "MAHLE"          56.8
## # … with 42 more rows

Limpieza bdclientes2

bdclientes2<-bdclientes
bdclientes2<-as.data.frame(bdclientes2)
bdclientes2$FECHA<-as.Date(bdclientes2$FECHA,format="%m/%d/%Y")
bdclientes2$PRINTEL<-as.factor(bdclientes2$PRINTEL)
tabyl(bdclientes2, FECHA, PRINTEL)
##       FECHA 0 1.6 4.9 8.6 10.92 18.41 27.7 28.77 31.21
##  2021-01-07 0   0   1   0     0     0    0     0     0
##  2021-01-08 0   0   0   0     0     0    1     0     0
##  2021-01-09 0   0   0   1     0     0    0     0     0
##  2021-01-10 1   0   0   0     0     0    0     0     0
##  2021-01-11 0   0   0   0     1     0    0     0     0
##  2021-01-12 0   0   0   0     0     1    0     0     0
##  2022-01-01 0   0   0   0     0     0    0     1     0
##  2022-01-02 0   0   0   0     0     0    0     0     1
##  2022-01-03 1   0   0   0     0     0    0     0     0
##  2022-01-04 1   0   0   0     0     0    0     0     0
##  2022-01-05 1   0   0   0     0     0    0     0     0
##  2022-01-06 1   0   0   0     0     0    0     0     0
##  2022-01-07 0   1   0   0     0     0    0     0     0
tabyl(bdclientes2, FECHA, MAHLE)
##       FECHA 15.7 33.24 41.65 46.27 50.65 56.82 60.1 62.63 63.68 66.44 67.31
##  2021-01-07    1     0     0     0     0     0    0     0     0     0     0
##  2021-01-08    0     0     0     0     0     0    0     0     0     0     1
##  2021-01-09    0     0     0     0     0     1    0     0     0     0     0
##  2021-01-10    0     0     0     0     0     0    0     0     0     0     0
##  2021-01-11    0     0     0     0     0     0    1     0     0     0     0
##  2021-01-12    0     0     0     1     0     0    0     0     0     0     0
##  2022-01-01    0     0     0     0     0     0    0     0     0     1     0
##  2022-01-02    0     0     0     0     0     0    0     0     0     0     0
##  2022-01-03    0     0     0     0     0     0    0     0     1     0     0
##  2022-01-04    0     0     0     0     1     0    0     0     0     0     0
##  2022-01-05    0     0     0     0     0     0    0     1     0     0     0
##  2022-01-06    0     0     1     0     0     0    0     0     0     0     0
##  2022-01-07    0     1     0     0     0     0    0     0     0     0     0
##  67.98 71.25
##      0     0
##      0     0
##      0     0
##      1     0
##      0     0
##      0     0
##      0     0
##      0     1
##      0     0
##      0     0
##      0     0
##      0     0
##      0     0
tibble(bdclientes2)
## # A tibble: 13 × 5
##    FECHA      PRINTEL MAHLE MAGNA VARROC
##    <date>     <fct>   <dbl> <int>  <int>
##  1 2021-01-07 4.9      15.7     0      0
##  2 2021-01-08 27.7     67.3     0      0
##  3 2021-01-09 8.6      56.8     0      0
##  4 2021-01-10 0        68.0     0      0
##  5 2021-01-11 10.92    60.1     0      0
##  6 2021-01-12 18.41    46.3     0      0
##  7 2022-01-01 28.77    66.4     0      0
##  8 2022-01-02 31.21    71.2     0      0
##  9 2022-01-03 0        63.7     0      0
## 10 2022-01-04 0        50.6     0      0
## 11 2022-01-05 0        62.6     0      0
## 12 2022-01-06 0        41.6     0      0
## 13 2022-01-07 1.6      33.2     0      0

Tecnicas de Limpieza 1. Eliminar NA’s y sustituir con 0s: Se reemplazaron los NA’s con 0s para poder facilitar el analisis y obtener resultados mas precisos.

2.Se cambio el formato de la fecha a mes/dia/año

Analisis Profundo de la Base de datos

media_bd <- mean(bd$DIFERENCIA)
media_bd
## [1] 16.07365
median_bd <- median(bd$DIFERENCIA)
median_bd
## [1] 0
mode_bd <- mode(bd$DIFERENCIA)
mode_bd
## [1] "numeric"
hist(bd1$DIFERENCIA) 

Analisis Profundo de la Base de datos BDCLIENTES

media_bdclientes <- mean(bdclientes$PRINTEL)
media_bdclientes
## [1] 10.16231
median_bdclientes <- median(bdclientes$PRINTEL)
median_bdclientes
## [1] 4.9
mode_bdclientes <- mode(bdclientes$PRINTEL)
mode_bdclientes
## [1] "numeric"
media_bdclientes <- mean(bdclientes$MAHLE)
media_bdclientes
## [1] 54.13231
median_bdclientes <- median(bdclientes$MAHLE)
median_bdclientes
## [1] 60.1
mode_bdclientes <- mode(bdclientes$MAHLE)
mode_bdclientes
## [1] "numeric"
bdclientes3 <-bdclientes
bdclientes3 <- subset (bdclientes3, select = -c (MAGNA,VARROC))


hist(bdclientes3$PRINTEL)

hist(bdclientes3$MAHLE)

Graficas

Clientes con los Retrasos mas Altos

ggplot(bd,aes(x=FECHA, y=DIFERENCIA,fill=CLIENTE))+
  geom_bar(stat="identity")+
  geom_hline(yintercept=33,linetype="dashed",color="black")+
  labs(x="Fecha",y="Retraso en Minutos", color="Legend")+
  ggtitle("Retraso en Desempeño de los Clientes")

Analisis Exploratorio Utilizando la moda, media y promedio se pudo realizar un analisis con los clientes Printel y Mahle. En el histograma representando Printel se puede observar que en la clase de 0 a 5 se encuentra que se tuvo mayor frecuencia, siendo la clase que más se repite, esto quiere decir que… De los 12 meses, en 7 se tuvo una diferencia de tiempo de entre 0 y 5 minutos, siendo esta baja pero con un sesgo a la izquierda. En cuanto a Mahle este histograma tiene un sesgo hacia la derecha, se tiene una tendencia a tener un mayor retraso en la clase de 60 a 70 minutos aproximadamente con este cliente, esto en un aproximado de 6 meses de los 12 tomados en cuenta.

En la ultima grafica la cual representa el retraso en desempeño, se puede observar que Mahle es el cliente que representa un mayor retraso mientras que Printel se mantiene con los tiempos mas bajos, en este caso siempre debajo de los 30 minutos.

Produccion

Limpieza de Datos

Importar la base de datos producción de la empresa FORM

producciontotal <- read.csv ("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/BD Producción csv.csv")

Entender la base de datos

str(producciontotal)
## 'data.frame':    5410 obs. of  17 variables:
##  $ Fecha               : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ No.                 : chr  "1" "2" "3" "4" ...
##  $ CLIENTE             : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ ID.FORM             : chr  "" "N.A." "CORTE." "ST-026-13892" ...
##  $ PRODUCTO            : chr  "STABOMAT 643920. CAJA IMP. CORTE. AZUL.PC0011. ( 2 Pza/Caja)." "KR55006. CAJA IMP. AZUL. CORTE. ( 1 pieza)." "241B KIT. EXPORT. INSERTO CON INSERTO. CORTE para Troquel." "MOPAR GDE. 754549. CAJA IMP. NEGRA. PC0022. ( PC0043: solo si autoriza Calidad). ( 1 Pieza). CORTE." ...
##  $ PIEZAS.PROG.        : chr  "200" "100" "216" "100" ...
##  $ TMO..MIN.           : chr  "20" "15" "20" "10" ...
##  $ HR..FIN             : chr  "9:20" "9:35" "9:55" "10:05" ...
##  $ ESTACION.ARRANQUE   : chr  "C1" "C1" "C1" "C1" ...
##  $ Laminas.procesadas  : chr  "402" "134" "110" "100" ...
##  $ INICIO.SEP.UP       : chr  "9:05" "10:05" "9:40" "11.2" ...
##  $ FIN.INICIO.DE.SEP.UP: chr  "9.1" "10:16" "9:43" "11:26" ...
##  $ INICIO.de.PROCESO   : chr  "9:12" "10.17" "9:45" "11:30" ...
##  $ FIN.de.PROCESO      : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD      : chr  "1" "1" "1" "1" ...
##  $ TIEMPO.MATERIALES   : int  NA NA NA 7 NA NA NA NA NA NA ...
##  $ MERMAS.Maquinas.    : chr  "" "" "" "" ...

Eliminar columnas irrelevantes para el análisis

producciontotal <- subset (producciontotal,select = -c(No. , ID.FORM , PRODUCTO,  HR..FIN , ESTACION.ARRANQUE , INICIO.SEP.UP ,FIN.INICIO.DE.SEP.UP , INICIO.de.PROCESO , TIEMPO.MATERIALES , MERMAS.Maquinas. ))
summary (producciontotal)
##     Fecha             CLIENTE          PIEZAS.PROG.        TMO..MIN.        
##  Length:5410        Length:5410        Length:5410        Length:5410       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##  Laminas.procesadas FIN.de.PROCESO     TIEMPO.CALIDAD    
##  Length:5410        Length:5410        Length:5410       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character

Instalar librerias necesarias

# install.packages("tibble")
library(tibble)

Cambiar a entero las variables cuantitativas

producciontotal$PIEZAS.PROG. <- substr(producciontotal$PIEZAS.PROG., start = 1, stop = 2)
tibble (producciontotal)
## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>      <chr>        <chr>     <chr>              <chr>   <chr>  
##  1 15/07/22 STABILUS 1 20           20        402                10:04   1      
##  2 15/07/22 STABILUS 1 10           15        134                11:05   1      
##  3 15/07/22 STABILUS 1 21           20        110                9.57    1      
##  4 15/07/22 STABILUS 1 10           10        100                11:49   1      
##  5 15/07/22 YANFENG    20           10        51                 12:31   1      
##  6 15/07/22 TRMX       20           20        402                2:00    1      
##  7 15/07/22 STABILUS 1 10           10        22                 2.44    1      
##  8 15/07/22 YANFENG    12           10        13                 3:00    1      
##  9 15/07/22 YANFENG    32           10        33                 2:12    1      
## 10 15/07/22 YANFENG    50           60        501/501            10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹​FIN.de.PROCESO,
## #   ²​TIEMPO.CALIDAD
producciontotal$PIEZAS.PROG. <- as.integer(producciontotal$PIEZAS.PROG.)
str(producciontotal)    
## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : chr  "20" "15" "20" "10" ...
##  $ Laminas.procesadas: chr  "402" "134" "110" "100" ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : chr  "1" "1" "1" "1" ...
producciontotal$TMO..MIN. <- substr(producciontotal$TMO..MIN., start = 1, stop = 2)
tibble (producciontotal)
## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>             <int> <chr>     <chr>              <chr>   <chr>  
##  1 15/07/22 STABILUS 1           20 20        402                10:04   1      
##  2 15/07/22 STABILUS 1           10 15        134                11:05   1      
##  3 15/07/22 STABILUS 1           21 20        110                9.57    1      
##  4 15/07/22 STABILUS 1           10 10        100                11:49   1      
##  5 15/07/22 YANFENG              20 10        51                 12:31   1      
##  6 15/07/22 TRMX                 20 20        402                2:00    1      
##  7 15/07/22 STABILUS 1           10 10        22                 2.44    1      
##  8 15/07/22 YANFENG              12 10        13                 3:00    1      
##  9 15/07/22 YANFENG              32 10        33                 2:12    1      
## 10 15/07/22 YANFENG              50 60        501/501            10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹​FIN.de.PROCESO,
## #   ²​TIEMPO.CALIDAD
producciontotal$TMO..MIN. <- as.integer(producciontotal$TMO..MIN.)
str(producciontotal)  
## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: chr  "402" "134" "110" "100" ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : chr  "1" "1" "1" "1" ...
producciontotal$Laminas.procesadas <- substr(producciontotal$Laminas.procesadas, start = 1, stop = 2)
tibble (producciontotal)
## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>             <int>     <int> <chr>              <chr>   <chr>  
##  1 15/07/22 STABILUS 1           20        20 40                 10:04   1      
##  2 15/07/22 STABILUS 1           10        15 13                 11:05   1      
##  3 15/07/22 STABILUS 1           21        20 11                 9.57    1      
##  4 15/07/22 STABILUS 1           10        10 10                 11:49   1      
##  5 15/07/22 YANFENG              20        10 51                 12:31   1      
##  6 15/07/22 TRMX                 20        20 40                 2:00    1      
##  7 15/07/22 STABILUS 1           10        10 22                 2.44    1      
##  8 15/07/22 YANFENG              12        10 13                 3:00    1      
##  9 15/07/22 YANFENG              32        10 33                 2:12    1      
## 10 15/07/22 YANFENG              50        60 50                 10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹​FIN.de.PROCESO,
## #   ²​TIEMPO.CALIDAD
producciontotal$Laminas.procesadas <- as.integer(producciontotal$Laminas.procesadas)
str(producciontotal) 
## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: int  40 13 11 10 51 40 22 13 33 50 ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : chr  "1" "1" "1" "1" ...
producciontotal$TIEMPO.CALIDAD <- substr(producciontotal$TIEMPO.CALIDAD, start = 1, stop = 2)
tibble (producciontotal)
## # A tibble: 5,410 × 7
##    Fecha    CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.procesadas FIN.d…¹ TIEMP…²
##    <chr>    <chr>             <int>     <int>              <int> <chr>   <chr>  
##  1 15/07/22 STABILUS 1           20        20                 40 10:04   1      
##  2 15/07/22 STABILUS 1           10        15                 13 11:05   1      
##  3 15/07/22 STABILUS 1           21        20                 11 9.57    1      
##  4 15/07/22 STABILUS 1           10        10                 10 11:49   1      
##  5 15/07/22 YANFENG              20        10                 51 12:31   1      
##  6 15/07/22 TRMX                 20        20                 40 2:00    1      
##  7 15/07/22 STABILUS 1           10        10                 22 2.44    1      
##  8 15/07/22 YANFENG              12        10                 13 3:00    1      
##  9 15/07/22 YANFENG              32        10                 33 2:12    1      
## 10 15/07/22 YANFENG              50        60                 50 10:59   2      
## # … with 5,400 more rows, and abbreviated variable names ¹​FIN.de.PROCESO,
## #   ²​TIEMPO.CALIDAD
producciontotal$TIEMPO.CALIDAD <- as.integer(producciontotal$TIEMPO.CALIDAD)
str(producciontotal) 
## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : chr  "15/07/22" "15/07/22" "15/07/22" "15/07/22" ...
##  $ CLIENTE           : chr  "STABILUS 1" "STABILUS 1" "STABILUS 1" "STABILUS 1" ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: int  40 13 11 10 51 40 22 13 33 50 ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : int  1 1 1 1 1 1 1 1 1 2 ...

Convertir formato de la fecha

producciontotal$Fecha <- as.Date(producciontotal$Fecha, format = "%d/%m/%Y")
tibble(producciontotal)
## # A tibble: 5,410 × 7
##    Fecha      CLIENTE    PIEZAS.PROG. TMO..MIN. Laminas.proces…¹ FIN.d…² TIEMP…³
##    <date>     <chr>             <int>     <int>            <int> <chr>     <int>
##  1 0022-07-15 STABILUS 1           20        20               40 10:04         1
##  2 0022-07-15 STABILUS 1           10        15               13 11:05         1
##  3 0022-07-15 STABILUS 1           21        20               11 9.57          1
##  4 0022-07-15 STABILUS 1           10        10               10 11:49         1
##  5 0022-07-15 YANFENG              20        10               51 12:31         1
##  6 0022-07-15 TRMX                 20        20               40 2:00          1
##  7 0022-07-15 STABILUS 1           10        10               22 2.44          1
##  8 0022-07-15 YANFENG              12        10               13 3:00          1
##  9 0022-07-15 YANFENG              32        10               33 2:12          1
## 10 0022-07-15 YANFENG              50        60               50 10:59         2
## # … with 5,400 more rows, and abbreviated variable names ¹​Laminas.procesadas,
## #   ²​FIN.de.PROCESO, ³​TIEMPO.CALIDAD

Convertir variable “Cliente” para análisis descriptivo

producciontotal$CLIENTE<-as.factor(producciontotal$CLIENTE)  
str(producciontotal)
## 'data.frame':    5410 obs. of  7 variables:
##  $ Fecha             : Date, format: "0022-07-15" "0022-07-15" ...
##  $ CLIENTE           : Factor w/ 12 levels "","DENSO","HANON SYSTEMS",..: 6 6 6 6 12 8 6 12 12 12 ...
##  $ PIEZAS.PROG.      : int  20 10 21 10 20 20 10 12 32 50 ...
##  $ TMO..MIN.         : int  20 15 20 10 10 20 10 10 10 60 ...
##  $ Laminas.procesadas: int  40 13 11 10 51 40 22 13 33 50 ...
##  $ FIN.de.PROCESO    : chr  "10:04" "11:05" "9.57" "11:49" ...
##  $ TIEMPO.CALIDAD    : int  1 1 1 1 1 1 1 1 1 2 ...

Identificar valores faltantes

sum(is.na(producciontotal))
## [1] 4283

¿Cuántos NA tengo por variable?

sapply(producciontotal, function(x) sum (is.na(x)))
##              Fecha            CLIENTE       PIEZAS.PROG.          TMO..MIN. 
##                  0                  1                117               1528 
## Laminas.procesadas     FIN.de.PROCESO     TIEMPO.CALIDAD 
##               1227                  0               1410

Reemplazar los registros NA de la tabla con la mediana

Instalar paquetes y librerias necesarias

# install.packages("dplyr")
library(dplyr)
producciontotal<-producciontotal %>% mutate(PIEZAS.PROG.=ifelse(is.na(PIEZAS.PROG.),median(PIEZAS.PROG.,na.rm=T),PIEZAS.PROG.))
producciontotal<-producciontotal %>% mutate(TMO..MIN.=ifelse(is.na(TMO..MIN.),median(TMO..MIN.,na.rm=T),TMO..MIN.))
producciontotal<-producciontotal %>% mutate(laminas_procesadas=ifelse(is.na(Laminas.procesadas),median(Laminas.procesadas,na.rm=T),Laminas.procesadas))
producciontotal<-producciontotal %>% mutate(TIEMPO.CALIDAD=ifelse(is.na(TIEMPO.CALIDAD),median(TIEMPO.CALIDAD,na.rm=T),TIEMPO.CALIDAD))

Verificar la suma de NAs

sum(is.na(producciontotal))
sapply(producciontotal, function(x) sum (is.na(x)))

Omitir los valores irrelevantes identificados

producciontotal <- na.omit(producciontotal)
summary(producciontotal)   
##      Fecha                  CLIENTE      PIEZAS.PROG.    TMO..MIN. 
##  Min.   :0022-07-15   STABILUS 1:1354   Min.   : 1.0   Min.   : 0  
##  1st Qu.:0022-08-03   TRMX      : 704   1st Qu.:14.0   1st Qu.:15  
##  Median :0022-08-19   STABILUS 3: 642   Median :20.0   Median :20  
##  Mean   :0022-08-19   YANFENG   : 506   Mean   :27.8   Mean   :22  
##  3rd Qu.:0022-09-05   DENSO     : 414   3rd Qu.:40.0   3rd Qu.:25  
##  Max.   :0022-09-21   VARROC    : 315   Max.   :99.0   Max.   :90  
##                       (Other)   : 247                              
##  Laminas.procesadas FIN.de.PROCESO     TIEMPO.CALIDAD    laminas_procesadas
##  Min.   : 0.00      Length:4182        Min.   : 0.0000   Min.   : 0.00     
##  1st Qu.: 0.00      Class :character   1st Qu.: 1.0000   1st Qu.: 0.00     
##  Median :20.00      Mode  :character   Median : 1.0000   Median :20.00     
##  Mean   :21.87                         Mean   : 0.9173   Mean   :21.87     
##  3rd Qu.:33.00                         3rd Qu.: 1.0000   3rd Qu.:33.00     
##  Max.   :98.00                         Max.   :25.0000   Max.   :98.00     
## 
sum(is.na(producciontotal))
## [1] 0

Tecnicas Utilizadas Las tecnicas de limpieza utilizadas fueron eliminar columnas irrelevantes para el análisis, cambiar a entero las variables cuantitativas,convertir formato de la fecha, convertir variable “Cliente” para análisis descriptivo, Reemplazar los registros NA de la tabla con la mediana , Verificar la suma de NAs, Omitir los valores irrelevantes identificados.

Exportar base de datos

write.csv(producciontotal,"producciontotal.csv", row.names=FALSE)

En las tablas anteriores se puede observar como el cliente que más piezas programadas tiene, “YANFENG” se le dedica un tiempo de calidad de 1.1 minuto, siendo casi el tiempo mínimo de dedicación. Mientras que el cliente VL-017-1486 es el cliente el cual tiene casi la mitad de piezas programadas que YANFENG sin embargo al que más tiempo se le dedica. Por lo que se puede inferir que sus piezas pudieran ser de mucho márgen de error.

Prediccion de Desempeño de la industria automotriz

Modelo predictivo

Importar la base de datos y entenderla

externa <- read.csv("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/us_motor_production_and_domestic_sales.csv")
summary(externa)
##       Year      Total_Production Production_Passenger_Cars
##  Min.   :2007   Min.   : 5710    Min.   :1924             
##  1st Qu.:2010   1st Qu.: 8709    1st Qu.:2745             
##  Median :2014   Median :10823    Median :3382             
##  Mean   :2014   Mean   :10077    Mean   :3326             
##  3rd Qu.:2017   3rd Qu.:11268    3rd Qu.:4061             
##  Max.   :2020   Max.   :12179    Max.   :4369             
##  NA's   :8      NA's   :8        NA's   :8                
##  Production_Commercial_Vehicles Domestic_Sales  Sales_Passenger_Cars
##  Min.   :3514                   Min.   : 7868   Min.   :2560        
##  1st Qu.:5820                   1st Qu.:10474   1st Qu.:3865        
##  Median :6891                   Median :12583   Median :4542        
##  Mean   :6751                   Mean   :11996   Mean   :4491        
##  3rd Qu.:8095                   3rd Qu.:13669   3rd Qu.:5184        
##  Max.   :8512                   Max.   :14128   Max.   :5610        
##  NA's   :8                      NA's   :8       NA's   :8           
##  Sales_Commercial_Vehicles US_Unemployment US_Consumer_Confidence
##  Min.   : 4309             Min.   :3.680   Min.   :63.75         
##  1st Qu.: 6088             1st Qu.:4.685   1st Qu.:73.02         
##  Median : 7634             Median :5.980   Median :82.83         
##  Mean   : 7505             Mean   :6.430   Mean   :82.29         
##  3rd Qu.: 8964             3rd Qu.:8.088   3rd Qu.:92.67         
##  Max.   :10133             Max.   :9.610   Max.   :98.37         
##  NA's   :8                 NA's   :8       NA's   :8             
##  US_Min_Hour_Wage
##  Min.   :5.500   
##  1st Qu.:7.250   
##  Median :7.250   
##  Mean   :7.025   
##  3rd Qu.:7.250   
##  Max.   :7.250   
##  NA's   :8

Instalar librerias necesarias

library(jtools)       
library(lmtest)      
library(car)          
library(olsrr) 

Realizar regresión 1

regresion <- lm(Production_Commercial_Vehicles ~ US_Unemployment + US_Consumer_Confidence + US_Min_Hour_Wage , data=externa)
summary(regresion)
## 
## Call:
## lm(formula = Production_Commercial_Vehicles ~ US_Unemployment + 
##     US_Consumer_Confidence + US_Min_Hour_Wage, data = externa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1198.1  -257.4   109.0   286.7   623.0 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)  
## (Intercept)            -2217.25    2387.79  -0.929   0.3750  
## US_Unemployment         -226.91     159.03  -1.427   0.1841  
## US_Consumer_Confidence    82.82      28.06   2.952   0.0145 *
## US_Min_Hour_Wage         514.11     387.30   1.327   0.2139  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 525.3 on 10 degrees of freedom
##   (8 observations deleted due to missingness)
## Multiple R-squared:  0.9082, Adjusted R-squared:  0.8807 
## F-statistic: 32.99 on 3 and 10 DF,  p-value: 1.692e-05

Analizar el comportamiento de las variables independientes en la regresión

effect_plot(regresion,pred=US_Consumer_Confidence,interval=TRUE)

effect_plot(regresion,pred=US_Unemployment,interval=TRUE)

effect_plot(regresion,pred=US_Min_Hour_Wage,interval=TRUE)

Analisis Exploratorio Siendo la Producción de Autos Comerciales la variable dependiente, se puede ver como el salario, la confianza del consumidor y el desempleo generan cambios en ella. Es decir, se observa que la que mayor impacto tiene es la confianza del consumidor debido a que valor p esta abajo del 10%, e incluso se observa su comportamiento en la gráfica como si la producción sube, la confianza del consumidor igual aumenta.

Realizar regresión 2

regresion2 <- lm(Production_Passenger_Cars ~ US_Unemployment + US_Consumer_Confidence + US_Min_Hour_Wage , data=externa)
summary(regresion2)
## 
## Call:
## lm(formula = Production_Passenger_Cars ~ US_Unemployment + US_Consumer_Confidence + 
##     US_Min_Hour_Wage, data = externa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1096.8  -600.5  -162.9   763.0  1154.1 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)
## (Intercept)            6399.886   4071.397   1.572    0.147
## US_Unemployment        -194.101    271.160  -0.716    0.490
## US_Consumer_Confidence  -22.272     47.840  -0.466    0.652
## US_Min_Hour_Wage          1.058    660.387   0.002    0.999
## 
## Residual standard error: 895.7 on 10 degrees of freedom
##   (8 observations deleted due to missingness)
## Multiple R-squared:  0.09057,    Adjusted R-squared:  -0.1823 
## F-statistic: 0.3319 on 3 and 10 DF,  p-value: 0.8026

Analizar el comportamiento de las variables independientes en la regresión

effect_plot(regresion2,pred=US_Consumer_Confidence,interval=TRUE)

effect_plot(regresion2,pred=US_Unemployment,interval=TRUE)

effect_plot(regresion2,pred=US_Min_Hour_Wage,interval=TRUE)

Analisis Exploratorio A diferencia de la primera variable dependiente, se observa como la producción de autos de pasajero tiene coeficientes negativos en las variables independientes del desempleo y confianza del consumidor por lo tanto su comportamiento en las gráficas a pesar de que exista una producción alta su tendencia va para abajo.

Merma

Importar base de datos

bd <-read.csv ("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/FORM - Merma limpia2.csv")

Analizar base de datos.

summary(bd)
##     Fecha              ENERO             KilosEnero      Fecha1         
##  Length:10          Length:10          Min.   :2680   Length:10         
##  Class :character   Class :character   1st Qu.:2912   Class :character  
##  Mode  :character   Mode  :character   Median :3400   Mode  :character  
##                                        Mean   :3640                     
##                                        3rd Qu.:4128                     
##                                        Max.   :5080                     
##                                        NA's   :6                        
##    FEBRERO           KilosFebrero     Fecha2             MARZO          
##  Length:10          Min.   :3410   Length:10          Length:10         
##  Class :character   1st Qu.:3605   Class :character   Class :character  
##  Mode  :character   Median :3760   Mode  :character   Mode  :character  
##                     Mean   :3805                                        
##                     3rd Qu.:3915                                        
##                     Max.   :4380                                        
##                     NA's   :4                                           
##    KilosMarzo      Fecha3             ABRIL             KilosAbril  
##  Min.   :2980   Length:10          Length:10          Min.   :2950  
##  1st Qu.:3420   Class :character   Class :character   1st Qu.:3690  
##  Median :3905   Mode  :character   Mode  :character   Median :3940  
##  Mean   :3745                                         Mean   :3764  
##  3rd Qu.:4142                                         3rd Qu.:4050  
##  Max.   :4200                                         Max.   :4190  
##  NA's   :4                                            NA's   :5     
##     Fecha4              MAYO             KilosMayo       Fecha5         
##  Length:10          Length:10          Min.   :3680   Length:10         
##  Class :character   Class :character   1st Qu.:4310   Class :character  
##  Mode  :character   Mode  :character   Median :4510   Mode  :character  
##                                        Mean   :4682                     
##                                        3rd Qu.:4770                     
##                                        Max.   :6140                     
##                                        NA's   :5                        
##     JUNIO             KilosJunio      Fecha6             JULIO          
##  Length:10          Min.   :4260   Length:10          Length:10         
##  Class :character   1st Qu.:4312   Class :character   Class :character  
##  Mode  :character   Median :4505   Mode  :character   Mode  :character  
##                     Mean   :4570                                        
##                     3rd Qu.:4762                                        
##                     Max.   :5010                                        
##                     NA's   :6                                           
##    KilosJulio      Fecha7             AGOSTO           KilosAgosto  
##  Min.   :2130   Length:10          Length:10          Min.   :1040  
##  1st Qu.:3920   Class :character   Class :character   1st Qu.:3140  
##  Median :3960   Mode  :character   Mode  :character   Median :3780  
##  Mean   :3874                                         Mean   :3567  
##  3rd Qu.:4130                                         3rd Qu.:4210  
##  Max.   :5230                                         Max.   :5080  
##  NA's   :5                                            NA's   :1     
##     Fecha8           SEPTIEMBRE        KilosSeptiembre
##  Length:10          Length:10          Min.   :2830   
##  Class :character   Class :character   1st Qu.:2995   
##  Mode  :character   Mode  :character   Median :3394   
##                                        Mean   :3396   
##                                        3rd Qu.:3796   
##                                        Max.   :3967   
##                                        NA's   :6
str(bd)
## 'data.frame':    10 obs. of  27 variables:
##  $ Fecha          : chr  "11/01/22" "11/01/22" "22/01/22" "22/01/22" ...
##  $ ENERO          : chr  "Enero" "Enero" "Enero" "Enero" ...
##  $ KilosEnero     : int  5080 3810 2990 2680 NA NA NA NA NA NA
##  $ Fecha1         : chr  "18/02/22" "18/02/22" "18/02/22" "18/02/22" ...
##  $ FEBRERO        : chr  "Febrero" "Febrero" "Febrero" "Febrero" ...
##  $ KilosFebrero   : int  3650 4380 3870 3590 3410 3930 NA NA NA NA
##  $ Fecha2         : chr  "03/03/22" "08/03/22" "11/03/22" "16/03/22" ...
##  $ MARZO          : chr  "Marzo" "Marzo" "Marzo" "Marzo" ...
##  $ KilosMarzo     : int  4000 4190 2980 3290 4200 3810 NA NA NA NA
##  $ Fecha3         : chr  "04/04/22" "11/04/22" "14/04/22" "21/04/22" ...
##  $ ABRIL          : chr  "Abril" "Abril" "Abril" "Abril" ...
##  $ KilosAbril     : int  3940 4190 2950 3690 4050 NA NA NA NA NA
##  $ Fecha4         : chr  "02/05/22" "09/05/22" "14/05/22" "24/05/22" ...
##  $ MAYO           : chr  "Mayo" "Mayo" "Mayo" "Mayo" ...
##  $ KilosMayo      : int  4310 4770 3680 6140 4510 NA NA NA NA NA
##  $ Fecha5         : chr  "07/06/22" "15/06/22" "20/06/22" "27/06/22" ...
##  $ JUNIO          : chr  "Junio" "Junio" "Junio" "Junio" ...
##  $ KilosJunio     : int  4680 4330 5010 4260 NA NA NA NA NA NA
##  $ Fecha6         : chr  "04/07/22" "11/07/22" "16/07/22" "21/07/22" ...
##  $ JULIO          : chr  "Julio" "Julio" "Julio" "Julio" ...
##  $ KilosJulio     : int  5230 2130 4130 3920 3960 NA NA NA NA NA
##  $ Fecha7         : chr  "08/08/22" "10/08/22" "11/08/22" "13/08/22" ...
##  $ AGOSTO         : chr  "Agosto" "Agosto" "Agosto" "Agosto" ...
##  $ KilosAgosto    : int  3140 4210 3140 3780 4240 4200 5080 1040 3270 NA
##  $ Fecha8         : chr  "05/09/22" "07/09/22" "15/09/22" "21/09/22" ...
##  $ SEPTIEMBRE     : chr  "Septiembre" "Septiembre" "Septiembre" "Septiembre" ...
##  $ KilosSeptiembre: int  3050 2830 3967 3739 NA NA NA NA NA NA
describe(bd)
## # A tibble: 9 × 26
##   described_…¹     n    na  mean    sd se_mean   IQR skewn…² kurto…³   p00   p01
##   <chr>        <int> <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl> <dbl>
## 1 KilosEnero       4     6 3640  1072.    536. 1215   0.992  -0.0431  2680 2689.
## 2 KilosFebrero     6     4 3805   340.    139.  310   0.896   0.938   3410 3419 
## 3 KilosMarzo       6     4 3745   503.    205.  722. -0.806  -1.10    2980 2996.
## 4 KilosAbril       5     5 3764   490.    219.  360  -1.53    2.36    2950 2980.
## 5 KilosMayo        5     5 4682   909.    407.  460   1.13    2.15    3680 3705.
## 6 KilosJunio       4     6 4570   346.    173.  450   0.690  -1.85    4260 4262.
## 7 KilosJulio       5     5 3874  1113.    498.  210  -0.844   2.29    2130 2202.
## 8 KilosAgosto      9     1 3567. 1142.    381. 1070  -1.29    2.76    1040 1208 
## 9 KilosSeptie…     4     6 3396.  543.    271.  801   0.0102 -4.39    2830 2837.
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## #   p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## #   p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## #   variable names ¹​described_variables, ²​skewness, ³​kurtosis

Instalar librerias

# install.packages("tidyverse")
#library(tidyverse)
# install.packages("janitor")
#library(janitor)
#library(dplyr)
#library(ggplot2)

Tipos de Variables

Variable<-c("Fecha","ENERO","KilosEnero","Fecha1","FEBRERO","KilosFebrero","Fecha2","MARZO","KilosMarzo","Fecha3","ABRIL","KilosAbril","Fecha4","MAYO","KilosMayo","Fecha5","JUNIO","KilosJunio","Fecha6","JULIO","KilosJulio","Fecha7","AGOSTO","KilosAgosto","Fecha8","SEPTIEMBRE","KilosSeptiembre")
Type<-c("qualitative (nominal)", "qualitative (ordinal)", "quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)","qualitative (nominal)","qualitative (ordinal)","quantitative (discrete)")
table<-data.frame(Variable,Type)
knitr::kable(table)
Variable Type
Fecha qualitative (nominal)
ENERO qualitative (ordinal)
KilosEnero quantitative (discrete)
Fecha1 qualitative (nominal)
FEBRERO qualitative (ordinal)
KilosFebrero quantitative (discrete)
Fecha2 qualitative (nominal)
MARZO qualitative (ordinal)
KilosMarzo quantitative (discrete)
Fecha3 qualitative (nominal)
ABRIL qualitative (ordinal)
KilosAbril quantitative (discrete)
Fecha4 qualitative (nominal)
MAYO qualitative (ordinal)
KilosMayo quantitative (discrete)
Fecha5 qualitative (nominal)
JUNIO qualitative (ordinal)
KilosJunio quantitative (discrete)
Fecha6 qualitative (nominal)
JULIO qualitative (ordinal)
KilosJulio quantitative (discrete)
Fecha7 qualitative (nominal)
AGOSTO qualitative (ordinal)
KilosAgosto quantitative (discrete)
Fecha8 qualitative (nominal)
SEPTIEMBRE qualitative (ordinal)
KilosSeptiembre quantitative (discrete)

Eliminar NA’s y sustituir con 0’s

sum(is.na(bd))
## [1] 42
bd[is.na(bd)]<-0

Eliminar duplicados

bd[duplicated(bd), ]
##  [1] Fecha           ENERO           KilosEnero      Fecha1         
##  [5] FEBRERO         KilosFebrero    Fecha2          MARZO          
##  [9] KilosMarzo      Fecha3          ABRIL           KilosAbril     
## [13] Fecha4          MAYO            KilosMayo       Fecha5         
## [17] JUNIO           KilosJunio      Fecha6          JULIO          
## [21] KilosJulio      Fecha7          AGOSTO          KilosAgosto    
## [25] Fecha8          SEPTIEMBRE      KilosSeptiembre
## <0 rows> (or 0-length row.names)
sum(duplicated(bd))
## [1] 0

Eliminar negativos con cero

bd1<-bd
bd1[bd1 <0] <-0
summary(bd1)
##     Fecha              ENERO             KilosEnero      Fecha1         
##  Length:10          Length:10          Min.   :   0   Length:10         
##  Class :character   Class :character   1st Qu.:   0   Class :character  
##  Mode  :character   Mode  :character   Median :   0   Mode  :character  
##                                        Mean   :1456                     
##                                        3rd Qu.:2912                     
##                                        Max.   :5080                     
##    FEBRERO           KilosFebrero     Fecha2             MARZO          
##  Length:10          Min.   :   0   Length:10          Length:10         
##  Class :character   1st Qu.:   0   Class :character   Class :character  
##  Mode  :character   Median :3500   Mode  :character   Mode  :character  
##                     Mean   :2283                                        
##                     3rd Qu.:3815                                        
##                     Max.   :4380                                        
##    KilosMarzo      Fecha3             ABRIL             KilosAbril  
##  Min.   :   0   Length:10          Length:10          Min.   :   0  
##  1st Qu.:   0   Class :character   Class :character   1st Qu.:   0  
##  Median :3135   Mode  :character   Mode  :character   Median :1475  
##  Mean   :2247                                         Mean   :1882  
##  3rd Qu.:3952                                         3rd Qu.:3878  
##  Max.   :4200                                         Max.   :4190  
##     Fecha4              MAYO             KilosMayo       Fecha5         
##  Length:10          Length:10          Min.   :   0   Length:10         
##  Class :character   Class :character   1st Qu.:   0   Class :character  
##  Mode  :character   Mode  :character   Median :1840   Mode  :character  
##                                        Mean   :2341                     
##                                        3rd Qu.:4460                     
##                                        Max.   :6140                     
##     JUNIO             KilosJunio      Fecha6             JULIO          
##  Length:10          Min.   :   0   Length:10          Length:10         
##  Class :character   1st Qu.:   0   Class :character   Class :character  
##  Mode  :character   Median :   0   Mode  :character   Mode  :character  
##                     Mean   :1828                                        
##                     3rd Qu.:4312                                        
##                     Max.   :5010                                        
##    KilosJulio      Fecha7             AGOSTO           KilosAgosto  
##  Min.   :   0   Length:10          Length:10          Min.   :   0  
##  1st Qu.:   0   Class :character   Class :character   1st Qu.:3140  
##  Median :1065   Mode  :character   Mode  :character   Median :3525  
##  Mean   :1937                                         Mean   :3210  
##  3rd Qu.:3950                                         3rd Qu.:4208  
##  Max.   :5230                                         Max.   :5080  
##     Fecha8           SEPTIEMBRE        KilosSeptiembre
##  Length:10          Length:10          Min.   :   0   
##  Class :character   Class :character   1st Qu.:   0   
##  Mode  :character   Mode  :character   Median :   0   
##                                        Mean   :1359   
##                                        3rd Qu.:2995   
##                                        Max.   :3967

Analisis Profundo de la Base de datos

media_bd5 <- mean(bd$KilosMayo)
media_bd5
## [1] 2341
median_bd5 <- median(bd$KilosMayo)
median_bd5
## [1] 1840
mode_bd5 <- mode(bd$KilosMayo)
mode_bd5
## [1] "numeric"
media_bd8 <- mean(bd$KilosAgosto)
media_bd8
## [1] 3210
median_bd8 <- median(bd$KilosAgosto)
median_bd8
## [1] 3525
mode_bd8 <- mode(bd$KilosAgosto)
mode_bd8
## [1] "numeric"

Grafica Frecuencia (Fecha)

bd$Fecha7<- as.Date(bd$Fecha7,format = "%d/%m/%Y")
plot(bd$Fecha7, bd$KilosAgosto)

Eliminar columnas

bd2 <-bd
bd2 <- subset (bd2, select = -c (Fecha))

Grafica de Mayo & Agosto (Mayor cantidad de merma y registros)

ggplot(bd, aes(x= Fecha4, y= KilosMayo)) + geom_bar(stat="identity", fill="blue") + scale_fill_grey() + labs(title = "Kilos de merma Agosto", x = "Fecha")

ggplot(bd, aes(x= Fecha7, y= KilosAgosto)) + geom_bar(stat="identity", fill="blue") + scale_fill_grey() + labs(title = "Kilos de merma Agosto", x = "Fecha")
## Warning: Removed 1 rows containing missing values (position_stack).

Pronostico de la Industria Automotriz

Instalar paquetes y llamar librerias

#install.packages("forecast")
library(forecast)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

Sumar el Total de KilosxMes

sum(bd$KilosEnero)
## [1] 14560
sum(bd$KilosFebrero)
## [1] 22830
sum(bd$KilosMarzo)
## [1] 22470
sum(bd$KilosAbril)
## [1] 18820
sum(bd$KilosMayo)
## [1] 23410
sum(bd$KilosJunio)
## [1] 18280
sum(bd$KilosJulio)
## [1] 19370
sum(bd$KilosAgosto)
## [1] 32100
sum(bd$KilosSeptiembre)
## [1] 13586

Crear serie de tiempo

merma <- c(14560,22830,22470,18820,23410,18280,19370,32100,13586)

produccion_st <- ts(data = merma, start = c(2022,1), frequency = 12)
produccion_st
##        Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep
## 2022 14560 22830 22470 18820 23410 18280 19370 32100 13586

Graficar Pronostico

modelo <- auto.arima(produccion_st)
modelo
## Series: produccion_st 
## ARIMA(0,0,0) with non-zero mean 
## 
## Coefficients:
##            mean
##       20602.889
## s.e.   1736.893
## 
## sigma^2 = 30544665:  log likelihood = -89.8
## AIC=183.59   AICc=185.59   BIC=183.99
pronostico <- forecast(modelo, level=c(95), h=3)
pronostico
##          Point Forecast    Lo 95    Hi 95
## Oct 2022       20602.89 9770.711 31435.07
## Nov 2022       20602.89 9770.711 31435.07
## Dec 2022       20602.89 9770.711 31435.07
plot(pronostico)

Tecnicas Utilizadas Para la elaboracion de este analisis fue necesario utilizar ciertas tecnicas de limpieza antes, como ser, Eliminar NA’s y sustituir con 0’s, Eliminar duplicados,Eliminar negativos con cero, Eliminar columnas. Todas las tecnicas mencionadas anteriormente son utilizadas para poder obtener un analisis mas preciso eliminando informacion que no aporta a la realizacion de este.

Como se puede obervar en la grafica de pronostico,

Scrap

Importar base de datos

bd <- read.csv ("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/FORM - Scrap Limpia  (2).csv")

Tipos de Variables Existentes

variable<-c("Referencia","Fecha", "Hora", "Producto", "Cantidad", "Unidad.de.medida", "Ubicación.de.origen", "Ubicación.de.desecho", "Estado")

type<-c("Cualitativo (nominal)","Cuantitativo (disccreta)", "Cuantitativo (discreta)", "Cualitativo (nominal)","Cuantitativo (Continua)", "Cualitativo (nominal)", "Cualitativo (nominal)","Cualitativo (nominal)","Cualitativo (nominal)")

Escala_de_Medición<-c("Numero", "Fecha", "Categoría", "Kg", "Medición", "Posición", "Posición", "Estado")


table<-data.frame(variable,type)
knitr::kable(table)
variable type
Referencia Cualitativo (nominal)
Fecha Cuantitativo (disccreta)
Hora Cuantitativo (discreta)
Producto Cualitativo (nominal)
Cantidad Cuantitativo (Continua)
Unidad.de.medida Cualitativo (nominal)
Ubicación.de.origen Cualitativo (nominal)
Ubicación.de.desecho Cualitativo (nominal)
Estado Cualitativo (nominal)

Cantidad de productos por día

bd$Fecha<- as.Date(bd$Fecha,format = "%d/%m/%Y")
plot(bd$Fecha, bd$Cantidad)

summary(bd)
##   Referencia            Fecha                Hora             Producto        
##  Length:250         Min.   :2022-08-01   Length:250         Length:250        
##  Class :character   1st Qu.:2022-08-11   Class :character   Class :character  
##  Mode  :character   Median :2022-08-19   Mode  :character   Mode  :character  
##                     Mean   :2022-08-17                                        
##                     3rd Qu.:2022-08-25                                        
##                     Max.   :2022-08-31                                        
##     Cantidad      Unidad.de.medida   Ubicación.de.origen Ubicación.de.desecho
##  Min.   : 0.000   Length:250         Length:250          Length:250          
##  1st Qu.: 1.000   Class :character   Class :character    Class :character    
##  Median : 2.000   Mode  :character   Mode  :character    Mode  :character    
##  Mean   : 6.696                                                              
##  3rd Qu.: 7.000                                                              
##  Max.   :96.000                                                              
##     Estado         
##  Length:250        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 
#library(tidyverse)
#library(janitor)

Número de variables y registros en base de datos

#install.packages("psych")
library(psych)
#describe(bd)
str(bd)
## 'data.frame':    250 obs. of  9 variables:
##  $ Referencia          : chr  "SP/08731" "SP/08730" "SP/08729" "SP/08728" ...
##  $ Fecha               : Date, format: "2022-08-31" "2022-08-31" ...
##  $ Hora                : chr  "14:55:40" "14:49:25" "13:49:29" "09:30:07" ...
##  $ Producto            : chr  "[BACKFRAME 60% CUELLO ARMADO] 18805. 60% Backframe. Cuello Armado." "[N61506747 CAJA] N61506747. Kit. Caja." "[N61506729 SEPARADOR] N61506729. Kit. Separador." "[341332 DIVISOR - U611 & U625] 341332. U611. U625. Divisor Troquelado." ...
##  $ Cantidad            : num  2 1 1 31 1 1 1 9 2 1 ...
##  $ Unidad.de.medida    : chr  "Unidad(es)" "Unidad(es)" "Unidad(es)" "Unidad(es)" ...
##  $ Ubicación.de.origen : chr  "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Pre-Production" ...
##  $ Ubicación.de.desecho: chr  "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" ...
##  $ Estado              : chr  "Hecho" "Hecho" "Hecho" "Hecho" ...
#tabyl(bd, Producto, Ubicación.de.origen)

Tipos de Variables Existentes

variable<-c("Referencia","Fecha", "Hora", "Producto", "Cantidad", "Unidad.de.medida", "Ubicación.de.origen", "Ubicación.de.desecho")

type<-c("Cualitativo (nominal)","Cuantitativo (disccreta)", "Cuantitativo (discreta)", "Cualitativo (nominal)","Cuantitativo (Continua)", "Cualitativo (nominal)", "Cualitativo (nominal)","Cualitativo (nominal)")

table<-data.frame(variable,type)
knitr::kable(table)
variable type
Referencia Cualitativo (nominal)
Fecha Cuantitativo (disccreta)
Hora Cuantitativo (discreta)
Producto Cualitativo (nominal)
Cantidad Cuantitativo (Continua)
Unidad.de.medida Cualitativo (nominal)
Ubicación.de.origen Cualitativo (nominal)
Ubicación.de.desecho Cualitativo (nominal)

Limpieza de datos

## Eliminar columnas que no se usan  

bd1 <- bd
bd1<- subset(bd1, select = -c (Referencia, Producto, Unidad.de.medida, Hora, Ubicación.de.desecho, Estado))

## Borrar N/A's 

Tecnicas Utilizadas Eliminar columnas innecesarias para facilitar el analisis con datos relevantes. Borrar NA’s ya que no dicen informacion relevante para el analisis.

bd2 <- bd
bd2<- subset(bd2, select = -c (Referencia, Producto, Unidad.de.medida, Hora, Ubicación.de.desecho, Estado))

media <- mean(bd2$Cantidad)

mediana <- median(bd2$Cantidad)

mode <- function (x) {
  ux <- unique(x)
  ux [which.max(tabulate(match(x,ux)))]
}

mode <- mode(bd2$Cantidad)
mode
## [1] 1
hist(bd2$Cantidad)

ggplot(bd2, aes(x=media, y= Ubicación.de.origen)) +
  geom_bar(stat="identity", fill="red") + scale_fill_grey() + # Add bars to the plot
  labs(title = "Scrap empresa FORM", # Add a title
       subtitle = "", # Add a subtitle
       caption = "Relación", # Add a caption
       x = "Toneladas")

Analisis Exploratorio A traves de analisis realizado, se peude obervar en el grafico que el área donde más se genera desperdicio es en SAB/Pre-Production con al rededor de 1200 toneladas. Este es un insight muy interesante ya que se logra identificar de donde viene la mayoria de desperdicio y se puede realizar un contraste con las otras areas las cuales es muy significativa la diferencia. A raiz de esto se pueden comenzar a pensar estrategias para implementar dentro del area de SAB/Pre-Production las cuales beneficiarian a Form con la disminucion de desperdicio.

Seccion 3: K-means clustering

Definición de conceptos Conceptos que contribuyen a la identificación de clusters usando analítica de datos.

I. K- Means Clustering
K- means clustering tiene como objetivo agrupar datos con características similares en el mismo cluster. Uno de los beneficios más grandes de la herramienta es que se pueden resumir datos de gran dimensión.

II. Unsupervised Learning
No se asignan etiquetas al algoritmo de aprendizaje, dejándolo solo para encontrar la estructura en su entrada. El aprendizaje no supervisado puede ser un fin en sí mismo (descubrir patrones ocultos en los datos) o un medio para un fin (aprendizaje de funciones).

III. Eucliedean Distance
La distancia Euclidiana es el cálculo de distancia comúnmente utilizado para medir la distancia entre dos puntos de datos.

K-means Clusters

Instalar librerias

library(foreign)
library(dplyr)        # data manipulation 
library(ggplot2)      # data visualization 
#install.packages("psych")
library(psych)        # functions for multivariate analysis 
library(corrplot)     # correlation plots
#install.packages("jtools")
library(jtools)       # presentation of regression analysis 
library(lmtest)       # diagnostic checks - linear regression analysis 
library(car)          # diagnostic checks - linear regression analysis
library(factoextra)   # provides functions to extract and visualize the output of exploratory multivariate data analyses
#install.packages("ggfortify")
library(ggfortify)    # data visualization tools for statistical analysis results
library(plyr)
library(base)
library(tibble)

Cluster edad y salario diario Leer la base de datos

bajasdata <-read.csv("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/RHBAJASLIMPIA1.csv")
summary(bajasdata)
##     nombre               edad          genero           fecha_alta       
##  Length:237         Min.   : 0.00   Length:237         Length:237        
##  Class :character   1st Qu.:23.00   Class :character   Class :character  
##  Mode  :character   Median :29.00   Mode  :character   Mode  :character  
##                     Mean   :30.52                                        
##                     3rd Qu.:37.00                                        
##                     Max.   :61.00                                        
##  motivo_baja        dias_laborados     fecha_baja           puesto         
##  Length:237         Min.   :   0.00   Length:237         Length:237        
##  Class :character   1st Qu.:   9.00   Class :character   Class :character  
##  Mode  :character   Median :  21.00   Mode  :character   Mode  :character  
##                     Mean   :  83.42                                        
##                     3rd Qu.:  49.00                                        
##                     Max.   :1966.00                                        
##     sal_imss       colonia           municipio            estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##  estado_civil      
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 

Limpieza. Seleccionar variables relevantes

bajasdata1<-bajasdata
bajasdata1<-subset(bajasdata,select = -c(genero,fecha_alta,motivo_baja,puesto,estado,nombre,colonia,municipio,motivo_baja, estado_civil, dias_laborados, fecha_baja))
summary(bajasdata1)
##       edad          sal_imss    
##  Min.   : 0.00   Min.   :144.4  
##  1st Qu.:23.00   1st Qu.:180.7  
##  Median :29.00   Median :180.7  
##  Mean   :30.52   Mean   :178.6  
##  3rd Qu.:37.00   3rd Qu.:180.7  
##  Max.   :61.00   Max.   :500.0

Limpieza. Eliminar edad 0

bajasdata2 <- bajasdata1
bajasdata2<-bajasdata1[-c(97,149),]

Normalizar la base de datos

bajas_data_norm <- scale(bajasdata2[1:2])

Identificar número de clusters

fviz_nbclust(bajas_data_norm, kmeans, method="wss")+ 
  geom_vline(xintercept=4, linetype=2)+           
  labs(subtitle = "Elbow method")    

Visualizar el cluster

edad_cluster1<-kmeans(bajas_data_norm,3)
edad_cluster1
## K-means clustering with 3 clusters of sizes 69, 121, 45
## 
## Cluster means:
##         edad   sal_imss
## 1  0.2811317  0.2784633
## 2 -0.7792176 -0.1288413
## 3  1.6641609 -0.0805373
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   1   1   2   2   2   3   2   2   3   2   2   1   2   1   1   2   2   2   2   2 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   2   3   2   1   3   2   1   2   2   2   1   2   2   2   1   2   2   2   1   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   2   2   2   2   2   2   2   2   3   3   3   3   1   3   2   2   3   2   2   3 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   2   1   2   2   3   2   2   2   2   2   2   1   2   1   2   1   2   2   3 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  98  99 100 101 
##   2   2   2   2   3   2   3   2   2   2   1   3   3   2   2   2   3   2   2   1 
## 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 
##   2   2   3   1   2   2   1   2   1   1   2   1   1   2   1   1   1   3   3   3 
## 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 
##   2   2   2   2   2   1   2   1   3   2   1   2   3   2   2   2   1   3   1   3 
## 142 143 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 
##   1   1   1   3   3   2   1   1   1   2   2   2   1   3   3   2   1   2   1   3 
## 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 
##   3   3   3   1   3   2   2   1   2   2   3   1   3   2   3   1   1   3   1   1 
## 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 
##   2   2   2   1   3   3   1   2   2   1   1   1   1   1   1   1   1   2   1   2 
## 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 
##   1   1   2   1   3   1   2   2   2   3   2   2   2   1   1   2   2   1   1   1 
## 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 
##   2   2   1   2   2   2   2   3   1   3   2   2   2   2   2 
## 
## Within cluster sum of squares by cluster:
## [1] 204.19421  35.55499  17.05330
##  (between_SS / total_SS =  45.1 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"
fviz_cluster(edad_cluster1,data=bajas_data_norm)

Analisis Profundo del Cluster

bajasdata3<- bajasdata2
bajasdata3$Clusters<-edad_cluster1$cluster
bajasdata4<-bajasdata3 %>% group_by(Clusters) %>% summarise(edad=max(edad)) %>% arrange(desc(edad))
bajasdata3$Cluster_Names<-factor(bajasdata3$Clusters,levels = c(1,2,3), 
                                 labels=c("Jubilación", "Joven", "Adulto"))
bajasdata5 <- bajasdata3 %>% dplyr:: group_by(Cluster_Names) %>% dplyr:: summarize(edad_anos=max(edad), 
                                                             sal_imss=mean(sal_imss),
                                                             count=n())
clusters<-as.data.frame(bajasdata5)
clusters
##   Cluster_Names edad_anos sal_imss count
## 1    Jubilación        40 185.7365    69
## 2         Joven        32 175.3303   121
## 3        Adulto        61 176.5644    45

Gráfico de barras de las bajas con edad máxima de cluster

ggplot(bajasdata5, aes(x=Cluster_Names,y=edad_anos,fill= Cluster_Names,label=round(edad_anos,digits=2))) + 
  geom_col() + 
  geom_text()

Gráfico de barras de las bajas con su salario

ggplot(bajasdata5,aes(x=Cluster_Names,y=sal_imss ,fill= Cluster_Names,label=round(sal_imss,digits=2))) + 
  geom_col() +  
  geom_text()

Dispersión de la edad

ggplot(bajasdata3, aes(x=Cluster_Names, y=edad, fill=Cluster_Names)) +
  geom_boxplot()+
  ggtitle("Dispersion of 'Edad' by Clusters Names")

Dispersión del salario diario

ggplot(bajasdata3, aes(x=Cluster_Names, y=sal_imss, fill=Cluster_Names)) +
  geom_boxplot()+
  ggtitle("Dispersion of 'Salario_Diario' by Clusters Names")

Cluster edad y días laborados

RHBAJAS <-read.csv("/Users/andreapaolasosa/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/RHBAJASLIMPIA1.csv")

Analizar base de datos

summary(RHBAJAS)
##     nombre               edad          genero           fecha_alta       
##  Length:237         Min.   : 0.00   Length:237         Length:237        
##  Class :character   1st Qu.:23.00   Class :character   Class :character  
##  Mode  :character   Median :29.00   Mode  :character   Mode  :character  
##                     Mean   :30.52                                        
##                     3rd Qu.:37.00                                        
##                     Max.   :61.00                                        
##  motivo_baja        dias_laborados     fecha_baja           puesto         
##  Length:237         Min.   :   0.00   Length:237         Length:237        
##  Class :character   1st Qu.:   9.00   Class :character   Class :character  
##  Mode  :character   Median :  21.00   Mode  :character   Mode  :character  
##                     Mean   :  83.42                                        
##                     3rd Qu.:  49.00                                        
##                     Max.   :1966.00                                        
##     sal_imss       colonia           municipio            estado         
##  Min.   :144.4   Length:237         Length:237         Length:237        
##  1st Qu.:180.7   Class :character   Class :character   Class :character  
##  Median :180.7   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :178.6                                                           
##  3rd Qu.:180.7                                                           
##  Max.   :500.0                                                           
##  estado_civil      
##  Length:237        
##  Class :character  
##  Mode  :character  
##                    
##                    
## 
str(RHBAJAS)
## 'data.frame':    237 obs. of  13 variables:
##  $ nombre        : chr  "MARIO VALDEZ ORTIZ" "ISABEL BARRIOS MENDEZ" "MARIA ELIZABETH GOMEZ HERNANDEZ" "ALONDRA ABIGAIL ESCARCIA GOMEZ" ...
##  $ edad          : int  32 36 23 21 29 46 29 31 50 19 ...
##  $ genero        : chr  "MASCULINO" "FEMENINO" "FEMENINO" "FEMENINO" ...
##  $ fecha_alta    : chr  "09/03/20" "09/11/21" "10/11/21" "10/11/21" ...
##  $ motivo_baja   : chr  "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" "RENUNCIA VOLUNTARIA" ...
##  $ dias_laborados: int  628 60 59 59 51 37 37 31 18 224 ...
##  $ fecha_baja    : chr  "27/11/21" "08/01/22" "08/01/22" "08/01/22" ...
##  $ puesto        : chr  "DISEÑO" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
##  $ sal_imss      : num  500 152 152 152 152 ...
##  $ colonia       : chr  "SAN NICOLAS DE LOS G" "COLINAS DEL AEROPÑUERTO" "PUEBLO NUEVO" "PUEBLO NUEVO" ...
##  $ municipio     : chr  "SAN NICOLAS DE LOS G" "PESQUERIA" "APODACA" "APODACA" ...
##  $ estado        : chr  "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" "NUEVO LEÓN" ...
##  $ estado_civil  : chr  "SOLTERO" "UNIÓN LIBRE" "CASADO" "SOLTERO" ...
describe(RHBAJAS)
## # A tibble: 3 × 26
##   described_…¹     n    na  mean    sd se_mean   IQR skewn…² kurto…³   p00   p01
##   <chr>        <int> <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl> <dbl>
## 1 edad           237     0  30.5  10.0   0.651    14   0.541   0.216    0    18 
## 2 dias_labora…   237     0  83.4 227.   14.7      40   5.40   33.2      0     0 
## 3 sal_imss       237     0 179.   25.4   1.65      0   9.51  115.     144.  152.
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## #   p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## #   p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## #   variable names ¹​described_variables, ²​skewness, ³​kurtosis

Edad vs dias laborados-Clusters

RHBAJAS1<-RHBAJAS
RHBAJAS1<-subset(RHBAJAS1,select = -c(genero,fecha_alta,motivo_baja,puesto,estado,nombre,colonia,municipio,fecha_baja))
summary(RHBAJAS1)
##       edad       dias_laborados       sal_imss     estado_civil      
##  Min.   : 0.00   Min.   :   0.00   Min.   :144.4   Length:237        
##  1st Qu.:23.00   1st Qu.:   9.00   1st Qu.:180.7   Class :character  
##  Median :29.00   Median :  21.00   Median :180.7   Mode  :character  
##  Mean   :30.52   Mean   :  83.42   Mean   :178.6                     
##  3rd Qu.:37.00   3rd Qu.:  49.00   3rd Qu.:180.7                     
##  Max.   :61.00   Max.   :1966.00   Max.   :500.0

Eliminar renglones Eliminamos dos reglones que tenian como edad (0)

RHBAJAS2 <- RHBAJAS1
RHBAJAS2 <- RHBAJAS2 [RHBAJAS2$edad> min(1), ]
summary(RHBAJAS2)
##       edad       dias_laborados       sal_imss     estado_civil      
##  Min.   :18.00   Min.   :   0.00   Min.   :144.4   Length:235        
##  1st Qu.:23.00   1st Qu.:   9.50   1st Qu.:180.7   Class :character  
##  Median :29.00   Median :  21.00   Median :180.7   Mode  :character  
##  Mean   :30.78   Mean   :  84.07   Mean   :178.6                     
##  3rd Qu.:37.00   3rd Qu.:  49.50   3rd Qu.:180.7                     
##  Max.   :61.00   Max.   :1966.00   Max.   :500.0

Normalizar la base de datos

RH_EDAD_NORM<-scale(RHBAJAS2[1:2])

Se visualizan el # correcto de clusters a realizar

fviz_nbclust(RH_EDAD_NORM, kmeans, method="wss")+ 
  geom_vline(xintercept=4, linetype=2)+         
  labs(subtitle = "Elbow method") 

Visualizar el cluster

RHEDAD_Cluster1<-kmeans(RH_EDAD_NORM,4)
RHEDAD_Cluster1
## K-means clustering with 4 clusters of sizes 43, 107, 5, 80
## 
## Cluster means:
##         edad dias_laborados
## 1  1.6031879    -0.11611923
## 2 -0.8512555    -0.17238996
## 3  1.2245019     5.86438920
## 4  0.2003094    -0.07353867
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   4   4   2   2   4   1   4   4   1   2   2   4   2   4   4   2   2   2   2   2 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   4   3   2   4   1   2   4   2   2   2   4   2   2   2   4   2   2   4   4   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   2   2   2   2   2   2   2   2   1   1   1   1   4   1   2   2   1   2   2   3 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   2   4   2   2   1   2   2   4   2   2   2   4   2   4   2   4   2   2   1 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  98  99 100 101 
##   3   2   2   4   1   2   1   2   2   2   4   1   1   2   2   4   1   4   2   4 
## 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 
##   2   2   1   4   2   2   4   3   4   4   2   4   4   2   4   4   4   1   1   1 
## 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 
##   2   2   2   2   2   4   2   4   1   2   4   2   1   2   4   2   4   1   4   1 
## 142 143 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 
##   4   4   1   1   1   2   4   4   4   2   2   2   4   1   1   2   4   2   4   1 
## 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 
##   1   1   1   4   1   2   2   4   2   2   1   4   1   2   1   4   4   1   4   4 
## 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 
##   2   2   2   4   1   3   4   2   2   4   4   4   4   4   4   4   4   2   4   4 
## 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 
##   4   4   2   4   1   4   2   2   2   1   2   2   2   4   4   2   2   4   4   4 
## 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 
##   2   2   4   2   2   2   4   1   4   1   2   2   2   2   2 
## 
## Within cluster sum of squares by cluster:
## [1] 19.40753 15.18543 18.67351 39.82387
##  (between_SS / total_SS =  80.1 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"
fviz_cluster(RHEDAD_Cluster1,data=RH_EDAD_NORM)

RHEDAD_Cluster1<-kmeans(RH_EDAD_NORM,4)
RHEDAD_Cluster1
## K-means clustering with 4 clusters of sizes 9, 111, 42, 73
## 
## Cluster means:
##         edad dias_laborados
## 1  0.9666914      4.3546434
## 2 -0.8318852     -0.1350561
## 3  1.5964199     -0.1776331
## 4  0.2272521     -0.2293147
## 
## Clustering vector:
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##   1   4   2   2   4   3   4   4   3   2   2   4   2   4   4   2   2   2   2   2 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   4   1   2   4   3   2   4   2   2   2   4   2   2   2   4   2   2   2   4   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   2   2   2   2   2   2   2   2   3   3   3   3   1   3   2   2   3   2   2   1 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   2   4   2   2   3   2   2   2   2   2   2   4   2   4   2   4   2   2   3 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  98  99 100 101 
##   1   2   2   2   3   2   3   2   2   2   4   3   3   2   2   4   3   4   2   4 
## 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 
##   2   2   3   4   2   2   4   1   4   4   2   4   4   2   4   4   4   3   3   3 
## 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 
##   2   2   2   2   2   4   2   4   3   2   4   2   1   2   2   2   4   3   4   3 
## 142 143 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 
##   4   4   3   3   3   2   4   4   4   2   2   2   4   3   3   2   4   2   4   3 
## 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 
##   3   3   3   4   3   2   2   4   2   2   3   4   3   2   3   4   4   3   4   4 
## 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 
##   2   2   2   4   3   1   4   2   2   4   4   4   4   4   1   4   4   2   4   4 
## 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 
##   4   4   2   4   3   4   2   2   2   3   2   2   2   4   4   2   2   4   4   4 
## 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 
##   2   2   4   2   2   2   4   3   4   3   2   2   2   2   2 
## 
## Within cluster sum of squares by cluster:
## [1] 47.52052 21.82479 12.49099 12.27335
##  (between_SS / total_SS =  79.9 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Visualizacion del Cluster

fviz_cluster(RHEDAD_Cluster1,data=RH_EDAD_NORM)

Analisis Profundo del Cluster

RHBAJAS3 <- RHBAJAS2
RHBAJAS3$Clusters<-RHEDAD_Cluster1$cluster
RHBAJAS4<-RHBAJAS3 %>% group_by(Clusters) %>% summarise(edad=max(edad)) %>% arrange(desc(edad))
RHBAJAS3$Cluster_Names<-factor(RHBAJAS3$Clusters,levels = c(1,2,3,4), 
                                 labels=c("Adulto", "Principiante", "Mayor", "Juvenil"))
RHBAJAS6 <- RHBAJAS3 %>% group_by(Cluster_Names) %>% dplyr:: summarize(edad_anos=max(edad), 
dias_laborados=mean(dias_laborados),
Count=n())
clusters<-as.data.frame(RHBAJAS6)
clusters
##   Cluster_Names edad_anos dias_laborados Count
## 1        Adulto        61     1075.77778     9
## 2  Principiante        28       53.31532   111
## 3         Mayor        57       43.61905    42
## 4       Juvenil        39       31.84932    73

Analisis de Datos del cluster expresados por graficas

ggplot(RHBAJAS6,aes(x=reorder(Cluster_Names,Count),y=Count,fill=Cluster_Names)) +
  geom_bar(stat="identity")

Edades (maximas), al igual se puede realizar con un (barplot)

ggplot(RHBAJAS6, aes(x=Cluster_Names,y=edad_anos,fill= Cluster_Names,label=round(edad_anos,digits=2))) + 
  geom_col() + 
  geom_text()

Dias laborados (Maximos)

ggplot(RHBAJAS6,aes(x=Cluster_Names,y=dias_laborados,fill= Cluster_Names,label=round(dias_laborados,digits=2))) + 
  geom_col() + 
  geom_text()

Grafica de Boxplot (Analisis de las edades de los 4 grupos.)

ggplot(RHBAJAS3, aes(x=Cluster_Names, y=edad, fill=Cluster_Names)) +
  geom_boxplot()+
  ggtitle("Edad (Dispersion)")

Hallazgos identificacos K-Means

Durante esta actividad realizamos un análisis en la base de datos de Recursos Humanos, enfocados en las variables de Edad, Salario y Días Trabajados, por lo que se decidió definir varios pasos a seguir para llegar al objetivo deseado que era finalmente llegar a la construcción de los clusters.

Tomando en cuenta los hallazgos de la edad y el salario diario, se llego a la conclusión de lo siguiente:

  1. Hay más bajas de adultos con el rango de edades de 41 a 61, el cuál se identifico como jubilación.

  2. Los adultos de 33-40 años ganan más con un sueldo diario de 186.16 en promedio.

De igual manera podemos observar cuatro Clusters que toman en cuenta la edad y los días laborados:

  1. El Cluster Rojo “Adulto” es un grupo en el cual se observa que son las personas de edad alta y con una característica en común que es que duran poco tiempo laborando en la empresa.
  2. El Cluster Azul “Mayor” es el Cluster que más se aparta de los demás Clusters debido a que son personas con mayor rango de edad y la mayor parte de los empleados cuentan con esta edad.
  3. El Cluster Morado “Juvenil” donde se encuentran las personas con un rango de edad de entre 30 y 36 años, habiendo más personas en el rango de los 30 a 32 años,
  4. El Cluster Verde “Principiante” es el grupo de personas más jóvenes en la empresa, con un rango de entre 20 y 30 años.

El grupo que cuenta con más días laborados es el de edad máxima, siendo los adultos, de igual manera estos cuentan con un salario mayor.
Por último podemos observar que en los gráficos que se analizan con estas variables tenemos los siguientes puntos a consideración:
- Edad Máxima
- Días Laborados Máximos
- Recuento de los grupos que presentan mayor actividad en la empresa.
- La dispersión de edad que existe entre cada uno de los grupos.

Seccion 4

A partir del análisis de las bases de datos de las diferentes áreas de la empresa FORM, identificar y describir los principales 6-8 hallazgos (meaningful insights). A través de los diferentes análisis realizados en las diferentes bases de datos se pudieron obtener hallazgos importantes entre ellos, algunos importantes a destacar son: Analizando la base de datos de RH se pudo observar que hay una alta rotación de personal. Esto es importante mencionar ya que puede afectar a la productividad de la empresa, es por eso que se debe ver con más detalle esta observación y analizar la raíz de lo que está causando la rotación. En la base de datos de delivery plan se pudo obtener cuál fue el cliente con mayor importancia que en este caso fue “Hella” ya que cuenta con el mayor número de unidades y outliers por encima de la media. En cuanto a la base de delivery performance, se pudieron obtener ciertos hallazgos de gran interés. Por ejemplo, Mahle es el cliente con mayores retrasos en cuanto a los tiempos de entrega. Printel es el cliente con el cual siempre se mantienen dentro de los tiempos deseables, que en este caso sería, debajo de los 30 minutos. En la base de producción se identificó que el cliente “Yanfeng” es al cual se le dedica menos tiempo en calidad, lo cual podría ser un riesgo para Form ya que da espacio a un margen más elevado de error. Se identificó que hay una alta cantidad de desperdicio que podría ser utilizada para una nueva fuente de ingreso. Este insight puede ser transformado en una estrategia ya que uno de los principales objetivos es darle un nuevo uso a la merma.

A partir del análisis de las bases de datos de las diferentes áreas de laempresa FORM, describir 3 sugerencias que le permitan al socio formador mejorar su proceso de captura, organización, y analítica de datos. Contar con bases de datos más organizadas y con formato. Esto para facilitar el análisis de los datos y poder obtener muchos más insights de los que se podrían obtener con sus bases actuales y de manera más rápida.

Poner atencion a la parte de Recursos Humanos y la alta rotacion de empleados y tambien que la mayoria son empleados jovenes. Investigar si estos dos factores se relacionan y emplear acciones de retencion de capital humano.

Abrir un departamento de business analytics e intelligence y tener a una persona que se dedique a realizar pronosticos y predicciones que pueden ayudar a determinar comportamientos a futuro. Esto puede ser de gran utilidad para Form para ayudar a identificar areas de mejora y oportunidades de crecimiento y ahorro. Asi mismo puede ayudar a prevenir errores a futuro.

Describir con tus propias palabras los términos Business Analytics and Business Intelligence. Así también, identificar y describir 3 principales diferencias entre Business Analytics y Business Intelligence. Ambas herramientas son utilizadas para el procesamiento de datos y para poder llevar a cabo análisis estadísticos, sin embargo existe una diferencia entre los dos conceptos aunque puedan sonar similares. Business analytics hace referencia a las herramientas que se utilizan al momento de realizar ciertas actividades como el análisis predictivo, facilitando realizar predicciones utilizando como estructura principal los datos analizados. Ayuda a la toma de decisiones dentro de una organización. Business Intelligence, se aplica al análisis de datos y negocios lo cual facilita la toma de decisiones dentro de una empresa. Gracias a Business Intelligence se pueden crear objetivos orientados a las necesidades primordiales de la empresa, siendo mucho más precisas y basadas en datos concretos y no en suposiciones.

3 Diferencias: La diferencia principal entre estas dos herramientas se basa en el enfoque que tiene cada una. Business Analytics es mas análisis estadístico, modelos predictivos y tendencias para poder desarrollar pronósticos de comportamientos a futuro.

Business Intelligence se encarga más de analizar la información y a partir de ella poder tomar decisiones.

Business Analytics se encarga de resolver problemas dentro de una organización antes de que estos ocurran, previniendo pérdidas.

Describir con tus propias palabras el concepto de Indicador Clave de Rendimiento / Key Performance Indicators Los Kpis son indicadores dentro de una empresa que facilitan medir el desempeño de los colaboradores y de la organización. Indica el nivel de rendimiento que se está obteniendo y ayuda a identificar en qué áreas se debe reforzar el enfoque.

A partir del análisis de las bases de datos de las diferentes áreas de la empresa FORM, proponer y describir 3 posibles KPIs que permitan evaluar el desempeño de algunas de sus áreas tasa de pedidos entregados a tiempo(30 min): medir que todos los pedidos sean entregados dentro del tiempo establecido es decir 30 minnutos y prestar atencion a los que estan causando retrasos e investigar la causa de ellos. Esto aumentaria la cantidad de entregas por dia lo cual generaria mayor rentabilidad. tasa de rotación de empleados: medir la tasa de rotacion de empelados y analizar de que manera se puede crear mayor retencion. Impartir capacitaciones tasa de desperdicio: Medir la cantidad de desperdicio generada, de esta manera con los datos precisos, poder buscar alternativas de que se puede hacer con la materia sobrante.

Bibliografia: Escobar, J. (2021, October 26). Business Analytics vs Business Intelligence ¿cuál es la diferencia? Egade.tec.mx; EGADE Insights. https://blog.egade.tec.mx/business-analytics-vs-business-intelligence-diferencias

Grupo Bit. (2022). ¿Cuál es la diferencia entre Business Intelligence y Business Analytics? Grupobit.net. https://business-intelligence.grupobit.net/blog/cual-es-la-diferencia-entre-business-intelligence-y-business-analytics

