knitr::include_url("https://form.com.mx/")Observaciones: En el area de Recursos Humanos vamos a importar dos diferentes bases de datos, esto para poder analizar la información en base a los empleados que se han dado de baja y los colaboradores/empleados actuales de FORM. Por lo que una base de datos se llama “rh_C” (Colaboradores) y la otra “rh_B” (Bajas).
#file.choose()
rh_C <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/hr.colabscsv 1.csv")
summary(rh_C)## No..De.Empleado APELLIDOS NOMBRE FECHA.DE.NACIMIENTO
## Min. : 1.00 Length:113 Length:113 Length:113
## 1st Qu.: 31.00 Class :character Class :character Class :character
## Median : 63.00 Mode :character Mode :character Mode :character
## Mean : 75.86
## 3rd Qu.:127.00
## Max. :169.00
## EDAD GENERO RFC FECHA.DE.ALTA
## Min. : 0.00 Length:113 Length:113 Length:113
## 1st Qu.:25.00 Class :character Class :character Class :character
## Median :33.00 Mode :character Mode :character Mode :character
## Mean :35.74
## 3rd Qu.:45.00
## Max. :73.00
## PRIMER.MES CUARTO.MES BAJA PUESTO
## Length:113 Length:113 Min. :0.0000 Length:113
## Class :character Class :character 1st Qu.:0.0000 Class :character
## Mode :character Mode :character Median :0.0000 Mode :character
## Mean :0.3451
## 3rd Qu.:0.0000
## Max. :3.0000
## DEPARTAMENTO SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:113 Min. :144.4 Min. : 0
## Class :character 1st Qu.:176.7 1st Qu.: 0
## Mode :character Median :180.7 Median : 0
## Mean :181.2 Mean : 2244
## 3rd Qu.:180.7 3rd Qu.: 0
## Max. :441.4 Max. :182096
## N..CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP CALLE
## Min. :0.000e+00 Length:113 Length:113 Length:113
## 1st Qu.:0.000e+00 Class :character Class :character Class :character
## Median :0.000e+00 Mode :character Mode :character Mode :character
## Mean :6.770e+07
## 3rd Qu.:0.000e+00
## Max. :1.922e+09
## NUMERO.INTERNO COLONIA MUNICIPIO ESTADO
## Length:113 Length:113 Length:113 Length:113
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## CODIGO.POSTAL ESTADO.CIVIL TARJETA.CUENTA
## Min. :25016 Length:113 Length:113
## 1st Qu.:66640 Class :character Class :character
## Median :66646 Mode :character Mode :character
## Mean :63365
## 3rd Qu.:66649
## Max. :67493
rh_B <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/HR_Bajas 2.csv")
summary(rh_B)## NO.DE.BAJAS APELLIDOS NOMBRE FECHA.DE.NACIMIENTO
## Min. : 5.00 Length:78 Length:78 Min. :25585
## 1st Qu.: 49.75 Class :character Class :character 1st Qu.:31751
## Median :167.50 Mode :character Mode :character Median :33797
## Mean :139.60 Mean :33611
## 3rd Qu.:212.75 3rd Qu.:36518
## Max. :238.00 Max. :44632
## EDAD GENERO FECHA.DE.ALTA MOTIVO.DE.BAJA
## Min. : 0.00 Length:78 Min. :43961 Length:78
## 1st Qu.:22.25 Class :character 1st Qu.:44566 Class :character
## Median :30.00 Mode :character Median :44726 Mode :character
## Mean :30.50 Mean :44664
## 3rd Qu.:36.00 3rd Qu.:44759
## Max. :52.00 Max. :44790
## DIAS.TRABAJADOS BAJA PUESTO DEPARTAMENTO
## Min. : 0.00 Min. :44569 Length:78 Length:78
## 1st Qu.: 9.00 1st Qu.:44613 Class :character Class :character
## Median : 19.00 Median :44741 Mode :character Mode :character
## Mean : 45.10 Mean :44709
## 3rd Qu.: 39.75 3rd Qu.:44784
## Max. :730.00 Max. :44814
## NO.SEGURO.SOCIAL SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:78 Min. :151.6 Min. : 0.0
## Class :character 1st Qu.:180.7 1st Qu.: 0.0
## Mode :character Median :180.7 Median : 0.0
## Mean :174.3 Mean : 130.4
## 3rd Qu.:180.7 3rd Qu.: 0.0
## Max. :183.7 Max. :2795.3
## NO.CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP CALLE
## Min. :0.000e+00 Length:78 Length:78 Length:78
## 1st Qu.:0.000e+00 Class :character Class :character Class :character
## Median :0.000e+00 Mode :character Mode :character Mode :character
## Mean :1.871e+08
## 3rd Qu.:0.000e+00
## Max. :6.919e+09
## NUMERO.INTERNO COLONIA CODIGO.POSTAL MUNICIPIO
## Length:78 Length:78 Min. :25019 Length:78
## Class :character Class :character 1st Qu.:33604 Class :character
## Mode :character Mode :character Median :33604 Mode :character
## Mean :46508
## 3rd Qu.:66645
## Max. :67450
## ESTADO ESTADO.CIVIL TARJETA.CUENTA
## Length:78 Length:78 Length:78
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
Limpieza transformación y organización de base de datos.
Como parte de la limpieza de datos de ambos documentos, se realizaron los promedios de los valores faltantes de forma manual en Excel.
Ambas bases de datos tuvieron que ser ajustadas manualmente en el excel para organizar la información de una manera más fácil de entender y para asegurarnos de que las variables más relevantes sean observadas de la manera adecuada por el programa de R Studio.
A partir de esta parte del documento, el análisis estará dividido en dos partes. En la primera se analizará la base de datos con la información de los colaboradores actuales de la empresa, mientras que en la segunda se analizarán los datos de aquellos empleados que ya fueron bajas por motivos de despido, renuncia voluntaria, entre otros.
#library(foreign)
#library(dplyr) # data manipulation
#library(forcats) # to work with categorical variables
#library(ggplot2) # data visualization
#library(readr) # read specific csv files
#library(janitor) # data exploration and cleaning
#library(Hmisc) # several useful functions for data analysis
#library(psych) # functions for multivariate analysis
#library(naniar) # summaries and visualization of missing values NAs
#library(dlookr) # summaries and visualization of missing values NAs
#library(corrplot) # correlation plots
#library(jtools) # presentation of regression analysis
#library(lmtest) # diagnostic checks - linear regression analysis
#library(car) # diagnostic checks - linear regression analysis
#library(olsrr) # diagnostic checks - linear regression analysis
#library(kableExtra) # HTML table attributes
#library(gmodels)
#library(openxlsx)
#library(crosstable)str(rh_C)## 'data.frame': 113 obs. of 26 variables:
## $ No..De.Empleado : int 1 2 3 4 5 6 7 8 9 10 ...
## $ APELLIDOS : chr "MARTINEZ DE LOERA" "DE LEON MORENO" "HERNANDEZ CERVANTES" "CAZARES MORALES" ...
## $ NOMBRE : chr "NICOLAS" "MARIANA" "JOSE LUIS" "MARIA" ...
## $ FECHA.DE.NACIMIENTO : chr "10/09/55" "14/05/79" "21/11/49" "01/05/90" ...
## $ EDAD : int 67 43 73 32 57 38 55 26 27 37 ...
## $ GENERO : chr "MASCULINO" "FEMENINO" "MASCULINO" "FEMENINO" ...
## $ RFC : chr "MALN550910338" "LEMM7905148GA" "HECL4911213X3" "CAMM9005019S8" ...
## $ FECHA.DE.ALTA : chr "01/07/10" "01/07/11" "22/11/11" "30/01/13" ...
## $ PRIMER.MES : chr "31/07/10" "31/07/11" "22/12/11" "01/03/13" ...
## $ CUARTO.MES : chr "29/10/10" "29/10/11" "22/04/12" "30/05/13" ...
## $ BAJA : int 0 0 0 0 0 0 0 0 0 0 ...
## $ PUESTO : chr "SUPERVISOR/A" "SUPERVISOR/A" "EXTERNO" "SUPERVISOR/A" ...
## $ DEPARTAMENTO : chr "PRODUCCION CARTON MDL" "PRODUCCION CARTON MDL" "EXTERNO" "PRODUCCION CARTON MC" ...
## $ SALARIO.DIARIO.IMSS : num 177 177 177 337 441 ...
## $ FACTOR.CRED.INFONAVIT: num 0 0 0 0 0 0 0 0 0 0 ...
## $ N..CREDITO.INFONAVIT : int 0 0 0 0 0 0 0 0 0 0 ...
## $ LUGAR.DE.NACIMIENTO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ CURP : chr "MALN550910HZSRRC09" "LEMM790514MCLNRR09" "HECL491121HJCRRS04" "CAMM900501MVZZRR00" ...
## $ CALLE : chr "JOSE I LUGO" "AGUSTIN LARA" "HACIENDA SAN CRISTOBAL" "RIO ACAPONETA" ...
## $ NUMERO.INTERNO : chr "234" "115" "13" "234" ...
## $ COLONIA : chr "UNIDAD LABORAL" "SANTA TERESITA" "VILLAS DE HUINALA" "PUEBLO NUEVO" ...
## $ MUNICIPIO : chr "SAN NICOLAS DE LOS GARZA" "APODACA" "APODACA" "APODACA" ...
## $ ESTADO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ CODIGO.POSTAL : int 66440 66605 66634 66649 66620 25016 66633 66649 25290 66473 ...
## $ ESTADO.CIVIL : chr "SOLTERO/A" "SOLTERO/A" "SOLTERO/A" "CASADO/A" ...
## $ TARJETA.CUENTA : chr "BANORTE" "BANORTE" "BANORTE" "BANORTE" ...
Contamos con 26 variables y 113 obserevaciones.
Para evitar que la base de datos nos extraiga información o “inisghts” erroneos, eliminamos los NAs y de ese modo tener un análisis más asertivo y de valor.
sum(is.na(rh_C))## [1] 0
Está tecnica nos permite asegurarnos de que la información que se tiene este correcta y organizada.
rh_C1<-rh_C
#rh_C1<-distinct(rh_C1)Se aplicó está técnica de limpieza para deshacernos de información que nos impide concnetrarnos en aquello que tiene mayor relevancia.
rh_C2<-rh_C1
rh_C2 <- subset(rh_C2, select =-c (NOMBRE))
rh_C2 <- subset(rh_C2, select =-c (APELLIDOS))
rh_C2 <- subset(rh_C2, select =-c (RFC))
rh_C2 <- subset(rh_C2, select =-c (CUARTO.MES))
rh_C2 <- subset(rh_C2, select =-c (FACTOR.CRED.INFONAVIT))
rh_C2 <- subset(rh_C2, select =-c (CURP))
rh_C2 <- subset(rh_C2, select =-c (CALLE))
rh_C2 <- subset(rh_C2, select =-c (NUMERO.INTERNO))
rh_C2 <- subset(rh_C2, select =-c (TARJETA.CUENTA))
summary(rh_C2)## No..De.Empleado FECHA.DE.NACIMIENTO EDAD GENERO
## Min. : 1.00 Length:113 Min. : 0.00 Length:113
## 1st Qu.: 31.00 Class :character 1st Qu.:25.00 Class :character
## Median : 63.00 Mode :character Median :33.00 Mode :character
## Mean : 75.86 Mean :35.74
## 3rd Qu.:127.00 3rd Qu.:45.00
## Max. :169.00 Max. :73.00
## FECHA.DE.ALTA PRIMER.MES BAJA PUESTO
## Length:113 Length:113 Min. :0.0000 Length:113
## Class :character Class :character 1st Qu.:0.0000 Class :character
## Mode :character Mode :character Median :0.0000 Mode :character
## Mean :0.3451
## 3rd Qu.:0.0000
## Max. :3.0000
## DEPARTAMENTO SALARIO.DIARIO.IMSS N..CREDITO.INFONAVIT
## Length:113 Min. :144.4 Min. :0.000e+00
## Class :character 1st Qu.:176.7 1st Qu.:0.000e+00
## Mode :character Median :180.7 Median :0.000e+00
## Mean :181.2 Mean :6.770e+07
## 3rd Qu.:180.7 3rd Qu.:0.000e+00
## Max. :441.4 Max. :1.922e+09
## LUGAR.DE.NACIMIENTO COLONIA MUNICIPIO ESTADO
## Length:113 Length:113 Length:113 Length:113
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## CODIGO.POSTAL ESTADO.CIVIL
## Min. :25016 Length:113
## 1st Qu.:66640 Class :character
## Median :66646 Mode :character
## Mean :63365
## 3rd Qu.:66649
## Max. :67493
Con el resumen anterior podemos observar que se eliminaron todos aquellas variables que se vieron no tan significativas, esto para lograr un análisis más preciso y realmente obtener un análisis e información interesante y nueva de los datos que está en nuestro interés y con las cuales podemos crear ya sea soluciones o encontrar oportunidades.
Cuantitativa: Discreta, Continua Escala de medición:Intervalo, Razón Cualitativa Escala de medición: Nominales, Ordinales
variables <- c(
"No..De.Empleado",
"APELLIDOS",
"NOMBRE",
"FECHA.DE.NACIMIENTO",
"EDAD",
"GENERO",
"RFC",
"FECHA.DE.ALTA",
"PRIMER.MES",
"CUARTO.MES",
"BAJA",
"PUESTO",
"DEPARTAMENTO",
"SALARIO.DIARIO.IMSS",
"FACTOR.CRED.INFONAVIT",
"N..CREDITO.INFONAVIT",
"LUGAR.DE.NACIMIENTO",
"CURP",
"CALLE",
"NUMERO.INTERNO",
"COLONIA",
"MUNICIPIO",
"ESTADO",
"CODIGO.POSTAL",
"ESTADO.CIVIL",
"TARJETA.CUENTA"
)
tipos <- c(
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cuantitativo",
"Cuantitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo"
)
escalas <- c(
"Intervalo",
"Nominal",
"Nominal",
"Intervalo",
"Intervalo",
"Nominal",
"Nominal",
"Razón",
"Razón",
"Razón",
"Razón",
"Ordinal",
"Nominal",
"Razón",
"Razón",
"Nominal",
"Nominal",
"Nominal",
"Nominal",
"Razón",
"Nominal",
"Nominal",
"Nominal",
"Ordinal",
"Nominal",
"Nominal"
)
table_rhC <- data.frame (variables, tipos, escalas)
knitr::kable(table_rhC)| variables | tipos | escalas |
|---|---|---|
| No..De.Empleado | Cuantitativo | Intervalo |
| APELLIDOS | Cualitativo | Nominal |
| NOMBRE | Cualitativo | Nominal |
| FECHA.DE.NACIMIENTO | Cualitativo | Intervalo |
| EDAD | Cuantitativo | Intervalo |
| GENERO | Cualitativo | Nominal |
| RFC | Cualitativo | Nominal |
| FECHA.DE.ALTA | Cuantitativo | Razón |
| PRIMER.MES | Cuantitativo | Razón |
| CUARTO.MES | Cuantitativo | Razón |
| BAJA | Cuantitativo | Razón |
| PUESTO | Cualitativo | Ordinal |
| DEPARTAMENTO | Cualitativo | Nominal |
| SALARIO.DIARIO.IMSS | Cuantitativo | Razón |
| FACTOR.CRED.INFONAVIT | Cuantitativo | Razón |
| N..CREDITO.INFONAVIT | Cualitativo | Nominal |
| LUGAR.DE.NACIMIENTO | Cualitativo | Nominal |
| CURP | Cualitativo | Nominal |
| CALLE | Cualitativo | Nominal |
| NUMERO.INTERNO | Cuantitativo | Razón |
| COLONIA | Cualitativo | Nominal |
| MUNICIPIO | Cualitativo | Nominal |
| ESTADO | Cualitativo | Nominal |
| CODIGO.POSTAL | Cuantitativo | Ordinal |
| ESTADO.CIVIL | Cualitativo | Nominal |
| TARJETA.CUENTA | Cualitativo | Nominal |
Análisis Exploratorio de las Bases de Datos
#install.packages("psych")
library(Hmisc)## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
## Loading required package: ggplot2
##
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
##
## format.pval, units
describe(rh_C2)## rh_C2
##
## 17 Variables 113 Observations
## --------------------------------------------------------------------------------
## No..De.Empleado
## n missing distinct Info Mean Gmd .05 .10
## 113 0 113 1 75.86 61.43 6.6 12.2
## .25 .50 .75 .90 .95
## 31.0 63.0 127.0 157.8 163.4
##
## lowest : 1 2 3 4 5, highest: 165 166 167 168 169
## --------------------------------------------------------------------------------
## FECHA.DE.NACIMIENTO
## n missing distinct
## 113 0 113
##
## lowest : 01/04/03 01/05/00 01/05/90 01/07/67 02/06/82
## highest: 30/11/68 30/12/92 31/05/92 31/07/90 31/10/67
## --------------------------------------------------------------------------------
## EDAD
## n missing distinct Info Mean Gmd .05 .10
## 113 0 42 0.999 35.74 15.03 19.0 20.0
## .25 .50 .75 .90 .95
## 25.0 33.0 45.0 55.0 57.4
##
## lowest : 0 18 19 20 21, highest: 58 59 60 67 73
## --------------------------------------------------------------------------------
## GENERO
## n missing distinct
## 113 0 2
##
## Value FEMENINO MASCULINO
## Frequency 61 52
## Proportion 0.54 0.46
## --------------------------------------------------------------------------------
## FECHA.DE.ALTA
## n missing distinct
## 113 0 94
##
## lowest : 01/06/22 01/07/10 01/07/11 01/08/22 01/12/17
## highest: 28/08/20 29/11/18 30/01/13 30/06/22 30/07/19
## --------------------------------------------------------------------------------
## PRIMER.MES
## n missing distinct
## 113 0 94
##
## lowest : 01/03/13 01/06/19 01/07/22 01/09/22 02/02/22
## highest: 29/12/18 30/07/22 31/07/10 31/07/11 31/12/17
## --------------------------------------------------------------------------------
## BAJA
## n missing distinct Info Mean Gmd
## 113 0 2 0.305 0.3451 0.6163
##
## Value 0 3
## Frequency 100 13
## Proportion 0.885 0.115
## --------------------------------------------------------------------------------
## PUESTO
## n missing distinct
## 113 0 21
##
## lowest : AYUDANTE DE MANTENIMIENTO AYUDANTE GENERAL CHOFER COSTURERO/A ENFERMERO/A
## highest: RECIBO RESIDENTE SERVICIO AL CLIENTE SOLDADOR SUPERVISOR/A
## --------------------------------------------------------------------------------
## DEPARTAMENTO
## n missing distinct
## 113 0 19
##
## lowest : AY FLEXO CALIDAD CEDIS CELDAS CORTADORAS
## highest: PRODUCCION RETORN ROTATIVA STABILUS TROQUEL VARIOS
## --------------------------------------------------------------------------------
## SALARIO.DIARIO.IMSS
## n missing distinct Info Mean Gmd .05 .10
## 113 0 17 0.848 181.2 22.55 151.6 151.6
## .25 .50 .75 .90 .95
## 176.7 180.7 180.7 180.7 221.5
##
## lowest : 144.45 151.61 151.67 152.86 175.79, highest: 240.75 260.01 279.61 337.05 441.37
##
## Value 144.45 151.61 151.67 152.86 175.79 176.72 180.68 181.68 184.68
## Frequency 3 11 5 1 1 23 59 1 1
## Proportion 0.027 0.097 0.044 0.009 0.009 0.204 0.522 0.009 0.009
##
## Value 185.68 208.65 240.71 240.75 260.01 279.61 337.05 441.37
## Frequency 1 1 1 1 1 1 1 1
## Proportion 0.009 0.009 0.009 0.009 0.009 0.009 0.009 0.009
## --------------------------------------------------------------------------------
## N..CREDITO.INFONAVIT
## n missing distinct Info Mean Gmd
## 113 0 5 0.102 67697774 131776900
##
## lowest : 0 1905321932 1910498716 1912437884 1921589926
## highest: 0 1905321932 1910498716 1912437884 1921589926
##
## Value 0 1905321932 1910498716 1912437884 1921589926
## Frequency 109 1 1 1 1
## Proportion 0.965 0.009 0.009 0.009 0.009
## --------------------------------------------------------------------------------
## LUGAR.DE.NACIMIENTO
## n missing distinct
## 113 0 13
##
## lowest : CHIAPAS CIUDAD DE MEXICO COAHUILA DURANGO GUANAJUATO
## highest: SAN LUIS POTOSI TABASCO TAMAULIPAS VERACRUZ ZACATECAS
## --------------------------------------------------------------------------------
## COLONIA
## n missing distinct
## 113 0 67
##
## lowest : ALAMOS DEL PARQUE ANALCO 2 ANZURES BALCONES DE HUINALA C. H. BLAS CHUMACERO C.T.M
## highest: VILLAS DE HUINALA VILLAS DE SAN CARLOS VISTAS DEL RIO VIVIENDA DIGNA ZONA CENTRO
## --------------------------------------------------------------------------------
## MUNICIPIO
## n missing distinct
## 113 0 9
##
## lowest : APODACA CAÑADA BLANCA GUADALUPE JUAREZ MONTERREY
## highest: MONTERREY PESQUERIA RAMOS ARIZPE SALTILLO SAN NICOLAS DE LOS GARZA
## --------------------------------------------------------------------------------
## ESTADO
## n missing distinct
## 113 0 2
##
## Value COAHUILA NUEVO LEON
## Frequency 9 104
## Proportion 0.08 0.92
## --------------------------------------------------------------------------------
## CODIGO.POSTAL
## n missing distinct Info Mean Gmd .05 .10
## 113 0 43 0.972 63365 6375 25901 64846
## .25 .50 .75 .90 .95
## 66640 66646 66649 67117 67256
##
## lowest : 25016 25088 25115 25290 25900, highest: 67255 67258 67266 67267 67493
##
## Value 25000 25100 25300 25900 64100 64800 65000 66100 66400 66500 66600
## Frequency 1 2 2 4 2 1 1 1 1 1 71
## Proportion 0.009 0.018 0.018 0.035 0.018 0.009 0.009 0.009 0.009 0.009 0.628
##
## Value 66700 67100 67200 67300 67500
## Frequency 10 5 3 7 1
## Proportion 0.088 0.044 0.027 0.062 0.009
##
## For the frequency table, variable is rounded to the nearest 100
## --------------------------------------------------------------------------------
## ESTADO.CIVIL
## n missing distinct
## 113 0 4
##
## Value CASADO/A DIVORCIADO/A SOLTERO/A UNION LIBRE
## Frequency 44 3 46 20
## Proportion 0.389 0.027 0.407 0.177
## --------------------------------------------------------------------------------
library(tidyr)
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:Hmisc':
##
## src, summarize
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(janitor)##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
library(psych)##
## Attaching package: 'psych'
## The following object is masked from 'package:Hmisc':
##
## describe
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
#count(rh_C2, GENERO, sort = TRUE)
#count(rh_C2, PUESTO, sort = TRUE)
#count(rh_C2, DEPARTAMENTO, sort = TRUE)
#count(rh_C2, SALARIO.DIARIO.IMSS, sort = TRUE)
#count(rh_C2, LUGAR.DE.NACIMIENTO, sort = TRUE)
#install.packages("tibble")
tibble(rh_C2)## # A tibble: 113 × 17
## No..De.Em…¹ FECHA…² EDAD GENERO FECHA…³ PRIME…⁴ BAJA PUESTO DEPAR…⁵ SALAR…⁶
## <int> <chr> <int> <chr> <chr> <chr> <int> <chr> <chr> <dbl>
## 1 1 10/09/… 67 MASCU… 01/07/… 31/07/… 0 SUPER… PRODUC… 177.
## 2 2 14/05/… 43 FEMEN… 01/07/… 31/07/… 0 SUPER… PRODUC… 177.
## 3 3 21/11/… 73 MASCU… 22/11/… 22/12/… 0 EXTER… EXTERNO 177.
## 4 4 01/05/… 32 FEMEN… 30/01/… 01/03/… 0 SUPER… PRODUC… 337.
## 5 5 06/09/… 57 FEMEN… 05/05/… 04/06/… 0 SUPER… COSTURA 441.
## 6 6 22/06/… 38 MASCU… 03/07/… 02/08/… 0 SERVI… CEDIS 177.
## 7 7 01/07/… 55 FEMEN… 06/08/… 05/09/… 0 COSTU… COSTURA 260.
## 8 8 10/12/… 26 MASCU… 23/08/… 22/09/… 0 AYUDA… PRODUC… 241.
## 9 9 03/11/… 27 MASCU… 11/01/… 10/02/… 0 AYUDA… CEDIS 177.
## 10 10 18/08/… 37 FEMEN… 20/02/… 22/03/… 0 COSTU… COSTURA 153.
## # … with 103 more rows, 7 more variables: N..CREDITO.INFONAVIT <int>,
## # LUGAR.DE.NACIMIENTO <chr>, COLONIA <chr>, MUNICIPIO <chr>, ESTADO <chr>,
## # CODIGO.POSTAL <int>, ESTADO.CIVIL <chr>, and abbreviated variable names
## # ¹No..De.Empleado, ²FECHA.DE.NACIMIENTO, ³FECHA.DE.ALTA, ⁴PRIMER.MES,
## # ⁵DEPARTAMENTO, ⁶SALARIO.DIARIO.IMSS
En esta primera parte del análisis estadístico descriptivo, vemos que el conteo total de empleados actuales es de 113 y hay un mayor número de mujeres (54%) contra empleados que son hombres (46%).
En cuanto a los puestos, vemos que existe una gran cantidad de ayudantes generales, pues es el puesto que ocupa mayor capital humano, contra aquellos que ocupan menos que van desde servicio al cliente hasta operadores.
Entre los departamentos con mayor cantidad de empleados, vemos que está varios y producción retorn. El departamento de “Varios” fue creado para catalogar a aquellos empleados que en la base de datos no tenían definida un área en concreto.
Vemos que la mayoría de los empleados ganan $180.68 pesos de salario diario por el IMSS y de todos los empleados, se calcula que tienen un promedio de salario diario de $236.62 pesos.
En cuanto al lugar de origen, vemos que la mayoría de los empleados provienen del Estado de Nuevo León (70%) y Veracruz (11%), viendo que el 19% restante de los empleados son provenientes de Zona Centro o estados colidantes de Nuevo León.
table_rhC2<-describe(rh_C2)
knitr::kable(table_rhC2)| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| No..De.Empleado | 1 | 113 | 7.585841e+01 | 5.387649e+01 | 63.00 | 7.364835e+01 | 60.7866 | 1.00 | 1.69000e+02 | 1.68000e+02 | 0.3890575 | -1.2725756 | 5.068274e+00 |
| FECHA.DE.NACIMIENTO* | 2 | 113 | 5.700000e+01 | 3.276431e+01 | 57.00 | 5.700000e+01 | 41.5128 | 1.00 | 1.13000e+02 | 1.12000e+02 | 0.0000000 | -1.2319021 | 3.082207e+00 |
| EDAD | 3 | 113 | 3.574336e+01 | 1.328585e+01 | 33.00 | 3.503297e+01 | 14.8260 | 0.00 | 7.30000e+01 | 7.30000e+01 | 0.3871754 | -0.3962064 | 1.249828e+00 |
| GENERO* | 4 | 113 | 1.460177e+00 | 5.006317e-01 | 1.00 | 1.450549e+00 | 0.0000 | 1.00 | 2.00000e+00 | 1.00000e+00 | 0.1576832 | -1.9925348 | 4.709550e-02 |
| FECHA.DE.ALTA* | 5 | 113 | 4.721239e+01 | 2.698593e+01 | 49.00 | 4.728571e+01 | 34.0998 | 1.00 | 9.40000e+01 | 9.30000e+01 | -0.0489405 | -1.1963996 | 2.538622e+00 |
| PRIMER.MES* | 6 | 113 | 4.693805e+01 | 2.678628e+01 | 49.00 | 4.691209e+01 | 34.0998 | 1.00 | 9.40000e+01 | 9.30000e+01 | -0.0301139 | -1.1859741 | 2.519842e+00 |
| BAJA | 7 | 113 | 3.451327e-01 | 9.614898e-01 | 0.00 | 6.593410e-02 | 0.0000 | 0.00 | 3.00000e+00 | 3.00000e+00 | 2.3809866 | 3.7020932 | 9.044940e-02 |
| PUESTO* | 8 | 113 | 5.646018e+00 | 6.260592e+00 | 2.00 | 4.351648e+00 | 0.0000 | 1.00 | 2.10000e+01 | 2.00000e+01 | 1.4958964 | 0.6087962 | 5.889469e-01 |
| DEPARTAMENTO* | 9 | 113 | 1.345133e+01 | 5.882770e+00 | 15.00 | 1.408791e+01 | 5.9304 | 1.00 | 1.90000e+01 | 1.80000e+01 | -0.6540898 | -1.0698793 | 5.534045e-01 |
| SALARIO.DIARIO.IMSS | 10 | 113 | 1.811764e+02 | 3.473107e+01 | 180.68 | 1.767674e+02 | 0.0000 | 144.45 | 4.41370e+02 | 2.96920e+02 | 4.7957216 | 29.5403868 | 3.267225e+00 |
| N..CREDITO.INFONAVIT | 11 | 113 | 6.769777e+07 | 3.549686e+08 | 0.00 | 0.000000e+00 | 0.0000 | 0.00 | 1.92159e+09 | 1.92159e+09 | 4.9620632 | 22.8245730 | 3.339264e+07 |
| LUGAR.DE.NACIMIENTO* | 12 | 113 | 7.327434e+00 | 2.350693e+00 | 7.00 | 7.318681e+00 | 0.0000 | 1.00 | 1.30000e+01 | 1.20000e+01 | 0.1928752 | 1.1227203 | 2.211346e-01 |
| COLONIA* | 13 | 113 | 3.673451e+01 | 1.803272e+01 | 45.00 | 3.737363e+01 | 17.7912 | 1.00 | 6.70000e+01 | 6.60000e+01 | -0.4343432 | -0.9392140 | 1.696375e+00 |
| MUNICIPIO* | 14 | 113 | 2.584071e+00 | 2.385693e+00 | 1.00 | 2.142857e+00 | 0.0000 | 1.00 | 9.00000e+00 | 8.00000e+00 | 1.1891323 | 0.0235117 | 2.244271e-01 |
| ESTADO* | 15 | 113 | 1.920354e+00 | 2.719504e-01 | 2.00 | 2.000000e+00 | 0.0000 | 1.00 | 2.00000e+00 | 1.00000e+00 | -3.0640444 | 7.4545718 | 2.558290e-02 |
| CODIGO.POSTAL | 16 | 113 | 6.336474e+04 | 1.120189e+04 | 66646.00 | 6.662284e+04 | 4.4478 | 25016.00 | 6.74930e+04 | 4.24770e+04 | -3.0551620 | 7.4227076 | 1.053785e+03 |
| ESTADO.CIVIL* | 17 | 113 | 2.371681e+00 | 1.174085e+00 | 3.00 | 2.340659e+00 | 1.4826 | 1.00 | 4.00000e+00 | 3.00000e+00 | -0.0872307 | -1.5861240 | 1.104487e-01 |
#install.packages('epiDisplay')
#library(epiDisplay)
#tab1(rh_C2$GENERO, rh_C2$SALARIO.DIARIO.IMSS, sort.group = "decreasing", cum.percent = TRUE)Esta tabla de frecuencia representa el valor decimal del salario diario de acuerdo al género, es decir, la cantidad de empleados en valor decimal que reciben cierto salario diario de acuerdo a su género. La gráfica nos muestra que FORM tiene un mayor numero de empleados de genero femenino este está representado por 61 empleadas y del genero masculino 52 eampleados. También podemos obsrvar que el genero femenino tiene tiene un valor de salario mayor a que el genero masculino.
str(rh_B)## 'data.frame': 78 obs. of 26 variables:
## $ NO.DE.BAJAS : int 5 6 7 8 9 11 12 16 19 20 ...
## $ APELLIDOS : chr "BERNAL FLORES" "SAUCEDO GUZMAN" "MEZA LLANAS" "TORRES LARA" ...
## $ NOMBRE : chr "ERIKA ROSALINDA" "GUADALUPE" "YOANA CRISTINA" "CESAR ANTONIO" ...
## $ FECHA.DE.NACIMIENTO : int 33997 28106 34174 33491 26422 36970 32443 37872 37512 36915 ...
## $ EDAD : int 29 46 29 31 50 21 34 19 20 21 ...
## $ GENERO : chr "FEMENINO" "FEMENINO" "FEMENINO" "MASCULINO" ...
## $ FECHA.DE.ALTA : int 44518 44532 44532 44538 44551 44531 44532 44488 44541 44546 ...
## $ MOTIVO.DE.BAJA : chr "RENUNCIA VOLUNTARIA" "BAJA POR FALTAS" "BAJA POR FALTAS" "BAJA POR FALTAS" ...
## $ DIAS.TRABAJADOS : int 51 37 37 31 18 40 39 86 33 28 ...
## $ BAJA : int 44569 44569 44569 44569 44569 44571 44571 44574 44574 44574 ...
## $ PUESTO : chr "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
## $ DEPARTAMENTO : chr "VARIOS" "VARIOS" "VARIOS" "VARIOS" ...
## $ NO.SEGURO.SOCIAL : chr "43109363747" "43937683647" "43099330201" "43099151714" ...
## $ SALARIO.DIARIO.IMSS : num 152 152 152 152 152 ...
## $ FACTOR.CRED.INFONAVIT: num 0 1320 0 0 0 ...
## $ NO.CREDITO.INFONAVIT : num 0.00 1.92e+09 0.00 0.00 0.00 ...
## $ LUGAR.DE.NACIMIENTO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ CURP : chr "BEFE930128MNLRLR05" "SAGG761212MNLCZD08" "MELY930724MNLZLN01" "TOLC910910HNLRRS09" ...
## $ CALLE : chr "JULIAN VILLAGRAN" "PAPAGAYOS" "RIO AMANONAS" "PALMERA" ...
## $ NUMERO.INTERNO : chr "452" "220" "300" "104" ...
## $ COLONIA : chr "REFORMA" "GOLONDRINAS" "PUEBLO NUEVO" "MIRADOR DEL PARQUE" ...
## $ CODIGO.POSTAL : int 66640 66649 66646 67254 67114 66645 66646 66646 66645 66646 ...
## $ MUNICIPIO : chr "APODACA" "APODACA" "APODACA" "JUAREZ" ...
## $ ESTADO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ ESTADO.CIVIL : chr "SOLTERO/A" "SOLTERO/A" "UNION LIBRE" "UNION LIBRE" ...
## $ TARJETA.CUENTA : chr "BANORTE" "BANORTE" "BANORTE" "BANORTE" ...
Se tiene 26 variables y 78 observaciones.
sum(is.na(rh_B))## [1] 0
rh_B1<-rh_B
rh_B1<-na.omit(rh_B1)
summary(rh_B1)## NO.DE.BAJAS APELLIDOS NOMBRE FECHA.DE.NACIMIENTO
## Min. : 5.00 Length:78 Length:78 Min. :25585
## 1st Qu.: 49.75 Class :character Class :character 1st Qu.:31751
## Median :167.50 Mode :character Mode :character Median :33797
## Mean :139.60 Mean :33611
## 3rd Qu.:212.75 3rd Qu.:36518
## Max. :238.00 Max. :44632
## EDAD GENERO FECHA.DE.ALTA MOTIVO.DE.BAJA
## Min. : 0.00 Length:78 Min. :43961 Length:78
## 1st Qu.:22.25 Class :character 1st Qu.:44566 Class :character
## Median :30.00 Mode :character Median :44726 Mode :character
## Mean :30.50 Mean :44664
## 3rd Qu.:36.00 3rd Qu.:44759
## Max. :52.00 Max. :44790
## DIAS.TRABAJADOS BAJA PUESTO DEPARTAMENTO
## Min. : 0.00 Min. :44569 Length:78 Length:78
## 1st Qu.: 9.00 1st Qu.:44613 Class :character Class :character
## Median : 19.00 Median :44741 Mode :character Mode :character
## Mean : 45.10 Mean :44709
## 3rd Qu.: 39.75 3rd Qu.:44784
## Max. :730.00 Max. :44814
## NO.SEGURO.SOCIAL SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:78 Min. :151.6 Min. : 0.0
## Class :character 1st Qu.:180.7 1st Qu.: 0.0
## Mode :character Median :180.7 Median : 0.0
## Mean :174.3 Mean : 130.4
## 3rd Qu.:180.7 3rd Qu.: 0.0
## Max. :183.7 Max. :2795.3
## NO.CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP CALLE
## Min. :0.000e+00 Length:78 Length:78 Length:78
## 1st Qu.:0.000e+00 Class :character Class :character Class :character
## Median :0.000e+00 Mode :character Mode :character Mode :character
## Mean :1.871e+08
## 3rd Qu.:0.000e+00
## Max. :6.919e+09
## NUMERO.INTERNO COLONIA CODIGO.POSTAL MUNICIPIO
## Length:78 Length:78 Min. :25019 Length:78
## Class :character Class :character 1st Qu.:33604 Class :character
## Mode :character Mode :character Median :33604 Mode :character
## Mean :46508
## 3rd Qu.:66645
## Max. :67450
## ESTADO ESTADO.CIVIL TARJETA.CUENTA
## Length:78 Length:78 Length:78
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
rh_B2<-rh_B1
rh_B2 <- subset(rh_B2, select =-c (APELLIDOS))
rh_B2 <- subset(rh_B2, select =-c (NOMBRE))
rh_B2 <- subset(rh_B2, select =-c (FACTOR.CRED.INFONAVIT))
rh_B2 <- subset(rh_B2, select =-c (CURP))
rh_B2 <- subset(rh_B2, select =-c (CALLE))
rh_B2 <- subset(rh_B2, select =-c (NUMERO.INTERNO))
rh_B2 <- subset(rh_B2, select =-c (TARJETA.CUENTA))
#summary(rh_B2)Cuantitativa: Discreta, Continua
Escala de medición:Intervalo, Razón
Cualitativa
Escala de medición: Nominales, Ordinales
variables <- c(
"No..De.Empleado",
"APELLIDOS",
"NOMBRE",
"FECHA.DE.NACIMIENTO",
"EDAD",
"GENERO",
"RFC",
"FECHA.DE.ALTA",
"PRIMER.MES",
"CUARTO.MES",
"BAJA",
"PUESTO",
"DEPARTAMENTO",
"SALARIO.DIARIO.IMSS",
"FACTOR.CRED.INFONAVIT",
"N..CREDITO.INFONAVIT",
"LUGAR.DE.NACIMIENTO",
"CURP",
"CALLE",
"NUMERO.INTERNO",
"COLONIA",
"MUNICIPIO",
"ESTADO",
"CODIGO.POSTAL",
"ESTADO.CIVIL",
"TARJETA.CUENTA"
)
tipos <- c(
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cuantitativo",
"Cuantitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo",
"Cualitativo",
"Cuantitativo",
"Cualitativo",
"Cualitativo"
)
escalas <- c(
"Intervalo",
"Nominal",
"Nominal",
"Intervalo",
"Intervalo",
"Nominal",
"Nominal",
"Razón",
"Razón",
"Razón",
"Razón",
"Ordinal",
"Nominal",
"Razón",
"Razón",
"Nominal",
"Nominal",
"Nominal",
"Nominal",
"Razón",
"Nominal",
"Nominal",
"Nominal",
"Ordinal",
"Nominal",
"Nominal"
)
table_rhB <- data.frame (variables, tipos, escalas)
knitr::kable(table_rhB)| variables | tipos | escalas |
|---|---|---|
| No..De.Empleado | Cuantitativo | Intervalo |
| APELLIDOS | Cualitativo | Nominal |
| NOMBRE | Cualitativo | Nominal |
| FECHA.DE.NACIMIENTO | Cualitativo | Intervalo |
| EDAD | Cuantitativo | Intervalo |
| GENERO | Cualitativo | Nominal |
| RFC | Cualitativo | Nominal |
| FECHA.DE.ALTA | Cuantitativo | Razón |
| PRIMER.MES | Cuantitativo | Razón |
| CUARTO.MES | Cuantitativo | Razón |
| BAJA | Cuantitativo | Razón |
| PUESTO | Cualitativo | Ordinal |
| DEPARTAMENTO | Cualitativo | Nominal |
| SALARIO.DIARIO.IMSS | Cuantitativo | Razón |
| FACTOR.CRED.INFONAVIT | Cuantitativo | Razón |
| N..CREDITO.INFONAVIT | Cualitativo | Nominal |
| LUGAR.DE.NACIMIENTO | Cualitativo | Nominal |
| CURP | Cualitativo | Nominal |
| CALLE | Cualitativo | Nominal |
| NUMERO.INTERNO | Cuantitativo | Razón |
| COLONIA | Cualitativo | Nominal |
| MUNICIPIO | Cualitativo | Nominal |
| ESTADO | Cualitativo | Nominal |
| CODIGO.POSTAL | Cuantitativo | Ordinal |
| ESTADO.CIVIL | Cualitativo | Nominal |
| TARJETA.CUENTA | Cualitativo | Nominal |
Análisis Exploratorio de las Bases de Datos
table(rh_B2$PUESTO, rh_B2$MOTIVO.DE.BAJA)##
## BAJA POR FALTAS RENUNCIA VOLUNTARIA
## AYUDANTE DE EMBARQUES 0 0
## AYUDANTE GENERAL 50 18
## COSTURERO/A 1 0
## GUARDIA DE SEGURIDAD 0 1
## INSPECTOR DE CALIDAD 1 0
## JEFE DE SEGURIDAD E HIGIENE 0 1
## MONTACARGUISTA 1 1
## RESIDENTE 1 0
## SOLDADOR 1 0
##
## TERMINO DE CONTRATO
## AYUDANTE DE EMBARQUES 1
## AYUDANTE GENERAL 1
## COSTURERO/A 0
## GUARDIA DE SEGURIDAD 0
## INSPECTOR DE CALIDAD 0
## JEFE DE SEGURIDAD E HIGIENE 0
## MONTACARGUISTA 0
## RESIDENTE 0
## SOLDADOR 0
En la tabla vemos que se destacan tres razones principales de bajas de empleados, las cuales son: bajas por faltas, renuncia voluntaria o término de contrato. En su mayoría, hubo una baja por faltas del puesto de ayudante general y renuncia voluntaria para el mismo puesto. Al igual que en la base de datos anterior, vemos que el puesto con mayor rotación a nivel histórico es de ayudante general. Esto sugiere que existe un alto número de contrataciones para el puesto debido a una mala gestión administrativa o bajo rendimiento de los empleados.
table(rh_B2$GENERO, rh_B2$MOTIVO.DE.BAJA)##
## BAJA POR FALTAS RENUNCIA VOLUNTARIA TERMINO DE CONTRATO
## FEMENINO 40 12 1
## MASCULINO 15 9 1
La tabla cruzada anterior nos muestra la relación entre los motivos de baja contra el género, es decir, las principales razones de baja de acuerdo al género de cada empleado. Vemos que hubo un total de 53 bajas del género femenino, destacando las bajas por faltas (representa un 75% de las bajas femeninas). Para el género masculino, hubo un total de 25 faltas, destacando principalmente las bajas por faltas (representa un 60% de las bajas masculinas).
# Pie chart: Representación de bajas acorde al estado de residencia
pie(table(rh_B2$ESTADO), col=c("orange","coral1"),
main="Representación de bajas acorde al estado de residencia")La gráfica anterior nos muestra que hay un mayor número de ex-empleados que viven en el Estado de Nuevo León. Sin embargo, hay un porcentaje que reside en Coahuila. Esto se puede interpretar con que hay un alto nivel de rotación existente debido a la lejanía de residencia de los empleados. También podemos inferir que se reculta más gente del estado de Nuevo Leon y que FORM tiene mayor alcance a eseee nicho.
# Pie chart: Representación de bajas acorde al género
pie(table(rh_B2$GENERO), col=c("orange","coral1"),
main="Representación de bajas acorde al género")La anterior gráfica de pastel reafirma lo que mencionamos anteriormente. De acuerdo a las bajas realizadas, la mayoría de los ex-empleados son del género femenino.
### Gráfica de dispersión: Número de bajas VS. Días trabajados
plot(x= rh_B2$NO.DE.BAJAS,
y=rh_B2$DIAS.TRABAJADOS)La gráfica de dispersión nos muestra la intensidad de relación entre la variable de días trabajados y número de bajas. Esto nos dice que hubo un alto número de bajas de empleados que trabajaron menos de 200 días, es decir, la mayoría de los ex-empleados estuvieron en FORM menos de 1 año.
### Boxplot: Correlación en bajas acorde a variables de género y edad
ggplot(rh_B2, aes(GENERO,SALARIO.DIARIO.IMSS,fill=GENERO)) +
geom_bar(stat = "identity") +
scale_fill_brewer(palette = "Set2") + ggtitle("Salario diario por género")La gráfica anterior nos muestra la correlación entre el género y el salario diario de los empleados. En este, entendemos que el género femenino tiene un salario diario total más alto que los de género masculino.
Resumiendo todo lo visto anteriormente podemos decir que:
FORM cuenta con un mayor número de empleados de genero Femenino, representando el 54%.
El promedio del Salario Diario por el IMSS es de $236 pesos.
Se tienen tres motivos principales de bajas: faltas, renuncias voluntarias o término de contrato y se tuvieron más bajas de parte del genero femenino.
La mayoría de los ex-empleados estuvieron menos de un año en FORM.
El genero femenio tiene un mayor salario diario total.
#file.choose()
delivery<-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/DELIVERY PLAN bd_Prueba.csv")
summary(delivery)## ID_Fecha Fecha CLIENTE Pedidos
## Min. : 1.00 Length:228 Length:228 Min. : 0.0
## 1st Qu.: 3.75 Class :character Class :character 1st Qu.: 0.0
## Median : 6.50 Mode :character Mode :character Median : 0.0
## Mean : 6.50 Mean : 1703.1
## 3rd Qu.: 9.25 3rd Qu.: 233.8
## Max. :12.00 Max. :52779.0
Limpieza transformación y organización de base de datos.
1.Se hizo limpieza manual de la base de datos para acomodar los clientes como variables y las fechas como registros.
2.Se sustituyeron NAs por cero.
3.Se eliminaron columnas no usadas y que no agreegan valor para el analisis que se busca hacer.
library(foreign)
library(dplyr)
library(forcats)
library(ggplot2)
library(readr)
library(janitor)
library(naniar)
library(dlookr)##
## Attaching package: 'dlookr'
## The following object is masked from 'package:psych':
##
## describe
## The following object is masked from 'package:tidyr':
##
## extract
## The following object is masked from 'package:Hmisc':
##
## describe
## The following object is masked from 'package:base':
##
## transform
str(delivery)## 'data.frame': 228 obs. of 4 variables:
## $ ID_Fecha: int 1 1 1 1 1 1 1 1 1 1 ...
## $ Fecha : chr "31/01/22" "31/01/22" "31/01/22" "31/01/22" ...
## $ CLIENTE : chr "STB3" "STB 1" "YF RAMOS" "INOAC POLYTEC" ...
## $ Pedidos : int 481 0 227 0 400 328 393 0 8975 449 ...
Contamos con 3 variables y 380 observaciones.
deliverySUM = colSums(delivery[4])
as.data.frame(deliverySUM)## deliverySUM
## Pedidos 388317
Contamos con 388,317 pedidos
#file.choose()
deliveryCLIENTS<-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/CSV/DELIVERY PLAN bd_entrega2.4.csv")
summary(deliveryCLIENTS)## Fecha STB3 STB.1 YF.RAMOS
## Length:19 Min. : 0.0 Min. : 0.000 Min. : 0
## Class :character 1st Qu.: 13.5 1st Qu.: 0.000 1st Qu.: 54
## Mode :character Median : 200.0 Median : 0.000 Median : 100
## Mean : 297.1 Mean : 2.632 Mean : 211
## 3rd Qu.: 460.5 3rd Qu.: 0.000 3rd Qu.: 230
## Max. :1015.0 Max. :50.000 Max. :1243
## INOAC.POLYTEC MERIDIAN YANFENG.sm YFTO
## Min. : 0.000 Min. : 0 Min. : 0.00 Min. : 138.0
## 1st Qu.: 0.000 1st Qu.: 0 1st Qu.: 0.00 1st Qu.: 358.5
## Median : 0.000 Median : 0 Median : 41.00 Median : 628.0
## Mean : 2.684 Mean : 33 Mean : 95.05 Mean : 869.6
## 3rd Qu.: 0.000 3rd Qu.: 0 3rd Qu.:142.50 3rd Qu.: 871.5
## Max. :40.000 Max. :400 Max. :328.00 Max. :2556.0
## YF.QRO TRMX DENSO SEGROVE
## Min. : 0.000 Min. : 0 Min. : 0.0 Min. : 0.00
## 1st Qu.: 0.000 1st Qu.: 2822 1st Qu.: 150.5 1st Qu.: 0.00
## Median : 0.000 Median : 6240 Median : 372.0 Median : 0.00
## Mean : 2.737 Mean : 5796 Mean :1241.3 Mean : 38.74
## 3rd Qu.: 0.000 3rd Qu.: 8374 3rd Qu.:1083.0 3rd Qu.: 0.00
## Max. :36.000 Max. :11833 Max. :8834.0 Max. :736.00
## HANON ANTOLIN.TOLUCA ANTOLIN.ARTEAGA HELLA
## Min. : 0.00 Min. :0 Min. :0 Min. : 0
## 1st Qu.: 0.00 1st Qu.:0 1st Qu.:0 1st Qu.: 4160
## Median : 0.00 Median :0 Median :0 Median : 8580
## Mean : 21.58 Mean :0 Mean :0 Mean :15013
## 3rd Qu.: 0.00 3rd Qu.:0 3rd Qu.:0 3rd Qu.:21191
## Max. :360.00 Max. :0 Max. :0 Max. :52779
## UFI ISRI TRMX.1 ABC.QUERETARO VARROC
## Min. : 0.00 Min. : 0.0 Min. :0 Min. :0.0000 Min. : 0
## 1st Qu.: 0.00 1st Qu.: 0.0 1st Qu.:0 1st Qu.:0.0000 1st Qu.:2078
## Median : 0.00 Median : 0.0 Median :0 Median :0.0000 Median :3509
## Mean : 45.74 Mean : 157.9 Mean :0 Mean :0.4211 Mean :3555
## 3rd Qu.: 3.50 3rd Qu.: 0.0 3rd Qu.:0 3rd Qu.:0.0000 3rd Qu.:4974
## Max. :492.00 Max. :3000.0 Max. :0 Max. :8.0000 Max. :8810
## Total.pedidos.mes
## Length:19
## Class :character
## Mode :character
##
##
##
deliveryCLIENTS = colSums(deliveryCLIENTS[2:21])
as.data.frame(deliveryCLIENTS)## deliveryCLIENTS
## STB3 5644
## STB.1 50
## YF.RAMOS 4009
## INOAC.POLYTEC 51
## MERIDIAN 627
## YANFENG.sm 1806
## YFTO 16522
## YF.QRO 52
## TRMX 110127
## DENSO 23584
## SEGROVE 736
## HANON 410
## ANTOLIN.TOLUCA 0
## ANTOLIN.ARTEAGA 0
## HELLA 285238
## UFI 869
## ISRI 3000
## TRMX.1 0
## ABC.QUERETARO 8
## VARROC 67548
barplot.default(deliveryCLIENTS)Con este plot y la tabla de “DeliveryCLIENTS” podemos ver que hay muchos clientes con muy pocos pedidos, incluso algunos con cero pedidos, esta información puede ser un dato relevante para la toma de decisiones en cuestiones de la limpieza de la base de datos. Existen algunos clientes que han tenido menos de 5,000 pedidos por lo que podría estar más interesante en evaluar aquellos clientes que tienen mayor relevancia e impacto en FORM.
Se decidió realizar está técnica para asegurarnos de que no se tenga falta de datos y en caso de tenerlos evitar que estas eviten tener un analisis asertivo al no agregar valor a la base de datos.
sum(is.na(delivery))## [1] 0
Sapply: Para contar los NA.
sapply(delivery, function(x) sum(is.na(x)))## ID_Fecha Fecha CLIENTE Pedidos
## 0 0 0 0
Se encontró ningún NA
Se decidó realizar está técnica para eliminar los clientes que tienen menos de 5,000 pedidos.
#delivery1 <- subset (delivery1, CLIENTE == "STB3") #Para conservar ciertas filas
delivery1<-delivery
delivery1<-delivery1[delivery1$CLIENTE!="STB 1", ]
delivery1<-delivery1[delivery1$CLIENTE!="YF RAMOS", ]
delivery1<-delivery1[delivery1$CLIENTE!="INOAC POLYTEC", ]
delivery1<-delivery1[delivery1$CLIENTE!="MERIDIAN", ]
delivery1<-delivery1[delivery1$CLIENTE!="YANFENG sm", ]
delivery1<-delivery1[delivery1$CLIENTE!="YF QRO", ]
delivery1<-delivery1[delivery1$CLIENTE!="SEGROVE", ]
delivery1<-delivery1[delivery1$CLIENTE!="HANON", ]
delivery1<-delivery1[delivery1$CLIENTE!="ANTOLIN TOLUCA", ]
delivery1<-delivery1[delivery1$CLIENTE!="ANTOLIN ARTEAGA", ]
delivery1<-delivery1[delivery1$CLIENTE!="ABC QUERETARO", ]
delivery1<-delivery1[delivery1$CLIENTE!="UFI", ]
delivery1<-delivery1[delivery1$CLIENTE!="ISRI", ]
summary(delivery1)## ID_Fecha Fecha CLIENTE Pedidos
## Min. : 1.00 Length:72 Length:72 Min. : 0
## 1st Qu.: 3.75 Class :character Class :character 1st Qu.: 99
## Median : 6.50 Mode :character Mode :character Median : 1009
## Mean : 6.50 Mean : 5339
## 3rd Qu.: 9.25 3rd Qu.: 5928
## Max. :12.00 Max. :52779
Se utilizó esta técnica de limpieza para facilitar el uso de la base de datos, que sea más entendible y evitar que se tengan nombres de variables complicados.
delivery1<-delivery1 %>% dplyr::rename(Clientes="CLIENTE")Cuantitativa: Discreta, Continua
Escala de medición:Intervalo, Razón
Cualitativa
Escala de medición: Nominales, Ordinales
Variable<-c("Fecha","STB3","YFTO", "TRMX", "DENSO","HELLA","VARROC","Total.pedidos.mes")
Type<-c("Cuantitativa (discreta)", "Cualitativa", "Cualitativa", "Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cuantitativa (discreta)")
Measurement<-c("Razón","Nominal","Nominal","Nominal","Nominal","Nominal","Nominal","Razón")
table2<-data_frame(Variable,Type,Measurement)## Warning: `data_frame()` was deprecated in tibble 1.1.0.
## Please use `tibble()` instead.
knitr::kable(table2)| Variable | Type | Measurement |
|---|---|---|
| Fecha | Cuantitativa (discreta) | Razón |
| STB3 | Cualitativa | Nominal |
| YFTO | Cualitativa | Nominal |
| TRMX | Cualitativa | Nominal |
| DENSO | Cualitativa | Nominal |
| HELLA | Cualitativa | Nominal |
| VARROC | Cualitativa | Nominal |
| Total.pedidos.mes | Cuantitativa (discreta) | Razón |
Análisis Exploratorio de las Bases de Datos
table3<-describe(delivery1)
knitr::kable(table3)| described_variables | n | na | mean | sd | se_mean | IQR | skewness | kurtosis | p00 | p01 | p05 | p10 | p20 | p25 | p30 | p40 | p50 | p60 | p70 | p75 | p80 | p90 | p95 | p99 | p100 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ID_Fecha | 72 | 0 | 6.500 | 3.476278 | 0.4096833 | 5.5 | 0.000000 | -1.217513 | 1 | 1 | 1 | 2 | 3.0 | 3.75 | 4.0 | 5 | 6.5 | 8.0 | 9.0 | 9.25 | 10 | 11.0 | 12.0 | 12.00 | 12 |
| Pedidos | 72 | 0 | 5339.167 | 10093.190781 | 1189.4939408 | 5829.5 | 3.128063 | 10.742837 | 0 | 0 | 0 | 0 | 10.8 | 99.00 | 260.6 | 507 | 1009.0 | 2451.6 | 4289.4 | 5928.50 | 8380 | 12577.3 | 27194.4 | 49479.63 | 52779 |
Con este annálisis podemos ver que el promedio de pedidos que se tienen por mes es de 5,300 y se tiene una grande desviación estandar de 10,000 pedidos al mes. Esta diferencia es muy grande, es casi el doble del promedio, por lo que podría ser interesante conocer el porque de esa diferencia y que cliente o en que mes se obtuvo estos pedidos tan grandes que ocasionaron la diferencia.
#install.packages("plyr")
library(plyr)## ------------------------------------------------------------------------------
## You have loaded plyr after dplyr - this is likely to cause problems.
## If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
## library(plyr); library(dplyr)
## ------------------------------------------------------------------------------
##
## Attaching package: 'plyr'
## The following objects are masked from 'package:dplyr':
##
## arrange, count, desc, failwith, id, mutate, rename, summarise,
## summarize
## The following objects are masked from 'package:Hmisc':
##
## is.discrete, summarize
delivery2<-delivery1
summary(delivery2)## ID_Fecha Fecha Clientes Pedidos
## Min. : 1.00 Length:72 Length:72 Min. : 0
## 1st Qu.: 3.75 Class :character Class :character 1st Qu.: 99
## Median : 6.50 Mode :character Mode :character Median : 1009
## Mean : 6.50 Mean : 5339
## 3rd Qu.: 9.25 3rd Qu.: 5928
## Max. :12.00 Max. :52779
delivery2<- aggregate(delivery2$Pedidos, by=list(Clientes=delivery2$Clientes), FUN=sum)
#pie(delivery2$`sum.delivery2$Pedidos`, labels = delivery2$Clientes)
Con esta gráfica podemos darnos cuenta de los clientes que tienen
mayores pedidos y en este caso es HELLA en primer lugar y TRMX en
segundo lugar.
delivery2<-delivery2 %>% dplyr::rename(Pedidos="x")
summary(delivery2)## Clientes Pedidos
## Length:6 Min. : 4055
## Class :character 1st Qu.: 12340
## Mode :character Median : 25350
## Mean : 64070
## 3rd Qu.: 70408
## Max. :236235
delivery2$Clientes<-as.factor(delivery2$Clientes)
ggplot(delivery2, aes(x=Clientes, y=Pedidos, fill=Pedidos))+
geom_bar(stat="identity")+
theme_minimal()+
labs(title="Pedidos por cliente")Esta gráfica sirve para tener de manera más visual el impacto que tiene cada uno de los clientes en la empresa FORM. Podemos ver que HELLA es el cliente más significativo con casi el triple de pedidos que el siguiente cliente con mayores pedidos, TRMX. De lado derecho se tiene un legend que muestra la tonalidad de los plots para ver que tantos pedidos tiene, por ello HELLAS tiene un color azul claro, representando más de 250,000 pedidos.
summary(delivery1)## ID_Fecha Fecha Clientes Pedidos
## Min. : 1.00 Length:72 Length:72 Min. : 0
## 1st Qu.: 3.75 Class :character Class :character 1st Qu.: 99
## Median : 6.50 Mode :character Mode :character Median : 1009
## Mean : 6.50 Mean : 5339
## 3rd Qu.: 9.25 3rd Qu.: 5928
## Max. :12.00 Max. :52779
ggplot(delivery1,aes(x=ID_Fecha, y=Pedidos, group=Clientes,colour=Clientes))+
geom_line()+
ggtitle("Pedidos por cliente")Con esta gráfica utilizamos el ID Fecha para conocer los pedidos que se tiene por cliente cada mes y vemos un significativo incremento de pedidos en el mes de septiembre y octubre. contamos con un legen que indica cada línea con un color para nombrar la información de cada uno de los clientes.
boxplot(delivery1$Pedidos, main= "Pedidos")delivery3<-delivery1
delivery3$Clientes <-as.factor(delivery3$Clientes)
ggplot(delivery3, aes(x=Clientes, y=Pedidos))+
geom_boxplot(color="blue", fill="purple")En esta gráfica podemos visualizarcuantos pedidos tiene programados cada cliente y los clientes que sobre salen son HELLA y TRMX, algo muy relevante en esta gráfica es que se muestra la mediana de cada uno, así como también la minima de pedidos, la máxima de pedidos y la dispersión de cada uno de los clientes. Es interesante ver la fuerte dispersión que HELLA tiene, ya que muestra que a parte de tener un grande rango de pedidos que varían de entre 5,000 pedidos a 30,000 pedidos, tienen también una dispersión fuerte en dónde han llegado a realizar más de 50,000 pedidos. Por otro lado TRMX, un cliente que tiene un rango de pedidos entre los 5,000 y los 10,000 pedidos, pero tiene una dispersión que muestra que en algún punto de su historial realizaron cero pedidos, esto nos lleva a preguntarnos, a que se debió el que TRMX no haya realizado ningún pedido en algún mes.
Para realizar el análisis de la base de datos de “Delivery Plan” fué necesario primero hacer un arreglo de la base de datos de manera manual en el excel. Estó para simplificar el uso de la base de datos y permitir que R pueda analizarla y extraer los datos para generar gráficas. Después aplicamos dos diferentes bases de datos, nos aseguramos de que no haya NAs y eliminamos filas que correspondían a los clientes que tenían menos de 5,000 pedidos. Nos quedamos con una base de datos con los 6 clientes más significativos para FORM. Continuamos identificando las variables en dónde 6 de 8 variables eran cualitativas al ser los clientes de FORM.
Graficamos una gráfica de Pie para identificar de manera visual los mayores clientes, los que vienen siendo HELLA y TRMX. También hicimos un “Barplot” para mostrar la cantidad de pedidos programados que tiene cada cliente, Hella siendo el cliente con mayor pedidos con más de 225,000 y TRMX siguiendo con 80,000. Decidimos también visualizar el comportamiento de los clientes según la fecha y nos dimos cuenta que entre el mes de septiembre y octubre hubo un incremento de pedidos establecidos. Y por último se realizó el “Boxplot” para de ese modo ver de manera precisa la moda de clos pedidos que suele hacer cada uno de los clientes.
#file.choose()
performance <- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/Performance.csv")
summary(performance)## Target Cliente Vueltas Plan.arrival
## Min. :1 Length:1440 Min. :1.00 Min. : 0.000
## 1st Qu.:1 Class :character 1st Qu.:1.00 1st Qu.: 0.000
## Median :1 Mode :character Median :1.50 Median : 4.000
## Mean :1 Mean :1.75 Mean : 6.625
## 3rd Qu.:1 3rd Qu.:2.25 3rd Qu.:10.750
## Max. :1 Max. :3.00 Max. :20.000
## Real.arrival Real.departure Diference Fecha
## Min. : 0.000 Min. : 0.000 Min. :-14.3500 Length:1440
## 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.0000 Class :character
## Median : 0.000 Median : 0.000 Median : 0.0000 Mode :character
## Mean : 3.823 Mean : 4.142 Mean : 0.3155
## 3rd Qu.: 8.000 3rd Qu.: 9.000 3rd Qu.: 0.8000
## Max. :23.500 Max. :24.500 Max. : 20.0000
Limpieza transformación y organización de base de datos.
library(foreign)
library(dplyr) # data manipulation
library(forcats) # to work with categorical variables
library(ggplot2) # data visualization
library(janitor) # data exploration and cleaning
#install.packages("Hmisc")
#library(Hmisc) # several useful functions for data analysis
#install.packages("psych")
#library(psych) # functions for multivariate analysis
#install.packages("naniar")
#library(naniar) # summaries and visualization of missing values NAs
#install.packages("dlookr")
#library(dlookr) # summaries and visualization of missing values NAs
#install.packages("corrplot")
#library(corrplot) # correlation plots
#install.packages("jtools")
#library(jtools) # presentation of regression analysis
#install.packages("lmtest")
#library(lmtest) # diagnostic checks - linear regression analysis
#install.packages("car")
#library(car) # diagnostic checks - linear regression analysis
#install.packages("olsrr")
#library(olsrr) # diagnostic checks - linear regression analysis
#install.packages("kableExtra")
#library(kableExtra) # HTML table attributes
library(tidyverse)## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ tibble 3.1.8 ✔ stringr 1.4.1
## ✔ purrr 0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%() masks ggplot2::%+%()
## ✖ psych::alpha() masks ggplot2::alpha()
## ✖ plyr::arrange() masks dplyr::arrange()
## ✖ purrr::compact() masks plyr::compact()
## ✖ plyr::count() masks dplyr::count()
## ✖ dlookr::extract() masks tidyr::extract()
## ✖ plyr::failwith() masks dplyr::failwith()
## ✖ dplyr::filter() masks stats::filter()
## ✖ plyr::id() masks dplyr::id()
## ✖ dplyr::lag() masks stats::lag()
## ✖ plyr::mutate() masks dplyr::mutate()
## ✖ plyr::rename() masks dplyr::rename()
## ✖ dplyr::src() masks Hmisc::src()
## ✖ plyr::summarise() masks dplyr::summarise()
## ✖ plyr::summarize() masks dplyr::summarize(), Hmisc::summarize()
str(performance)## 'data.frame': 1440 obs. of 8 variables:
## $ Target : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Cliente : chr "PRINTEL " "MAHLE" "MAHLE" "MAHLE" ...
## $ Vueltas : int 1 1 2 3 1 1 2 3 1 1 ...
## $ Plan.arrival : int 16 8 9 20 0 0 0 0 16 8 ...
## $ Real.arrival : num 16 8 9 20 0 0 0 0 16 8 ...
## $ Real.departure: num 19.3 8.55 10 21 0 0 0 0 18.1 9 ...
## $ Diference : num 3.3 0.55 1 1 0 0 0 0 2.1 1 ...
## $ Fecha : chr "02/01/22" "02/01/22" "02/01/22" "02/01/22" ...
performance1<-performance
performance1$Fecha<- as.Date(performance1$Fecha, format= "%d/%m/%y")
summary(performance1)## Target Cliente Vueltas Plan.arrival
## Min. :1 Length:1440 Min. :1.00 Min. : 0.000
## 1st Qu.:1 Class :character 1st Qu.:1.00 1st Qu.: 0.000
## Median :1 Mode :character Median :1.50 Median : 4.000
## Mean :1 Mean :1.75 Mean : 6.625
## 3rd Qu.:1 3rd Qu.:2.25 3rd Qu.:10.750
## Max. :1 Max. :3.00 Max. :20.000
## Real.arrival Real.departure Diference Fecha
## Min. : 0.000 Min. : 0.000 Min. :-14.3500 Min. :2022-01-02
## 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.0000 1st Qu.:2022-02-23
## Median : 0.000 Median : 0.000 Median : 0.0000 Median :2022-04-17
## Mean : 3.823 Mean : 4.142 Mean : 0.3155 Mean :2022-04-16
## 3rd Qu.: 8.000 3rd Qu.: 9.000 3rd Qu.: 0.8000 3rd Qu.:2022-06-08
## Max. :23.500 Max. :24.500 Max. : 20.0000 Max. :2022-07-23
tibble(performance1)## # A tibble: 1,440 × 8
## Target Cliente Vueltas Plan.arrival Real.arri…¹ Real.…² Difer…³ Fecha
## <int> <chr> <int> <int> <dbl> <dbl> <dbl> <date>
## 1 1 "PRINTEL " 1 16 16 19.3 3.3 2022-01-02
## 2 1 "MAHLE" 1 8 8 8.55 0.55 2022-01-02
## 3 1 "MAHLE" 2 9 9 10 1 2022-01-02
## 4 1 "MAHLE" 3 20 20 21 1 2022-01-02
## 5 1 "MAGNA" 1 0 0 0 0 2022-01-02
## 6 1 "VARROC" 1 0 0 0 0 2022-01-02
## 7 1 "VARROC" 2 0 0 0 0 2022-01-02
## 8 1 "VARROC" 3 0 0 0 0 2022-01-02
## 9 1 "PRINTEL " 1 16 16 18.1 2.1 2022-01-03
## 10 1 "MAHLE" 1 8 8 9 1 2022-01-03
## # … with 1,430 more rows, and abbreviated variable names ¹Real.arrival,
## # ²Real.departure, ³Diference
sum(is.na(performance1))## [1] 0
performance2<-performance1
performance2 <- subset(performance2, select =-c (Target))Se elimina la variable “target” ya que no nos muestra una información detallada al darnos datos nulos planteando el número 1 en todos los registros.
performance3<-performance2
boxplot(performance3$Plan.arrival, horizontal=TRUE)boxplot(performance3$Real.arrival, horizontal=TRUE)boxplot(performance3$Real.departure, horizontal=TRUE)boxplot(performance3$Diference, horizontal=TRUE)Con los Boxplots anteriores analizamos aquellas variables que nos daban informacion relevante y de ese modo decidimos gregar una columna de promedio.
performance3$Promedio_real_arrival<- mean(performance3$Real.arrival)performance3$Vueltas<-as.numeric(performance3$Vueltas) ### missing values are converted to NA's
performance3$Plan.arrival<-as.numeric(performance3$Plan.arrival)
performance3$Real.arrival<-as.numeric(performance3$Real.arrival)
performance3$Real.departure<-as.numeric(performance3$Real.departure)
performance3$Diference<-as.numeric(performance3$Diference)
performance3$Promedio_real_arrival<-as.numeric(performance3$Promedio_real_arrival)
performance3<-as.data.frame(performance3)
performance3$Fecha<-as.Date(performance3$Fecha,format="%m/%d/%Y")
performance3$Cliente<-as.factor(performance3$Cliente)
tibble(performance3)## # A tibble: 1,440 × 8
## Cliente Vueltas Plan.arrival Real.arr…¹ Real.…² Difer…³ Fecha Prome…⁴
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <date> <dbl>
## 1 "PRINTEL " 1 16 16 19.3 3.3 2022-01-02 3.82
## 2 "MAHLE" 1 8 8 8.55 0.55 2022-01-02 3.82
## 3 "MAHLE" 2 9 9 10 1 2022-01-02 3.82
## 4 "MAHLE" 3 20 20 21 1 2022-01-02 3.82
## 5 "MAGNA" 1 0 0 0 0 2022-01-02 3.82
## 6 "VARROC" 1 0 0 0 0 2022-01-02 3.82
## 7 "VARROC" 2 0 0 0 0 2022-01-02 3.82
## 8 "VARROC" 3 0 0 0 0 2022-01-02 3.82
## 9 "PRINTEL " 1 16 16 18.1 2.1 2022-01-03 3.82
## 10 "MAHLE" 1 8 8 9 1 2022-01-03 3.82
## # … with 1,430 more rows, and abbreviated variable names ¹Real.arrival,
## # ²Real.departure, ³Diference, ⁴Promedio_real_arrival
Cuantitativa: Discreta, Continua Escala de medición:Intervalo, Razón Cualitativa Escala de medición: Nominales, Ordinales
variables <- c("`Target`","`Cliente`","`Vueltas`","`Plan.arrival`","`Real.arrival`","`Real.departure`","`Diference`","`Fecha`")
tipos <- c("cuantitativo (discreto) ", "cualitativo ", "cuantitativo (discreto) ", "cuantitativo (continuo) ", "cuantitativo (continuo) ", "cuantitativo (continuo) ", "cuantitativo (continuo) ", "cualitativo ")
escalas <- c("intervalo", "nominal", "razon", "razon", "razon", "razon", "razon", "ordinal")
table.p <- data.frame (variables, tipos, escalas)
knitr::kable(table.p)| variables | tipos | escalas |
|---|---|---|
Target
|
cuantitativo (discreto) | intervalo |
Cliente
|
cualitativo | nominal |
Vueltas
|
cuantitativo (discreto) | razon |
Plan.arrival
|
cuantitativo (continuo) | razon |
Real.arrival
|
cuantitativo (continuo) | razon |
Real.departure
|
cuantitativo (continuo) | razon |
Diference
|
cuantitativo (continuo) | razon |
Fecha
|
cualitativo | ordinal |
Análisis Exploratorio de las Bases de Datos
performance4 <- performance3
sd(performance4$Vueltas, na.rm = FALSE)## [1] 0.8294442
sd(performance4$Plan.arrival, na.rm = FALSE)## [1] 7.501563
sd(performance4$Real.arrival, na.rm = FALSE)## [1] 6.505902
sd(performance4$Real.departure, na.rm = FALSE)## [1] 6.948665
sd(performance4$Diference, na.rm = FALSE)## [1] 0.9218758
Variable<-c("Vueltas","P.arrival", "R.arrival", "R.dep", "Dif")
Mediana<-c("1.50 ","4.000","0.000 ","0.000 ","0.0000 ")
Media <- c("1.75","6.625","3.823","4.142","4.142")
Moda <- c("1","0","0","0","0")
Desviación_estandar<-c("0.8294442"," 7.501563","6.505902","6.948665","6.948665")
table1 <- data.frame (Variable, Mediana, Media, Moda, Desviación_estandar)
knitr::kable(table1)| Variable | Mediana | Media | Moda | Desviación_estandar |
|---|---|---|---|---|
| Vueltas | 1.50 | 1.75 | 1 | 0.8294442 |
| P.arrival | 4.000 | 6.625 | 0 | 7.501563 |
| R.arrival | 0.000 | 3.823 | 0 | 6.505902 |
| R.dep | 0.000 | 4.142 | 0 | 6.948665 |
| Dif | 0.0000 | 4.142 | 0 | 6.948665 |
Se ocupo summary para poder obtener la moda, mediana y media de las variables y posteriormente se calcula la desviación estandar con la función sd()
#install.packages('epiDisplay')
library(epiDisplay)## Loading required package: MASS
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
## Loading required package: nnet
##
## Attaching package: 'epiDisplay'
## The following objects are masked from 'package:psych':
##
## alpha, cs, lookup
## The following object is masked from 'package:ggplot2':
##
## alpha
## The following object is masked from 'package:lattice':
##
## dotplot
tab1(performance4$Diference, sort.group = "decreasing", cum.percent = TRUE) ## performance4$Diference :
## Frequency Percent Cum. percent
## 0 1014 70.4 70.4
## 1 192 13.3 83.8
## 1.1 20 1.4 85.1
## 1.05 17 1.2 86.3
## 1.2 16 1.1 87.4
## 0.5 14 1.0 88.4
## 1.15 11 0.8 89.2
## 0.9 8 0.6 89.7
## 0.4 8 0.6 90.3
## 1.5 7 0.5 90.8
## 0.8 7 0.5 91.2
## 0.55 7 0.5 91.7
## 2 6 0.4 92.2
## 1.8 6 0.4 92.6
## 1.3 6 0.4 93.0
## 0.3 6 0.4 93.4
## 1.4 5 0.3 93.8
## 1.25 5 0.3 94.1
## 0.95 5 0.3 94.4
## 0.2 5 0.3 94.8
## 1.45 4 0.3 95.1
## 1.35 3 0.2 95.3
## 0.45 3 0.2 95.5
## 0.35 3 0.2 95.7
## 0.1 3 0.2 95.9
## 3.1 2 0.1 96.0
## 2.6 2 0.1 96.2
## 2.38 2 0.1 96.3
## 2.15 2 0.1 96.5
## 1.6 2 0.1 96.6
## 1.03 2 0.1 96.7
## 0.85 2 0.1 96.9
## 0.7 2 0.1 97.0
## 0.6 2 0.1 97.2
## 0.15 2 0.1 97.3
## 4.4 1 0.1 97.4
## 4 1 0.1 97.4
## 3.3 1 0.1 97.5
## 3.05 1 0.1 97.6
## 20 1 0.1 97.6
## 2.85 1 0.1 97.7
## 2.52 1 0.1 97.8
## 2.5 1 0.1 97.8
## 2.4 1 0.1 97.9
## 2.35 1 0.1 98.0
## 2.3 1 0.1 98.1
## 2.27 1 0.1 98.1
## 2.2 1 0.1 98.2
## 2.1 1 0.1 98.3
## 2.05 1 0.1 98.3
## 1.95 1 0.1 98.4
## 1.9 1 0.1 98.5
## 1.88 1 0.1 98.5
## 1.85 1 0.1 98.6
## 1.74 1 0.1 98.7
## 1.73 1 0.1 98.8
## 1.7 1 0.1 98.8
## 1.66 1 0.1 98.9
## 1.65 1 0.1 99.0
## 1.55 1 0.1 99.0
## 1.14 1 0.1 99.1
## 1.13 1 0.1 99.2
## 1.07 1 0.1 99.2
## 1.04 1 0.1 99.3
## 1.01 1 0.1 99.4
## 0.99 1 0.1 99.4
## 0.98 1 0.1 99.5
## 0.75 1 0.1 99.6
## 0.47 1 0.1 99.7
## 0.43 1 0.1 99.7
## 0.34 1 0.1 99.8
## 0.25 1 0.1 99.9
## -14.35 1 0.1 99.9
## -12.15 1 0.1 100.0
## Total 1440 100.0 100.0
tab1(performance4$Real.arrival, sort.group = "decreasing", cum.percent = TRUE)## performance4$Real.arrival :
## Frequency Percent Cum. percent
## 0 1009 70.1 70.1
## 8 100 6.9 77.0
## 20 83 5.8 82.8
## 9 81 5.6 88.4
## 18 11 0.8 89.2
## 9.4 10 0.7 89.9
## 15 9 0.6 90.5
## 18.2 8 0.6 91.0
## 16 7 0.5 91.5
## 9.5 6 0.4 91.9
## 9.2 6 0.4 92.4
## 9.1 6 0.4 92.8
## 10 6 0.4 93.2
## 9.15 5 0.3 93.5
## 15.1 5 0.3 93.9
## 16.2 4 0.3 94.2
## 9.3 3 0.2 94.4
## 15.2 3 0.2 94.6
## 9.45 2 0.1 94.7
## 9.26 2 0.1 94.9
## 9.12 2 0.1 95.0
## 9.08 2 0.1 95.1
## 8.1 2 0.1 95.3
## 8.05 2 0.1 95.4
## 7.35 2 0.1 95.6
## 7.3 2 0.1 95.7
## 6 2 0.1 95.8
## 23.3 2 0.1 96.0
## 20.2 2 0.1 96.1
## 20.1 2 0.1 96.2
## 19.2 2 0.1 96.4
## 18.4 2 0.1 96.5
## 18.3 2 0.1 96.7
## 16.4 2 0.1 96.8
## 15.3 2 0.1 96.9
## 13 2 0.1 97.1
## 9.35 1 0.1 97.2
## 9.25 1 0.1 97.2
## 9.17 1 0.1 97.3
## 9.11 1 0.1 97.4
## 9.05 1 0.1 97.4
## 8.52 1 0.1 97.5
## 8.45 1 0.1 97.6
## 7.45 1 0.1 97.6
## 7.34 1 0.1 97.7
## 23.5 1 0.1 97.8
## 23.2 1 0.1 97.8
## 23.15 1 0.1 97.9
## 23 1 0.1 98.0
## 22.4 1 0.1 98.1
## 22.08 1 0.1 98.1
## 21.15 1 0.1 98.2
## 21.1 1 0.1 98.3
## 21.05 1 0.1 98.3
## 20.4 1 0.1 98.4
## 20.3 1 0.1 98.5
## 20.15 1 0.1 98.5
## 20.05 1 0.1 98.6
## 19.48 1 0.1 98.7
## 19.15 1 0.1 98.8
## 19.1 1 0.1 98.8
## 18.5 1 0.1 98.9
## 18.35 1 0.1 99.0
## 18.15 1 0.1 99.0
## 18.1 1 0.1 99.1
## 18.05 1 0.1 99.2
## 17.3 1 0.1 99.2
## 17 1 0.1 99.3
## 15.45 1 0.1 99.4
## 15.4 1 0.1 99.4
## 15.16 1 0.1 99.5
## 14 1 0.1 99.6
## 13.4 1 0.1 99.7
## 11.37 1 0.1 99.7
## 11 1 0.1 99.8
## 10.42 1 0.1 99.9
## 10.4 1 0.1 99.9
## 10.05 1 0.1 100.0
## Total 1440 100.0 100.0
ggplot(performance4,aes(x=Fecha, y=Diference,color=Cliente))+
geom_line()+
labs(x="Fecha",y="Delay in Minutes", color="Legend")+
ggtitle("Delays in Performance by Client")Con esta gráfica visualizamos que se tienen dos clientes insignificantes, por lo que evita que tengamos una buena visualización de los datos relevantes. Podemos ver que Varroc se mantiene en los ceros y que Magna no se visualiza en la gráfica, por lo que esto nos lleva a tomar la decisión de concentrarnos en los otros dos clientes que de verdad toman una parte importante.
performance5 <- performance4
performance5<-performance5[-c(300,292),] # Quitar las filas 300 y 292 por que presentan datos negativos y que no sirven para el analisis.
summary(performance5) # no missing values## Cliente Vueltas Plan.arrival Real.arrival
## MAGNA :180 Min. :1.000 Min. : 0.000 Min. : 0.000
## MAHLE :538 1st Qu.:1.000 1st Qu.: 0.000 1st Qu.: 0.000
## PRINTEL :180 Median :1.000 Median : 0.000 Median : 0.000
## VARROC :540 Mean :1.748 Mean : 6.606 Mean : 3.796
## 3rd Qu.:2.000 3rd Qu.: 9.000 3rd Qu.: 8.000
## Max. :3.000 Max. :20.000 Max. :23.500
## Real.departure Diference Fecha Promedio_real_arrival
## Min. : 0.000 Min. : 0.0000 Min. :2022-01-02 Min. :3.823
## 1st Qu.: 0.000 1st Qu.: 0.0000 1st Qu.:2022-02-24 1st Qu.:3.823
## Median : 0.000 Median : 0.0000 Median :2022-04-18 Median :3.823
## Mean : 4.134 Mean : 0.3344 Mean :2022-04-16 Mean :3.823
## 3rd Qu.: 9.000 3rd Qu.: 0.8000 3rd Qu.:2022-06-08 3rd Qu.:3.823
## Max. :24.500 Max. :20.0000 Max. :2022-07-23 Max. :3.823
performance5<-performance5[performance5$Cliente!="MAGNA",]
performance5<-performance5[performance5$Cliente!="VARROC",]
summary(performance5)## Cliente Vueltas Plan.arrival Real.arrival
## MAGNA : 0 Min. :1.000 Min. : 8.00 Min. : 0.000
## MAHLE :538 1st Qu.:1.000 1st Qu.: 8.25 1st Qu.: 0.000
## PRINTEL :180 Median :1.000 Median : 9.00 Median : 8.000
## VARROC : 0 Mean :1.747 Mean :13.23 Mean : 7.603
## 3rd Qu.:2.000 3rd Qu.:16.00 3rd Qu.:10.000
## Max. :3.000 Max. :20.00 Max. :23.500
## Real.departure Diference Fecha Promedio_real_arrival
## Min. : 0.00 Min. : 0.0000 Min. :2022-01-02 Min. :3.823
## 1st Qu.: 0.00 1st Qu.: 0.0000 1st Qu.:2022-02-24 1st Qu.:3.823
## Median : 9.00 Median : 0.8000 Median :2022-04-18 Median :3.823
## Mean : 8.28 Mean : 0.6697 Mean :2022-04-16 Mean :3.823
## 3rd Qu.:11.50 3rd Qu.: 1.0000 3rd Qu.:2022-06-08 3rd Qu.:3.823
## Max. :24.50 Max. :20.0000 Max. :2022-07-23 Max. :3.823
ggplot(performance5,aes(x=Fecha, y=Diference,color=Cliente))+
geom_line()+ geom_hline(yintercept=0.8000,linetype="dashed",color="black")+
labs(x="Fecha",y="Diferencia por día", color="Legend")+
ggtitle("Diferencia de entrega por Cliente")Encontramos gracias a la grafica realizada de la Diferencia de tiempo en la entrega de producto por cliente, que los clientes con mayor Delay son MAHLE Y PRINTEL, al mismo tiempo encontramos que entre estos dos clientes, el que tiene mayor Delay es MAHLE, por lo que sería bueno para la empresa el tener un mayor enfoque, de ambos, pero tambien un poco más en Mahle, para que tenga mejor referencia de este cliente y mayor confianza con la empresa en las entregas.
Es importante conocer como empresa a tus mismos clientes y el rendimiento que se tiene. En este caso nos enfocamos en dos principales clientes de FORM que tienen datos relevantes sobre este tema, MAHLE y PRINTEL, de este modo podemos ver que entre febrero y marzo se tuvo mayor tardanza en la entrega de los materiales y productos con estos dos clientes, por lo que destaca la oportunidad para form de analizar el porque de estos retrasos.
#file.choose()
produccion <- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/CSV/FORM - ProducciónLimpia.csv")
summary(produccion)## CLIENTE ID.FORM PRODUCTO PIEZAS.PROG.
## Length:2569 Length:2569 Length:2569 Length:2569
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
## TMO..MIN. HR..FIN ESTACION.ARRANQUE Laminas.procesadas
## Length:2569 Length:2569 Length:2569 Length:2569
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
## INICIO.SEP.UP FIN.INICIO.DE.SEP.UP INICIO.de.PROCESO FIN.de.PROCESO
## Length:2569 Length:2569 Length:2569 Length:2569
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
## TIEMPO.CALIDAD
## Length:2569
## Class :character
## Mode :character
Limpieza transformación y organización de base de datos.
Fue necesario hacer una limpia manual de la base de datos, se seleccionaron las variables conmayor significancia, nos quedamos con los datos unicamente de producción y se aclaró el formato de las columnas de fecha y tiempo.
#install.packages("forecast")
library(forecast)## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
str(produccion)## 'data.frame': 2569 obs. of 13 variables:
## $ CLIENTE : chr "VARROC" "VARROC" "VARROC" "DENSO" ...
## $ ID.FORM : chr "VL-017-13938" "VL-017-13936" "VL-017-14729" "" ...
## $ PRODUCTO : chr "763 . KIT. CAJA." "747 KIT. CAJA HSC. ( 2 Partes)" "747 KIT. TAPA." "TOYOTA. MCV. Insterto D 2R. CORTE. 1 Golpe = 12 piezas. ( 9 Pza. / Celda)." ...
## $ PIEZAS.PROG. : chr "199" "57" "68" "192" ...
## $ TMO..MIN. : chr "15" "10" "10" "15" ...
## $ HR..FIN : chr "9:15:00 a. m." "9:25:00 a. m." "9:35:00 a. m." "9:50:00 a. m." ...
## $ ESTACION.ARRANQUE : chr "C1" "C1Y2" "C1Y2" "C1" ...
## $ Laminas.procesadas : chr "201" "116" "69" "49" ...
## $ INICIO.SEP.UP : chr "9:00" "9:26" "10:02" "10:12" ...
## $ FIN.INICIO.DE.SEP.UP: chr "9:12" "9:31" "10:09" "10.17" ...
## $ INICIO.de.PROCESO : chr "9:13" "9:32" "10:09" "10:18" ...
## $ FIN.de.PROCESO : chr "9:26" "9:53" "10.12" "10:20" ...
## $ TIEMPO.CALIDAD : chr "1" "1" "1" "1" ...
Contamos con 13 variables y 2569 obsrvaciones.
Se decidió eliminar columnas con variables que no agregan valor al análisis de la base de datos.
produccion2 <- produccion
produccion2 <- subset (produccion2, select = -c (ID.FORM))
produccion2 <- subset (produccion2, select = -c (PRODUCTO))
produccion2 <- subset (produccion2, select = -c (HR..FIN))
produccion2 <- subset (produccion2, select = -c (ESTACION.ARRANQUE))
produccion2 <- subset (produccion2, select = -c (INICIO.SEP.UP))
produccion2 <- subset (produccion2, select = -c (FIN.INICIO.DE.SEP.UP))
produccion2 <- subset (produccion2, select = -c (INICIO.de.PROCESO))
produccion2 <- subset (produccion2, select = -c (FIN.de.PROCESO))
summary(produccion2)## CLIENTE PIEZAS.PROG. TMO..MIN. Laminas.procesadas
## Length:2569 Length:2569 Length:2569 Length:2569
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
## TIEMPO.CALIDAD
## Length:2569
## Class :character
## Mode :character
Convertimos characteres enteros a numéricos.
#install.packages("tibble")
library(tibble)
produccion2$TMO..MIN.<- as.numeric(produccion2$TMO..MIN.)## Warning: NAs introduced by coercion
produccion2$PIEZAS.PROG.<- as.numeric(produccion2$PIEZAS.PROG.)## Warning: NAs introduced by coercion
produccion2$TIEMPO.CALIDAD<- as.numeric(produccion2$TIEMPO.CALIDAD)## Warning: NAs introduced by coercion
produccion2$Laminas.procesadas<- as.numeric(produccion2$Laminas.procesadas)## Warning: NAs introduced by coercion
produccion2$CLIENTE<- as.character(produccion2$CLIENTE)
tibble(produccion2)## # A tibble: 2,569 × 5
## CLIENTE PIEZAS.PROG. TMO..MIN. Laminas.procesadas TIEMPO.CALIDAD
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 VARROC 199 15 201 1
## 2 VARROC 57 10 116 1
## 3 VARROC 68 10 69 1
## 4 DENSO 192 15 49 1
## 5 DENSO 192 15 49 1
## 6 YANFENG 400 30 801 1
## 7 YANFENG 80 15 41 1
## 8 YANFENG 104 15 53 1
## 9 YANFENG 104 15 53 1
## 10 YANFENG 160 20 55 1
## # … with 2,559 more rows
Se decidió realizar está técnica para asegurarnos de que no se tenga falta de datos y en caso de tenerlos evitar que estas eviten tener un analisis asertivo al no agregar valor a la base de datos.
sum(is.na(produccion2))## [1] 2161
Sapply: Para contar los NA
sapply(produccion2, function(x) sum(is.na(x)))## CLIENTE PIEZAS.PROG. TMO..MIN. Laminas.procesadas
## 0 164 714 661
## TIEMPO.CALIDAD
## 622
Observación:Contamos con 2161 NAs, 164 en la variable de piezas programadas, 714 en tiempo mínimo, 661 en Laminas Procesadas y 622 Tiempo de Calidad.
produccion3<-produccion2
delete.na <- function(df, n=0) {
df[rowSums(is.na(df)) <= n,]
}
#delete.na(produccion3)
produccion3 <- na.omit(produccion3)
summary(produccion3)## CLIENTE PIEZAS.PROG. TMO..MIN. Laminas.procesadas
## Length:1462 Min. : 1.0 Min. : 0.00 Min. : 0.0
## Class :character 1st Qu.: 100.0 1st Qu.: 15.00 1st Qu.: 37.0
## Mode :character Median : 192.0 Median : 20.00 Median : 101.0
## Mean : 172.7 Mean : 22.41 Mean : 134.1
## 3rd Qu.: 200.0 3rd Qu.: 25.00 3rd Qu.: 202.0
## Max. :1200.0 Max. :120.00 Max. :1125.0
## TIEMPO.CALIDAD
## Min. : 0.000
## 1st Qu.: 1.000
## Median : 1.000
## Mean : 1.063
## 3rd Qu.: 1.000
## Max. :22.000
sum(is.na(produccion3))## [1] 0
Cuantitativa: Discreta, Continua Escala de medición:Intervalo, Razón Cualitativa Escala de medición: Nominales, Ordinales
Variable<-c("`CLIENTE`","`PIEZAS.PROG.`", "` TMO..MIN.`", "` Laminas.procesadas`", "` TIEMPO.CALIDAD`")
Type<-c("Cualitativa", "Cuantitativa (discreta)","Cuantitativa (discreta)","Cuantitativa (discreta)","Cuantitativa (discreta)")
Measurement<-c("Nominal", "Razón","Razón","Razón","Razón")
table<-data.frame(Variable,Type,Measurement)
knitr::kable(table)| Variable | Type | Measurement |
|---|---|---|
CLIENTE
|
Cualitativa | Nominal |
PIEZAS.PROG.
|
Cuantitativa (discreta) | Razón |
TMO..MIN.
|
Cuantitativa (discreta) | Razón |
Laminas.procesadas
|
Cuantitativa (discreta) | Razón |
TIEMPO.CALIDAD
|
Cuantitativa (discreta) | Razón |
Análisis Exploratorio de las Bases de Datos
median(produccion3$Laminas.procesadas, na.rm = TRUE)## [1] 101
mean(produccion3$Laminas.procesadas, na.rm = TRUE)## [1] 134.0705
sd(produccion3$Laminas.procesadas, na.rm = FALSE)## [1] 138.7008
#mfv(produccion3$Laminas.procesadas)
variable<-c("'Laminas.procesadas")
Mediana<-c("101")
Media <- c("134")
Moda <- c("0")
Desviación_estandar<-c("138")
table1 <- data.frame (variable, Mediana, Media, Moda, Desviación_estandar)
knitr::kable(table1)| variable | Mediana | Media | Moda | Desviación_estandar |
|---|---|---|---|---|
| ’Laminas.procesadas | 101 | 134 | 0 | 138 |
median(produccion3$PIEZAS.PROG., na.rm = TRUE)## [1] 192
mean(produccion3$PIEZAS.PROG., na.rm = TRUE)## [1] 172.7332
sd(produccion3$PIEZAS.PROG., na.rm = FALSE)## [1] 124.9521
#mfv(produccion3$PIEZAS.PROG.)
variable<-c("'PIEZAS.PROG.")
Mediana<-c("192")
Media <- c("172.73")
Moda <- c("200")
Desviación_estandar<-c("124.95")
table2 <- data.frame (variable, Mediana, Media, Moda, Desviación_estandar)
knitr::kable(table2)| variable | Mediana | Media | Moda | Desviación_estandar |
|---|---|---|---|---|
| ’PIEZAS.PROG. | 192 | 172.73 | 200 | 124.95 |
#install.packages("plyr")
library(plyr)
pie(table(produccion3$CLIENTE))boxplots=subset(produccion3,select=-c(CLIENTE))
boxplot(table (produccion3$CLIENTE), main = "Pedidos de Clientes", xlab = "Clientes", ylab = "Cantidad")Recopilando la informacion me tope con estos datos lo cual nos informa acerca de los clientes mas destacados para form y el tiempo minimo de tardanza en el ensamblaje de los productos, en este caso el primer lugar con mas eficiencia por cliente fue stabilus en la primera vuelta.
summary(produccion3)## CLIENTE PIEZAS.PROG. TMO..MIN. Laminas.procesadas
## Length:1462 Min. : 1.0 Min. : 0.00 Min. : 0.0
## Class :character 1st Qu.: 100.0 1st Qu.: 15.00 1st Qu.: 37.0
## Mode :character Median : 192.0 Median : 20.00 Median : 101.0
## Mean : 172.7 Mean : 22.41 Mean : 134.1
## 3rd Qu.: 200.0 3rd Qu.: 25.00 3rd Qu.: 202.0
## Max. :1200.0 Max. :120.00 Max. :1125.0
## TIEMPO.CALIDAD
## Min. : 0.000
## 1st Qu.: 1.000
## Median : 1.000
## Mean : 1.063
## 3rd Qu.: 1.000
## Max. :22.000
produccion4 <- produccion3
#produccion4<-produccion4 %>% select(PIEZAS.PROG.,TMO..MIN.,CLIENTE ) %>% group_by(CLIENTE) %>%
#summarise(PIEZAS.PROG.=sum(PIEZAS.PROG.),TMO..MIN.=sum(TMO..MIN.)) %>% arrange(desc(piezas_prog))
produccion4<-produccion4[-c(7,8,9),]
ggplot(produccion4,aes(x=reorder(TMO..MIN.,PIEZAS.PROG.), y=PIEZAS.PROG.,fill=CLIENTE)) +
geom_bar(stat="identity")En esta tabla se muestra un claro ejemplo de comparacion que entre mas tiempo de calidad se le de al cliente se lograra hacer un tiempo mucho mas minimo eficientizando los procesos y terminandolos mas rapido como fue con los clientes en azul.
ggplot(produccion4,aes(x=CLIENTE, y=PIEZAS.PROG.,fill=TIEMPO.CALIDAD)) +
geom_bar(stat="identity")En este gráfico visualizamos la cantidad de piezas programadas que se tiene por cliente y el tiempo de calidad de cada uno. En su mayoría los clientes cuentan con un tiempo de calidad de 0, por lo que podemos inferir que se tiene un buen aprovechamiento del tiemp y una eficiencia en la entrega y producción de las piezas programadas.
ggplot(produccion4, aes(x=TIEMPO.CALIDAD, y=TMO..MIN., color=CLIENTE)) +
geom_point() + geom_rug()En esta grafica, se tiene la intencion de ver a los compradores predominantes dentro de FORM durante los tres meses predictivos, esto para poder lograr una atencion especializada y ver mas o menos el tiempo que toman sus productos y generar un tipo de procesos mas fluido.
ggplot(produccion4, aes(x=CLIENTE, y=Laminas.procesadas, color=TMO..MIN.)) +
geom_point() + geom_rug()ggplot(produccion4,aes(x=TIEMPO.CALIDAD))+
geom_line(aes(y=PIEZAS.PROG.),color="orange")+
labs(x="Tiempo de Calidad",y="piezas programadas", color="orange")+
ggtitle("Grafica de tasa de rendimiento")Con la base de datos de Producción, podemos ver que a los clientes Stabilus 3 y TRMX se les proporciona mayor tiempo de calidad por lo que después provoca tener sus pedidos mñas rapidos y eficientizar los tiempos de entrega. Por otro lado a clientes como Stabilus 1 y Varroc se le dedicó muy poco tiempo de calidad, pero más tiempo para poder entregar los productos. También pudmis observar a través de boxplots que el rango de pedidos vsaria entre los 50 y 200 pedidos teniendo una media de 150 pedidos. Con esta información podemos proponer el implementar KPIs de la cantidad de pedidos que se obtienen y así medir su crecimiento e implementar estrategias de marketing para hacer que ese KPI tengo cierto porcentaje de crecimiento al mes.
#file.choose()
merma <- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/FORM - Merma limpia.csv")
summary(merma)## Fecha Kilos
## Length:42 Min. : 1040
## Class :character 1st Qu.: 3682
## Mode :character Median : 4025
## Mean : 4415
## 3rd Qu.: 4325
## Max. :18900
Limpieza transformación y organización de base de datos.
1. En esta base de datos se eliminaron las columanas que no era relevante para el analisis, Se eliminaron los registros de total de merma y la columna de mes ya que no tenían mucha signficancia en el análisis y la información que se busca extraer.
2.Para el caso de variables cuantitativas considerar la posibilidad de reemplazar la presencia de “missing values” con estadísticos descriptivos (por ejemplo, media, mediana, moda).
#install.packages("dplyr")
#install.packages("merge)
library(dplyr)
#library(merge)Contamos con 42 registros y 2 variables.
str(merma)## 'data.frame': 42 obs. of 2 variables:
## $ Fecha: chr "11/01/22" "22/01/22" "18/02/22" "24/02/22" ...
## $ Kilos: int 8890 5670 18900 3930 4000 4190 2980 3290 4200 3810 ...
Se decidió simplificar los nombres de las variables para simplificar el uso de las mismas.
merma1<- merma
#merma1<-merma %>% select(one_of("Fecha","Kilos"))
colnames(merma1) <-c ("Fecha","Kilos")
summary(merma1)## Fecha Kilos
## Length:42 Min. : 1040
## Class :character 1st Qu.: 3682
## Mode :character Median : 4025
## Mean : 4415
## 3rd Qu.: 4325
## Max. :18900
Cuantitativa: Discreta, Continua Escala de medición:Intervalo, Razón Cualitativa Escala de medición: Nominales, Ordinales
Variable<-c("`Fecha`","`IDMes`", "` Mes`", "` Kilos`")
Type<-c("Cuantitativa (continua)", "Cualitativa","Cualitativa","Cuantitativa (discreta)")
Measurement<-c("Razón", "Nominal","Nominal","Razón")
table<-data.frame(Variable,Type,Measurement)
knitr::kable(table)| Variable | Type | Measurement |
|---|---|---|
Fecha
|
Cuantitativa (continua) | Razón |
IDMes
|
Cualitativa | Nominal |
Mes
|
Cualitativa | Nominal |
Kilos
|
Cuantitativa (discreta) | Razón |
Análisis Exploratorio de las Bases de Datos
median(merma1$Kilos, na.rm = TRUE)## [1] 4025
mean(merma1$Kilos, na.rm = TRUE)## [1] 4414.905
sd(merma1$Kilos, na.rm = FALSE)## [1] 2571.793
#mfv(merma1$Kilos)
variable<-c("'Kilos")
Mediana<-c("4025")
Media <- c("4415")
Moda <- c("4190")
Desviación_estandar<-c("2571.793")
table1 <- data.frame (variable, Mediana, Media, Moda, Desviación_estandar)
knitr::kable(table1)| variable | Mediana | Media | Moda | Desviación_estandar |
|---|---|---|---|---|
| ’Kilos | 4025 | 4415 | 4190 | 2571.793 |
merma1$Fecha<-as.Date(merma1$Fecha,format="%d/%m/%y")
#install.packages("ggplot2")
library(ggplot2)
summary(merma1)## Fecha Kilos
## Min. :2022-01-11 Min. : 1040
## 1st Qu.:2022-04-05 1st Qu.: 3682
## Median :2022-06-11 Median : 4025
## Mean :2022-06-04 Mean : 4415
## 3rd Qu.:2022-08-10 3rd Qu.: 4325
## Max. :2022-09-21 Max. :18900
ggplot(merma1,aes(x=Fecha))+
geom_line(aes(y=Kilos),color="blue")+
labs(x="Fecha",y="Kilo", color="Legend")+
ggtitle("Kilos de merma por mes")#file.choose()
merma2 <- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/CSV/FORM - Merma.csv")
summary(merma2)## Fecha IDMes Mes Kilos
## Length:60 Min. :1.00 Length:60 Length:60
## Class :character 1st Qu.:3.00 Class :character Class :character
## Mode :character Median :5.00 Mode :character Mode :character
## Mean :5.24
## 3rd Qu.:8.00
## Max. :9.00
## NA's :10
#table(merma2$Mes, merma2$Kilos)
barplot(table(merma2$Kilos, merma2$IDMes), col="purple", main = "Cantidad de Kilos de merma por mes", xlab = "ID Mes", ylab = "Kilos" )Una reflexión que se toma sobre esta actividad es que solo contamos con dos variables relevantes las cual nos puede decir algo, en este caso solo se utilizo la de fecha y la de los kilos de merma.
En la base de datos de Merma, analizamos como cambian los kilos que se generan por mes, y podemos ver que en Junio es donde mayor merma se genera, esto puede ser debido a que en junio tienen mayor producción, es por ello que deben de contemplar realizar un programa que midan las cantidades de pedidos que se predicen por mes y de ese modo, unicamente pedir los materiales que se requieren y podrían llegar a contratar a empleados extra para agilizar el proceso de materiales y conocer la falla en su logistica de producción por la cual se genera mucha merma.
Un dato impactante es que la mayoría de las veces la empresa tiene una merma constante, esta varia pero casi todos los meses cuentan con al rededor de 5 toneladas de merma, de acuerdo con las fechas que nos dieron en esta base de datos se analizo que de enero a marzo existió una gran cantidad de merma que llego al rededor de 17 toneladas de merma, por lo tanto se debe de analizar en la empresa que fue lo que sucedió en este lapso de tiempo, puedo ser que un cliente cancelara algún pedido, que haya generado una gran cantidad de merma.
#file.choose()
scrap <- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/FORM - Scrap Limpia .csv")
summary(scrap)## Referencia Fecha Hora Producto
## Length:250 Length:250 Length:250 Length:250
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Cantidad Unidad.de.medida Ubicación.de.origen Ubicación.de.desecho
## Min. : 0.000 Length:250 Length:250 Length:250
## 1st Qu.: 1.000 Class :character Class :character Class :character
## Median : 2.000 Mode :character Mode :character Mode :character
## Mean : 6.696
## 3rd Qu.: 7.000
## Max. :96.000
## Estado
## Length:250
## Class :character
## Mode :character
##
##
##
Limpieza transformación y organización de base de datos.
Se hizo limpieza manual de la base de datos para separar fecha y hora en diferentes columnas y se eliminaron columnas que no tienen mucha significancia en el análisis y la información que se busca extraer y entender, se eliminan Referencia, Producto, Unidad.de.medida , Ubicación.de.desecho, Estado.
#install.packages("dplyr")
#install.packages("mirage")
#install.packages("dplyr")
library(dplyr)
#library(mirage)str(scrap)## 'data.frame': 250 obs. of 9 variables:
## $ Referencia : chr "SP/08731" "SP/08730" "SP/08729" "SP/08728" ...
## $ Fecha : chr "31/08/22" "31/08/22" "31/08/22" "31/08/22" ...
## $ Hora : chr "14:55:40" "14:49:25" "13:49:29" "9:30:07" ...
## $ Producto : chr "[BACKFRAME 60% CUELLO ARMADO] 18805. 60% Backframe. Cuello Armado." "[N61506747 CAJA] N61506747. Kit. Caja." "[N61506729 SEPARADOR] N61506729. Kit. Separador." "[341332 DIVISOR - U611 & U625] 341332. U611. U625. Divisor Troquelado." ...
## $ Cantidad : num 2 1 1 31 1 1 1 9 2 1 ...
## $ Unidad.de.medida : chr "Unidad(es)" "Unidad(es)" "Unidad(es)" "Unidad(es)" ...
## $ Ubicación.de.origen : chr "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Pre-Production" ...
## $ Ubicación.de.desecho: chr "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" ...
## $ Estado : chr "Hecho" "Hecho" "Hecho" "Hecho" ...
sum(is.na(scrap))## [1] 0
Sapply: Para contar los NA
sapply(scrap, function(x) sum(is.na(x)))## Referencia Fecha Hora
## 0 0 0
## Producto Cantidad Unidad.de.medida
## 0 0 0
## Ubicación.de.origen Ubicación.de.desecho Estado
## 0 0 0
Se decidó realizar está técnica para deshacernos de información que no es muy relevante para el análisis de nuestra base de datos.
scrap2 <- scrap
scrap2 <- subset (scrap2, select = -c (Hora))
scrap2 <- subset (scrap2, select = -c (Producto))
scrap2 <- subset (scrap2, select = -c (Ubicación.de.desecho))
scrap2 <- subset (scrap2, select = -c (Unidad.de.medida ))
scrap2 <- subset (scrap2, select = -c (Referencia ))
scrap2 <- subset (scrap2, select = -c (Estado ))
summary(scrap2)## Fecha Cantidad Ubicación.de.origen
## Length:250 Min. : 0.000 Length:250
## Class :character 1st Qu.: 1.000 Class :character
## Mode :character Median : 2.000 Mode :character
## Mean : 6.696
## 3rd Qu.: 7.000
## Max. :96.000
Cambiar los nombres de las columnas / variables a nombres más cortos y específicos. Por ejemplo, municipio → mpio, salario mínimo diario → salario_min.
#seleccionar columnas / variables.
#scrap2<-scrap %>% select(one_of('Fecha','Cantidad','Ubicación.de.origen'))
#Renombrar las columnas /variables seleccionadas.
colnames(scrap2) <-c ('Fecha','Cant.','Origen')
summary(scrap2)## Fecha Cant. Origen
## Length:250 Min. : 0.000 Length:250
## Class :character 1st Qu.: 1.000 Class :character
## Mode :character Median : 2.000 Mode :character
## Mean : 6.696
## 3rd Qu.: 7.000
## Max. :96.000
Cuantitativa: Discreta, Continua Escala de medición:Intervalo, Razón Cualitativa Escala de medición: Nominales, Ordinales
Variable<-c("`Fecha`","`Cantidad`", "` Ubicación.de.origen`")
Type<-c("Cuantitativa (continua)", "Cuantitativa (discreta)","Cualitativa")
Measurement<-c("Razón","Razón","Nominal")
table<-data.frame(Variable,Type,Measurement)
knitr::kable(table)| Variable | Type | Measurement |
|---|---|---|
Fecha
|
Cuantitativa (continua) | Razón |
Cantidad
|
Cuantitativa (discreta) | Razón |
Ubicación.de.origen
|
Cualitativa | Nominal |
Análisis Exploratorio de las Bases de Datos
summary(scrap2)## Fecha Cant. Origen
## Length:250 Min. : 0.000 Length:250
## Class :character 1st Qu.: 1.000 Class :character
## Mode :character Median : 2.000 Mode :character
## Mean : 6.696
## 3rd Qu.: 7.000
## Max. :96.000
sd(scrap2$Cant., na.rm= TRUE) ## [1] 11.84885
Variable<-c("Cant.")
Mediana<-c("2.00")
Media <- c("6.696")
Moda <- c("1") #EXCEL
Desviación_estandar<-c("11.84885")
table1 <- data.frame (Variable, Mediana, Media, Moda, Desviación_estandar)
knitr::kable(table1)| Variable | Mediana | Media | Moda | Desviación_estandar |
|---|---|---|---|---|
| Cant. | 2.00 | 6.696 | 1 | 11.84885 |
Muestran la dispersión de variables selecionadas.
#install.packages("ggplot2")
#install.packages("barplot")
library(ggplot2)
summary(scrap2)## Fecha Cant. Origen
## Length:250 Min. : 0.000 Length:250
## Class :character 1st Qu.: 1.000 Class :character
## Mode :character Median : 2.000 Mode :character
## Mean : 6.696
## 3rd Qu.: 7.000
## Max. :96.000
ggplot(scrap2,aes(x=Cant.))+
geom_line(aes(y=Origen),color="Red")+
labs(x="Cant",y="Origen", color="Legend")+
ggtitle("Mayores catidades de Scrap por origen")#install.packages('epiDisplay')
library(epiDisplay)
tab1(scrap2$Origen, sort.group = "decreasing", cum.percent = TRUE) ## scrap2$Origen :
## Frequency Percent Cum. percent
## SAB/Pre-Production 179 71.6 71.6
## SAB/Calidad/Entrega de PT 58 23.2 94.8
## SAB/Post-Production 13 5.2 100.0
## Total 250 100.0 100.0
#install.packages("plyr")
library(plyr)
pie(table(scrap2$Origen))#table(scrap2$Cantidad,scrap2$Fecha)
barplot(table(scrap2$Cant.,scrap2$Origen), col="yellow", main = "Kilos de Scrap según su origen", xlab = "Origen", ylab = "Kilos" )boxplots=subset(scrap2,select=-c(Origen))
boxplot(table (scrap2$Origen), main = "Ubicación de Origen", xlab = "Origen", ylab = "Cantidad")En esta actividad de la limpia y organización de la base de datos de Scrap. Nos dimos cuentas que la base de datos contaba con distintas variables que no eran tan relevantes para analizar la bd scrap. Por lo tanto decidiomos eliminarlas para contar con menos variables y asi poder realizar un mejor analisis.
Podemos darnos cuenta con la base de datos de Scrap que existe mucho scrap en la etapa de PRE-PRODUCCION. Para ello se necesita realizar una logisitca de proceso para eificente en donde si mida la cantidad exacta que se requiere de material para cada pedido y al igual que tener mejor medidas de recortes y suajes para tener el mayor provecho de los materiales.
En este analisis nos dimos cuenta que los datos estaban orgnaizados es decir no contaban con missing values por lo tanto es algo bueno para el analisis, de todos modos es importante conciderarlos si es relevante para el analisis, en este caso no se hubieran eliminado si no que se hubieran remplazado por la mediana dependiendte de la variable que estuvieramos analisando.
Analisando estas variables se confirma que en el area de pre-producción,es donde se genera la mayoria del scrap en su mayoria se genera casi el 85% de scrap, que generan dentro de la empresa, por lo tanto es alago alarmante por lo tanto se tienen que tomar decisiones importantes para poder realizar cambios en esta area para reducir la cantidad de scrap.
Companies <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/externa_bd1 csv1.csv")
summary(Companies)## Geography Category Data.Type Unit
## Length:89 Length:89 Length:89 Length:89
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Current.Constant X2016 X2017 X2018
## Length:89 Min. : 0 Min. : 0 Min. : 0
## Class :character 1st Qu.: 421 1st Qu.: 432 1st Qu.: 527
## Mode :character Median : 4383 Median : 4804 Median : 5063
## Mean : 939400 Mean : 993634 Mean : 1193476
## 3rd Qu.: 37794 3rd Qu.: 38307 3rd Qu.: 40769
## Max. :25902010 Max. :27472550 Max. :35218716
## X2019 X2020 X2021
## Min. : 0 Min. : 0 Min. : 0
## 1st Qu.: 529 1st Qu.: 548 1st Qu.: 607
## Median : 4849 Median : 5020 Median : 5477
## Mean : 1376491 Mean : 1554963 Mean : 1904399
## 3rd Qu.: 43779 3rd Qu.: 44564 3rd Qu.: 51280
## Max. :39310235 Max. :41193660 Max. :63857942
library(psych)
library(lubridate)##
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
##
## date, intersect, setdiff, union
library(ggplot2)
library(GGally)## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
library(TSstudio)
library(forecast)Limpieza transformación y organización de base de datos. ### Cuantas variables y registros hay
str(Companies)## 'data.frame': 89 obs. of 11 variables:
## $ Geography : chr "Azerbaijan" "Bangladesh" "Cambodia" "China" ...
## $ Category : chr "Corrugated Paper, Paperboard and Containers" "Corrugated Paper, Paperboard and Containers" "Corrugated Paper, Paperboard and Containers" "Corrugated Paper, Paperboard and Containers" ...
## $ Data.Type : chr "Production (turnover) MSP" "Production (turnover) MSP" "Production (turnover) MSP" "Production (turnover) MSP" ...
## $ Unit : chr "AZN million" "BDT million" "KHR million" "CNY million" ...
## $ Current.Constant: chr "Current Prices" "Current Prices" "Current Prices" "Current Prices" ...
## $ X2016 : num 40.6 115106.8 247100 309386.9 212.1 ...
## $ X2017 : num 44.6 135423.7 257700 301286.2 212.7 ...
## $ X2018 : num 47.3 156788.3 299500 317612.9 217.5 ...
## $ X2019 : num 52.2 180445.4 314000 310925.3 216.8 ...
## $ X2020 : num 51.5 198883.5 281100 312534.7 196.7 ...
## $ X2021 : num 66.1 222755.3 285994.4 344612.2 191.4 ...
describe(Companies)## # A tibble: 6 × 26
## describ…¹ n na mean sd se_mean IQR skewn…² kurto…³ p00 p01
## <chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 X2016 89 0 9.39e5 4.18e6 443039. 37374. 5.19 27.1 0 20.7
## 2 X2017 89 0 9.94e5 4.40e6 466639. 37875. 5.12 26.3 0 20.7
## 3 X2018 89 0 1.19e6 5.40e6 572440. 40242. 5.28 28.3 0 23.1
## 4 X2019 89 0 1.38e6 6.29e6 667194. 43250. 5.19 26.7 0 24.0
## 5 X2020 89 0 1.55e6 7.16e6 759409. 44016. 5.08 24.9 0 20.1
## 6 X2021 89 0 1.90e6 9.14e6 968737. 50673. 5.53 31.3 0 23.8
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## # p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## # p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## # variable names ¹described_variables, ²skewness, ³kurtosis
La primer tecnica de limpieza que utilizamos fue, eliminar columnas debido a que contabamos con datos los cuales no eran relevantes para el análisis.La segunda herramienta de limpieza que utilizamos para la visulización de los datos fue implementar una nueva columna como el total de la Producción de las variables que se producen por país.
bd1 <- Companies
bd1<-subset(bd1,select=-c(Category,Data.Type,Current.Constant))
str(bd1)## 'data.frame': 89 obs. of 8 variables:
## $ Geography: chr "Azerbaijan" "Bangladesh" "Cambodia" "China" ...
## $ Unit : chr "AZN million" "BDT million" "KHR million" "CNY million" ...
## $ X2016 : num 40.6 115106.8 247100 309386.9 212.1 ...
## $ X2017 : num 44.6 135423.7 257700 301286.2 212.7 ...
## $ X2018 : num 47.3 156788.3 299500 317612.9 217.5 ...
## $ X2019 : num 52.2 180445.4 314000 310925.3 216.8 ...
## $ X2020 : num 51.5 198883.5 281100 312534.7 196.7 ...
## $ X2021 : num 66.1 222755.3 285994.4 344612.2 191.4 ...
bd1$Total_Produccion<- bd1$X2016+bd1$X2017+bd1$X2018+bd1$X2019+bd1$X2020+bd1$X2021
bd1$Promedio_X2021<- mean(bd1$X2021)
summary(bd1)## Geography Unit X2016 X2017
## Length:89 Length:89 Min. : 0 Min. : 0
## Class :character Class :character 1st Qu.: 421 1st Qu.: 432
## Mode :character Mode :character Median : 4383 Median : 4804
## Mean : 939400 Mean : 993634
## 3rd Qu.: 37794 3rd Qu.: 38307
## Max. :25902010 Max. :27472550
## X2018 X2019 X2020 X2021
## Min. : 0 Min. : 0 Min. : 0 Min. : 0
## 1st Qu.: 527 1st Qu.: 529 1st Qu.: 548 1st Qu.: 607
## Median : 5063 Median : 4849 Median : 5020 Median : 5477
## Mean : 1193476 Mean : 1376491 Mean : 1554963 Mean : 1904399
## 3rd Qu.: 40769 3rd Qu.: 43779 3rd Qu.: 44564 3rd Qu.: 51280
## Max. :35218716 Max. :39310235 Max. :41193660 Max. :63857942
## Total_Produccion Promedio_X2021
## Min. : 0 Min. :1904399
## 1st Qu.: 3166 1st Qu.:1904399
## Median : 30333 Median :1904399
## Mean : 7962363 Mean :1904399
## 3rd Qu.: 254492 3rd Qu.:1904399
## Max. :204523302 Max. :1904399
str(bd1)## 'data.frame': 89 obs. of 10 variables:
## $ Geography : chr "Azerbaijan" "Bangladesh" "Cambodia" "China" ...
## $ Unit : chr "AZN million" "BDT million" "KHR million" "CNY million" ...
## $ X2016 : num 40.6 115106.8 247100 309386.9 212.1 ...
## $ X2017 : num 44.6 135423.7 257700 301286.2 212.7 ...
## $ X2018 : num 47.3 156788.3 299500 317612.9 217.5 ...
## $ X2019 : num 52.2 180445.4 314000 310925.3 216.8 ...
## $ X2020 : num 51.5 198883.5 281100 312534.7 196.7 ...
## $ X2021 : num 66.1 222755.3 285994.4 344612.2 191.4 ...
## $ Total_Produccion: num 302 1009403 1685394 1896358 1247 ...
## $ Promedio_X2021 : num 1904399 1904399 1904399 1904399 1904399 ...
sum(is.na(bd1))## [1] 0
Nota: Se eliminan Category, Data.Type y Current.Constant, ya que no nos sirven, debido a que es el mismo dato para todos los registros y es algo que no nos aporta alguna información.
Cuantitativa: Discreta, Continua Escala de medición:Intervalo, Razón Cualitativa Escala de medición: Nominales, Ordinales
Variable<-c("Geography","Category","Data.Type", "Unit","Current Constant","Years")
Type<-c("Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa", "Cuantitativa (Continua)")
table<-data.frame(Variable,Type)
knitr::kable(table)| Variable | Type |
|---|---|
| Geography | Cualitativa |
| Category | Cualitativa |
| Data.Type | Cualitativa |
| Unit | Cualitativa |
| Current Constant | Cualitativa |
| Years | Cuantitativa (Continua) |
Análisis Exploratorio de las Bases de Datos
describe(bd1)## # A tibble: 8 × 26
## descr…¹ n na mean sd se_mean IQR skewn…² kurto…³ p00 p01
## <chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 X2016 89 0 9.39e5 4.18e6 4.43e5 3.74e4 5.19 27.1 0 2.07e1
## 2 X2017 89 0 9.94e5 4.40e6 4.67e5 3.79e4 5.12 26.3 0 2.07e1
## 3 X2018 89 0 1.19e6 5.40e6 5.72e5 4.02e4 5.28 28.3 0 2.31e1
## 4 X2019 89 0 1.38e6 6.29e6 6.67e5 4.33e4 5.19 26.7 0 2.40e1
## 5 X2020 89 0 1.55e6 7.16e6 7.59e5 4.40e4 5.08 24.9 0 2.01e1
## 6 X2021 89 0 1.90e6 9.14e6 9.69e5 5.07e4 5.53 31.3 0 2.38e1
## 7 Total_… 89 0 7.96e6 3.60e7 3.82e6 2.51e5 5.03 24.4 0 1.51e2
## 8 Promed… 89 0 1.90e6 0 0 0 NaN NaN 1.90e6 1.90e6
## # … with 15 more variables: p05 <dbl>, p10 <dbl>, p20 <dbl>, p25 <dbl>,
## # p30 <dbl>, p40 <dbl>, p50 <dbl>, p60 <dbl>, p70 <dbl>, p75 <dbl>,
## # p80 <dbl>, p90 <dbl>, p95 <dbl>, p99 <dbl>, p100 <dbl>, and abbreviated
## # variable names ¹described_variables, ²skewness, ³kurtosis
En el análisis descriptivo se muestran los valores promedio del total de producciones de 2016 a 2021.
Realizamos una tabla donde viene clasificado cada variable y agregamos una columna con la escala de medición para cada variable.
Variable<-c("Geography","Category","Data.Type", "Unit","Current Constant","Years")
Type<-c("Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa", "Cuantitativa (Continua)")
Escala_de_Medición <- c("Países", "Producto", "Departamento","Tipo de Moneda", "Precio actual", "Ganancia (Razon)")
table<-data.frame(Variable,Type,Escala_de_Medición)
knitr::kable(table)| Variable | Type | Escala_de_Medición |
|---|---|---|
| Geography | Cualitativa | Países |
| Category | Cualitativa | Producto |
| Data.Type | Cualitativa | Departamento |
| Unit | Cualitativa | Tipo de Moneda |
| Current Constant | Cualitativa | Precio actual |
| Years | Cuantitativa (Continua) | Ganancia (Razon) |
bd2 <- table(bd1$Unit)
bd2 <- prop.table(bd2)
bd2##
## AED million AOA million ARS million AUD million AZN million BDT million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## BGN million BRL million BYR million CAD million CHF million CLP million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## CNY million COP million CRC million CUC million CZK million DKK million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## DOP million DZD million EGP million ETB million EUR million GBP million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.20224719 0.01123596
## GEL million GHS million HKD million HRK million HuF million IDR million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## ILS million INR million IQD million IRR million ISK million JPY million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## KES million KHR million KRW million KWD million KZT million LKR million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## MAD million MXN million MYR million NGN million NOK million NZD million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## PAB million PEN million PHP million PKR million PLN million QAR million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## RON million RUB million SAR million SEK million SGD million THB million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596 0.01123596
## TND million TRY million TWD million UAH million USD million UYU million
## 0.01123596 0.01123596 0.01123596 0.01123596 0.03370787 0.01123596
## UZS million VND million XAF million ZAR million
## 0.01123596 0.01123596 0.01123596 0.01123596
Con esta tabla podemos visualizar la frecuencia que se tiene para cada unidad de dinero, lo que viene siendo la diferenciación entre paises.
table(bd1$Unit, bd1$Promedio_X2021)##
## 1904399.38539326
## AED million 1
## AOA million 1
## ARS million 1
## AUD million 1
## AZN million 1
## BDT million 1
## BGN million 1
## BRL million 1
## BYR million 1
## CAD million 1
## CHF million 1
## CLP million 1
## CNY million 1
## COP million 1
## CRC million 1
## CUC million 1
## CZK million 1
## DKK million 1
## DOP million 1
## DZD million 1
## EGP million 1
## ETB million 1
## EUR million 18
## GBP million 1
## GEL million 1
## GHS million 1
## HKD million 1
## HRK million 1
## HuF million 1
## IDR million 1
## ILS million 1
## INR million 1
## IQD million 1
## IRR million 1
## ISK million 1
## JPY million 1
## KES million 1
## KHR million 1
## KRW million 1
## KWD million 1
## KZT million 1
## LKR million 1
## MAD million 1
## MXN million 1
## MYR million 1
## NGN million 1
## NOK million 1
## NZD million 1
## PAB million 1
## PEN million 1
## PHP million 1
## PKR million 1
## PLN million 1
## QAR million 1
## RON million 1
## RUB million 1
## SAR million 1
## SEK million 1
## SGD million 1
## THB million 1
## TND million 1
## TRY million 1
## TWD million 1
## UAH million 1
## USD million 3
## UYU million 1
## UZS million 1
## VND million 1
## XAF million 1
## ZAR million 1
La tabla nos muestra la cantidad promedio en millones producida en 2021 por cada unidad monetaria. En este caso, vemos que en 2021 se produjo en promedio más de 1MM de “currencies” (no se puede definir una unidad monetaria específica debido a que estamos ponderando distintas monedas internacionales). Conforme se analiza la tabla, vemos que el euro generó 18 veces el promedio de producción de cartón estimado para 2021, es decir, es la moneda internacional que más produjo cartón a nivel internacional en 2021. La siguiente moneda con mayor capacidad de producción fue USD millions.
barplot(bd2, xlab='Tipo de Moneda',
ylab='Frecuencia Relativa', las=1)La gráfica nos muestra que de acuerdo a la frecuencia relativa de producción, Indonesia es la unidad monetaria que más cartón ha entregado.
bd3 <- bd1
aggregate(x=bd3$Total_Produccion, by=list(bd3$Geography),FUN=sum)## Group.1 sum.bd3$Total_Produccion
## 1 Algeria 26366.2
## 2 Angola 4172.7
## 3 Argentina 757754.2
## 4 Australia 21642.9
## 5 Austria 10233.5
## 6 Azerbaijan 302.3
## 7 Bangladesh 1009403.0
## 8 Belarus 2931.2
## 9 Belgium 6339.5
## 10 Brazil 129369.8
## 11 Bulgaria 3166.2
## 12 Cambodia 1685394.4
## 13 Cameroon 197101.1
## 14 Canada 78979.4
## 15 Chile 6391369.9
## 16 China 1896358.2
## 17 Colombia 15542263.1
## 18 Costa Rica 967034.3
## 19 Croatia 8719.9
## 20 Cuba 619.6
## 21 Cyprus 171.5
## 22 Czech Republic 178808.7
## 23 Denmark 32238.2
## 24 Dominican Republic 37293.6
## 25 Ecuador 949.5
## 26 Egypt 96033.6
## 27 Estonia 387.5
## 28 Ethiopia 5442.2
## 29 Finland 2612.9
## 30 France 33450.4
## 31 Georgia 194.3
## 32 Germany 77218.5
## 33 Ghana 673.7
## 34 Greece 2573.7
## 35 Hong Kong, China 1247.2
## 36 Hungary 1504747.7
## 37 Iceland 5561.8
## 38 India 2264525.5
## 39 Indonesia 204523301.8
## 40 Iran 186021771.8
## 41 Iraq 11680.2
## 42 Ireland 1873.4
## 43 Israel 22710.5
## 44 Italy 50972.2
## 45 Japan 15807772.3
## 46 Kazakhstan 203941.1
## 47 Kenya 112343.7
## 48 Kuwait 251.3
## 49 Latvia 463.0
## 50 Lithuania 1775.1
## 51 Luxembourg 0.0
## 52 Malaysia 23655.6
## 53 Mexico 738215.0
## 54 Morocco 16625.1
## 55 Netherlands 13921.1
## 56 New Zealand 7644.6
## 57 Nigeria 206027.0
## 58 Norway 11525.8
## 59 Pakistan 628812.7
## 60 Panama 221.3
## 61 Peru 5083.5
## 62 Philippines 302208.8
## 63 Poland 118115.9
## 64 Portugal 5366.3
## 65 Puerto Rico 537.2
## 66 Qatar 189.5
## 67 Romania 16388.7
## 68 Russia 1590911.6
## 69 Saudi Arabia 36787.1
## 70 Singapore 3636.7
## 71 Slovakia 1317.9
## 72 Slovenia 1137.3
## 73 South Africa 277898.6
## 74 South Korea 59825405.8
## 75 Spain 31015.4
## 76 Sri Lanka 254492.0
## 77 Sweden 60578.6
## 78 Switzerland 5331.3
## 79 Taiwan 615169.6
## 80 Thailand 201398.4
## 81 Tunisia 2715.6
## 82 Turkey 195406.5
## 83 Ukraine 128095.2
## 84 United Arab Emirates 12957.3
## 85 United Kingdom 30332.9
## 86 Uruguay 83173.7
## 87 USA 323594.0
## 88 Uzbekistan 5103054.3
## 89 Vietnam 198028864.1
En la tabla anterior se muestra el total de producción generado por cada país. Haciendo una ponderación de los 5 países que mayor producción de cartón tienen (haciendo conteo histórico de 2016 a 2021), vemos que se destacan Irán, Vietnam, Corea del Sur, Japón e Indonesia.
hist(log(bd1$Total_Produccion), main = "Histograma de Producción Total", xlab="Producción Total",
ylab="Frecuencia", col="blue1")En la gráfica anterior se simboliza la distribución de la muestra respecto a la producción total y la frecuencia de ésta. De acuerdo a la frecuencia total, vemos que se tiene una mayor producción por frecuencia entre 10 y 15, es decir, la producción total es más alta y tiene una frecuencia mayor a 15 que se muestra como el más elevado en el histograma.
Relación Geography con Producción Total
ggplot(bd1, aes(x=Total_Produccion, y=Geography)) +
geom_point(shape=19, size=3) + labs(title = "Relación entre los Países y la Producción Total",caption ="Passport_ProducciónCarton",x="Producción_Total", y="Geography") + theme_classic()En la gráfica anterior se muestra la relación entre los países y la producción total. Se ve que hay una dispersión mayor para los países en el centro de la gráfica. Esto significa que hay más irregularidad en la producción total que han generado.
boxplot=subset(bd1,select = -c(Total_Produccion,Geography))
boxplot(bd1$Total_Produccion, main= "Total de producción")En la gráfica anterior vemos el total de producción de acuerdo a la geografía. Al igual que la gráfica anterior, hay una correlación mayor acorde al total de producción.
Vol<-ts(boxplot,start=c(2016,1),frequency=12)
ts_plot(Vol,
title = "Desempeño de la Industria Automotriz: Producción de cartón global de 2016 a 2021",
Ytitle = "Unidades en miles",
Xtitle = "Años",
slider = TRUE)En esta gráfica se ve el desempeño de la industria automotriz de 2016 a 2021. En general, se muestra que el total de producción de cartón a nivel global fue mayor en 2021 contra otros años.
Las Técnicas de Limpieza utilizadas me ayudaron a ser capaz de tener un mayor entendimiento de la base de datos, estructurar los datos que son significativos y realemente conocer aquella información que toman un papael importante en el análisis que se busca realizar a la base de datos. Al aplicar técnias de limpieza te aseguras de tener en orden todos los datos, evitar errores que después puedan provocar malos entendidos en el análisis y que la información que se extraiga no vaya a ser asertada. También permite ser más eficaz y tener mayor credibilidad en el análisis que se vaya a realizar.
Del Desempeño de la Industria Automotriz
bd5 <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/externa_bd2 csv2.csv")
summary(bd5)## Geography Unit Año Produccion
## Length:534 Length:534 Min. :2016 Min. : 0
## Class :character Class :character 1st Qu.:2017 1st Qu.: 501
## Mode :character Mode :character Median :2018 Median : 4826
## Mean :2018 Mean : 1327061
## 3rd Qu.:2020 3rd Qu.: 43907
## Max. :2021 Max. :63857942
sum(is.na(bd5))## [1] 0
bd5$Total_Produccion<- bd1$X2016+bd1$X2017+bd1$X2018+bd1$X2019+bd1$X2020+bd1$X2021
summary(bd5)## Geography Unit Año Produccion
## Length:534 Length:534 Min. :2016 Min. : 0
## Class :character Class :character 1st Qu.:2017 1st Qu.: 501
## Mode :character Mode :character Median :2018 Median : 4826
## Mean :2018 Mean : 1327061
## 3rd Qu.:2020 3rd Qu.: 43907
## Max. :2021 Max. :63857942
## Total_Produccion
## Min. : 0
## 1st Qu.: 3166
## Median : 30333
## Mean : 7962363
## 3rd Qu.: 254492
## Max. :204523302
str(bd5)## 'data.frame': 534 obs. of 5 variables:
## $ Geography : chr "Azerbaijan" "Bangladesh" "Cambodia" "China" ...
## $ Unit : chr "AZN million" "BDT million" "KHR million" "CNY million" ...
## $ Año : int 2016 2016 2016 2016 2016 2016 2016 2016 2016 2016 ...
## $ Produccion : num 40.6 115106.8 247100 309386.9 212.1 ...
## $ Total_Produccion: num 302 1009403 1685394 1896358 1247 ...
sum(is.na(bd5))## [1] 0
Producción de cartón en 2022 a nivel global
industriaA <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/Industria Auto.csv")
bd6 <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/externa_bd3 csv3.csv")
bd6 <- bd6[-c(1),]
summary(bd6)## Año USA MEX
## Min. :2017 Min. :51672 Min. :112231
## 1st Qu.:2018 1st Qu.:54006 1st Qu.:120638
## Median :2019 Median :54651 Median :128471
## Mean :2019 Mean :54949 Mean :126954
## 3rd Qu.:2020 3rd Qu.:55387 3rd Qu.:129871
## Max. :2021 Max. :59031 Max. :143561
summary(industriaA)## year trimestre id_estado estado
## Min. :2014 Min. :1.000 Min. : 1.00 Length:690
## 1st Qu.:2016 1st Qu.:1.000 1st Qu.:10.00 Class :character
## Median :2018 Median :2.000 Median :17.00 Mode :character
## Mean :2018 Mean :2.399 Mean :17.37
## 3rd Qu.:2020 3rd Qu.:3.000 3rd Qu.:26.00
## Max. :2022 Max. :4.000 Max. :32.00
## idnueva ventas_autopartes_anual eci
## Length:690 Min. :4.382e+03 Min. :-0.9374
## Class :character 1st Qu.:2.256e+07 1st Qu.:-0.4630
## Mode :character Median :2.316e+08 Median : 0.7088
## Mean :3.307e+08 Mean : 0.4391
## 3rd Qu.:5.759e+08 3rd Qu.: 0.9138
## Max. :1.467e+09 Max. : 1.7810
## poblacion_ocupada_ensambladora_year exportaciones_anual iedanual_porestado
## Length:690 Length:690 Length:690
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
str(industriaA)## 'data.frame': 690 obs. of 10 variables:
## $ year : int 2014 2014 2014 2014 2014 2014 2014 2014 2014 2014 ...
## $ trimestre : int 1 1 1 1 1 1 1 1 1 1 ...
## $ id_estado : int 1 2 5 8 9 10 11 13 14 15 ...
## $ estado : chr "Aguascalientes" "Baja California" "Coahuila de Zaragoza" "Chihuahua" ...
## $ idnueva : chr "Agu20141" "Baj20141" "Coa20141" "Chi20141" ...
## $ ventas_autopartes_anual : int 297808938 180968923 638892837 415306918 424386804 2395458 599464057 490518 73197944 161883028 ...
## $ eci : num 0.856 1.268 0.914 1.148 0.914 ...
## $ poblacion_ocupada_ensambladora_year: chr "5523" "41376" "19522" "93703" ...
## $ exportaciones_anual : chr "8466008000" "35002851000" "34838926000" "1460627000" ...
## $ iedanual_porestado : chr "1008408044" "1102570984" "1567453720" "1462699524" ...
regresion1 <- lm(ventas_autopartes_anual ~ estado +exportaciones_anual + poblacion_ocupada_ensambladora_year ,data = industriaA)
summary(regresion1)##
## Call:
## lm(formula = ventas_autopartes_anual ~ estado + exportaciones_anual +
## poblacion_ocupada_ensambladora_year, data = industriaA)
##
## Residuals:
## Min 1Q Median 3Q Max
## -506069374 -1448463 0 2162402 296273810
##
## Coefficients: (3 not defined because of singularities)
## Estimate Std. Error t value
## (Intercept) 316032420 79025905 3.999
## estadoBaja California 82523284 111759507 0.738
## estadoCampeche -316015278 111759507 -2.828
## estadoChihuahua 398034214 111759507 3.562
## estadoCiudad de Mexico 571759097 111759507 5.116
## estadoCoahuila de Zaragoza 1151233158 111759507 10.301
## estadoColima -315905304 111759507 -2.827
## estadoDurango -251105163 111759507 -2.247
## estadoEstado de Mexico -38335193 111759507 -0.343
## estadoGuanajuato 623474494 111759507 5.579
## estadoHidalgo -309386913 111759507 -2.768
## estadoJalisco -99121659 111759507 -0.887
## estadoMorelos -282142730 111759507 -2.525
## estadoNuevo Leon 491777471 111759507 4.400
## estadoPuebla 585598166 111759507 5.240
## estadoQueretaro 741305945 111759507 6.633
## estadoQuintana Roo -315991404 96786572 -3.265
## estadoSan Luis Potosi 124368409 111759507 1.113
## estadoSonora -227591089 111759507 -2.036
## estadoTamaulipas 303676078 111759507 2.717
## estadoTlaxcala -279845202 111759507 -2.504
## estadoVeracruz de Ignacio de la Llave -298360634 111759507 -2.670
## estadoYucatan -315911612 111759507 -2.827
## estadoZacatecas -293692225 111759507 -2.628
## exportaciones_anual10141642000 -633342919 91251256 -6.941
## exportaciones_anual10314836000 -243122117 91251256 -2.664
## exportaciones_anual10398672000 -83306231 96786572 -0.861
## exportaciones_anual10400467000 -214097642 91251256 -2.346
## exportaciones_anual10478612000 -227071679 91251256 -2.488
## exportaciones_anual10594592000 -660445310 91251256 -7.238
## exportaciones_anual10701591000 -184046450 96786572 -1.902
## exportaciones_anual11146761000 -328066976 96786572 -3.390
## exportaciones_anual1116042000 -50913 91251256 -0.001
## exportaciones_anual1119625000 16310 91251256 0.000
## exportaciones_anual11227331000 -195000075 91251256 -2.137
## exportaciones_anual11449692000 -52031743 91251256 -0.570
## exportaciones_anual1165750000 -155619675 91251256 -1.705
## exportaciones_anual11738889000 -320498675 91251256 -3.512
## exportaciones_anual11794073000 80649592 91251256 0.884
## exportaciones_anual12035000 -28652 96786572 0.000
## exportaciones_anual12044484000 -42701116 96786572 -0.441
## exportaciones_anual1238308000 -2755770 96786572 -0.028
## exportaciones_anual1262654000 37474 91251256 0.000
## exportaciones_anual1278536000 -29700606 91251256 -0.325
## exportaciones_anual12868798000 -152191028 91251256 -1.668
## exportaciones_anual1301171000 -5888596 91251256 -0.065
## exportaciones_anual1307252000 -28159308 91251256 -0.309
## exportaciones_anual1310801000 -24999653 91251256 -0.274
## exportaciones_anual1318941000 -4141097 91251256 -0.045
## exportaciones_anual1323153000 -5226323 91251256 -0.057
## exportaciones_anual13360587000 -213744406 91251256 -2.342
## exportaciones_anual13514349000 -461981584 91251256 -5.063
## exportaciones_anual13664629000 -141254716 91251256 -1.548
## exportaciones_anual1379964000 -23869307 91251256 -0.262
## exportaciones_anual14009625000 -74475970 91251256 -0.816
## exportaciones_anual1428633000 -3663704 96786572 -0.038
## exportaciones_anual1440918000 -16649460 91251256 -0.182
## exportaciones_anual1448674000 -9154406 91251256 -0.100
## exportaciones_anual14512000 -14416 96786572 0.000
## exportaciones_anual1460627000 -202662429 91251256 -2.221
## exportaciones_anual1460865000 -8043655 91251256 -0.088
## exportaciones_anual1470940000 -47686 91251256 -0.001
## exportaciones_anual15019152000 -613314608 91251256 -6.721
## exportaciones_anual15120233000 34228936 96786572 0.354
## exportaciones_anual15294350000 -165928588 91251256 -1.818
## exportaciones_anual15531676000 -107724661 91251256 -1.181
## exportaciones_anual15611884000 75774919 91251256 0.830
## exportaciones_anual16121000 -30176 96786572 0.000
## exportaciones_anual1654784000 -63167299 91251256 -0.692
## exportaciones_anual16642906000 -34997843 96786572 -0.362
## exportaciones_anual1672357000 -62208412 91251256 -0.682
## exportaciones_anual16837910000 -507759556 91251256 -5.564
## exportaciones_anual16895883000 115296593 91251256 1.264
## exportaciones_anual17204369000 -247634512 91251256 -2.714
## exportaciones_anual1721651000 -5466936 91251256 -0.060
## exportaciones_anual1726504000 -5852596 91251256 -0.064
## exportaciones_anual17332223000 -94707222 91251256 -1.038
## exportaciones_anual17443597000 102705938 91251256 1.126
## exportaciones_anual1752495000 -62743887 91251256 -0.688
## exportaciones_anual17544423000 135514903 91251256 1.485
## exportaciones_anual17547974000 -447164471 91251256 -4.900
## exportaciones_anual17735407000 104259566 91251256 1.143
## exportaciones_anual17877862000 10618852 91251256 0.116
## exportaciones_anual1813156000 -214253693 96786572 -2.214
## exportaciones_anual18601992000 -87747401 91251256 -0.962
## exportaciones_anual1861966000 -62600427 91251256 -0.686
## exportaciones_anual18687648000 -24706585 91251256 -0.271
## exportaciones_anual18737712000 -123808645 91251256 -1.357
## exportaciones_anual18985000 -5479 72140452 0.000
## exportaciones_anual191993000 NA NA NA
## exportaciones_anual19737684000 -78238788 91251256 -0.857
## exportaciones_anual19840531000 197594823 91251256 2.165
## exportaciones_anual19863200000 229643101 91251256 2.517
## exportaciones_anual20010001000 -29475421 91251256 -0.323
## exportaciones_anual20026441000 -147417980 96786572 -1.523
## exportaciones_anual20093245000 -52714510 91251256 -0.578
## exportaciones_anual20335098000 -59363602 91251256 -0.651
## exportaciones_anual20787831000 -176885438 91251256 -1.938
## exportaciones_anual21133618000 -11919096 91251256 -0.131
## exportaciones_anual2127000000 -53259174 91251256 -0.584
## exportaciones_anual2128076000 -135947447 88353648 -1.539
## exportaciones_anual21392726000 -85136044 91251256 -0.933
## exportaciones_anual21659640000 -27746581 91251256 -0.304
## exportaciones_anual22099835000 -140806200 91251256 -1.543
## exportaciones_anual2242354000 -4851805 91251256 -0.053
## exportaciones_anual22472408000 -97592972 91251256 -1.069
## exportaciones_anual22985164000 -19566138 96786572 -0.202
## exportaciones_anual2299343000 -5280661 91251256 -0.058
## exportaciones_anual2301925000 NA NA NA
## exportaciones_anual2302851000 -344468140 91251256 -3.775
## exportaciones_anual23360290000 -87808473 91251256 -0.962
## exportaciones_anual2376795000 -5540326 96786572 -0.057
## exportaciones_anual24048744000 -301202855 91251256 -3.301
## exportaciones_anual2452302000 -460231437 91251256 -5.044
## exportaciones_anual24926226000 -19992365 91251256 -0.219
## exportaciones_anual25065798000 -146940238 91251256 -1.610
## exportaciones_anual25504680000 -101969366 91251256 -1.117
## exportaciones_anual25507316000 -2426972 91251256 -0.027
## exportaciones_anual26300102000 -42846992 91251256 -0.470
## exportaciones_anual2630544000 -289995068 91251256 -3.178
## exportaciones_anual2632148000 -14585583 91251256 -0.160
## exportaciones_anual2667126000 -25511848 91251256 -0.280
## exportaciones_anual26736210000 -68439434 91251256 -0.750
## exportaciones_anual2684823000 -17118638 91251256 -0.188
## exportaciones_anual2705297000 -475872294 91251256 -5.215
## exportaciones_anual27314741000 108407180 91251256 1.188
## exportaciones_anual2737230000 -31938434 91251256 -0.350
## exportaciones_anual27397995000 -40140750 91251256 -0.440
## exportaciones_anual2760694000 -13930385 96786572 -0.144
## exportaciones_anual2793509000 7728884 91251256 0.085
## exportaciones_anual2873522000 1653824 91251256 0.018
## exportaciones_anual2880494000 -28125618 96786572 -0.291
## exportaciones_anual29130161000 79348605 91251256 0.870
## exportaciones_anual2946392000 2850874 91251256 0.031
## exportaciones_anual3026698000 1579766 91251256 0.017
## exportaciones_anual30529987000 -153881209 96786572 -1.590
## exportaciones_anual3086705000 -14291744 91251256 -0.157
## exportaciones_anual3086747000 -3612817 91251256 -0.040
## exportaciones_anual3141633000 2244200 91251256 0.025
## exportaciones_anual31513013000 -213302878 91251256 -2.338
## exportaciones_anual3157991000 8403584 96786572 0.087
## exportaciones_anual32177305000 -199208826 91251256 -2.183
## exportaciones_anual3325166000 4332750 91251256 0.047
## exportaciones_anual3402758000 -31045251 91251256 -0.340
## exportaciones_anual34511011000 -281714187 91251256 -3.087
## exportaciones_anual34522156000 -122777424 91251256 -1.345
## exportaciones_anual34590332000 -51405465 96786572 -0.531
## exportaciones_anual34838926000 -652547881 91251256 -7.151
## exportaciones_anual3490783000 -27486235 91251256 -0.301
## exportaciones_anual35002851000 -189871772 91251256 -2.081
## exportaciones_anual35997280000 -171707454 91251256 -1.882
## exportaciones_anual36004725000 -180452978 91251256 -1.978
## exportaciones_anual36251770000 -564945445 91251256 -6.191
## exportaciones_anual36315716000 -184526706 91251256 -2.022
## exportaciones_anual3657768000 2656603 91251256 0.029
## exportaciones_anual37699563000 -521630672 91251256 -5.716
## exportaciones_anual3791586000 -27851391 91251256 -0.305
## exportaciones_anual38441996000 -166179330 91251256 -1.821
## exportaciones_anual38572482000 -358805171 96786572 -3.707
## exportaciones_anual38950677000 -472455089 91251256 -5.178
## exportaciones_anual39615279000 -273384682 91251256 -2.996
## exportaciones_anual39857053000 -188893113 91251256 -2.070
## exportaciones_anual39896454000 -179369916 91251256 -1.966
## exportaciones_anual40659059000 -134947537 91251256 -1.479
## exportaciones_anual41034808000 -428473899 91251256 -4.696
## exportaciones_anual42396951000 -96879896 91251256 -1.062
## exportaciones_anual4339856000 -13715539 91251256 -0.150
## exportaciones_anual44961569000 -644854760 91251256 -7.067
## exportaciones_anual47659461000 -389638362 91251256 -4.270
## exportaciones_anual4862567000 -6250697 96786572 -0.065
## exportaciones_anual52231000 -10472 79025905 0.000
## exportaciones_anual522839000 738252 111759507 0.007
## exportaciones_anual5352788000 -9101610 88353648 -0.103
## exportaciones_anual5362863000 -12135351 88353648 -0.137
## exportaciones_anual582973000 -81666 96786572 -0.001
## exportaciones_anual587504000 -173779186 91251256 -1.904
## exportaciones_anual606131000 -166997519 91251256 -1.830
## exportaciones_anual6367193000 -10360227 88353648 -0.117
## exportaciones_anual6697248000 -8465610 88353648 -0.096
## exportaciones_anual716061000 -18237 96786572 0.000
## exportaciones_anual722027000 -7889813 111759507 -0.071
## exportaciones_anual726530000 -175201218 96786572 -1.810
## exportaciones_anual729883000 -274984075 91251256 -3.013
## exportaciones_anual735262000 246346 96786572 0.003
## exportaciones_anual7830019000 53331418 91251256 0.584
## exportaciones_anual7870962000 60706600 91251256 0.665
## exportaciones_anual790859000 -15435643 111759507 -0.138
## exportaciones_anual80907000 -21941 68438442 0.000
## exportaciones_anual820169000 -135474164 91251256 -1.485
## exportaciones_anual8466008000 -12575744 91251256 -0.138
## exportaciones_anual8476833000 -224960819 91251256 -2.465
## exportaciones_anual8495444000 55657928 91251256 0.610
## exportaciones_anual8534000 -6324 72140452 0.000
## exportaciones_anual871638000 -105063931 91251256 -1.151
## exportaciones_anual8829410000 -40562505 96786572 -0.419
## exportaciones_anual9147776000 -258898283 91251256 -2.837
## exportaciones_anual9372970000 -640224591 91251256 -7.016
## exportaciones_anual9505026000 -229554589 91251256 -2.516
## exportaciones_anual9650719000 65416021 91251256 0.717
## exportaciones_anual9806397000 -212125633 91251256 -2.325
## poblacion_ocupada_ensambladora_year1004 -460559 91251256 -0.005
## poblacion_ocupada_ensambladora_year1017 -88043944 91251256 -0.965
## poblacion_ocupada_ensambladora_year10714 35863369 91251256 0.393
## poblacion_ocupada_ensambladora_year1075 -35206 91251256 0.000
## poblacion_ocupada_ensambladora_year10767 3518043 91251256 0.039
## poblacion_ocupada_ensambladora_year11050 -118555603 111759507 -1.061
## poblacion_ocupada_ensambladora_year11361 -54924139 91251256 -0.602
## poblacion_ocupada_ensambladora_year11806 4344197 91251256 0.048
## poblacion_ocupada_ensambladora_year12073 -3121268 96786572 -0.032
## poblacion_ocupada_ensambladora_year12094 -64875837 91251256 -0.711
## poblacion_ocupada_ensambladora_year12217 6288286 91251256 0.069
## poblacion_ocupada_ensambladora_year124585 -36854211 91251256 -0.404
## poblacion_ocupada_ensambladora_year1247 347242 111759507 0.003
## poblacion_ocupada_ensambladora_year12650 -1079792 91251256 -0.012
## poblacion_ocupada_ensambladora_year12836 -8672226 91251256 -0.095
## poblacion_ocupada_ensambladora_year13072 -16160578 96786572 -0.167
## poblacion_ocupada_ensambladora_year13538 -26780130 111759507 -0.240
## poblacion_ocupada_ensambladora_year13866 -40099449 91251256 -0.439
## poblacion_ocupada_ensambladora_year13927 -1153337 91251256 -0.013
## poblacion_ocupada_ensambladora_year13995 -302686 91251256 -0.003
## poblacion_ocupada_ensambladora_year14221 -85427604 91251256 -0.936
## poblacion_ocupada_ensambladora_year144 18849 91251256 0.000
## poblacion_ocupada_ensambladora_year15136 68628 91251256 0.001
## poblacion_ocupada_ensambladora_year15762 -41948849 91251256 -0.460
## poblacion_ocupada_ensambladora_year15901 -56960344 91251256 -0.624
## poblacion_ocupada_ensambladora_year1601 -71923505 91251256 -0.788
## poblacion_ocupada_ensambladora_year1629 -83095837 111759507 -0.744
## poblacion_ocupada_ensambladora_year16844 3457658 96786572 0.036
## poblacion_ocupada_ensambladora_year1751 50233479 91251256 0.550
## poblacion_ocupada_ensambladora_year17726 -19904172 91251256 -0.218
## poblacion_ocupada_ensambladora_year1776 -95219290 91251256 -1.043
## poblacion_ocupada_ensambladora_year17790 1084572 111759507 0.010
## poblacion_ocupada_ensambladora_year17806 -125382498 91251256 -1.374
## poblacion_ocupada_ensambladora_year17876 -42916198 91251256 -0.470
## poblacion_ocupada_ensambladora_year18197 -6777176 91251256 -0.074
## poblacion_ocupada_ensambladora_year1827 -2927497 91251256 -0.032
## poblacion_ocupada_ensambladora_year18338 -809771 91251256 -0.009
## poblacion_ocupada_ensambladora_year186 9165298 91251256 0.100
## poblacion_ocupada_ensambladora_year1890 -56676 96786572 -0.001
## poblacion_ocupada_ensambladora_year19056 -676860 91251256 -0.007
## poblacion_ocupada_ensambladora_year19219 311407 91251256 0.003
## poblacion_ocupada_ensambladora_year19286 -16058828 91251256 -0.176
## poblacion_ocupada_ensambladora_year1945 12467581 91251256 0.137
## poblacion_ocupada_ensambladora_year19522 -175824860 91251256 -1.927
## poblacion_ocupada_ensambladora_year20047 2203070 91251256 0.024
## poblacion_ocupada_ensambladora_year217 -142230 91251256 -0.002
## poblacion_ocupada_ensambladora_year22383 5551012 96786572 0.057
## poblacion_ocupada_ensambladora_year2252 -243013 111759507 -0.002
## poblacion_ocupada_ensambladora_year2275 -718489 91251256 -0.008
## poblacion_ocupada_ensambladora_year22783 -17304874 91251256 -0.190
## poblacion_ocupada_ensambladora_year23106 -52789396 91251256 -0.579
## poblacion_ocupada_ensambladora_year23160 -124029766 91251256 -1.359
## poblacion_ocupada_ensambladora_year23209 -13521731 91251256 -0.148
## poblacion_ocupada_ensambladora_year23991 -586001 111759507 -0.005
## poblacion_ocupada_ensambladora_year25113 -55792481 111759507 -0.499
## poblacion_ocupada_ensambladora_year25660 -20874860 91251256 -0.229
## poblacion_ocupada_ensambladora_year25840 -3586940 96786572 -0.037
## poblacion_ocupada_ensambladora_year26248 9162092 91251256 0.100
## poblacion_ocupada_ensambladora_year2695 -13312374 91251256 -0.146
## poblacion_ocupada_ensambladora_year26950 -82012426 91251256 -0.899
## poblacion_ocupada_ensambladora_year27190 -31434153 91251256 -0.344
## poblacion_ocupada_ensambladora_year2720 -897442 91251256 -0.010
## poblacion_ocupada_ensambladora_year27286 19980870 91251256 0.219
## poblacion_ocupada_ensambladora_year27319 -8580815 91251256 -0.094
## poblacion_ocupada_ensambladora_year281 -179512 96786572 -0.002
## poblacion_ocupada_ensambladora_year28299 -57488134 91251256 -0.630
## poblacion_ocupada_ensambladora_year28505 20100158 91251256 0.220
## poblacion_ocupada_ensambladora_year28631 13816454 91251256 0.151
## poblacion_ocupada_ensambladora_year29188 -167555153 111759507 -1.499
## poblacion_ocupada_ensambladora_year29560 45453217 91251256 0.498
## poblacion_ocupada_ensambladora_year29817 -25979462 111759507 -0.232
## poblacion_ocupada_ensambladora_year29949 -114226180 96786572 -1.180
## poblacion_ocupada_ensambladora_year3006 225081 91251256 0.002
## poblacion_ocupada_ensambladora_year30939 -25825311 91251256 -0.283
## poblacion_ocupada_ensambladora_year31 -3217378 111759507 -0.029
## poblacion_ocupada_ensambladora_year31326 -106568309 91251256 -1.168
## poblacion_ocupada_ensambladora_year31593 -104642318 91251256 -1.147
## poblacion_ocupada_ensambladora_year3167 -1798870 91251256 -0.020
## poblacion_ocupada_ensambladora_year31902 -121670560 91251256 -1.333
## poblacion_ocupada_ensambladora_year32058 -33656603 96786572 -0.348
## poblacion_ocupada_ensambladora_year32214 15554329 91251256 0.170
## poblacion_ocupada_ensambladora_year32397 37768179 91251256 0.414
## poblacion_ocupada_ensambladora_year32737 -53610402 91251256 -0.588
## poblacion_ocupada_ensambladora_year33776 215286084 91251256 2.359
## poblacion_ocupada_ensambladora_year34166 -94222870 111759507 -0.843
## poblacion_ocupada_ensambladora_year34184 -20954762 96786572 -0.217
## poblacion_ocupada_ensambladora_year3467 -904444 91251256 -0.010
## poblacion_ocupada_ensambladora_year35667 -69484094 91251256 -0.761
## poblacion_ocupada_ensambladora_year35925 5486149 96786572 0.057
## poblacion_ocupada_ensambladora_year36108 151827074 91251256 1.664
## poblacion_ocupada_ensambladora_year3639 NA NA NA
## poblacion_ocupada_ensambladora_year36416 -61548729 111759507 -0.551
## poblacion_ocupada_ensambladora_year3658 -43946892 91251256 -0.482
## poblacion_ocupada_ensambladora_year367 9654679 91251256 0.106
## poblacion_ocupada_ensambladora_year37632 38184829 91251256 0.418
## poblacion_ocupada_ensambladora_year37833 75736097 91251256 0.830
## poblacion_ocupada_ensambladora_year3798 -6966401 91251256 -0.076
## poblacion_ocupada_ensambladora_year38 -4404019 96786572 -0.046
## poblacion_ocupada_ensambladora_year38917 -117612533 91251256 -1.289
## poblacion_ocupada_ensambladora_year3903 -2301816 91251256 -0.025
## poblacion_ocupada_ensambladora_year4011 -17089163 91251256 -0.187
## poblacion_ocupada_ensambladora_year4036 -18221227 91251256 -0.200
## poblacion_ocupada_ensambladora_year40376 77445857 96786572 0.800
## poblacion_ocupada_ensambladora_year40801 -29163382 91251256 -0.320
## poblacion_ocupada_ensambladora_year41376 -27715009 91251256 -0.304
## poblacion_ocupada_ensambladora_year4155 -8749699 91251256 -0.096
## poblacion_ocupada_ensambladora_year4164 -108398680 91251256 -1.188
## poblacion_ocupada_ensambladora_year42428 -7362946 91251256 -0.081
## poblacion_ocupada_ensambladora_year447 75389 96786572 0.001
## poblacion_ocupada_ensambladora_year45674 -68623977 91251256 -0.752
## poblacion_ocupada_ensambladora_year45735 -6458650 91251256 -0.071
## poblacion_ocupada_ensambladora_year4615 293862359 111759507 2.629
## poblacion_ocupada_ensambladora_year46197 -46607356 91251256 -0.511
## poblacion_ocupada_ensambladora_year4650 -10890470 91251256 -0.119
## poblacion_ocupada_ensambladora_year47540 -16067982 91251256 -0.176
## poblacion_ocupada_ensambladora_year48229 31896093 91251256 0.350
## poblacion_ocupada_ensambladora_year48921 -91225168 91251256 -1.000
## poblacion_ocupada_ensambladora_year49658 -34749319 111759507 -0.311
## poblacion_ocupada_ensambladora_year5022 -3932948 111759507 -0.035
## poblacion_ocupada_ensambladora_year50292 -9813744 91251256 -0.108
## poblacion_ocupada_ensambladora_year5078 -3216880 91251256 -0.035
## poblacion_ocupada_ensambladora_year5096 -101087692 91251256 -1.108
## poblacion_ocupada_ensambladora_year50998 -20268445 111759507 -0.181
## poblacion_ocupada_ensambladora_year513 -274024 91251256 -0.003
## poblacion_ocupada_ensambladora_year52 -643859 111759507 -0.006
## poblacion_ocupada_ensambladora_year528 -2590548 91251256 -0.028
## poblacion_ocupada_ensambladora_year52931 -25848730 91251256 -0.283
## poblacion_ocupada_ensambladora_year542 -347818 91251256 -0.004
## poblacion_ocupada_ensambladora_year5455 -45699225 91251256 -0.501
## poblacion_ocupada_ensambladora_year5523 -5647738 91251256 -0.062
## poblacion_ocupada_ensambladora_year5628 52901970 91251256 0.580
## poblacion_ocupada_ensambladora_year589 1159688 91251256 0.013
## poblacion_ocupada_ensambladora_year59620 -48338233 96786572 -0.499
## poblacion_ocupada_ensambladora_year6014 2633896 91251256 0.029
## poblacion_ocupada_ensambladora_year604 -19689796 91251256 -0.216
## poblacion_ocupada_ensambladora_year6077 -21888684 91251256 -0.240
## poblacion_ocupada_ensambladora_year6144 -79169552 91251256 -0.868
## poblacion_ocupada_ensambladora_year6165 -1511708 96786572 -0.016
## poblacion_ocupada_ensambladora_year645 121634327 96786572 1.257
## poblacion_ocupada_ensambladora_year65410 -23297724 91251256 -0.255
## poblacion_ocupada_ensambladora_year658 -1402906 96786572 -0.014
## poblacion_ocupada_ensambladora_year6783 -22234167 91251256 -0.244
## poblacion_ocupada_ensambladora_year7005 67293287 91251256 0.737
## poblacion_ocupada_ensambladora_year7010 1938695 91251256 0.021
## poblacion_ocupada_ensambladora_year7161 8678999 91251256 0.095
## poblacion_ocupada_ensambladora_year7357 1422081 91251256 0.016
## poblacion_ocupada_ensambladora_year74914 -59645793 91251256 -0.654
## poblacion_ocupada_ensambladora_year7497 -4275771 91251256 -0.047
## poblacion_ocupada_ensambladora_year7538 -18424627 111759507 -0.165
## poblacion_ocupada_ensambladora_year76042 -114231092 111759507 -1.022
## poblacion_ocupada_ensambladora_year7608 29441648 96786572 0.304
## poblacion_ocupada_ensambladora_year76195 82961075 91251256 0.909
## poblacion_ocupada_ensambladora_year7631 -12884346 111759507 -0.115
## poblacion_ocupada_ensambladora_year7694 -48819924 91251256 -0.535
## poblacion_ocupada_ensambladora_year7695 -69773414 91251256 -0.765
## poblacion_ocupada_ensambladora_year7697 8339266 91251256 0.091
## poblacion_ocupada_ensambladora_year7710 -43854614 91251256 -0.481
## poblacion_ocupada_ensambladora_year781 -12619850 91251256 -0.138
## poblacion_ocupada_ensambladora_year786 -23329874 91251256 -0.256
## poblacion_ocupada_ensambladora_year7889 7014715 91251256 0.077
## poblacion_ocupada_ensambladora_year8134 -65589088 91251256 -0.719
## poblacion_ocupada_ensambladora_year82050 -23110586 96786572 -0.239
## poblacion_ocupada_ensambladora_year83186 -19096394 91251256 -0.209
## poblacion_ocupada_ensambladora_year8415 -27008420 91251256 -0.296
## poblacion_ocupada_ensambladora_year84649 -55353682 91251256 -0.607
## poblacion_ocupada_ensambladora_year8538 -8057359 91251256 -0.088
## poblacion_ocupada_ensambladora_year8589 39108540 96786572 0.404
## poblacion_ocupada_ensambladora_year8763 135729108 91251256 1.487
## poblacion_ocupada_ensambladora_year915 -688053 91251256 -0.008
## poblacion_ocupada_ensambladora_year9218 -5708698 96786572 -0.059
## poblacion_ocupada_ensambladora_year9264 -32598664 91251256 -0.357
## poblacion_ocupada_ensambladora_year93703 -96097287 91251256 -1.053
## poblacion_ocupada_ensambladora_year9692 -24590049 91251256 -0.269
## poblacion_ocupada_ensambladora_year9849 -92408345 91251256 -1.013
## poblacion_ocupada_ensambladora_year990 -189413 91251256 -0.002
## Pr(>|t|)
## (Intercept) 7.91e-05 ***
## estadoBaja California 0.460816
## estadoCampeche 0.004987 **
## estadoChihuahua 0.000425 ***
## estadoCiudad de Mexico 5.41e-07 ***
## estadoCoahuila de Zaragoza < 2e-16 ***
## estadoColima 0.005002 **
## estadoDurango 0.025336 *
## estadoEstado de Mexico 0.731814
## estadoGuanajuato 5.19e-08 ***
## estadoHidalgo 0.005965 **
## estadoJalisco 0.375793
## estadoMorelos 0.012071 *
## estadoNuevo Leon 1.48e-05 ***
## estadoPuebla 2.93e-07 ***
## estadoQueretaro 1.41e-10 ***
## estadoQuintana Roo 0.001215 **
## estadoSan Luis Potosi 0.266626
## estadoSonora 0.042535 *
## estadoTamaulipas 0.006944 **
## estadoTlaxcala 0.012781 *
## estadoVeracruz de Ignacio de la Llave 0.007983 **
## estadoYucatan 0.005001 **
## estadoZacatecas 0.009008 **
## exportaciones_anual10141642000 2.20e-11 ***
## exportaciones_anual10314836000 0.008108 **
## exportaciones_anual10398672000 0.390040
## exportaciones_anual10400467000 0.019577 *
## exportaciones_anual10478612000 0.013343 *
## exportaciones_anual10594592000 3.45e-12 ***
## exportaciones_anual10701591000 0.058131 .
## exportaciones_anual11146761000 0.000788 ***
## exportaciones_anual1116042000 0.999555
## exportaciones_anual1119625000 0.999858
## exportaciones_anual11227331000 0.033364 *
## exportaciones_anual11449692000 0.568943
## exportaciones_anual1165750000 0.089097 .
## exportaciones_anual11738889000 0.000509 ***
## exportaciones_anual11794073000 0.377462
## exportaciones_anual12035000 0.999764
## exportaciones_anual12044484000 0.659376
## exportaciones_anual1238308000 0.977303
## exportaciones_anual1262654000 0.999673
## exportaciones_anual1278536000 0.745031
## exportaciones_anual12868798000 0.096335 .
## exportaciones_anual1301171000 0.948587
## exportaciones_anual1307252000 0.757835
## exportaciones_anual1310801000 0.784289
## exportaciones_anual1318941000 0.963832
## exportaciones_anual1323153000 0.954363
## exportaciones_anual13360587000 0.019778 *
## exportaciones_anual13514349000 7.01e-07 ***
## exportaciones_anual13664629000 0.122623
## exportaciones_anual1379964000 0.793816
## exportaciones_anual14009625000 0.415017
## exportaciones_anual1428633000 0.969828
## exportaciones_anual1440918000 0.855340
## exportaciones_anual1448674000 0.920153
## exportaciones_anual14512000 0.999881
## exportaciones_anual1460627000 0.027060 *
## exportaciones_anual1460865000 0.929814
## exportaciones_anual1470940000 0.999583
## exportaciones_anual15019152000 8.35e-11 ***
## exportaciones_anual15120233000 0.723833
## exportaciones_anual15294350000 0.069948 .
## exportaciones_anual15531676000 0.238673
## exportaciones_anual15611884000 0.406936
## exportaciones_anual16121000 0.999751
## exportaciones_anual1654784000 0.489295
## exportaciones_anual16642906000 0.717893
## exportaciones_anual1672357000 0.495908
## exportaciones_anual16837910000 5.59e-08 ***
## exportaciones_anual16895883000 0.207333
## exportaciones_anual17204369000 0.007015 **
## exportaciones_anual1721651000 0.952264
## exportaciones_anual1726504000 0.948901
## exportaciones_anual17332223000 0.300118
## exportaciones_anual17443597000 0.261214
## exportaciones_anual1752495000 0.492209
## exportaciones_anual17544423000 0.138515
## exportaciones_anual17547974000 1.53e-06 ***
## exportaciones_anual17735407000 0.254083
## exportaciones_anual17877862000 0.907433
## exportaciones_anual1813156000 0.027561 *
## exportaciones_anual18601992000 0.336980
## exportaciones_anual1861966000 0.493199
## exportaciones_anual18687648000 0.786756
## exportaciones_anual18737712000 0.175811
## exportaciones_anual18985000 0.999939
## exportaciones_anual191993000 NA
## exportaciones_anual19737684000 0.391870
## exportaciones_anual19840531000 0.031101 *
## exportaciones_anual19863200000 0.012341 *
## exportaciones_anual20010001000 0.746897
## exportaciones_anual20026441000 0.128721
## exportaciones_anual20093245000 0.563885
## exportaciones_anual20335098000 0.515806
## exportaciones_anual20787831000 0.053454 .
## exportaciones_anual21133618000 0.896160
## exportaciones_anual2127000000 0.559867
## exportaciones_anual2128076000 0.124878
## exportaciones_anual21392726000 0.351536
## exportaciones_anual21659640000 0.761275
## exportaciones_anual22099835000 0.123811
## exportaciones_anual2242354000 0.957630
## exportaciones_anual22472408000 0.285657
## exportaciones_anual22985164000 0.839923
## exportaciones_anual2299343000 0.953889
## exportaciones_anual2301925000 NA
## exportaciones_anual2302851000 0.000191 ***
## exportaciones_anual23360290000 0.336644
## exportaciones_anual2376795000 0.954388
## exportaciones_anual24048744000 0.001074 **
## exportaciones_anual2452302000 7.69e-07 ***
## exportaciones_anual24926226000 0.826719
## exportaciones_anual25065798000 0.108328
## exportaciones_anual25504680000 0.264642
## exportaciones_anual25507316000 0.978798
## exportaciones_anual26300102000 0.638999
## exportaciones_anual2630544000 0.001629 **
## exportaciones_anual2632148000 0.873109
## exportaciones_anual2667126000 0.779983
## exportaciones_anual26736210000 0.453803
## exportaciones_anual2684823000 0.851311
## exportaciones_anual2705297000 3.32e-07 ***
## exportaciones_anual27314741000 0.235717
## exportaciones_anual2737230000 0.726566
## exportaciones_anual27397995000 0.660314
## exportaciones_anual2760694000 0.885648
## exportaciones_anual2793509000 0.932554
## exportaciones_anual2873522000 0.985551
## exportaciones_anual2880494000 0.771551
## exportaciones_anual29130161000 0.385196
## exportaciones_anual2946392000 0.975096
## exportaciones_anual3026698000 0.986198
## exportaciones_anual30529987000 0.112850
## exportaciones_anual3086705000 0.875644
## exportaciones_anual3086747000 0.968443
## exportaciones_anual3141633000 0.980395
## exportaciones_anual31513013000 0.020031 *
## exportaciones_anual3157991000 0.930865
## exportaciones_anual32177305000 0.029761 *
## exportaciones_anual3325166000 0.962159
## exportaciones_anual3402758000 0.733918
## exportaciones_anual34511011000 0.002198 **
## exportaciones_anual34522156000 0.179426
## exportaciones_anual34590332000 0.595705
## exportaciones_anual34838926000 5.95e-12 ***
## exportaciones_anual3490783000 0.763448
## exportaciones_anual35002851000 0.038256 *
## exportaciones_anual35997280000 0.060790 .
## exportaciones_anual36004725000 0.048844 *
## exportaciones_anual36251770000 1.84e-09 ***
## exportaciones_anual36315716000 0.043994 *
## exportaciones_anual3657768000 0.976793
## exportaciones_anual37699563000 2.51e-08 ***
## exportaciones_anual3791586000 0.760401
## exportaciones_anual38441996000 0.069528 .
## exportaciones_anual38572482000 0.000247 ***
## exportaciones_anual38950677000 4.00e-07 ***
## exportaciones_anual39615279000 0.002951 **
## exportaciones_anual39857053000 0.039256 *
## exportaciones_anual39896454000 0.050207 .
## exportaciones_anual40659059000 0.140168
## exportaciones_anual41034808000 3.96e-06 ***
## exportaciones_anual42396951000 0.289185
## exportaciones_anual4339856000 0.880619
## exportaciones_anual44961569000 1.01e-11 ***
## exportaciones_anual47659461000 2.58e-05 ***
## exportaciones_anual4862567000 0.948547
## exportaciones_anual52231000 0.999894
## exportaciones_anual522839000 0.994734
## exportaciones_anual5352788000 0.918017
## exportaciones_anual5362863000 0.890841
## exportaciones_anual582973000 0.999327
## exportaciones_anual587504000 0.057760 .
## exportaciones_anual606131000 0.068173 .
## exportaciones_anual6367193000 0.906729
## exportaciones_anual6697248000 0.923728
## exportaciones_anual716061000 0.999850
## exportaciones_anual722027000 0.943763
## exportaciones_anual726530000 0.071212 .
## exportaciones_anual729883000 0.002790 **
## exportaciones_anual735262000 0.997971
## exportaciones_anual7830019000 0.559335
## exportaciones_anual7870962000 0.506361
## exportaciones_anual790859000 0.890237
## exportaciones_anual80907000 0.999744
## exportaciones_anual820169000 0.138633
## exportaciones_anual8466008000 0.890474
## exportaciones_anual8476833000 0.014218 *
## exportaciones_anual8495444000 0.542336
## exportaciones_anual8534000 0.999930
## exportaciones_anual871638000 0.250445
## exportaciones_anual8829410000 0.675432
## exportaciones_anual9147776000 0.004843 **
## exportaciones_anual9372970000 1.38e-11 ***
## exportaciones_anual9505026000 0.012374 *
## exportaciones_anual9650719000 0.473976
## exportaciones_anual9806397000 0.020721 *
## poblacion_ocupada_ensambladora_year1004 0.995976
## poblacion_ocupada_ensambladora_year1017 0.335352
## poblacion_ocupada_ensambladora_year10714 0.694570
## poblacion_ocupada_ensambladora_year1075 0.999692
## poblacion_ocupada_ensambladora_year10767 0.969271
## poblacion_ocupada_ensambladora_year11050 0.289581
## poblacion_ocupada_ensambladora_year11361 0.547670
## poblacion_ocupada_ensambladora_year11806 0.962059
## poblacion_ocupada_ensambladora_year12073 0.974294
## poblacion_ocupada_ensambladora_year12094 0.477631
## poblacion_ocupada_ensambladora_year12217 0.945103
## poblacion_ocupada_ensambladora_year124585 0.686575
## poblacion_ocupada_ensambladora_year1247 0.997523
## poblacion_ocupada_ensambladora_year12650 0.990566
## poblacion_ocupada_ensambladora_year12836 0.924345
## poblacion_ocupada_ensambladora_year13072 0.867499
## poblacion_ocupada_ensambladora_year13538 0.810777
## poblacion_ocupada_ensambladora_year13866 0.660641
## poblacion_ocupada_ensambladora_year13927 0.989924
## poblacion_ocupada_ensambladora_year13995 0.997355
## poblacion_ocupada_ensambladora_year14221 0.349891
## poblacion_ocupada_ensambladora_year144 0.999835
## poblacion_ocupada_ensambladora_year15136 0.999400
## poblacion_ocupada_ensambladora_year15762 0.646041
## poblacion_ocupada_ensambladora_year15901 0.532934
## poblacion_ocupada_ensambladora_year1601 0.431172
## poblacion_ocupada_ensambladora_year1629 0.457714
## poblacion_ocupada_ensambladora_year16844 0.971524
## poblacion_ocupada_ensambladora_year1751 0.582365
## poblacion_ocupada_ensambladora_year17726 0.827472
## poblacion_ocupada_ensambladora_year1776 0.297516
## poblacion_ocupada_ensambladora_year17790 0.992263
## poblacion_ocupada_ensambladora_year17806 0.170398
## poblacion_ocupada_ensambladora_year17876 0.638457
## poblacion_ocupada_ensambladora_year18197 0.940843
## poblacion_ocupada_ensambladora_year1827 0.974427
## poblacion_ocupada_ensambladora_year18338 0.992925
## poblacion_ocupada_ensambladora_year186 0.920058
## poblacion_ocupada_ensambladora_year1890 0.999533
## poblacion_ocupada_ensambladora_year19056 0.994086
## poblacion_ocupada_ensambladora_year19219 0.997279
## poblacion_ocupada_ensambladora_year19286 0.860418
## poblacion_ocupada_ensambladora_year1945 0.891410
## poblacion_ocupada_ensambladora_year19522 0.054893 .
## poblacion_ocupada_ensambladora_year20047 0.980754
## poblacion_ocupada_ensambladora_year217 0.998757
## poblacion_ocupada_ensambladora_year22383 0.954300
## poblacion_ocupada_ensambladora_year2252 0.998266
## poblacion_ocupada_ensambladora_year2275 0.993723
## poblacion_ocupada_ensambladora_year22783 0.849712
## poblacion_ocupada_ensambladora_year23106 0.563332
## poblacion_ocupada_ensambladora_year23160 0.175043
## poblacion_ocupada_ensambladora_year23209 0.882294
## poblacion_ocupada_ensambladora_year23991 0.995820
## poblacion_ocupada_ensambladora_year25113 0.617970
## poblacion_ocupada_ensambladora_year25660 0.819201
## poblacion_ocupada_ensambladora_year25840 0.970460
## poblacion_ocupada_ensambladora_year26248 0.920086
## poblacion_ocupada_ensambladora_year2695 0.884103
## poblacion_ocupada_ensambladora_year26950 0.369464
## poblacion_ocupada_ensambladora_year27190 0.730714
## poblacion_ocupada_ensambladora_year2720 0.992159
## poblacion_ocupada_ensambladora_year27286 0.826817
## poblacion_ocupada_ensambladora_year27319 0.925141
## poblacion_ocupada_ensambladora_year281 0.998521
## poblacion_ocupada_ensambladora_year28299 0.529148
## poblacion_ocupada_ensambladora_year28505 0.825800
## poblacion_ocupada_ensambladora_year28631 0.879747
## poblacion_ocupada_ensambladora_year29188 0.134802
## poblacion_ocupada_ensambladora_year29560 0.618750
## poblacion_ocupada_ensambladora_year29817 0.816331
## poblacion_ocupada_ensambladora_year29949 0.238808
## poblacion_ocupada_ensambladora_year3006 0.998033
## poblacion_ocupada_ensambladora_year30939 0.777351
## poblacion_ocupada_ensambladora_year31 0.977051
## poblacion_ocupada_ensambladora_year31326 0.243740
## poblacion_ocupada_ensambladora_year31593 0.252347
## poblacion_ocupada_ensambladora_year3167 0.984284
## poblacion_ocupada_ensambladora_year31902 0.183369
## poblacion_ocupada_ensambladora_year32058 0.728265
## poblacion_ocupada_ensambladora_year32214 0.864760
## poblacion_ocupada_ensambladora_year32397 0.679232
## poblacion_ocupada_ensambladora_year32737 0.557283
## poblacion_ocupada_ensambladora_year33776 0.018915 *
## poblacion_ocupada_ensambladora_year34166 0.399814
## poblacion_ocupada_ensambladora_year34184 0.828733
## poblacion_ocupada_ensambladora_year3467 0.992098
## poblacion_ocupada_ensambladora_year35667 0.446947
## poblacion_ocupada_ensambladora_year35925 0.954833
## poblacion_ocupada_ensambladora_year36108 0.097130 .
## poblacion_ocupada_ensambladora_year3639 NA
## poblacion_ocupada_ensambladora_year36416 0.582209
## poblacion_ocupada_ensambladora_year3658 0.630419
## poblacion_ocupada_ensambladora_year367 0.915805
## poblacion_ocupada_ensambladora_year37632 0.675895
## poblacion_ocupada_ensambladora_year37833 0.407177
## poblacion_ocupada_ensambladora_year3798 0.939194
## poblacion_ocupada_ensambladora_year38 0.963735
## poblacion_ocupada_ensambladora_year38917 0.198374
## poblacion_ocupada_ensambladora_year3903 0.979891
## poblacion_ocupada_ensambladora_year4011 0.851564
## poblacion_ocupada_ensambladora_year4036 0.841857
## poblacion_ocupada_ensambladora_year40376 0.424209
## poblacion_ocupada_ensambladora_year40801 0.749486
## poblacion_ocupada_ensambladora_year41376 0.761538
## poblacion_ocupada_ensambladora_year4155 0.923672
## poblacion_ocupada_ensambladora_year4164 0.235754
## poblacion_ocupada_ensambladora_year42428 0.935740
## poblacion_ocupada_ensambladora_year447 0.999379
## poblacion_ocupada_ensambladora_year45674 0.452587
## poblacion_ocupada_ensambladora_year45735 0.943618
## poblacion_ocupada_ensambladora_year4615 0.008969 **
## poblacion_ocupada_ensambladora_year46197 0.609875
## poblacion_ocupada_ensambladora_year4650 0.905077
## poblacion_ocupada_ensambladora_year47540 0.860339
## poblacion_ocupada_ensambladora_year48229 0.726914
## poblacion_ocupada_ensambladora_year48921 0.318209
## poblacion_ocupada_ensambladora_year49658 0.756058
## poblacion_ocupada_ensambladora_year5022 0.971949
## poblacion_ocupada_ensambladora_year50292 0.914423
## poblacion_ocupada_ensambladora_year5078 0.971900
## poblacion_ocupada_ensambladora_year5096 0.268788
## poblacion_ocupada_ensambladora_year50998 0.856202
## poblacion_ocupada_ensambladora_year513 0.997606
## poblacion_ocupada_ensambladora_year52 0.995407
## poblacion_ocupada_ensambladora_year528 0.977370
## poblacion_ocupada_ensambladora_year52931 0.777154
## poblacion_ocupada_ensambladora_year542 0.996961
## poblacion_ocupada_ensambladora_year5455 0.616854
## poblacion_ocupada_ensambladora_year5523 0.950688
## poblacion_ocupada_ensambladora_year5628 0.562501
## poblacion_ocupada_ensambladora_year589 0.989868
## poblacion_ocupada_ensambladora_year59620 0.617821
## poblacion_ocupada_ensambladora_year6014 0.976991
## poblacion_ocupada_ensambladora_year604 0.829301
## poblacion_ocupada_ensambladora_year6077 0.810583
## poblacion_ocupada_ensambladora_year6144 0.386268
## poblacion_ocupada_ensambladora_year6165 0.987548
## poblacion_ocupada_ensambladora_year645 0.209775
## poblacion_ocupada_ensambladora_year65410 0.798646
## poblacion_ocupada_ensambladora_year658 0.988444
## poblacion_ocupada_ensambladora_year6783 0.807652
## poblacion_ocupada_ensambladora_year7005 0.461392
## poblacion_ocupada_ensambladora_year7010 0.983063
## poblacion_ocupada_ensambladora_year7161 0.924287
## poblacion_ocupada_ensambladora_year7357 0.987576
## poblacion_ocupada_ensambladora_year74914 0.513814
## poblacion_ocupada_ensambladora_year7497 0.962657
## poblacion_ocupada_ensambladora_year7538 0.869159
## poblacion_ocupada_ensambladora_year76042 0.307503
## poblacion_ocupada_ensambladora_year7608 0.761181
## poblacion_ocupada_ensambladora_year76195 0.363960
## poblacion_ocupada_ensambladora_year7631 0.908291
## poblacion_ocupada_ensambladora_year7694 0.593020
## poblacion_ocupada_ensambladora_year7695 0.445059
## poblacion_ocupada_ensambladora_year7697 0.927242
## poblacion_ocupada_ensambladora_year7710 0.631137
## poblacion_ocupada_ensambladora_year781 0.890093
## poblacion_ocupada_ensambladora_year786 0.798374
## poblacion_ocupada_ensambladora_year7889 0.938773
## poblacion_ocupada_ensambladora_year8134 0.472808
## poblacion_ocupada_ensambladora_year82050 0.811431
## poblacion_ocupada_ensambladora_year83186 0.834369
## poblacion_ocupada_ensambladora_year8415 0.767440
## poblacion_ocupada_ensambladora_year84649 0.544544
## poblacion_ocupada_ensambladora_year8538 0.929695
## poblacion_ocupada_ensambladora_year8589 0.686433
## poblacion_ocupada_ensambladora_year8763 0.137894
## poblacion_ocupada_ensambladora_year915 0.993989
## poblacion_ocupada_ensambladora_year9218 0.953003
## poblacion_ocupada_ensambladora_year9264 0.721149
## poblacion_ocupada_ensambladora_year93703 0.293092
## poblacion_ocupada_ensambladora_year9692 0.787738
## poblacion_ocupada_ensambladora_year9849 0.311983
## poblacion_ocupada_ensambladora_year990 0.998345
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 79030000 on 318 degrees of freedom
## Multiple R-squared: 0.9716, Adjusted R-squared: 0.9384
## F-statistic: 29.28 on 371 and 318 DF, p-value: < 2.2e-16
regresion2 <- lm(Total_Produccion ~ Año + Produccion, data=bd5)
summary(regresion2)##
## Call:
## lm(formula = Total_Produccion ~ Año + Produccion, data = bd5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -156662104 -2346480 -288323 745268 98830383
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.083e+09 5.845e+08 3.563 0.000400 ***
## Año -1.031e+06 2.896e+05 -3.561 0.000402 ***
## Produccion 5.394e+00 7.845e-02 68.757 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11410000 on 531 degrees of freedom
## Multiple R-squared: 0.899, Adjusted R-squared: 0.8986
## F-statistic: 2364 on 2 and 531 DF, p-value: < 2.2e-16
bd5 <- data.frame(Año=2022, Produccion= 170000000)
predict(regresion2,bd5)## 1
## 914196926
Para la primera regresion definimos la variable de “Ventas de autopartes anuales” como la variable dependiente, seleccionamos exportaciones anuales, la poblacion ocupada y los estados como independientes y podemos observar que, estados es una variable significativa, principalmete en estados específicos como Chihuahua, Ciudad de Mexico, Zaragoza, Guanajuato, Nuevo León, Puebla y Queretaro, con esto podemos inferir que dichos estados tienen una mayor fuerza en la industria automotriz.
En la regresion 2, de acuerdo a los datos estimados, se ve que las variables de año y producción son igualmente significativas para la variable dependiente. En el caso de año, este tiene un impacto negativo sobre la otra y la producción tiene una estimación positiva. El modelo anterior nos muestra cuánto se estima que se producirá a nivel global en la industria del cartón para 2022. De acuerdo a una producción total aproximada de 170 millones de cartón en 2021, se espera que en 2022 se produzcan 914,196,926. En este caso, el prónostico fue realizado al crear un nuevo ‘data frame’ y al implementar la función de ‘lm’, usada para crear análisis regresivos y predictivos.
bd6 <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/externa_bd3 csv3.csv")
summary(bd6)## Año USA MEX
## Min. :2016 Min. :48847 Min. :103443
## 1st Qu.:2017 1st Qu.:52256 1st Qu.:114333
## Median :2018 Median :54328 Median :124555
## Mean :2018 Mean :53932 Mean :123036
## 3rd Qu.:2020 3rd Qu.:55203 3rd Qu.:129521
## Max. :2021 Max. :59031 Max. :143561
sum(is.na(bd6))## [1] 0
summary(bd6)## Año USA MEX
## Min. :2016 Min. :48847 Min. :103443
## 1st Qu.:2017 1st Qu.:52256 1st Qu.:114333
## Median :2018 Median :54328 Median :124555
## Mean :2018 Mean :53932 Mean :123036
## 3rd Qu.:2020 3rd Qu.:55203 3rd Qu.:129521
## Max. :2021 Max. :59031 Max. :143561
str(bd6)## 'data.frame': 6 obs. of 3 variables:
## $ Año: int 2016 2017 2018 2019 2020 2021
## $ USA: num 48847 51672 54006 55387 54651 ...
## $ MEX: num 103443 112231 120638 128471 129871 ...
regresion3 <- lm(MEX ~ USA + Año, data=bd6)
summary(regresion3)##
## Call:
## lm(formula = MEX ~ USA + Año, data = bd6)
##
## Residuals:
## 1 2 3 4 5 6
## 574.6 -373.0 -664.0 478.2 -345.3 329.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.614e+06 1.010e+06 -7.540 0.00484 **
## USA 2.109e+00 2.749e-01 7.674 0.00460 **
## Año 3.777e+03 5.072e+02 7.446 0.00501 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 675 on 3 degrees of freedom
## Multiple R-squared: 0.9986, Adjusted R-squared: 0.9977
## F-statistic: 1100 on 2 and 3 DF, p-value: 5.023e-05
regresion3 <- lm(MEX ~ Año, data=bd6)
summary(regresion3)##
## Call:
## lm(formula = MEX ~ Año, data = bd6)
##
## Residuals:
## 1 2 3 4 5 6
## -925.5 395.3 1336.2 1701.6 -4365.0 1857.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.495e+07 1.281e+06 -11.67 0.000308 ***
## Año 7.467e+03 6.347e+02 11.77 0.000299 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2655 on 4 degrees of freedom
## Multiple R-squared: 0.9719, Adjusted R-squared: 0.9649
## F-statistic: 138.4 on 1 and 4 DF, p-value: 0.0002986
bd6 <- data.frame(Año=2022, Produccion= 740000)
predict(regresion3,bd6)## 1
## 149170.3
ggplot(bd6, aes(x=Año, y=Produccion))+
geom_point() +
geom_line(aes(y=Produccion), color="red", linetype="dashed") +
geom_line(aes(y=Produccion), color="red", linetype="dashed") +
geom_smooth(method=lm, formula=y~x, se=TRUE, level=0.95, col='blue', fill='pink2') +
theme_light()## geom_path: Each group consists of only one observation. Do you need to adjust
## the group aesthetic?
## geom_path: Each group consists of only one observation. Do you need to adjust
## the group aesthetic?
La predicción anterior nos arroja que hay un impacto positivo y significativo entre la variable Año y la variable dependiente. Esto significa que hay una predicción positiva de crecimiento acorde al año. De acuerdo a la producción total generada por México de 2016 a 2021 (740 M), el modelo pronóstico estima que en 2022 producirá 149,170.3. En la gráfica previa se muestra el punto de predicción. Si analizamos la producción de 2021 contra el pronóstico de 2022, se estima que la producción mexicana disminuirá. Podemos suponer que esto se debe a la deficiencia en la cadena de suministro global, así como factores económicos globales.
bd6 <-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/externa_bd3 csv3.csv")
summary(bd6)## Año USA MEX
## Min. :2016 Min. :48847 Min. :103443
## 1st Qu.:2017 1st Qu.:52256 1st Qu.:114333
## Median :2018 Median :54328 Median :124555
## Mean :2018 Mean :53932 Mean :123036
## 3rd Qu.:2020 3rd Qu.:55203 3rd Qu.:129521
## Max. :2021 Max. :59031 Max. :143561
sum(is.na(bd6))## [1] 0
summary(bd6)## Año USA MEX
## Min. :2016 Min. :48847 Min. :103443
## 1st Qu.:2017 1st Qu.:52256 1st Qu.:114333
## Median :2018 Median :54328 Median :124555
## Mean :2018 Mean :53932 Mean :123036
## 3rd Qu.:2020 3rd Qu.:55203 3rd Qu.:129521
## Max. :2021 Max. :59031 Max. :143561
str(bd6)## 'data.frame': 6 obs. of 3 variables:
## $ Año: int 2016 2017 2018 2019 2020 2021
## $ USA: num 48847 51672 54006 55387 54651 ...
## $ MEX: num 103443 112231 120638 128471 129871 ...
regresion2 <- lm(USA ~ MEX + Año, data=bd6)
summary(regresion2)##
## Call:
## lm(formula = USA ~ MEX + Año, data = bd6)
##
## Residuals:
## 1 2 3 4 5 6
## -293.67 185.92 345.50 -187.61 63.41 -113.54
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.266e+06 8.915e+05 3.663 0.0352 *
## MEX 4.511e-01 5.878e-02 7.674 0.0046 **
## Año -1.619e+03 4.452e+02 -3.636 0.0358 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 312.1 on 3 degrees of freedom
## Multiple R-squared: 0.9951, Adjusted R-squared: 0.9918
## F-statistic: 304.3 on 2 and 3 DF, p-value: 0.0003435
regresion2 <- lm(USA ~ Año, data=bd6)
summary(regresion2)##
## Call:
## lm(formula = USA ~ Año, data = bd6)
##
## Residuals:
## 1 2 3 4 5 6
## -711.2 364.2 948.3 580.0 -1905.7 724.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3477589.1 592456.5 -5.870 0.00421 **
## Año 1749.6 293.5 5.961 0.00398 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1228 on 4 degrees of freedom
## Multiple R-squared: 0.8988, Adjusted R-squared: 0.8735
## F-statistic: 35.53 on 1 and 4 DF, p-value: 0.003977
bd6 <- data.frame(Año=2022, Produccion= 320000)
predict(regresion2,bd6)## 1
## 60055.85
Para la predicción de Estados Unidos, vemos que habrá un incremento en la producción de cartón contra 2021. Sin embargo, al analizar la producción total de México contra la producción total de Estados Unidos, vemos que la mexicana es mucho mayor. Podemos suponer que esto se debe debido a la mano de obra económica del mercado mexicano.
De acuerdo a la predicción anterior, se ve un incremento positivo para la variable México con la variable dependiente, a diferencia del año que muestra un impacto menor y negativo, pero igualmente significativo.
Del Desempeño de la Industria Automotriz y la Empresa FORM
#install.packages("forecast")
library(forecast)Pronosticar el desempeño de la industria automotriz (EUA y MEX) para los 3 periodos de tiempo.
#file.choose()
externo<- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/externa_bd3 csv3.csv")produccion_mexico<- c(externo$MEX)
produccion_usa<- c(externo$USA)produccionm<-ts(data=produccion_mexico, start=c(2016,1), frequency=1)
produccionu<-ts(data=produccion_usa, start=c(2016,1), frequency=1)
produccionm## Time Series:
## Start = 2016
## End = 2021
## Frequency = 1
## [1] 103442.8 112230.6 120638.5 128470.9 129871.3 143560.9
produccionu## Time Series:
## Start = 2016
## End = 2021
## Frequency = 1
## [1] 48847.2 51672.2 54005.8 55387.1 54651.0 59030.7
modelom<- auto.arima(produccionm, D=1)
modelou<- auto.arima(produccionu, D=1)
modelom## Series: produccionm
## ARIMA(0,1,0) with drift
##
## Coefficients:
## drift
## 8023.620
## s.e. 1752.032
##
## sigma^2 = 19186921: log likelihood = -48.46
## AIC=100.92 AICc=106.92 BIC=100.14
modelou## Series: produccionu
## ARIMA(0,1,0)
##
## sigma^2 = 7012061: log likelihood = -46.5
## AIC=95 AICc=96.34 BIC=94.61
pronosticom <- forecast(modelom, level=c(95), h=4)
pronosticom## Point Forecast Lo 95 Hi 95
## 2022 151584.5 142999.3 160169.7
## 2023 159608.1 147466.8 171749.5
## 2024 167631.8 152761.7 182501.8
## 2025 175655.4 158485.0 192825.8
plot(pronosticom)pronosticou <- forecast(modelou, level=c(95), h=4)
pronosticou## Point Forecast Lo 95 Hi 95
## 2022 59030.7 53840.66 64220.74
## 2023 59030.7 51690.87 66370.53
## 2024 59030.7 50041.28 68020.12
## 2025 59030.7 48650.61 69410.79
plot(pronosticou)Pronosticar el desempeño de produccion de Form para los proximos 3 periodos de tiempo.
#file.choose()
formproduccion<- read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/Form_produccionbaselimpia.csv")produccionform<- c(formproduccion$laminas_procesadas)produccionf<-ts(data=produccionform, start=c(2022,7), end=c(2025, 12), frequency=12)
produccionf## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2022 3 2 2 1 1 3
## 2023 2 5 5 10 5 1 5 7 12 4 7 1
## 2024 15 9 9 9 10 18 22 22 9 45 22 11
## 2025 22 11 11 21 11 11 11 6 11 11 11 11
modelof<- auto.arima(produccionf, D=1)
modelof## Series: produccionf
## ARIMA(2,1,0)(1,1,0)[12]
##
## Coefficients:
## ar1 ar2 sar1
## -0.7093 -0.3922 -0.6559
## s.e. 0.1707 0.1731 0.1338
##
## sigma^2 = 79.45: log likelihood = -106.7
## AIC=221.39 AICc=223.06 BIC=226.86
pronosticof <- forecast(modelof, level=c(95), h=3)
pronosticof## Point Forecast Lo 95 Hi 95
## Jan 2026 16.15982 -1.310707 33.63035
## Feb 2026 10.94925 -7.244608 29.14312
## Mar 2026 12.23183 -7.267676 31.73133
plot(pronosticof)Realizamos una serie de tiempo tanto para la base de la industria automotriz como para la base de producción de FORM, este es enfocado a las laminas procesadas cada mes y en la industria es por año. Para poder realizar este Analisis de Resultado realizamos una grafica y un modelo de Predicción por medio de la función auto.arima. Gracias a esta función, le especificamos desde que Fecha empezará a obtener datos de la base de Datos y también colocamos la frecuencia, que se refiere a cómo se comporta, en cuestión a si se va a calcular por mes o por año. Así mismo, obtuvimos para la industria tanto en México como en EU, que son los países en los que se enfoca más FORM y obtengan mejor oportunidad de crecimiento. Al realizar este modelo calculamos para los próximos 3 periodos, en este caso para el 2025 y obtuvimos los siguientes resultados:
Industria Automotriz en México:
Partiendo de un margen del 95%, queriendo decir, que este modelo es más preciso por lo que al ver la grafica obtenemos que tendrá un incremento constante en los próximos 3 años, partiendo del 2022.
Este crecimiento de la industria automotriz en México se estima un crecimiento del 16% para 2025, lo que beneficia a FORM para continuar produciendo en el mercado Mexicano.
Industria Automotriz en Estados Unidos:
Para 2022 el pronostico es de 59 mil, que este se puede mantener constante en los próximos 3 años hasta 2025.
Se obtiene un escenario optimista con la precisión del 95%, lo que quiere decir que para finales del 2025, puede estar igual en 59 mil o aumentar hasta los 69 mil. Esto indicaría que va en aumento año con año y terminaría el 2025 con un aumento del casi 20%. Lo que indicaría algo bueno para FORM, dandole oportunidad a aumentar su cartera de clientes dentro del mercado Estadounidense y teniendo un buen impacto de la industria para los próximos periodos.
Empresa FORM:
Se hizo el pronostico por mes y dando un periodo hasta el 2026, partiendo del 2022 con 3 en cuanto a producción de laminas procesadas, se estima que este tenga un aumento constante, ademas de que entre el 2024 y 2025 tenga un punto de pique más alto, que posteriormente volverá a estabilizarse pero que se mantendrá constante entre los 10 a 20 en producción.
Se pronostica que para el 2026 se tenga un 33 en producción del área de laminas procesadas, teniendo una precisión del 95% en un escenario optimista. Así mismo este se puede mantener constante en 10 o aumentar como se comentó anteriormente y este crecimiento a términos del 2026 tomando el escenario optimista, sería de poco mas del 90% lo que sería un gran aumento para FORM. También si fuera sin el 95% para inicios del 2026 serían 16 en producción con el 60% de aumento, lo que seguiría siendo algo importante para FORM.
Metodología de K-Means Clustering
1. K - means Clustering Contribuyen a la identificación de clusters, ya que K-means lo que hace es agrupar, quiere decir que esta función o algoritmo divide los datos u observaciones obtenidas en grupos con características similares. De esta manera es que se puede analizar con éxito cada Cluster, obteniendo información importante de cada variable y la similitudes entre ellas, lo que hace que sea más comprensible, ya que hace que los datos o información que no se puede procesar en información procesable. Un claro ejemplo de cómo funciona es teniendo grupos que comparten los mismos temas, imágenes con el mismo objeto o persona, etc.
2. Unsupervised Learning
Cuando se utiliza la función K-means se enfoca en agrupar datos no supervisados, esto quiere decir que K-means es un algoritmo no supervisado. En otras palabras lo que quiere decir Aprendizaje no supervisado, es referente al tipo de algoritmo o técnica que se utiliza y es importante, ya que gracias a que se define de esta manera las técnicas y algoritmos, podemos implementarlo de manera correcta en el análisis de Datos. Esto quiere decir que este termino nos da a entender que esa base de datos se ocupará el algoritmo de agrupamiento no supervisado, ya que la base cuenta con datos de entrada sin respuestas etiquetadas, es por eso la importancia para poder identificarlo.
3. Distancia Euclidiana / Eucliedeance Distance Principalmente la distancia euclidiana es cuando se encuentra un espacio vectorial, que es igual o inferior a la variable que estamos analizando. Cuando se identifican clusters encontramos a los centroides, En la parte donde se utiliza la distancia euclidiana es cuando los centroides ya no se repiten y encuentran una posición y no cambian, por lo que se hace la relación con puntos al rededor del centroides, cada punto es una variable por lo tanto la distancia que existe entre variables es la distancia euclidiana. La cual nos ayuda a descubrir la similitud entre las variables que estamos analizando.
file.choose()
rh1<-rh
rh1 <- subset (rh1, select = -c (NO.DE.BAJAS))
rh1 <- subset (rh1, select = -c (APELLIDOS))
rh1 <- subset (rh1, select = -c (NOMBRE))
rh1 <- subset (rh1, select = -c (FECHA.DE.NACIMIENTO ))
rh1 <- subset (rh1, select = -c (FECHA.DE.ALTA ))
rh1 <- subset (rh1, select = -c (MOTIVO.DE.BAJA ))
rh1 <- subset (rh1, select = -c (NO.CREDITO.INFONAVIT ))
rh1 <- subset (rh1, select = -c (BAJA ))
rh1 <- subset (rh1, select = -c (DEPARTAMENTO ))
rh1 <- subset (rh1, select = -c (NO.SEGURO.SOCIAL ))
rh1 <- subset (rh1, select = -c (FACTOR.CRED.INFONAVIT ))
rh1 <- subset (rh1, select = -c (LUGAR.DE.NACIMIENTO ))
rh1 <- subset (rh1, select = -c (CURP ))
rh1 <- subset (rh1, select = -c (CALLE ))
rh1 <- subset (rh1, select = -c (NUMERO.INTERNO ))
rh1 <- subset (rh1, select = -c (COLONIA ))
rh1 <- subset (rh1, select = -c (CODIGO.POSTAL ))
rh1 <- subset (rh1, select = -c (MUNICIPIO ))
rh1 <- subset (rh1, select = -c (ESTADO ))
rh1 <- subset (rh1, select = -c (ESTADO.CIVIL ))
rh1 <- subset (rh1, select = -c (TARJETA.CUENTA ))
rh1 <- subset (rh1, select = -c (PUESTO))
#rh1<-rh %>% select(EDAD,DIAS.TRABAJADOS,SALARIO.DIARIO.IMSS, GENERO)
summary(rh1)## EDAD GENERO DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## Min. : 0.00 Length:78 Min. : 0.00 Min. :151.6
## 1st Qu.:22.25 Class :character 1st Qu.: 9.00 1st Qu.:180.7
## Median :30.00 Mode :character Median : 19.00 Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
rh1_norm<-scale(rh1[3:4]) fviz_nbclust(rh1_norm, kmeans, method="wss")+ # wss method considers total within sum of square
geom_vline(xintercept=4, linetype=2)+ # optimal number of clusters is computed with the default method = "euclidean"
labs(subtitle = "Elbow method") rh1_cluster<-kmeans(rh1_norm,4)
rh1_cluster## K-means clustering with 4 clusters of sizes 1, 17, 8, 52
##
## Cluster means:
## DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## 1 7.5323951 0.5246350
## 2 0.2712304 -1.8780410
## 3 0.6353722 0.4428101
## 4 -0.3312748 0.5357612
##
## Clustering vector:
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
## 2 2 2 2 2 2 2 2 2 2 2 2 4 4 4 4 4 4 4 3 2 4 2 2 2 2
## 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 4 4 3 3 3 1
## 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
## 4 4 3 4 4 4 4 4 4 4 4 4 4 4 4 3 3 4 4 4 4 4 4 4 4 4
##
## Within cluster sum of squares by cluster:
## [1] 0.000000 6.019937 3.270968 1.055662
## (between_SS / total_SS = 93.3 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Muestra que utilicemos 4 clusters para analizar y visualizar la información.
fviz_cluster(rh1_cluster,data=rh1_norm)El primer cluster analiza la relación entre el salario diario IMSS y los días trabajados de los empleados que ya fueron dados de baja. En este caso, vemos que hay un impacto alto entre aquellos empleados que trabajaron de 2 a 8 días, pero tuvieron un salario diario bajo, mucho menor a 0 en la gráfica. Los otros dos resultados, se muestra que trabajaron menos días, pero al igual que el primer cluster explicado, tuvieron un salario muy bajo. Con estos tres, hay una correlación alta, significativa y negativa. Para el grupo de arriba, vemos que estos trabajaron un promedio de 2-3 días y tuvieron un salario diario muy alto. Podemos inferir que este grupo pertenece al área administrativa, que como vimos en análisis anteriores, son el grupo con un salario mucho más alto al resto.
rh2<-rh1
rh2$Clusters<-rh1_cluster$cluster
summary(rh2)## EDAD GENERO DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## Min. : 0.00 Length:78 Min. : 0.00 Min. :151.6
## 1st Qu.:22.25 Class :character 1st Qu.: 9.00 1st Qu.:180.7
## Median :30.00 Mode :character Median : 19.00 Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## Clusters
## Min. :1.000
## 1st Qu.:3.000
## Median :4.000
## Mean :3.423
## 3rd Qu.:4.000
## Max. :4.000
library(dplyr)
rh3<-rh2 %>% group_by(Clusters) %>% summarize (SALARIO.DIARIO.IMSS=max(SALARIO.DIARIO.IMSS),DIAS.TRABAJADOS=mean(DIAS.TRABAJADOS)) %>% dplyr:: arrange(desc(SALARIO.DIARIO.IMSS))
summary(rh3)## SALARIO.DIARIO.IMSS DIAS.TRABAJADOS
## Min. :183.7 Min. :45.1
## 1st Qu.:183.7 1st Qu.:45.1
## Median :183.7 Median :45.1
## Mean :183.7 Mean :45.1
## 3rd Qu.:183.7 3rd Qu.:45.1
## Max. :183.7 Max. :45.1
rh2$Cluster_Names<-factor(rh2$Clusters,levels = c(1,2,3,4),
labels=c("Bajo", "Promedio ", "Arriba del prom", "Alto"))
summary(rh2)## EDAD GENERO DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## Min. : 0.00 Length:78 Min. : 0.00 Min. :151.6
## 1st Qu.:22.25 Class :character 1st Qu.: 9.00 1st Qu.:180.7
## Median :30.00 Mode :character Median : 19.00 Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## Clusters Cluster_Names
## Min. :1.000 Bajo : 1
## 1st Qu.:3.000 Promedio :17
## Median :4.000 Arriba del prom: 8
## Mean :3.423 Alto :52
## 3rd Qu.:4.000
## Max. :4.000
Muchos días trabajados y poco salario
rh4 <- rh2%>% group_by(Cluster_Names, GENERO) %>% dplyr::summarize(DIAS.TRABAJADOS=max(DIAS.TRABAJADOS),
SALARIO.DIARIO.IMSS =mean(SALARIO.DIARIO.IMSS),
Count=n())## `summarise()` has grouped output by 'Cluster_Names'. You can override using the
## `.groups` argument.
clusters<-as.data.frame(rh4)
clusters## Cluster_Names GENERO DIAS.TRABAJADOS SALARIO.DIARIO.IMSS Count
## 1 Bajo MASCULINO 730 180.6800 1
## 2 Promedio FEMENINO 161 151.6100 10
## 3 Promedio MASCULINO 169 151.6100 7
## 4 Arriba del prom FEMENINO 251 180.0200 6
## 5 Arriba del prom MASCULINO 88 178.7000 2
## 6 Alto FEMENINO 53 180.8151 37
## 7 Alto MASCULINO 33 180.8133 15
summary(rh4)## Cluster_Names GENERO DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## Bajo :1 Length:7 Min. : 33.0 Min. :151.6
## Promedio :2 Class :character 1st Qu.: 70.5 1st Qu.:165.2
## Arriba del prom:2 Mode :character Median :161.0 Median :180.0
## Alto :2 Mean :212.1 Mean :172.0
## 3rd Qu.:210.0 3rd Qu.:180.7
## Max. :730.0 Max. :180.8
## Count
## Min. : 1.00
## 1st Qu.: 4.00
## Median : 7.00
## Mean :11.14
## 3rd Qu.:12.50
## Max. :37.00
ggplot(rh4,aes(x=reorder(Cluster_Names,Count),y=Count,fill=Cluster_Names)) +
geom_bar(stat="identity")De acuerdo a la clasificación de clusters, la gráfica anterior nos muestra el impacto y conteo de cada cluster dependiendo del grupo de baja analizado, es decir, vemos la relación entre días trabajados y salario diario, clasificando el conteo acorde a la cantidad de bajas obtenidas. En este caso, en la gráfica se muestra que aquellos que trabajaron más de 600 días y menos de 1900 días, obtuvieron un salario promedio de $500 pesos diario. Entra en la categoría de ‘bajo’, ya que sólo una persona obtuvo esta descripción. El promedio de las personas dadas de baja trabajaron más de 1900 días y obtuvieron un salario diario de $170 pesos. En la barra de ‘alto’ vemos a aquellos ex-empleados que trabajaron 421 días y tuvieron un salario diario de $150 pesos. Por último, vemos a aquellos ‘arriba del promedio’ y son aquellos que tabajaron un promedio de 455 días y tuvieron un salario diario de $180 pesos. Este último grupo es el que tuvo mayor conteo de personas, es decir, la mayoría de las bajas estuvieron laborando más de un año en FORM y tenían un salario diario de $180 pesos.
ggplot(rh4, aes(x=Cluster_Names,y=DIAS.TRABAJADOS,fill= Cluster_Names,label=round(DIAS.TRABAJADOS,digits=2))) +
geom_col() +
geom_text()La gráfica anterior nos presenta la cantidad de días trabajados de acuerdo a la clasificación explicada anteriormente de ‘bajo’, ‘promedio’, ‘arriba del promedio’ y ‘alto’. Con esto en mente, vemos que el promedio de los empleados juntaron un total de 1966 días trabajados, siguiéndole el grupo de ‘bajo’, los que laboraron un promedio de 628 días, luego ‘arriba del promedio’ que laboró 455 días y finalmente ‘alto’, que únicamente laboró 421 días. En todos los grupos, vemos que los empleados trabajaron por más de 1 año en FORM y ganaban un salario diario mayor a $150 pesos.
ggplot(rh4,aes(x=Cluster_Names,y=SALARIO.DIARIO.IMSS,fill= Cluster_Names,label=round(SALARIO.DIARIO.IMSS,digits=2))) +
geom_col() +
geom_text()La gráfica anterior nos presenta la relación entre el salario diario IMSS y la clasificación explicada anteriormente de ‘bajo’, ‘promedio’, ‘arriba del promedio’ y ‘alto’. Con esto en mente, vemos que el segmento ‘bajo’ es el que tenía un salario más alto que la mayoría. El promedio ganaba un salario diario de $170,79 pesos, ‘arriba del promedio’ ganaba $180,54 pesos y el segmento ‘alto’ gabana un promedio de $151,61 pesos de salario diario. Esto denota una variabilidad alta y podemos suponer que esto se debía de acuerdo a las responsabilidades y puestos analizados.
ggplot(rh2, aes(x=Cluster_Names, y=DIAS.TRABAJADOS, fill=Cluster_Names)) +
geom_boxplot()+
ggtitle("Dispersion of 'Días trabajados' by Clusters Names")La gráfica anterior explica la dispersión de días trabajados de acuerdo a la clasificación explicada anteriormente de ‘bajo’, ‘promedio’, ‘arriba del promedio’ y ‘alto’. Con esto en mente, vemos que el grupo con mayor dispersión es ‘promedio’, pues hay una variabilidad más significativa en los datos de la cantidad de días trabajados, destacando la media de días trabajados, es decir, 1000 días. En el caso de ‘bajo’, hay una dispersión baja y poco variable. Para ‘arriba del promedio’, vemos que los puntos atípicos se salen del boxplot específico, lo cual quitarlos nos puede dar mayor claridad y visibilidad de la información. Para ‘alto’ se muestra una dispersión menor a ‘promedio’ y al igual que ‘arriba del promedio’, tiene aparición de puntos atípicos.
ggplot(rh2, aes(x=Cluster_Names, y=SALARIO.DIARIO.IMSS, fill=Cluster_Names)) +
geom_boxplot()+
ggtitle("Dispersion of 'Salario_Diario' by Clusters Names")La gráfica anterior explica la dispersión de salario diario de acuerdo a la clasificación explicada anteriormente de ‘bajo’, ‘promedio’, ‘arriba del promedio’ y ‘alto’. ‘Bajo’ muestra un salario diario de $500 pesos, ‘promedio’ muestra un salario de $180 pesos aprox y puntos atípicos que podrían insinuar un salario menor, ‘arriba del promedio’ también muestra puntos atípicos. Sin embargo, todos se mantienen al igual que el dato anterior entre $170 y $180 pesos de salario diario, Finalmente, ‘alto’ muestra un salario diario abajo del promedio de aprox. $140 pesos.
file.choose()
rhCluster2<-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/HR_Bajas 2.csv")
summary(rhCluster2)## NO.DE.BAJAS APELLIDOS NOMBRE FECHA.DE.NACIMIENTO
## Min. : 5.00 Length:78 Length:78 Min. :25585
## 1st Qu.: 49.75 Class :character Class :character 1st Qu.:31751
## Median :167.50 Mode :character Mode :character Median :33797
## Mean :139.60 Mean :33611
## 3rd Qu.:212.75 3rd Qu.:36518
## Max. :238.00 Max. :44632
## EDAD GENERO FECHA.DE.ALTA MOTIVO.DE.BAJA
## Min. : 0.00 Length:78 Min. :43961 Length:78
## 1st Qu.:22.25 Class :character 1st Qu.:44566 Class :character
## Median :30.00 Mode :character Median :44726 Mode :character
## Mean :30.50 Mean :44664
## 3rd Qu.:36.00 3rd Qu.:44759
## Max. :52.00 Max. :44790
## DIAS.TRABAJADOS BAJA PUESTO DEPARTAMENTO
## Min. : 0.00 Min. :44569 Length:78 Length:78
## 1st Qu.: 9.00 1st Qu.:44613 Class :character Class :character
## Median : 19.00 Median :44741 Mode :character Mode :character
## Mean : 45.10 Mean :44709
## 3rd Qu.: 39.75 3rd Qu.:44784
## Max. :730.00 Max. :44814
## NO.SEGURO.SOCIAL SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:78 Min. :151.6 Min. : 0.0
## Class :character 1st Qu.:180.7 1st Qu.: 0.0
## Mode :character Median :180.7 Median : 0.0
## Mean :174.3 Mean : 130.4
## 3rd Qu.:180.7 3rd Qu.: 0.0
## Max. :183.7 Max. :2795.3
## NO.CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP CALLE
## Min. :0.000e+00 Length:78 Length:78 Length:78
## 1st Qu.:0.000e+00 Class :character Class :character Class :character
## Median :0.000e+00 Mode :character Mode :character Mode :character
## Mean :1.871e+08
## 3rd Qu.:0.000e+00
## Max. :6.919e+09
## NUMERO.INTERNO COLONIA CODIGO.POSTAL MUNICIPIO
## Length:78 Length:78 Min. :25019 Length:78
## Class :character Class :character 1st Qu.:33604 Class :character
## Mode :character Mode :character Median :33604 Mode :character
## Mean :46508
## 3rd Qu.:66645
## Max. :67450
## ESTADO ESTADO.CIVIL TARJETA.CUENTA
## Length:78 Length:78 Length:78
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
str(rhCluster2)## 'data.frame': 78 obs. of 26 variables:
## $ NO.DE.BAJAS : int 5 6 7 8 9 11 12 16 19 20 ...
## $ APELLIDOS : chr "BERNAL FLORES" "SAUCEDO GUZMAN" "MEZA LLANAS" "TORRES LARA" ...
## $ NOMBRE : chr "ERIKA ROSALINDA" "GUADALUPE" "YOANA CRISTINA" "CESAR ANTONIO" ...
## $ FECHA.DE.NACIMIENTO : int 33997 28106 34174 33491 26422 36970 32443 37872 37512 36915 ...
## $ EDAD : int 29 46 29 31 50 21 34 19 20 21 ...
## $ GENERO : chr "FEMENINO" "FEMENINO" "FEMENINO" "MASCULINO" ...
## $ FECHA.DE.ALTA : int 44518 44532 44532 44538 44551 44531 44532 44488 44541 44546 ...
## $ MOTIVO.DE.BAJA : chr "RENUNCIA VOLUNTARIA" "BAJA POR FALTAS" "BAJA POR FALTAS" "BAJA POR FALTAS" ...
## $ DIAS.TRABAJADOS : int 51 37 37 31 18 40 39 86 33 28 ...
## $ BAJA : int 44569 44569 44569 44569 44569 44571 44571 44574 44574 44574 ...
## $ PUESTO : chr "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
## $ DEPARTAMENTO : chr "VARIOS" "VARIOS" "VARIOS" "VARIOS" ...
## $ NO.SEGURO.SOCIAL : chr "43109363747" "43937683647" "43099330201" "43099151714" ...
## $ SALARIO.DIARIO.IMSS : num 152 152 152 152 152 ...
## $ FACTOR.CRED.INFONAVIT: num 0 1320 0 0 0 ...
## $ NO.CREDITO.INFONAVIT : num 0.00 1.92e+09 0.00 0.00 0.00 ...
## $ LUGAR.DE.NACIMIENTO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ CURP : chr "BEFE930128MNLRLR05" "SAGG761212MNLCZD08" "MELY930724MNLZLN01" "TOLC910910HNLRRS09" ...
## $ CALLE : chr "JULIAN VILLAGRAN" "PAPAGAYOS" "RIO AMANONAS" "PALMERA" ...
## $ NUMERO.INTERNO : chr "452" "220" "300" "104" ...
## $ COLONIA : chr "REFORMA" "GOLONDRINAS" "PUEBLO NUEVO" "MIRADOR DEL PARQUE" ...
## $ CODIGO.POSTAL : int 66640 66649 66646 67254 67114 66645 66646 66646 66645 66646 ...
## $ MUNICIPIO : chr "APODACA" "APODACA" "APODACA" "JUAREZ" ...
## $ ESTADO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ ESTADO.CIVIL : chr "SOLTERO/A" "SOLTERO/A" "UNION LIBRE" "UNION LIBRE" ...
## $ TARJETA.CUENTA : chr "BANORTE" "BANORTE" "BANORTE" "BANORTE" ...
humanos5<-rhCluster2
humanos5 <- subset (humanos5, select = -c (NO.DE.BAJAS))
humanos5 <- subset (humanos5, select = -c (APELLIDOS))
humanos5 <- subset (humanos5, select = -c (NOMBRE))
humanos5 <- subset (humanos5, select = -c (FECHA.DE.NACIMIENTO ))
humanos5 <- subset (humanos5, select = -c (GENERO ))
humanos5 <- subset (humanos5, select = -c (FECHA.DE.ALTA ))
humanos5 <- subset (humanos5, select = -c (MOTIVO.DE.BAJA ))
humanos5 <- subset (humanos5, select = -c (NO.CREDITO.INFONAVIT ))
humanos5 <- subset (humanos5, select = -c (BAJA ))
#humanos5 <- subset (humanos5, select = -c (MOTIVO.DE.BAJA ))
humanos5 <- subset (humanos5, select = -c (DEPARTAMENTO ))
humanos5 <- subset (humanos5, select = -c (NO.SEGURO.SOCIAL ))
humanos5 <- subset (humanos5, select = -c (FACTOR.CRED.INFONAVIT ))
humanos5 <- subset (humanos5, select = -c (LUGAR.DE.NACIMIENTO ))
humanos5 <- subset (humanos5, select = -c (CURP ))
humanos5 <- subset (humanos5, select = -c (CALLE ))
humanos5 <- subset (humanos5, select = -c (NUMERO.INTERNO ))
humanos5 <- subset (humanos5, select = -c (COLONIA ))
humanos5 <- subset (humanos5, select = -c (CODIGO.POSTAL ))
humanos5 <- subset (humanos5, select = -c (MUNICIPIO ))
humanos5 <- subset (humanos5, select = -c (ESTADO ))
humanos5 <- subset (humanos5, select = -c (TARJETA.CUENTA ))
#humanos5<-rhCluster2 %>% select(EDAD,DIAS.TRABAJADOS,SALARIO.DIARIO.IMSS)
summary(humanos5)## EDAD DIAS.TRABAJADOS PUESTO SALARIO.DIARIO.IMSS
## Min. : 0.00 Min. : 0.00 Length:78 Min. :151.6
## 1st Qu.:22.25 1st Qu.: 9.00 Class :character 1st Qu.:180.7
## Median :30.00 Median : 19.00 Mode :character Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## ESTADO.CIVIL
## Length:78
## Class :character
## Mode :character
##
##
##
rhCluster_norm<-scale(humanos5[1:2]) fviz_nbclust() helps to determine and visualize the optimal number of clusters
fviz_nbclust(rhCluster_norm, kmeans, method="wss")+ # wss method considers total within sum of square
geom_vline(xintercept=4, linetype=2)+ # optimal number of clusters is computed with the default method = "euclidean"
labs(subtitle = "Elbow method")rh_cluster2<-kmeans(rh1_norm,4)
rh_cluster2## K-means clustering with 4 clusters of sizes 1, 17, 8, 52
##
## Cluster means:
## DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## 1 7.5323951 0.5246350
## 2 0.2712304 -1.8780410
## 3 0.6353722 0.4428101
## 4 -0.3312748 0.5357612
##
## Clustering vector:
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
## 2 2 2 2 2 2 2 2 2 2 2 2 4 4 4 4 4 4 4 3 2 4 2 2 2 2
## 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 4 4 3 3 3 1
## 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
## 4 4 3 4 4 4 4 4 4 4 4 4 4 4 4 3 3 4 4 4 4 4 4 4 4 4
##
## Within cluster sum of squares by cluster:
## [1] 0.000000 6.019937 3.270968 1.055662
## (between_SS / total_SS = 93.3 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
fviz_cluster(rh_cluster2,data=rhCluster_norm)La gráfica anterior muestra 4 clusters que analizan la relación entre edad y días trabajados. El cluster verde muestra que un alto número de personas tabajaba más días que el promedio y tenía una edad similar al promedio. El punto naranja muestra que pocos usuarios trabajaban más días que el promedio y al igual que el punto anterior, tenían una edad promedio. En el caso del punto azul y el morado, ambos muestran que un mayor grupo de personas laboraba ‘2 días’, pero tenía mayor variabilidad en la edad.
humanos6<-humanos5
humanos6$Clusters<-rh_cluster2$cluster
summary(humanos6)## EDAD DIAS.TRABAJADOS PUESTO SALARIO.DIARIO.IMSS
## Min. : 0.00 Min. : 0.00 Length:78 Min. :151.6
## 1st Qu.:22.25 1st Qu.: 9.00 Class :character 1st Qu.:180.7
## Median :30.00 Median : 19.00 Mode :character Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## ESTADO.CIVIL Clusters
## Length:78 Min. :1.000
## Class :character 1st Qu.:3.000
## Mode :character Median :4.000
## Mean :3.423
## 3rd Qu.:4.000
## Max. :4.000
lets create a dataset so we can identify some characteristics of “Edad” by cluster
humanos7<-humanos6 %>% group_by(Clusters, ESTADO.CIVIL) %>% summarise(EDAD=max(EDAD),DIAS.TRABAJADOS=mean(DIAS.TRABAJADOS)) %>% dplyr::arrange(desc(EDAD))
summary(humanos7)## EDAD DIAS.TRABAJADOS
## Min. :52 Min. :45.1
## 1st Qu.:52 1st Qu.:45.1
## Median :52 Median :45.1
## Mean :52 Mean :45.1
## 3rd Qu.:52 3rd Qu.:45.1
## Max. :52 Max. :45.1
humanos6$Cluster_Names<-factor(humanos6$Clusters,levels = c(1,2,3,4),
labels=c("Joven", "Avanzado ", " Adulto", "Jubilado"))
summary(humanos6)## EDAD DIAS.TRABAJADOS PUESTO SALARIO.DIARIO.IMSS
## Min. : 0.00 Min. : 0.00 Length:78 Min. :151.6
## 1st Qu.:22.25 1st Qu.: 9.00 Class :character 1st Qu.:180.7
## Median :30.00 Median : 19.00 Mode :character Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## ESTADO.CIVIL Clusters Cluster_Names
## Length:78 Min. :1.000 Joven : 1
## Class :character 1st Qu.:3.000 Avanzado :17
## Mode :character Median :4.000 Adulto : 8
## Mean :3.423 Jubilado :52
## 3rd Qu.:4.000
## Max. :4.000
Entre más joven más días trabajados
humanos8 <- humanos6 %>% group_by(Cluster_Names, ESTADO.CIVIL) %>% dplyr:: summarize(EDAD=max(EDAD),
DIAS.TRABAJADOS =mean(DIAS.TRABAJADOS),
Count=n())## `summarise()` has grouped output by 'Cluster_Names'. You can override using the
## `.groups` argument.
clusters2<-as.data.frame(humanos8)
clusters2## Cluster_Names ESTADO.CIVIL EDAD DIAS.TRABAJADOS Count
## 1 Joven DIVORCIADO/A 32 730.00000 1
## 2 Avanzado CASADO/A 28 155.00000 2
## 3 Avanzado SOLTERO/A 50 76.44444 9
## 4 Avanzado UNION LIBRE 35 31.33333 6
## 5 Adulto CASADO/A 45 142.00000 3
## 6 Adulto DIVORCIADO/A 33 87.00000 1
## 7 Adulto SOLTERO/A 27 67.00000 2
## 8 Adulto UNION LIBRE 32 88.00000 2
## 9 Jubilado CASADO/A 51 16.33333 18
## 10 Jubilado SOLTERO/A 52 15.35000 20
## 11 Jubilado UNION LIBRE 47 12.71429 14
ggplot(humanos8,aes(x=reorder(Cluster_Names,Count),y=Count,fill=Cluster_Names)) +
geom_bar(stat="identity")La gráfica anterior nos muestra la cantidad de días trabajados de acuerdo a la edad de los empleados. En este caso, vemos que el grupo de edad ‘joven’ tenían aprox. 31 años y representa un bajo porcentaje de los empleados. Para ‘avanzado’ son los empleados que tienen arriba de 32 años y laboraron la mayor cantidad de días (1067). Para ‘jubilado’, son las personas con un aprox. de 50 años y que laboraron durante 102 días. Finalmente, para el grupo de ‘adulto’ (el más elevado), son aquellos que laboraron un promedio de 44 días y tienen la edad de 52 años.
ggplot(humanos8, aes(x=Cluster_Names,y=DIAS.TRABAJADOS,fill= Cluster_Names,label=round(DIAS.TRABAJADOS,digits=2))) +
geom_col() +
geom_text()La gráfica anterior nos muestra la cantidad de días trabajados de acuerdo a los días trabajados. En este caso, esto nos muestra que el grupo con mayor bajas fueron del segmento ‘adulto’ y es el que laboró en promedio un menor número de días contra ‘avanzado’ que es el segundo grupo más bajo y laboró el mayor número de días en promedio.
ggplot(humanos8,aes(x=Cluster_Names,y=EDAD,fill= Cluster_Names,label=round(EDAD,digits=2))) +
geom_col() +
geom_text()La gráfica anterior nos muestra la edad promedio de cada uno de los grupos. Como explicamos anteriormente, se muestra que ‘adulto’ es el de empleados con mayor edad y ‘joven’ es el de personas de menor edad.
ggplot(humanos6, aes(x=Cluster_Names, y=EDAD, fill=Cluster_Names)) +
geom_boxplot()+
ggtitle("Dispersion of 'Edad' by Clusters Names")La gráfica anterior nos muestra la dispersión de acuerdo a la edad de los empleados. En el caso de ‘adulto’, tiene una gran cantidad de puntos atípicos lo cual indica que hay datos fuera de serie. En el caso de ‘jubilado’, vemos que es el grupo con mayor dispersión, mostrando datos de edad entre 25 y 32 años.
ggplot(humanos6, aes(x=Cluster_Names, y=DIAS.TRABAJADOS, fill=Cluster_Names)) +
geom_boxplot()+
ggtitle("Dispersion of 'Dias_Trabajados' by Clusters Names")La gráfica anterior muestra la dispersión de acuerdo a días trabajados y los grupos anterior explicados. Vemos que ‘avanzado’ es el gurpo con mayor dispersión, mostrando que el promedio de los empleados laboraron entre 550 y 1300 días. Es el grupo con mayor número de empleados que trabajaron en este periodo de tiempo. En el caso de ‘adulto’ y ‘jubilado’, son aquellos grupos que muestran una dispersión baja y una variedad de puntos atípicos, mientras que ‘joven’ destaca una baja dispersión y una media de más de 500 días trabajados.
cluster3<-read.csv("/Users/vanessaelizondo/Desktop/Tec/Semestre 7/FORM/Equipo 2.4/Bases de datos/HR_Bajas 2.csv")
summary(cluster3)## NO.DE.BAJAS APELLIDOS NOMBRE FECHA.DE.NACIMIENTO
## Min. : 5.00 Length:78 Length:78 Min. :25585
## 1st Qu.: 49.75 Class :character Class :character 1st Qu.:31751
## Median :167.50 Mode :character Mode :character Median :33797
## Mean :139.60 Mean :33611
## 3rd Qu.:212.75 3rd Qu.:36518
## Max. :238.00 Max. :44632
## EDAD GENERO FECHA.DE.ALTA MOTIVO.DE.BAJA
## Min. : 0.00 Length:78 Min. :43961 Length:78
## 1st Qu.:22.25 Class :character 1st Qu.:44566 Class :character
## Median :30.00 Mode :character Median :44726 Mode :character
## Mean :30.50 Mean :44664
## 3rd Qu.:36.00 3rd Qu.:44759
## Max. :52.00 Max. :44790
## DIAS.TRABAJADOS BAJA PUESTO DEPARTAMENTO
## Min. : 0.00 Min. :44569 Length:78 Length:78
## 1st Qu.: 9.00 1st Qu.:44613 Class :character Class :character
## Median : 19.00 Median :44741 Mode :character Mode :character
## Mean : 45.10 Mean :44709
## 3rd Qu.: 39.75 3rd Qu.:44784
## Max. :730.00 Max. :44814
## NO.SEGURO.SOCIAL SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:78 Min. :151.6 Min. : 0.0
## Class :character 1st Qu.:180.7 1st Qu.: 0.0
## Mode :character Median :180.7 Median : 0.0
## Mean :174.3 Mean : 130.4
## 3rd Qu.:180.7 3rd Qu.: 0.0
## Max. :183.7 Max. :2795.3
## NO.CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP CALLE
## Min. :0.000e+00 Length:78 Length:78 Length:78
## 1st Qu.:0.000e+00 Class :character Class :character Class :character
## Median :0.000e+00 Mode :character Mode :character Mode :character
## Mean :1.871e+08
## 3rd Qu.:0.000e+00
## Max. :6.919e+09
## NUMERO.INTERNO COLONIA CODIGO.POSTAL MUNICIPIO
## Length:78 Length:78 Min. :25019 Length:78
## Class :character Class :character 1st Qu.:33604 Class :character
## Mode :character Mode :character Median :33604 Mode :character
## Mean :46508
## 3rd Qu.:66645
## Max. :67450
## ESTADO ESTADO.CIVIL TARJETA.CUENTA
## Length:78 Length:78 Length:78
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
str(cluster3)## 'data.frame': 78 obs. of 26 variables:
## $ NO.DE.BAJAS : int 5 6 7 8 9 11 12 16 19 20 ...
## $ APELLIDOS : chr "BERNAL FLORES" "SAUCEDO GUZMAN" "MEZA LLANAS" "TORRES LARA" ...
## $ NOMBRE : chr "ERIKA ROSALINDA" "GUADALUPE" "YOANA CRISTINA" "CESAR ANTONIO" ...
## $ FECHA.DE.NACIMIENTO : int 33997 28106 34174 33491 26422 36970 32443 37872 37512 36915 ...
## $ EDAD : int 29 46 29 31 50 21 34 19 20 21 ...
## $ GENERO : chr "FEMENINO" "FEMENINO" "FEMENINO" "MASCULINO" ...
## $ FECHA.DE.ALTA : int 44518 44532 44532 44538 44551 44531 44532 44488 44541 44546 ...
## $ MOTIVO.DE.BAJA : chr "RENUNCIA VOLUNTARIA" "BAJA POR FALTAS" "BAJA POR FALTAS" "BAJA POR FALTAS" ...
## $ DIAS.TRABAJADOS : int 51 37 37 31 18 40 39 86 33 28 ...
## $ BAJA : int 44569 44569 44569 44569 44569 44571 44571 44574 44574 44574 ...
## $ PUESTO : chr "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" "AYUDANTE GENERAL" ...
## $ DEPARTAMENTO : chr "VARIOS" "VARIOS" "VARIOS" "VARIOS" ...
## $ NO.SEGURO.SOCIAL : chr "43109363747" "43937683647" "43099330201" "43099151714" ...
## $ SALARIO.DIARIO.IMSS : num 152 152 152 152 152 ...
## $ FACTOR.CRED.INFONAVIT: num 0 1320 0 0 0 ...
## $ NO.CREDITO.INFONAVIT : num 0.00 1.92e+09 0.00 0.00 0.00 ...
## $ LUGAR.DE.NACIMIENTO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ CURP : chr "BEFE930128MNLRLR05" "SAGG761212MNLCZD08" "MELY930724MNLZLN01" "TOLC910910HNLRRS09" ...
## $ CALLE : chr "JULIAN VILLAGRAN" "PAPAGAYOS" "RIO AMANONAS" "PALMERA" ...
## $ NUMERO.INTERNO : chr "452" "220" "300" "104" ...
## $ COLONIA : chr "REFORMA" "GOLONDRINAS" "PUEBLO NUEVO" "MIRADOR DEL PARQUE" ...
## $ CODIGO.POSTAL : int 66640 66649 66646 67254 67114 66645 66646 66646 66645 66646 ...
## $ MUNICIPIO : chr "APODACA" "APODACA" "APODACA" "JUAREZ" ...
## $ ESTADO : chr "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" "NUEVO LEON" ...
## $ ESTADO.CIVIL : chr "SOLTERO/A" "SOLTERO/A" "UNION LIBRE" "UNION LIBRE" ...
## $ TARJETA.CUENTA : chr "BANORTE" "BANORTE" "BANORTE" "BANORTE" ...
newbd<-cluster3
newbd <- subset (newbd, select = -c (NO.DE.BAJAS))
newbd <- subset (newbd, select = -c (APELLIDOS))
newbd <- subset (newbd, select = -c (NOMBRE))
newbd <- subset (newbd, select = -c (FECHA.DE.NACIMIENTO ))
newbd <- subset (newbd, select = -c (GENERO ))
newbd <- subset (newbd, select = -c (FECHA.DE.ALTA ))
newbd <- subset (newbd, select = -c (MOTIVO.DE.BAJA ))
newbd <- subset (newbd, select = -c (NO.CREDITO.INFONAVIT ))
newbd <- subset (newbd, select = -c (BAJA ))
newbd <- subset (newbd, select = -c (DEPARTAMENTO ))
newbd <- subset (newbd, select = -c (NO.SEGURO.SOCIAL ))
newbd <- subset (newbd, select = -c (FACTOR.CRED.INFONAVIT ))
newbd <- subset (newbd, select = -c (LUGAR.DE.NACIMIENTO ))
newbd <- subset (newbd, select = -c (CURP ))
newbd <- subset (newbd, select = -c (CALLE ))
newbd <- subset (newbd, select = -c (NUMERO.INTERNO ))
newbd <- subset (newbd, select = -c (COLONIA ))
newbd <- subset (newbd, select = -c (CODIGO.POSTAL ))
newbd <- subset (newbd, select = -c (MUNICIPIO ))
newbd <- subset (newbd, select = -c (ESTADO ))
newbd <- subset (newbd, select = -c (TARJETA.CUENTA ))
#newbd<-cluster3 %>% select(EDAD,SALARIO.DIARIO.IMSS,DIAS.TRABAJADOS)
summary(newbd)## EDAD DIAS.TRABAJADOS PUESTO SALARIO.DIARIO.IMSS
## Min. : 0.00 Min. : 0.00 Length:78 Min. :151.6
## 1st Qu.:22.25 1st Qu.: 9.00 Class :character 1st Qu.:180.7
## Median :30.00 Median : 19.00 Mode :character Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## ESTADO.CIVIL
## Length:78
## Class :character
## Mode :character
##
##
##
newbdnorm<-scale(newbd[2:1])fviz_nbclust(newbdnorm, kmeans, method="wss")+ # wss method considers total within sum of square
geom_vline(xintercept=4, linetype=2)+ # optimal number of clusters is computed with the default method = "euclidean"
labs(subtitle = "Elbow method")newbd2clus<-kmeans(newbdnorm,4)
newbd2clus## K-means clustering with 4 clusters of sizes 15, 1, 32, 30
##
## Cluster means:
## DIAS.TRABAJADOS EDAD
## 1 -0.05831677 1.5705331
## 2 7.53239507 0.1533058
## 3 -0.13894471 -0.9262228
## 4 -0.07371375 0.1975942
##
## Clustering vector:
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
## 4 1 4 4 1 3 4 3 3 3 4 4 1 3 3 4 3 3 3 3 3 1 4 1 3 3
## 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
## 4 4 1 1 1 3 3 4 4 3 3 4 1 3 3 4 1 3 1 4 4 3 4 4 4 2
## 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
## 4 4 4 3 3 1 3 3 3 4 4 3 4 4 4 1 4 4 1 4 1 3 3 3 3 3
##
## Within cluster sum of squares by cluster:
## [1] 9.488612 0.000000 13.581198 7.715555
## (between_SS / total_SS = 80.0 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
fviz_cluster(newbd2clus,data=newbdnorm)newbd3<-newbd
newbd3$Clusters<-newbd2clus$cluster
summary(newbd3)## EDAD DIAS.TRABAJADOS PUESTO SALARIO.DIARIO.IMSS
## Min. : 0.00 Min. : 0.00 Length:78 Min. :151.6
## 1st Qu.:22.25 1st Qu.: 9.00 Class :character 1st Qu.:180.7
## Median :30.00 Median : 19.00 Mode :character Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## ESTADO.CIVIL Clusters
## Length:78 Min. :1.000
## Class :character 1st Qu.:3.000
## Mode :character Median :3.000
## Mean :2.987
## 3rd Qu.:4.000
## Max. :4.000
newbd4<-newbd3 %>% group_by(Clusters) %>% summarise(EDAD=max(EDAD),SALARIO.DIARIO.IMSS=mean(SALARIO.DIARIO.IMSS)) %>% dplyr::arrange(desc(EDAD))
summary(newbd4)## EDAD SALARIO.DIARIO.IMSS
## Min. :52 Min. :174.3
## 1st Qu.:52 1st Qu.:174.3
## Median :52 Median :174.3
## Mean :52 Mean :174.3
## 3rd Qu.:52 3rd Qu.:174.3
## Max. :52 Max. :174.3
newbd3$Cluster_Names<-factor(newbd3$Clusters,levels = c(1,2,3,4),
labels=c("Joven", "Avanzado ", " Adulto", "Jubilado"))
summary(newbd3)## EDAD DIAS.TRABAJADOS PUESTO SALARIO.DIARIO.IMSS
## Min. : 0.00 Min. : 0.00 Length:78 Min. :151.6
## 1st Qu.:22.25 1st Qu.: 9.00 Class :character 1st Qu.:180.7
## Median :30.00 Median : 19.00 Mode :character Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## ESTADO.CIVIL Clusters Cluster_Names
## Length:78 Min. :1.000 Joven :15
## Class :character 1st Qu.:3.000 Avanzado : 1
## Mode :character Median :3.000 Adulto :32
## Mean :2.987 Jubilado :30
## 3rd Qu.:4.000
## Max. :4.000
newbd5 <- newbd3%>% group_by(Cluster_Names) %>% dplyr::summarize(EDAD=max(EDAD),
SALARIO.DIARIO.IMSS =mean(SALARIO.DIARIO.IMSS),
Count=n())clusterssalario<-as.data.frame(newbd5)
clusterssalario## Cluster_Names EDAD SALARIO.DIARIO.IMSS Count
## 1 Joven 52 174.9353 15
## 2 Avanzado 32 180.6800 1
## 3 Adulto 26 174.2597 32
## 4 Jubilado 38 173.8970 30
ggplot(newbd5,aes(x=reorder(Cluster_Names,Count),y=Count,fill=Cluster_Names)) +
geom_bar(stat="identity")ggplot(newbd5, aes(x=Cluster_Names,y=SALARIO.DIARIO.IMSS,fill= Cluster_Names,label=round(SALARIO.DIARIO.IMSS,digits=2))) +
geom_col() +
geom_text()Aqui nos podemos dar cuenta acerca que los sueldos no varian mucho entre edades pero es importante decir que se denota por centavos una mayoria en el sueldo de los jovenes especificamente más que en otros rangos de edades.
Identificación de características de clústers seleccionados
ggplot(rh4,aes(x=reorder(Cluster_Names,Count),y=Count,fill=GENERO)) +
geom_bar(stat="identity")ggplot(humanos8,aes(x=reorder(Cluster_Names,Count),y=Count,fill=ESTADO.CIVIL)) +
geom_bar(stat="identity")ggplot(newbd5,aes(x=reorder(Cluster_Names,Count),y=Count,fill=SALARIO.DIARIO.IMSS)) +
geom_bar(stat="identity")Encontrar asociaciones entre las categorías y las variables con los clusters creados
#install.packages("ggplot2")
library(ggplot2)
#install.packages("ggalluvial")
library(ggalluvial)
rh_lluvia<-rh2
summary(rh_lluvia)## EDAD GENERO DIAS.TRABAJADOS SALARIO.DIARIO.IMSS
## Min. : 0.00 Length:78 Min. : 0.00 Min. :151.6
## 1st Qu.:22.25 Class :character 1st Qu.: 9.00 1st Qu.:180.7
## Median :30.00 Mode :character Median : 19.00 Median :180.7
## Mean :30.50 Mean : 45.10 Mean :174.3
## 3rd Qu.:36.00 3rd Qu.: 39.75 3rd Qu.:180.7
## Max. :52.00 Max. :730.00 Max. :183.7
## Clusters Cluster_Names
## Min. :1.000 Bajo : 1
## 1st Qu.:3.000 Promedio :17
## Median :4.000 Arriba del prom: 8
## Mean :3.423 Alto :52
## 3rd Qu.:4.000
## Max. :4.000
rh_lluvia<-rh2 %>% filter(Clusters==1 | Clusters==3) %>% arrange(Clusters)
ggplot(as.data.frame(rh_lluvia),
aes(y=SALARIO.DIARIO.IMSS, axis1=EDAD, axis2=DIAS.TRABAJADOS)) +
geom_alluvium(aes(fill=Cluster_Names), width = 1/12) +
geom_stratum(width = 1/12, fill = "black", color = "grey") +
geom_label(stat = "stratum", aes(label = after_stat(stratum))) +
scale_x_discrete(limits = c("Edad", "Días Trabajados"), expand = c(.05, .05)) +
scale_fill_brewer(type = "qual", palette = "Set1") +
ggtitle("FORM Salario Diario por Edad y los Dias Trabajados")Con esta gráfica lluvial se analizaron tres variables, el salario mínimo, las edades y los días trabajados, estas variables utilizando los clusters names de salarios, por lo que nos deja teniendo dos grupos, aquellos con el menor salario “Bajo” y aquellos que tienen un salario más alto de lo común “Arriba del Prom”. De este modo podemos obtener información acerca del salario diario que los trabajadores de FORM tienen en base de las edades y los días trabajados.
Con la gráfica podemos observar que se tiene un amyor grupo de empleados que tienen un salario “Arriba del prom”, principalmente hay empleadoos de una edad de 32 años con un salario de entre 500 y 1,000 pesos. Una pequeña parte de estos empleados han trabajado 730 días, pero la otra mayoría tienen un promedio de 88 días trabajados. Podemos obervar que en su mayoría los empleados han trabajado 88 días o menos, y que tienen una edad de entre los 20 y 35 años. Todo lo mencionado nos lleva a inferir que en FORM se tiene una alta rotación ya que muy pocos tienen antiguedad en la empresa y en su mayoría no tienen más de 3 o 4 meses.
1 .El salario diario promedio de FORM es de $180 pesos mexicanos, es decir, $5,400 pesos mensuales. De acuerdo a datos compartidos por la INEGI, se prevé que para 2022 el salario mínimo en México sea de $5,255 pesos mensuales. Esto refleja que el salario mensual de FORM es 2% mayor al salario mínimo del país.
Se destacan tres razones principales de bajas de empleados: bajas por faltas, renuncia voluntaria o término de contrato. En su mayoría, hubo una baja por faltas del puesto de ayudante general y renuncia voluntaria para el mismo puesto.
Hubo un alto número de bajas de empleados que trabajaron más de 200 días, es decir, la mayoría de los ex-empleados estuvieron en FORM más de 1 año y tenían un salario promedio de $180 pesos.
Los sueldos de los empleados no varían mucho dependiendo de la edad. Sin embargo, vemos que hay mayor rotación para el grupo ‘adulto’
Meaningful Insights
Información y conclusiones que se lograron obtener a través del análisis de las bases de datos de FORM y la industria automotriz.
Para la empresa de FORM, se espera que exista un crecimiento en los próximos años en lo que es la producción de láminas procesadas, se espera que este tenga un aumento constante, por lo que sería una ventaja competitiva preparar los procesos de láminas desde este año para que en los próximos años que este proceso de laminado aumente no existan tantos errores y perfeccionar el proceso.
Los clientes que tienen mayores pedidos en este caso es HELLA en primer lugar y TRMX en segundo lugar. HELLA es el cliente más significativo con casi el triple de pedidos que el siguiente cliente con mayores pedidos, TRMX. HELLAS teniendo más de 250,000 pedidos, con una fuerte dispersión, ya que muestra que a parte de tener un grande rango de pedidos que varían de entre 5,000 pedidos a 30,000 pedidos, tienen también una dispersión fuerte en dónde han llegado a realizar más de 50,000 pedidos. Por otro lado TRMX, un cliente que tiene un rango de pedidos entre los 5,000 y los 10,000 pedidos, pero tiene una dispersión que muestra que en algún punto de su historial realizaron cero pedidos, esto nos lleva a preguntarnos, a que se debió el que TRMX no haya realizado ningún pedido en algún mes.
El promedio del Salario Diario por el IMSS es de $236 pesos. Se encontró que se tienen tres motivos principales de bajas: faltas, renuncias voluntarias o término de contrato y se tuvieron más bajas de parte del genero femenino. Pudimos darnos cuenta de igual forma que la mayoría de los ex-empleados estuvieron menos de un año trabajando en FORM. Y con el análisis de resaltó que el genero femenino tiene un mayor salario diario total.
Stabilus 1 viene siendo el cliente al cual FORM le dedica más tiempo de producción. También pudimos analizar que los clientes tienen un rango de pedidos entre 50 y 200 pedidos, siendo 150 la moda.
Con la información obtenida de las bases de datos de FORM, podemos ver que Junio es donde mayor merma se genera, esto puede ser debido a que en junio tienen mayor producción. Un dato impactante es que la mayoría de las veces la empresa tiene una merma constante, esta varia pero casi todos los meses cuentan con al rededor de 5 toneladas de merma, y alrededor de 3 toneladas a 4 toneladas de merma cada 4 meses, de acuerdo con las fechas que nos dieron en esta base de datos se analizo que de enero a marzo existió una gran cantidad de merma que llego al rededor de 17 toneladas de merma, por lo tanto se debe de analizar en la empresa que fue lo que sucedió en este lapso de tiempo, podríamos inferir que una de las causas es que algún cliente haya cancelado sus pedidos.
Existe mucho scrap en la etapa de PRE-PRODUCCION, se analizó que es la area que más genera scrap, representando el 85% del total. Para ello se necesita realizar una logística de proceso para eficientizarla y se logre medir la cantidad exacta que se requiere de material para cada pedido y al igual que tener mejor medidas de recortes y suajes para tener el mayor provecho de los materiales.
Las principales causas de bajas de empleados se debe a tres razones. Bajas por faltas, renuncia voluntaria o término de contrato y nos damos cuenta que el puesto con más rotación en la empresa es el de ayudante general. Por lo tanto podemos observar que existe una mala gestión administrativa o que los empleados no están 100% felices por lo tanto no se están esforzando lo suficiente. La principal causa de bajas en la empresa es debido a faltas, En numero de bajas por sexo masculino y femenino las mujeres son las que más faltan generando 53 bajas en total,pero lo importante es que para los hombres también es su mayor es la razón de baja, lo cual es por faltas ya que se han presentado 25 bajas. Tomando en cuenta la lejanía de la planta esto puede ser un factor que esté generando bajas. Estos datos nos permiten ver una gráfica de dispersión que nos arroja que los ex-empleados tienen un tiempo de duración más corto a un año.
Los clientes con mayor Delay son MAHLE Y PRINTEL, al mismo tiempo encontramos que entre estos dos clientes, el que tiene mayor Delay es MAHLE, por lo que sería bueno para la empresa el tener un mayor enfoque, en ambos, pero tambien un poco más en Mahle, para que tenga mejor referencia de este cliente y mayor confianza con la empresa en las entregas
La industria automotriz en México se mantendrá en constante crecimiento en un lapso de 3 años en un futuro. Con un pronóstico de un 95% lo cual es muy óptimo a que suceda. Si se analiza hasta el año 2025, existe un 16% de crecimiento en la industria, por lo que a FORM, le conviene hoy en día continuar con la mano de obra en México y seguir vendiendo a compañías extranjeras. Por la parte de EUA, se espera un crecimiento para el 2025 de un 20% , por lo que nos determinó que la industria automotriz estado unidos se mantiene en constante crecimiento año tras año.
Sugerencias 1. Se tiene una alta diferencia de pedidos entre los clientes en donde existen clientes que piden tres veces más que otro, podría ser interesante analizar a los clientes que les hacen mayor pedidos y realizar estrategias de venta para atraer a clientes con dichas características encontradas. También se ve que se tiene una alta variación entre los pedidos que hacen los clientes mes tras mes, sugiero hacer una investigación y análisis del porque de estos cambios y a que se debe el que en algunos meses se obtenga cero pedidos por los clientes cuando en otros se tienen pedidos altos, de ese modo identificar la variable o causante y encontrar alguna solución o oportunidad a implementar en los procesos operacionales de la empresa.
Crear una mejor cultura organizacional para evitar tanto rotamiento, con los diferentes hallazgos pudimos encontrar que se tiene un alto número de bajas y que no existe antiguedad en la empresa, por lo que la mayoría de los empleados tienen apenas 4 meses en la empresa. Suguiero hacer una investigación de parte de l harea de recursos humanos para conocer como se sienten los empleados trabajando en FORM y que se de una solución en la cual se tenga trabajo en equipo y que los empleados tengan la motivación de seguir trabajando con FORM. Esto puede ser con diferentes gratificaciones, premio y distintivos para destacar los labores que cada uno de ellos aportan y de ese modo incentivar a que cada uno de ellos puede aportar y ser escuchado y notado.
Realizar una estrategia o proceso operacional en el cual se puedan medir las cantidades de pedidos que se producen por mes. Medir la cantidad exacta de scrap y merma que se produce e identificar en que parte exacta del proceso de producción es en donde se genera más para de ese modo crear una estrategia o modificar procesos de cortes o del uso de sus materiales para obtener un mayor rendimento de sus materiales, esto le permitiría a FORM tener menos gastos e incrementar sus ingresos.
¿Qué es Business Analytics?
Es una combinación de habilidades, tecnologías y prácticas para la exploración e investigación del funcionamiento y los procesos empresariales que se han tenido anteriormente por un empresa, para de ese modo obtener información, poder analizar dicha información que se extrae y así impulsar la planificación estratégica empresarial. Business Analytics puede descubrir patrones y predecir tendencias considerando diferentes factores.
Existen diferentes rubros del “Business Analytics”:
Análisis Descriptivo
Análisis de Diagnóstico
Análisis Predictivo
Análisis Prescriptivo
3 objetivos deL uso de la herramienta de Business Analytics
Ejemplo: productividad y eficencia.
Analizar y transformar los datos en información útil, identificar y anticipar tendencias y resultados. Simplificar información para hacerla más sencilla de entender y visual.
Tomar decisiones empresariales más inteligentes basadas en datos.
Ejemplo: Análisis del comportamiento de los clientes, disminución de costo, evitar mermas, aprovechamiento de tiempos y materiales, eficiencia y eficacia.
¿Qué es Business Inteligence? Es la herramienta que permite a aquellos en el ámbito de los negocios obtener información significativa y relevante histórica, actual, de comportamientos, de externos a la empresa, de internos, y otros. Este se encarga de agrupar los datos que se quieran analizar y crear una base de datos con información valiosa y de este modo transformar la información a hallazgos que se puedan utilizar para encontrar oportunidades de negocio o realizar algún tipo de mejoras o lograr realizar decisiones más asertivas y con menos riesgos. Concretando lo que es Business Intelligence podemos decir que agrupa datos para aprovecharlos y se conviertan en información que ayuda a identificar problemas, riesgos y oportunidades de una empresa.
¿Cuál es la relación entre Business Analytics y Business Intelligence?
BI sirve para evaluar, optimizar y coordinar las operaciones internas de una empresa. Trata de aprovechar todo el potencial de los datos que genera una empresa en todas sus actividades diarias y analizar estos datos para obtener información de valor sobre la toma de decisiones.Ayuda para entender el histórico y el como evolucionan los datos. Y como mencionamos anteriormente Business Analytics con el analisis de la información de una empresa logra puede llegar a desubrir patrones, explicaciones del porque de los mismos y predecir tendencias o hechos que pueden llegar a pasar en el negocio.
Estos dos términos tienen una alta relación entre ellas ya que en pocas palabras la Inteligencia de Negocios es el hacer análisis de los datos obtenidos y Analítica de Negocios es predicción a partir de los datos que se obtuvieron con el análisis. Una con lleva a la otra y trabajan juntas para obtener el resultado buscado de un análisis de datos que contenga la información relevante y significativa que nos pueda mostrar predicciones del comportamiento ya sea de la empresa, de la economía, de los ingresos, de los clientes y más. Ambas son necesarias para extraer un buen análisis de la información de una empresa, ya que una analis dos, los organiza y extra aquellos relevantes y la otra puede lograr las pedicciones y análisis.
¿Qué son los Key Performance Indicators? Los KPIs son son indicadores que miden el desempeño ya sea de una empresa o operaciones en una area en particular. Son métricas que se utilizan para obtener información sobre la eficiencia y productividad de acciones que se llevan a cabo en un empresa y de ese modo poder lograr tomar una decisión más facilmente y con más asertividad. Los KPIs pueden brindar diversas ventajas como obtener información valiosa y útil ya sea de algo que no está funcionando bien en las operaciones de la empresa o de algo en partícular que lo está haciendo crecer y que está funcionando de la manera correcta. También determinar estratgias, tomar decisiones oportunidas y medir resultados de acciones o operaciones de la empresa.
Existen KPIs en el area de ventas, operacional, retail, redes sociales, logística, producción, financiera, marketing, recursos humanos, clientes, entre otros. Y cada una de estas areas pueden llegar a tomar un muy fuerte lugar en la empresa, tener KPIs para cada una de las areas, daría la oportunidad de adquirir información esencial, mejorar en aquello que la empresa está fallando y encontrar areas de oportunidad, así como seguir dedicandole en algo que le ha estado dando buenos frutos. A través de estas herramiendas de medición es posible de encontrar información escondida y muy relevante para la empresa que puede llegar a ser la diferencia de un negocio exitoso.
Propuesta y Descripción de 3 KPIs
KPI Producción: - Como se mencionó anteriormente existe una variedad de areas de KPIs pero en este caso quise darle un mayor enfoque al area de Producción, ya que para nuestro socio formador FORM y el análisis que hemos hecho, podemos darnos cuenta que existen muchas areas de oportunidad para la empresa en esta area. Y con la industria en la que se encuentra FORM, creo que su mayor impacto de productividad e ingresos puede venir de esta area en especifico.
1. Costeo de materiales. Esta métrica es un calculo en el cual se obtiene los costes de cada uno de los materiales, esto le perimite a FORM conocer la evaluación de los precios de adquisición que se tiene en cada uno de sus materiales.
¿Porqué su importancia? y ¿Para qué el KPI? - Es importante tener claro cuales son los precios para anlizar el incremento o descenso de los precios en el area externa de la industria. Conocer la situación actual de la industria en que la empresa se mantiene es muy importante para tener información y poder tomar mejores decisiones, asi como también a nivelar los precios de sus servicios y productos según sea el margen de utilidad que se quiere obtener. - El KPI brindará información sobre los proveedores de FORM, les d¡ayudará a tomar decisiones acerca del inventario que pueden adquirir y establecer los precios para mantener un margen de utilidad. De igual forma para conocer el comportamiento de la industria y en dado caso de tener cambios muy fuertes analizar y evaluar el porque de esos cambgios y estar al tanto de la industria para poder tomar decisiones razonadas y planificadas en caso de ser necesario de tomar acción.
2. Rotación de Inventario. Esta métrica ayuda a conocer la efectividad de los recursos y poder anivelar los costos que se hacen por inventario, de tal FORMA que form pueda crear estrategiias de rotación de inventario para balaner los gastos y asegurar que sus gastos le darán un retorno de inversión lo más pronto posible.
¿Cómo se calcula? y ¿Para qué el KPI? - Se calcula de la siguiente manera: Rotación de inventario = Coste de los Productos Vendidos / Promedio de Inventario. Cuando a través del cálculo se tiene un ratio “bajo” se indica que hay pocas ventas y un inventario muy exesivo, y cuando se tiene un ratio “alto” indica fuertes ventas o inventario insuficiente. - El KPI le permitirá a FORM tener información sobre cuanto inventario se debe de pedir, cuales el promedio de venta que se tine y que material es aquel que tiene mayor utilidad y demanda y cual por lo contrario se tiene en el almancén más tiempo.
3. Ritmo de producción. A través de este KPI se puede tene runa mejor medida de la capcidad que tiene la empresa en términos de producción. Llega a ser muy útil para lanificar pedidos y decidir el volumen de pedidos que tu empresa puede realizar sin llegar al riesgo de quedar mal con los clientes o descubrir que no tienen la capacidad para el volumen de pedidos que aceptaron. O por el contrario darse cuenta que la empresa puede aceptar mayor cantidad de pedidos de los que aceptan, por lo cual esto indicaría un desaprovechamiento de opotunidades.
¿Porqué su importancia? y ¿Para qué el KPI? - Es muy importante tomar en cuenta la capacidad que tiene la empresa para darle el mayor rendimiento y provecho posible a las instalaciones, empleados y materiales que se tienen y para ello es conocer la msima empresa através de medidas e información exacta de la empresa. - Con este KPI FORM tendrá la oportunidad de incrementar su productividad, tener mayores ventas gracias a su capacidad y por ende una mayor utilidad. Por otro lado FORM también tendría la oportunidad de conocer el rendiminto que tienen sus maquinas y evaluar el trabajo que sus empleados están generando.
4. Almacén y Merma. Este indicador se relaciona con el rendimiento que se tiene como empresa y de los materiales, al igual que se puede relacionar con la rotación de inventario. Este indicador nos puede ayuadr a aumentar la y mejorar la planificación de logística.
¿Cómo funciona? y ¿Para qué el KPI? - Existe un porcentaje mundialmente aceptado de obtener mermas según el sector de la empresa, pero según la investigación de BIND ERP (2020) este varia entre el 1% y el 2%. Con esta métrica se lograría obtener datos como el ¿Porqué? principal de las mermas. De donde salen y gracias a que proceso se está generando mayor merma el cual provoca una mayor perdida de utilidad. - Este KPI le permitirá a FORM analizar y conocer el porcentaje que se tiene de merma, en que parte del proceso de producción es en el cual se genera una mayor porción de las mermas y de ese modo crear estregias para mitigar o disminuir ese error o aquello que está generando los grandes volumenes de merma.
Con el análisis de las difeerentes bases de datos de nuestro socio formador FORM, hemos logrado obtener información relevante que muchas veces no tenemos en cuenta o no es fácil de captar. A través de este análisis de utilizaron diferentes herramientas, para prinicipalmente limpiar las bases de datos y tener unicamente la información significativa y acomodada de la mejor manera. Después realizamos diferentes gráficos asi como plots, tablas, cruzadas, tablas de frecuencia, gráficos cuantitativos y cualitativos, gráficos de dispersión, entre otros. Y muy interesante con información muy relevante pudimos obtener predicciones y pronósticos a través de la implementación de una regresión lineal para la predicción y la función de “auto.arima” para obtener un pronóstico rápido.
El hacer esta actividad nos empapó del conocimiento sobre la importancia que tienen los datos en un negocio y en cada decisión que se toma. Pudimos obtener información esencial que puede impactar fuertemente al negocio y que puede lograr mejorías o abrir muchas oportunidades de negocio.
insightsoftware. (2022, 23 febrero). Ejemplos de los 30 mejores KPI y métricas de producción para la creación de informes en 2021. insightsoftware Spain. Recuperado 21 de octubre de 2022, de https://insightsoftware.com/es/blog/30-manufacturing-kpis-and-metric-examples/
Silva, D. da. (1970, 1 enero). ¿Qué es el Business Intelligence? Zendesk MX. Recuperado 21 de octubre de 2022, de https://www.zendesk.com.mx/blog/bi-business-intelligence-que-es/
Apd, R. (2020, 24 noviembre). Los diferentes tipos de KPIs y su gran impacto en las empresas. APD España. Recuperado 21 de octubre de 2022, de https://www.apd.es/tipos-de-kpis/
What is Business Analytics? Definition and FAQs | HEAVY.AI. (s. f.). Recuperado 21 de octubre de 2022, de https://www.heavy.ai/technical-glossary/business-analytics
RPubs - IntroducciÃ3n a los Modelos de Agrupamiento en R. (2018, 23 junio). Recuperado 21 de octubre de 2022, de https://rpubs.com/rdelgado/399475