En el primer sheet, “Colaboradores”
bd_rh_colaboradores<-read.csv("/Users/georginamartinez/Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a decisiones/Base de datos FORM/RH/colabbb.csv")
summary(bd_rh_colaboradores)
## No..De.Empleado APELLIDOS NOMBRE AÑO.DE.NACIMIENTO
## Min. : 1.00 Length:111 Length:111 Min. :1955
## 1st Qu.: 25.25 Class :character Class :character 1st Qu.:1978
## Median : 49.50 Mode :character Mode :character Median :1989
## Mean : 57.79 Mean :1987
## 3rd Qu.: 84.00 3rd Qu.:1997
## Max. :148.00 Max. :2022
## NA's :21 NA's :3
## GENERO RFC FECHA.DE.ALTA Primer.mes
## Length:111 Length:111 Min. :2010 Min. :2010
## Class :character Class :character 1st Qu.:2020 1st Qu.:2021
## Mode :character Mode :character Median :2022 Median :2022
## Mean :2021 Mean :2021
## 3rd Qu.:2022 3rd Qu.:2022
## Max. :2022 Max. :2022
## NA's :1 NA's :3
## X4to.mes BAJA PUESTO DEPARTAMENTO
## Min. :1905 Min. :3 Length:111 Length:111
## 1st Qu.:2021 1st Qu.:3 Class :character Class :character
## Median :2022 Median :3 Mode :character Mode :character
## Mean :2020 Mean :3
## 3rd Qu.:2022 3rd Qu.:3
## Max. :2022 Max. :3
## NA's :3 NA's :98
## NO.SEGURO.SOCIAL SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:111 Min. :144.4 Length:111
## Class :character 1st Qu.:176.7 Class :character
## Mode :character Median :180.7 Mode :character
## Mean :179.1
## 3rd Qu.:180.7
## Max. :337.1
##
## N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP
## Length:111 Length:111 Length:111
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## CALLE NUMERO.INTERNO COLONIA MUNICIPIO
## Length:111 Length:111 Length:111 Length:111
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## ESTADO CODIGO.POSTAL ESTADO.CIVIL TARJETA....CUENTA
## Length:111 Min. :25016 Length:111 Length:111
## Class :character 1st Qu.:66642 Class :character Class :character
## Mode :character Median :66646 Mode :character Mode :character
## Mean :63300
## 3rd Qu.:66649
## Max. :67493
##
Se tienen 26 variables y 113 registros.
str(bd_rh_colaboradores)
## 'data.frame': 111 obs. of 26 variables:
## $ No..De.Empleado : int 4 15 7 8 26 24 89 88 86 78 ...
## $ APELLIDOS : chr "CAZARES MORALES" "CAZARES AMAYA" "PERALTA MARTINEZ" "TOVAR PEREZ" ...
## $ NOMBRE : chr "MARIA" "GUADALUPE" "ARACELY" "PEDRO ISAI" ...
## $ AÑO.DE.NACIMIENTO : int 1990 1984 1984 1985 1984 1962 1966 1976 1963 1979 ...
## $ GENERO : chr "FEMENINO" "MASCULINO" "FEMENINO" "MASCULINO" ...
## $ RFC : chr "CAMM9005019S8" "CAAG8207168N6" "PEMA6707017U2" "TOPP961210989" ...
## $ FECHA.DE.ALTA : int 2013 2018 2015 2016 2020 2020 2022 2022 2022 2022 ...
## $ Primer.mes : int 2013 2018 2015 2016 2020 2020 2022 2022 2022 2022 ...
## $ X4to.mes : int 2013 2019 2015 2016 2020 2020 2022 2022 2022 2022 ...
## $ BAJA : int NA NA NA NA NA NA 3 3 3 3 ...
## $ PUESTO : chr "SUPERVISORA" "MANTENIMIENTO" "COSTURERA" "AYUDANTE GENERAL" ...
## $ DEPARTAMENTO : chr "Produccion Cartón MC" "EHS" "Costura" "Producción Retorn" ...
## $ NO.SEGURO.SOCIAL : chr "4.31E+14" "4.70E+14" "3876700802" "4.31E+13" ...
## $ SALARIO.DIARIO.IMSS : num 337 280 260 241 241 ...
## $ FACTOR.CRED.INFONAVIT: chr "" "" "" "" ...
## $ N...CREDITO.INFONAVIT: chr "" "" "" "" ...
## $ LUGAR.DE.NACIMIENTO : chr "" "" "" "" ...
## $ CURP : chr "CAMM900501MVZZRR00" "CAAG820716HNLZMD05" "PEMA670701MNLRRR02" "TOPP961210HNLVRD07" ...
## $ CALLE : chr "RIO ACAPONETA" "ESTAMBUL" "ALAMO TEMBLON" "RIO ACAPONETA" ...
## $ NUMERO.INTERNO : chr "" "" "" "" ...
## $ COLONIA : chr "PUEBLO NUEVO" "PASEO DE LAS FLORES" "ALAMOS DEL PARQUE" "PUEBLO NUEVO 5TO SECTOR" ...
## $ MUNICIPIO : chr "APODACA" "APODACA" "APODACA" "APODACA" ...
## $ ESTADO : chr "Nuevo Leon" "Nuevo Leon" "Nuevo Leon" "Nuevo Leon" ...
## $ CODIGO.POSTAL : int 66649 66643 66633 66649 66646 66646 66643 66643 66670 66646 ...
## $ ESTADO.CIVIL : chr "Casado" "Soltero" "Casado" "Casado" ...
## $ TARJETA....CUENTA : chr "BANORTE" "BANORTE" "BANORTE" "BANORTE" ...
| Variable | Type |
|---|---|
No.De.Empleado |
Cualitativa (nominal) |
Apellidos |
Cualitativa (nominal) |
Nombre |
Cualitativa (nominal) |
FechaNacimiento |
Cuantitativa (discreta) |
Genero |
Cualitativa (nominal) |
RFC |
Cualitativa (nominal) |
FechaAlta |
Cuantitativa (discreta) |
PrimerMes |
Cuantitativa (discreta) |
4toMes |
Cuantitativa (discreta) |
Baja |
Cuantitativa (discreta) |
Puesto |
Cualitativa (nominal) |
Departamento |
Cualitativa (nominal) |
SeguroSocial |
Cualitativa (nominal) |
SalarioDiario |
Cuantitativa (continuo) |
FactorInfonavit |
Cualitativa (nominal) |
N.CreditoInfonavit |
Cualitativa (nominal) |
LugarNacimiento |
Cualitativa (nominal) |
CURP |
Cualitativa (nominal) |
Calle |
Cualitativa (nominal) |
NumeroInterno |
Cualitativa (nominal) |
Colonia |
Cualitativa (nominal) |
Municipio |
Cualitativa (nominal) |
Estado |
Cualitativa (nominal) |
CodigoPostal |
Cualitativa (nominal) |
EstadoCivil |
Cualitativa (nominal) |
Tarjeta |
Cualitativa (nominal) |
| Variable | Medicion |
|---|---|
No.De.Empleado |
Números |
Apellidos |
No aplica |
Nombre |
No aplica |
FechaNacimiento |
Año |
Genero |
No aplica |
RFC |
No aplica |
FechaAlta |
Año |
PrimerMes |
Año |
4toMes |
Año |
Baja |
Números |
Puesto |
No aplica |
Departamento |
No aplica |
SeguroSocial |
No aplica |
SalarioDiario |
Pesos mexicanos |
FactorInfonavit |
Pesos mexicanos |
N.CreditoInfonavit |
No aplica |
LugarNacimiento |
No aplica |
CURP |
No aplica |
Calle |
No aplica |
NumeroInterno |
No aplica |
Colonia |
No aplica |
Municipio |
No aplica |
Estado |
No aplica |
CodigoPostal |
No aplica |
EstadoCivil |
No aplica |
Tarjeta |
No aplica |
Primeramente, se notó que en el excel algunas fechas estaban con formato día/mes/año y otros mes/día/año. Por lo que para tener la información más real y precisa posible, se extrajeron solo los AÑOS para el análisis.
Existen muchas variables en la base de datos, y muchas de estas contienen datos personales de los colaboradores, por lo que es información muy sensible y que no aporta mucho insight al análisis. Por lo tanto, se ha escogido la técnica de remover datos irrelevantes a la información personal de los empleados que no sirvan mucho para el análisis, como lo es su nombre, apellido, RFC, CURP. Sin embargo, otros datos personales se han mantenido para hacer un análisis de diversidad e inclusión (género, fecha de nacimiento, estado civil).
summary(bd_rh_colaboradores)
## No..De.Empleado APELLIDOS NOMBRE AÑO.DE.NACIMIENTO
## Min. : 1.00 Length:111 Length:111 Min. :1955
## 1st Qu.: 25.25 Class :character Class :character 1st Qu.:1978
## Median : 49.50 Mode :character Mode :character Median :1989
## Mean : 57.79 Mean :1987
## 3rd Qu.: 84.00 3rd Qu.:1997
## Max. :148.00 Max. :2022
## NA's :21 NA's :3
## GENERO RFC FECHA.DE.ALTA Primer.mes
## Length:111 Length:111 Min. :2010 Min. :2010
## Class :character Class :character 1st Qu.:2020 1st Qu.:2021
## Mode :character Mode :character Median :2022 Median :2022
## Mean :2021 Mean :2021
## 3rd Qu.:2022 3rd Qu.:2022
## Max. :2022 Max. :2022
## NA's :1 NA's :3
## X4to.mes BAJA PUESTO DEPARTAMENTO
## Min. :1905 Min. :3 Length:111 Length:111
## 1st Qu.:2021 1st Qu.:3 Class :character Class :character
## Median :2022 Median :3 Mode :character Mode :character
## Mean :2020 Mean :3
## 3rd Qu.:2022 3rd Qu.:3
## Max. :2022 Max. :3
## NA's :3 NA's :98
## NO.SEGURO.SOCIAL SALARIO.DIARIO.IMSS FACTOR.CRED.INFONAVIT
## Length:111 Min. :144.4 Length:111
## Class :character 1st Qu.:176.7 Class :character
## Mode :character Median :180.7 Mode :character
## Mean :179.1
## 3rd Qu.:180.7
## Max. :337.1
##
## N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO CURP
## Length:111 Length:111 Length:111
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## CALLE NUMERO.INTERNO COLONIA MUNICIPIO
## Length:111 Length:111 Length:111 Length:111
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## ESTADO CODIGO.POSTAL ESTADO.CIVIL TARJETA....CUENTA
## Length:111 Min. :25016 Length:111 Length:111
## Class :character 1st Qu.:66642 Class :character Class :character
## Mode :character Median :66646 Mode :character Mode :character
## Mean :63300
## 3rd Qu.:66649
## Max. :67493
##
Se eliminan las columnas que no aportan mucho al análisis de datos.
bd_rh_colaboradores2<-bd_rh_colaboradores
bd_rh_colaboradores2<-subset(bd_rh_colaboradores2,select=-c(No..De.Empleado,TARJETA....CUENTA,CODIGO.POSTAL,COLONIA,NUMERO.INTERNO,CALLE,CURP,FACTOR.CRED.INFONAVIT,NO.SEGURO.SOCIAL,RFC,APELLIDOS,NOMBRE))
summary(bd_rh_colaboradores2)
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA Primer.mes
## Min. :1955 Length:111 Min. :2010 Min. :2010
## 1st Qu.:1978 Class :character 1st Qu.:2020 1st Qu.:2021
## Median :1989 Mode :character Median :2022 Median :2022
## Mean :1987 Mean :2021 Mean :2021
## 3rd Qu.:1997 3rd Qu.:2022 3rd Qu.:2022
## Max. :2022 Max. :2022 Max. :2022
## NA's :3 NA's :1 NA's :3
## X4to.mes BAJA PUESTO DEPARTAMENTO
## Min. :1905 Min. :3 Length:111 Length:111
## 1st Qu.:2021 1st Qu.:3 Class :character Class :character
## Median :2022 Median :3 Mode :character Mode :character
## Mean :2020 Mean :3
## 3rd Qu.:2022 3rd Qu.:3
## Max. :2022 Max. :3
## NA's :3 NA's :98
## SALARIO.DIARIO.IMSS N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO
## Min. :144.4 Length:111 Length:111
## 1st Qu.:176.7 Class :character Class :character
## Median :180.7 Mode :character Mode :character
## Mean :179.1
## 3rd Qu.:180.7
## Max. :337.1
##
## MUNICIPIO ESTADO ESTADO.CIVIL
## Length:111 Length:111 Length:111
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
Con un rápido vistazo de la base de datos, se podía observar que faltaban ciertos valores en las diferentes variables. Si faltaban muchos datos en una sola variable, se optó por eliminar la columna, mientras que en otros casos donde haya pocos por variables sólo se eliminaron los registros.
sum(is.na(bd_rh_colaboradores2))
## [1] 108
sapply(bd_rh_colaboradores2,function(x) sum(is.na(x)))
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA
## 3 0 1
## Primer.mes X4to.mes BAJA
## 3 3 98
## PUESTO DEPARTAMENTO SALARIO.DIARIO.IMSS
## 0 0 0
## N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO MUNICIPIO
## 0 0 0
## ESTADO ESTADO.CIVIL
## 0 0
bd_rh_colaboradores3<-bd_rh_colaboradores2
bd_rh_colaboradores3<-subset(bd_rh_colaboradores2,select=-c(BAJA))
summary(bd_rh_colaboradores3)
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA Primer.mes
## Min. :1955 Length:111 Min. :2010 Min. :2010
## 1st Qu.:1978 Class :character 1st Qu.:2020 1st Qu.:2021
## Median :1989 Mode :character Median :2022 Median :2022
## Mean :1987 Mean :2021 Mean :2021
## 3rd Qu.:1997 3rd Qu.:2022 3rd Qu.:2022
## Max. :2022 Max. :2022 Max. :2022
## NA's :3 NA's :1 NA's :3
## X4to.mes PUESTO DEPARTAMENTO SALARIO.DIARIO.IMSS
## Min. :1905 Length:111 Length:111 Min. :144.4
## 1st Qu.:2021 Class :character Class :character 1st Qu.:176.7
## Median :2022 Mode :character Mode :character Median :180.7
## Mean :2020 Mean :179.1
## 3rd Qu.:2022 3rd Qu.:180.7
## Max. :2022 Max. :337.1
## NA's :3
## N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO MUNICIPIO
## Length:111 Length:111 Length:111
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## ESTADO ESTADO.CIVIL
## Length:111 Length:111
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
sapply(bd_rh_colaboradores3,function(x) sum(is.na(x)))
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA
## 3 0 1
## Primer.mes X4to.mes PUESTO
## 3 3 0
## DEPARTAMENTO SALARIO.DIARIO.IMSS N...CREDITO.INFONAVIT
## 0 0 0
## LUGAR.DE.NACIMIENTO MUNICIPIO ESTADO
## 0 0 0
## ESTADO.CIVIL
## 0
bd_rh_colaboradores4<-bd_rh_colaboradores3
bd_rh_colaboradores4<-na.omit(bd_rh_colaboradores4)
summary(bd_rh_colaboradores4)
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA Primer.mes
## Min. :1955 Length:106 Min. :2010 Min. :2010
## 1st Qu.:1978 Class :character 1st Qu.:2021 1st Qu.:2020
## Median :1990 Mode :character Median :2022 Median :2022
## Mean :1987 Mean :2021 Mean :2021
## 3rd Qu.:1997 3rd Qu.:2022 3rd Qu.:2022
## Max. :2022 Max. :2022 Max. :2022
## X4to.mes PUESTO DEPARTAMENTO SALARIO.DIARIO.IMSS
## Min. :2010 Length:106 Length:106 Min. :144.4
## 1st Qu.:2021 Class :character Class :character 1st Qu.:176.7
## Median :2022 Mode :character Mode :character Median :180.7
## Mean :2021 Mean :179.4
## 3rd Qu.:2022 3rd Qu.:180.7
## Max. :2022 Max. :337.1
## N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO MUNICIPIO
## Length:106 Length:106 Length:106
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
## ESTADO ESTADO.CIVIL
## Length:106 Length:106
## Class :character Class :character
## Mode :character Mode :character
##
##
##
sapply(bd_rh_colaboradores4,function(x) sum(is.na(x)))
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA
## 0 0 0
## Primer.mes X4to.mes PUESTO
## 0 0 0
## DEPARTAMENTO SALARIO.DIARIO.IMSS N...CREDITO.INFONAVIT
## 0 0 0
## LUGAR.DE.NACIMIENTO MUNICIPIO ESTADO
## 0 0 0
## ESTADO.CIVIL
## 0
bd_rh_colaboradores5<-bd_rh_colaboradores4
bd_rh_colaboradores5<-bd_rh_colaboradores5[bd_rh_colaboradores5$AÑO.DE.NACIMIENTO<2004,]
summary(bd_rh_colaboradores5)
## AÑO.DE.NACIMIENTO GENERO FECHA.DE.ALTA Primer.mes
## Min. :1955 Length:104 Min. :2010 Min. :2010
## 1st Qu.:1978 Class :character 1st Qu.:2021 1st Qu.:2020
## Median :1989 Mode :character Median :2022 Median :2022
## Mean :1987 Mean :2021 Mean :2021
## 3rd Qu.:1996 3rd Qu.:2022 3rd Qu.:2022
## Max. :2003 Max. :2022 Max. :2022
## X4to.mes PUESTO DEPARTAMENTO SALARIO.DIARIO.IMSS
## Min. :2010 Length:104 Length:104 Min. :144.4
## 1st Qu.:2021 Class :character Class :character 1st Qu.:176.7
## Median :2022 Mode :character Mode :character Median :180.7
## Mean :2021 Mean :179.3
## 3rd Qu.:2022 3rd Qu.:180.7
## Max. :2022 Max. :337.1
## N...CREDITO.INFONAVIT LUGAR.DE.NACIMIENTO MUNICIPIO
## Length:104 Length:104 Length:104
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
## ESTADO ESTADO.CIVIL
## Length:104 Length:104
## Class :character Class :character
## Mode :character Mode :character
##
##
##
Queda limpia y lista para analizar la base de datos.
rh_limpia <-bd_rh_colaboradores5
write.csv(rh_limpia, file ="rh_limpia5.csv", row.names = FALSE)
Esta base de datos fue tomando en cuenta los datos otorgados por Form de su gestión de Recursos Humanos. Obtenemos los datos de los colaboradores, y algunas de sus características que podrían resultar interesantes para proponer estrategias fundamentadas a la organización. Me encontré con diferentes retos al trabajar primeramente con los datos, como lo fueron algunos datos faltantes y errores de dedo (fechas en idioma español y otras en inglés de EUA).
Una importante reflexión de esta actividad fue como R me puede ayudar a preparar una base de datos de manera que tengamos menos errores y hacer el proceso más eficiente. Este proceso realizado será de gran utilidad para las próximas actividades y la resolución del reto.
#file.choose()
bd <- read.csv("/Users/georginamartinez/Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a decisiones/Base de datos FORM/Delivery Plan/FORM - Delivery Plan.xlsx - DELIVERY PLAN(2) (1)C.csv")
bd3<- read.csv("/Users/georginamartinez/Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a decisiones/Base de datos FORM/Delivery Plan/2022.csv")
bd4<- read.csv("/Users/georginamartinez/Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a decisiones/Base de datos FORM/Delivery Plan/año.csv")
## Warning in read.table(file = file, header = header, sep = sep, quote = quote, :
## incomplete final line found by readTableHeader on '/Users/georginamartinez/
## Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a
## decisiones/Base de datos FORM/Delivery Plan/año.csv'
summary(bd)
## CLIENTE.PLANTA PROYECTO ID.ODOO ITEM
## Length:231 Length:231 Length:231 Length:231
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## JUNIO JULIO AGOSTO SEPTIEMBRE
## Min. : 0.00 Min. : 0.0 Min. : 0.00 Min. : 0
## 1st Qu.: 0.00 1st Qu.: 0.0 1st Qu.: 0.00 1st Qu.: 0
## Median : 0.00 Median : 0.0 Median : 0.00 Median : 0
## Mean : 29.06 Mean : 135.9 Mean : 77.45 Mean : 81
## 3rd Qu.: 0.00 3rd Qu.: 0.0 3rd Qu.: 0.00 3rd Qu.: 0
## Max. :1280.00 Max. :13120.0 Max. :3200.00 Max. :3200
## OCTUBRE NOVIEMBRE DICIEMBRE ENE.22
## Min. : 0.0 Min. : 0.00 Min. : 0.0 Min. : 0.00
## 1st Qu.: 0.0 1st Qu.: 0.00 1st Qu.: 0.0 1st Qu.: 0.00
## Median : 0.0 Median : 0.00 Median : 0.0 Median : 0.00
## Mean : 62.0 Mean : 89.69 Mean : 100.4 Mean : 82.37
## 3rd Qu.: 11.5 3rd Qu.: 4.00 3rd Qu.: 1.5 3rd Qu.: 26.50
## Max. :3200.0 Max. :6400.00 Max. :6400.0 Max. :3200.00
## FEBRERO.22 MARZO.22 ABRIL.22 MAYO.22
## Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0.0
## 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0
## Median : 0.0 Median : 0.0 Median : 0.0 Median : 0.0
## Mean : 103.5 Mean : 153.9 Mean : 186.5 Mean : 187.6
## 3rd Qu.: 0.0 3rd Qu.: 20.0 3rd Qu.: 24.0 3rd Qu.: 22.0
## Max. :9600.0 Max. :9600.0 Max. :16354.0 Max. :17665.0
## JUNIO.22 JULIO.22 AGOSTO.22 SEPTIEMBRE.22
## Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0.0
## 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0
## Median : 0.0 Median : 0.0 Median : 0.0 Median : 0.0
## Mean : 171.2 Mean : 316.9 Mean : 131.5 Mean : 272.3
## 3rd Qu.: 1.0 3rd Qu.: 15.5 3rd Qu.: 0.0 3rd Qu.: 0.0
## Max. :11050.0 Max. :25900.0 Max. :13200.0 Max. :29379.0
## NOVIEMBRE.22 NOVIEMBRE.22.1 DICIEMBRE.22 ENERO.23
## Min. : 0.0 Min. : 0.000 Min. : 0.000 Min. : 0.0000
## 1st Qu.: 0.0 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.0000
## Median : 0.0 Median : 0.000 Median : 0.000 Median : 0.0000
## Mean : 120.9 Mean : 2.113 Mean : 1.225 Mean : 0.5974
## 3rd Qu.: 0.0 3rd Qu.: 0.000 3rd Qu.: 0.000 3rd Qu.: 0.0000
## Max. :16421.0 Max. :324.000 Max. :276.000 Max. :138.0000
## FEBRERO.23 MARZO.23
## Min. :0 Min. :0
## 1st Qu.:0 1st Qu.:0
## Median :0 Median :0
## Mean :0 Mean :0
## 3rd Qu.:0 3rd Qu.:0
## Max. :0 Max. :0
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#install.packages("psych")
library(psych)
describeData(bd, head=1, tail=1 )
## n.obs = 231 of which 231 are complete cases. Number of variables = 26 of which all are numeric FALSE
## variable # n.obs type H1
## CLIENTE.PLANTA* 1 231 3 STB3
## PROYECTO* 2 231 3 CANASTILLA GRIS
## ID.ODOO* 3 231 3 15.785
## ITEM* 4 231 3 CABLE SET CAJA BACK UP CANASTILLA
## JUNIO 5 231 1 0
## JULIO 6 231 1 140
## AGOSTO 7 231 1 530
## SEPTIEMBRE 8 231 1 0
## OCTUBRE 9 231 1 200
## NOVIEMBRE 10 231 1 0
## DICIEMBRE 11 231 1 150
## ENE.22 12 231 1 230
## FEBRERO.22 13 231 1 500
## MARZO.22 14 231 1 0
## ABRIL.22 15 231 1 0
## MAYO.22 16 231 1 0
## JUNIO.22 17 231 1 200
## JULIO.22 18 231 1 900
## AGOSTO.22 19 231 1 1000
## SEPTIEMBRE.22 20 231 1 0
## NOVIEMBRE.22 21 231 1 0
## NOVIEMBRE.22.1 22 231 1 0
## DICIEMBRE.22 23 231 1 0
## ENERO.23 24 231 1 0
## FEBRERO.23 25 231 1 0
## MARZO.23 26 231 1 0
## T1
## CLIENTE.PLANTA*
## PROYECTO*
## ID.ODOO*
## ITEM* U553 KIT
## JUNIO 0
## JULIO 0
## AGOSTO 0
## SEPTIEMBRE 0
## OCTUBRE 30
## NOVIEMBRE 200
## DICIEMBRE 0
## ENE.22 0
## FEBRERO.22 0
## MARZO.22 0
## ABRIL.22 0
## MAYO.22 0
## JUNIO.22 0
## JULIO.22 0
## AGOSTO.22 0
## SEPTIEMBRE.22 0
## NOVIEMBRE.22 0
## NOVIEMBRE.22.1 0
## DICIEMBRE.22 0
## ENERO.23 0
## FEBRERO.23 0
## MARZO.23 0
Variable<-c("`Cliente.Planta`","`Junio 2021`","`Julio 2021`","`Agosto 2021`","`Septiembre 2021`","`Octubre 2021`","`Noviembre 2021`","`Diciembre 2021`","`Enero 2022`","`Febrero 2022`","`Marzo 2022`","`Abril 2022`","`Mayo 2022`","`Junio 2022`","`Julio 2022`","`Agosto 2022`","`Septiembre 2022`","`Octubre 2022`","`Noviembre 2022`","`Diciembre 2022`","`Enero 2023`","`Febrero 2023`","`Marzo 2023`")
Type<-c("Cualitativa", "Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)","Cuantitativa(discreta)")
table<-data.frame(Variable,Type)
knitr::kable(table)
| Variable | Type |
|---|---|
Cliente.Planta |
Cualitativa |
Junio 2021 |
Cuantitativa(discreta) |
Julio 2021 |
Cuantitativa(discreta) |
Agosto 2021 |
Cuantitativa(discreta) |
Septiembre 2021 |
Cuantitativa(discreta) |
Octubre 2021 |
Cuantitativa(discreta) |
Noviembre 2021 |
Cuantitativa(discreta) |
Diciembre 2021 |
Cuantitativa(discreta) |
Enero 2022 |
Cuantitativa(discreta) |
Febrero 2022 |
Cuantitativa(discreta) |
Marzo 2022 |
Cuantitativa(discreta) |
Abril 2022 |
Cuantitativa(discreta) |
Mayo 2022 |
Cuantitativa(discreta) |
Junio 2022 |
Cuantitativa(discreta) |
Julio 2022 |
Cuantitativa(discreta) |
Agosto 2022 |
Cuantitativa(discreta) |
Septiembre 2022 |
Cuantitativa(discreta) |
Octubre 2022 |
Cuantitativa(discreta) |
Noviembre 2022 |
Cuantitativa(discreta) |
Diciembre 2022 |
Cuantitativa(discreta) |
Enero 2023 |
Cuantitativa(discreta) |
Febrero 2023 |
Cuantitativa(discreta) |
Marzo 2023 |
Cuantitativa(discreta) |
bd1 <- bd
bd1 <- subset(bd1, select = -c (PROYECTO, ITEM, ID.ODOO ))
sum(is.na(bd1))
## [1] 0
sum(is.na(bd))
## [1] 0
sapply(bd1, function(x) sum(is.na(x)))
## CLIENTE.PLANTA JUNIO JULIO AGOSTO SEPTIEMBRE
## 0 0 0 0 0
## OCTUBRE NOVIEMBRE DICIEMBRE ENE.22 FEBRERO.22
## 0 0 0 0 0
## MARZO.22 ABRIL.22 MAYO.22 JUNIO.22 JULIO.22
## 0 0 0 0 0
## AGOSTO.22 SEPTIEMBRE.22 NOVIEMBRE.22 NOVIEMBRE.22.1 DICIEMBRE.22
## 0 0 0 0 0
## ENERO.23 FEBRERO.23 MARZO.23
## 0 0 0
sapply(bd, function(x) sum(is.na(x)))
## CLIENTE.PLANTA PROYECTO ID.ODOO ITEM JUNIO
## 0 0 0 0 0
## JULIO AGOSTO SEPTIEMBRE OCTUBRE NOVIEMBRE
## 0 0 0 0 0
## DICIEMBRE ENE.22 FEBRERO.22 MARZO.22 ABRIL.22
## 0 0 0 0 0
## MAYO.22 JUNIO.22 JULIO.22 AGOSTO.22 SEPTIEMBRE.22
## 0 0 0 0 0
## NOVIEMBRE.22 NOVIEMBRE.22.1 DICIEMBRE.22 ENERO.23 FEBRERO.23
## 0 0 0 0 0
## MARZO.23
## 0
#Cambiar el nombre de una columna
#library(dplyr)
#?colnames
#bd1$NOVIEMBRE.22 <- colnames("OCTUBRE.22")
bd_delivery_perf <- read.csv("/Users/georginamartinez/Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a decisiones/Base de datos FORM/BD Form Delivery Performance.csv")
Variable <-c("Cliente", "Transportista", "Fecha", "Plan Arrival", "Real Arrival", "Real Departure", "Diferencia")
Tipo <-c("Cualitativa (nominal)", "Cualitativa (nominal)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)", "Cuantitativa (continua)")
table<-data.frame(Variable, Tipo)
knitr::kable(table)
| Variable | Tipo |
|---|---|
| Cliente | Cualitativa (nominal) |
| Transportista | Cualitativa (nominal) |
| Fecha | Cuantitativa (continua) |
| Plan Arrival | Cuantitativa (continua) |
| Real Arrival | Cuantitativa (continua) |
| Real Departure | Cuantitativa (continua) |
| Diferencia | Cuantitativa (continua) |
Variable <-c("Cliente", "Transportista", "Fecha", "Plan Arrival", "Real Arrival", "Real Departure", "Diferencia")
Medicion <-c("Nominal", "Nominal", "Intervalo", "Intervalo", "Intervalo", "Intervalo", "Intervalo")
table2<-data.frame(Variable, Medicion)
knitr::kable(table2)
| Variable | Medicion |
|---|---|
| Cliente | Nominal |
| Transportista | Nominal |
| Fecha | Intervalo |
| Plan Arrival | Intervalo |
| Real Arrival | Intervalo |
| Real Departure | Intervalo |
| Diferencia | Intervalo |
## Técnica 4. Convertir tipos de datos
# Convertir de caracter a fecha
bd_delivery_perf$Fecha <- as.Date(bd_delivery_perf$Fecha, format ="%d/%m/%y")
library(tibble)
tibble(bd_delivery_perf)
## # A tibble: 104 × 7
## Cliente Transportista Fecha Plan.arrival Real.arrival Real.…¹ Difer…²
## <chr> <chr> <date> <dbl> <dbl> <dbl> <dbl>
## 1 "PRINTEL " "JUVENCIO" 2020-07-01 16 0 0 0
## 2 "MAHLE" "DIONICIO " 2020-07-01 8 8 8.55 0.55
## 3 "MAHLE" "DIONICIO " 2020-07-01 9 9 10 1
## 4 "MAHLE" "DIONICIO " 2020-07-01 20 20 21.1 1.1
## 5 "MAGNA" "EZEQUIEL " 2020-07-01 0 0 0 0
## 6 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 7 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 8 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 9 "PRINTEL " "JUVENCIO" 2020-08-01 16 16 17 1
## 10 "MAHLE" "DIONICIO " 2020-08-01 8 8 8.51 0.51
## # … with 94 more rows, and abbreviated variable names ¹Real.Departure,
## # ²Diferencia
# Convertir de caracter a hora
bd_delivery_perf$Real.arrival <- substr(bd_delivery_perf$Real.arrival, start = 1, stop = 2)
tibble(bd_delivery_perf)
## # A tibble: 104 × 7
## Cliente Transportista Fecha Plan.arrival Real.arrival Real.…¹ Difer…²
## <chr> <chr> <date> <dbl> <chr> <dbl> <dbl>
## 1 "PRINTEL " "JUVENCIO" 2020-07-01 16 0 0 0
## 2 "MAHLE" "DIONICIO " 2020-07-01 8 8 8.55 0.55
## 3 "MAHLE" "DIONICIO " 2020-07-01 9 9 10 1
## 4 "MAHLE" "DIONICIO " 2020-07-01 20 20 21.1 1.1
## 5 "MAGNA" "EZEQUIEL " 2020-07-01 0 0 0 0
## 6 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 7 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 8 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 9 "PRINTEL " "JUVENCIO" 2020-08-01 16 16 17 1
## 10 "MAHLE" "DIONICIO " 2020-08-01 8 8 8.51 0.51
## # … with 94 more rows, and abbreviated variable names ¹Real.Departure,
## # ²Diferencia
bd_delivery_perf$Real.arrival<- as.integer(bd_delivery_perf$Real.arrival)
str(bd_delivery_perf)
## 'data.frame': 104 obs. of 7 variables:
## $ Cliente : chr "PRINTEL " "MAHLE" "MAHLE" "MAHLE" ...
## $ Transportista : chr "JUVENCIO" "DIONICIO " "DIONICIO " "DIONICIO " ...
## $ Fecha : Date, format: "2020-07-01" "2020-07-01" ...
## $ Plan.arrival : num 16 8 9 20 0 0 0 0 16 8 ...
## $ Real.arrival : int 0 8 9 20 0 0 0 0 16 8 ...
## $ Real.Departure: num 0 8.55 10 21.1 0 0 0 0 17 8.51 ...
## $ Diferencia : num 0 0.55 1 1.1 0 0 0 0 1 0.51 ...
bd_delivery_perf$Real.Departure <- substr(bd_delivery_perf$Real.Departure, start = 1, stop = 2)
tibble(bd_delivery_perf)
## # A tibble: 104 × 7
## Cliente Transportista Fecha Plan.arrival Real.arrival Real.…¹ Difer…²
## <chr> <chr> <date> <dbl> <int> <chr> <dbl>
## 1 "PRINTEL " "JUVENCIO" 2020-07-01 16 0 0 0
## 2 "MAHLE" "DIONICIO " 2020-07-01 8 8 8. 0.55
## 3 "MAHLE" "DIONICIO " 2020-07-01 9 9 10 1
## 4 "MAHLE" "DIONICIO " 2020-07-01 20 20 21 1.1
## 5 "MAGNA" "EZEQUIEL " 2020-07-01 0 0 0 0
## 6 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 7 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 8 "VARROC" "JUVENCIO" 2020-07-01 0 0 0 0
## 9 "PRINTEL " "JUVENCIO" 2020-08-01 16 16 17 1
## 10 "MAHLE" "DIONICIO " 2020-08-01 8 8 8. 0.51
## # … with 94 more rows, and abbreviated variable names ¹Real.Departure,
## # ²Diferencia
bd_delivery_perf$Real.Departure<- as.integer(bd_delivery_perf$Real.Departure)
str(bd_delivery_perf)
## 'data.frame': 104 obs. of 7 variables:
## $ Cliente : chr "PRINTEL " "MAHLE" "MAHLE" "MAHLE" ...
## $ Transportista : chr "JUVENCIO" "DIONICIO " "DIONICIO " "DIONICIO " ...
## $ Fecha : Date, format: "2020-07-01" "2020-07-01" ...
## $ Plan.arrival : num 16 8 9 20 0 0 0 0 16 8 ...
## $ Real.arrival : int 0 8 9 20 0 0 0 0 16 8 ...
## $ Real.Departure: int 0 8 10 21 0 0 0 0 17 8 ...
## $ Diferencia : num 0 0.55 1 1.1 0 0 0 0 1 0.51 ...
bd <- read.csv("/Users/georginamartinez/Documents/Tec/Séptimo Semestre/Analítica para negocios, de los datos a decisiones/Base de datos FORM/BD externa/ACTIVIDAD 2.2 (1).csv")
resumen <- summary(bd)
resumen
## ID Unidad._Económica Clase._de_actividad
## Min. : 19590 Length:1436 Length:1436
## 1st Qu.:3345160 Class :character Class :character
## Median :6711642 Mode :character Mode :character
## Mean :5943914
## 3rd Qu.:8217786
## Max. :9386710
## Descripcion.estrato.personal Estado Tipo_establecimiento
## Length:1436 Length:1436 Length:1436
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
str(bd)
## 'data.frame': 1436 obs. of 6 variables:
## $ ID : int 6281702 8780043 8195140 6281593 6320508 34353 9275228 6912230 6375633 6733875 ...
## $ Unidad._Económica : chr "AGI SHOREWOOD MEXICO S DE RL DE CV" "BIO PAPPEL" "CAJAS CON CARTON" "CAJAS CORRUGADAS DE AGUASCALIENTES" ...
## $ Clase._de_actividad : chr "Fabricación de envases de cartón" "Fabricación de envases de cartón" "Fabricación de envases de cartón" "Fabricación de envases de cartón" ...
## $ Descripcion.estrato.personal: chr "101 a 250 personas" "0 a 5 personas" "0 a 5 personas" "11 a 30 personas" ...
## $ Estado : chr "AGUASCALIENTES" "AGUASCALIENTES" "AGUASCALIENTES" "AGUASCALIENTES" ...
## $ Tipo_establecimiento : chr "Fijo" "Fijo" "Fijo" "Fijo" ...
#install.packages("psych")
library(psych)
describe(bd)
## vars n mean sd median
## ID 1 1436 5943913.83 2732018.76 6711642.0
## Unidad._Económica* 2 1436 592.62 349.32 595.5
## Clase._de_actividad* 3 1436 1.00 0.00 1.0
## Descripcion.estrato.personal* 4 1436 3.36 2.23 3.0
## Estado* 5 1436 12.47 6.10 13.0
## Tipo_establecimiento* 6 1436 1.00 0.04 1.0
## trimmed mad min max range skew
## ID 6177316.64 2536145.94 19590 9386710 9367120 -0.72
## Unidad._Económica* 590.84 446.26 1 1214 1213 0.03
## Clase._de_actividad* 1.00 0.00 1 1 0 NaN
## Descripcion.estrato.personal* 3.20 2.97 1 8 7 0.47
## Estado* 12.33 5.93 1 28 27 0.14
## Tipo_establecimiento* 1.00 0.00 1 2 1 26.71
## kurtosis se
## ID -0.82 72095.22
## Unidad._Económica* -1.19 9.22
## Clase._de_actividad* NaN 0.00
## Descripcion.estrato.personal* -1.21 0.06
## Estado* -0.43 0.16
## Tipo_establecimiento* 712.00 0.00
Variable<-c("ID","Unidad._Económica","Clase._de_actividad","Descripcion.estrato.personal","Estado", "Tipo_establecimiento")
Type<-c("Cuantitativa(continua)","Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa")
table<-data.frame(Variable,Type)
knitr::kable(table)
| Variable | Type |
|---|---|
| ID | Cuantitativa(continua) |
| Unidad._Económica | Cualitativa |
| Clase._de_actividad | Cualitativa |
| Descripcion.estrato.personal | Cualitativa |
| Estado | Cualitativa |
| Tipo_establecimiento | Cualitativa |
Variable<-c("ID","Unidad._Económica","Clase._de_actividad","Descripcion.estrato.personal","Estado", "Tipo_establecimiento")
Type<-c("Cuantitativa(continua)","Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa", "Cualitativa")
Escala_de_Medición <- c("Unidades de razon","Empresa","Tipo de fabricante", "Numero de personal","Estado", "Fijo/Semifijo")
table<-data.frame(Variable,Type,Escala_de_Medición)
knitr::kable(table)
| Variable | Type | Escala_de_Medición |
|---|---|---|
| ID | Cuantitativa(continua) | Unidades de razon |
| Unidad._Económica | Cualitativa | Empresa |
| Clase._de_actividad | Cualitativa | Tipo de fabricante |
| Descripcion.estrato.personal | Cualitativa | Numero de personal |
| Estado | Cualitativa | Estado |
| Tipo_establecimiento | Cualitativa | Fijo/Semifijo |
bd1 <- bd
bd1<-subset(bd1,select=-c(ID))
str(bd1)
## 'data.frame': 1436 obs. of 5 variables:
## $ Unidad._Económica : chr "AGI SHOREWOOD MEXICO S DE RL DE CV" "BIO PAPPEL" "CAJAS CON CARTON" "CAJAS CORRUGADAS DE AGUASCALIENTES" ...
## $ Clase._de_actividad : chr "Fabricación de envases de cartón" "Fabricación de envases de cartón" "Fabricación de envases de cartón" "Fabricación de envases de cartón" ...
## $ Descripcion.estrato.personal: chr "101 a 250 personas" "0 a 5 personas" "0 a 5 personas" "11 a 30 personas" ...
## $ Estado : chr "AGUASCALIENTES" "AGUASCALIENTES" "AGUASCALIENTES" "AGUASCALIENTES" ...
## $ Tipo_establecimiento : chr "Fijo" "Fijo" "Fijo" "Fijo" ...
Encontramos que varias empresas estaban registradas mas de una vez por lo que eran valores repetidos en la base de datos, por lo que utilizamos la tecnica de limpieza de eliminar valores duplicados con la función de distinct, se encontraron 42 valores duplicados.
bd1 [duplicated(bd1),]
## Unidad._Económica
## 37 SOLUCIONES EN EMPAQUE Y LOGISTICA
## 49 CELULOSA Y CORRUGADOS DE SONORA SA DE CV
## 63 EMPAQUES PRECISOS DE MEXICALI
## 89 SINIL INDUSTRY SA DE CV
## 119 DANHIL DE MEXICO SA DE CV
## 172 DURABOX
## 211 BIO PAPPEL
## 251 FABRICACIÓN DE ENVASES DE CARTÓN
## 372 CORRUWAX
## 383 EMPAQUES 06
## 390 ENVASES MICROONDA
## 481 PROCESOS ESPECIALIZADOS DE CARTON DE MEXICO
## 670 PRAKTICAJA
## 698 BIO PAPPEL
## 703 BIO PAPPEL SAB DE CV
## 728 CAJAS Y EMPAQUES MODERNOS SA DE CV
## 736 CARTONERA
## 803 FABRICACION DE CAJAS DE CARTON
## 804 FABRICACION DE CAJAS DE CARTON
## 805 FABRICACION DE CAJAS DE CARTON
## 818 GRUPO TENSA
## 919 HVM GROUP
## 955 BRECEPACK
## 963 CAJAS DE CARTON SULTANA
## 980 CARTOLITO SA DE CV
## 1021 EMPAQUES CONFIABLES
## 1047 FABRICACIÓN DE ENVASES DE CARTÓN
## 1052 FECSA
## 1068 HEXAGONOS MEXICANOS
## 1091 LITOGRAFICA ROBERTSON
## 1224 CORRUEMPAQUES
## 1226 CORRUGADOS ESPECIALIZADOS
## 1241 ESK
## 1281 CAJAS MIL USOS
## 1286 CARDBOARD & BOXES
## 1302 EMPAQUES Y ENVOLTURAS SA DE CV
## 1338 CELULOSA Y CORRUGADOS DE SONORA SA DE CV
## 1339 CELULOSA Y CORRUGADOS DE SONORA SA DE CV
## 1340 CELULOSA Y CORRUGADOS DE SONORA SA DE CV
## 1341 CELULOSA Y CORRUGADOS DE SONORA SA DE CV
## 1374 EMPAQUES RIO GRANDE SA DE CV
## 1403 HEXAGONOS MEXICANOS
## Clase._de_actividad Descripcion.estrato.personal
## 37 Fabricación de envases de cartón 11 a 30 personas
## 49 Fabricación de envases de cartón 0 a 5 personas
## 63 Fabricación de envases de cartón 0 a 5 personas
## 89 Fabricación de envases de cartón 251 y más personas
## 119 Fabricación de envases de cartón 31 a 50 personas
## 172 Fabricación de envases de cartón 101 a 250 personas
## 211 Fabricación de envases de cartón 31 a 50 personas
## 251 Fabricación de envases de cartón 0 a 5 personas
## 372 Fabricación de envases de cartón 0 a 5 personas
## 383 Fabricación de envases de cartón 6 a 10 personas
## 390 Fabricación de envases de cartón 0 a 5 personas
## 481 Fabricación de envases de cartón 11 a 30 personas
## 670 Fabricación de envases de cartón 11 a 30 personas
## 698 Fabricación de envases de cartón 31 a 50 personas
## 703 Fabricación de envases de cartón 251 y más personas
## 728 Fabricación de envases de cartón 101 a 250 personas
## 736 Fabricación de envases de cartón 0 a 5 personas
## 803 Fabricación de envases de cartón 0 a 5 personas
## 804 Fabricación de envases de cartón 0 a 5 personas
## 805 Fabricación de envases de cartón 0 a 5 personas
## 818 Fabricación de envases de cartón 0 a 5 personas
## 919 Fabricación de envases de cartón 0 a 5 personas
## 955 Fabricación de envases de cartón 31 a 50 personas
## 963 Fabricación de envases de cartón 51 a 100 personas
## 980 Fabricación de envases de cartón 11 a 30 personas
## 1021 Fabricación de envases de cartón 0 a 5 personas
## 1047 Fabricación de envases de cartón 0 a 5 personas
## 1052 Fabricación de envases de cartón 0 a 5 personas
## 1068 Fabricación de envases de cartón 11 a 30 personas
## 1091 Fabricación de envases de cartón 11 a 30 personas
## 1224 Fabricación de envases de cartón 11 a 30 personas
## 1226 Fabricación de envases de cartón 6 a 10 personas
## 1241 Fabricación de envases de cartón 11 a 30 personas
## 1281 Fabricación de envases de cartón 0 a 5 personas
## 1286 Fabricación de envases de cartón 0 a 5 personas
## 1302 Fabricación de envases de cartón 0 a 5 personas
## 1338 Fabricación de envases de cartón 0 a 5 personas
## 1339 Fabricación de envases de cartón 0 a 5 personas
## 1340 Fabricación de envases de cartón 0 a 5 personas
## 1341 Fabricación de envases de cartón 0 a 5 personas
## 1374 Fabricación de envases de cartón 51 a 100 personas
## 1403 Fabricación de envases de cartón 31 a 50 personas
## Estado Tipo_establecimiento
## 37 AGUASCALIENTES Fijo
## 49 BAJA CALIFORNIA Fijo
## 63 BAJA CALIFORNIA Fijo
## 89 BAJA CALIFORNIA Fijo
## 119 COAHUILA DE ZARAGOZA Fijo
## 172 CHIHUAHUA Fijo
## 211 CIUDAD DE MÉXICO Fijo
## 251 CIUDAD DE MÉXICO Fijo
## 372 GUANAJUATO Fijo
## 383 GUANAJUATO Fijo
## 390 GUANAJUATO Fijo
## 481 GUANAJUATO Fijo
## 670 JALISCO Fijo
## 698 MÉXICO Fijo
## 703 MÉXICO Fijo
## 728 MÉXICO Fijo
## 736 MÉXICO Fijo
## 803 MÉXICO Fijo
## 804 MÉXICO Fijo
## 805 MÉXICO Fijo
## 818 MÉXICO Fijo
## 919 MICHOACÁN DE OCAMPO Fijo
## 955 NUEVO LEÓN Fijo
## 963 NUEVO LEÓN Fijo
## 980 NUEVO LEÓN Fijo
## 1021 NUEVO LEÓN Fijo
## 1047 NUEVO LEÓN Fijo
## 1052 NUEVO LEÓN Fijo
## 1068 NUEVO LEÓN Fijo
## 1091 NUEVO LEÓN Fijo
## 1224 QUERÉTARO Fijo
## 1226 QUERÉTARO Fijo
## 1241 QUERÉTARO Fijo
## 1281 SAN LUIS POTOSÍ Fijo
## 1286 SAN LUIS POTOSÍ Fijo
## 1302 SAN LUIS POTOSÍ Fijo
## 1338 SONORA Fijo
## 1339 SONORA Fijo
## 1340 SONORA Fijo
## 1341 SONORA Fijo
## 1374 TAMAULIPAS Fijo
## 1403 TLAXCALA Fijo
sum(duplicated(bd1))
## [1] 42
bd2 <- bd1
library(dplyr)
bd2 <- distinct (bd2)