Escoger la base datos

# file.choose()
bd <- read.csv("C:\\Users\\sofia\\OneDrive\\Documentos\\RETO\\FORM - Scrap.csv")

Entendemos la base de datos

resumen <- summary(bd)
resumen

##   Referencia           Fecha             Producto            Cantidad      
##  Length:251         Length:251         Length:251         Min.   :   0.00  
##  Class :character   Class :character   Class :character   1st Qu.:   1.00  
##  Mode  :character   Mode  :character   Mode  :character   Median :   2.00  
##                                                           Mean   :  13.34  
##                                                           3rd Qu.:   7.00  
##                                                           Max.   :1674.00  
##  Unidad.de.medida   Ubicación.de.origen Ubicación.de.desecho    Estado         
##  Length:251         Length:251          Length:251           Length:251        
##  Class :character   Class :character    Class :character     Class :character  
##  Mode  :character   Mode  :character    Mode  :character     Mode  :character  
##                                                                                
##                                                                                
##

1.¿Cuántas variables y cuántos registros tiene la base de datos?

R= 251 registros y 8 variables

# install.packages("psych")
str(bd)

## 'data.frame':    251 obs. of  8 variables:
##  $ Referencia          : chr  "agosto 2022 (250)" "SP/08731" "SP/08730" "SP/08729" ...
##  $ Fecha               : chr  "" "2022-08-31 14:55:40" "2022-08-31 14:49:25" "2022-08-31 13:49:29" ...
##  $ Producto            : chr  "" "[BACKFRAME 60% CUELLO ARMADO] 18805. 60% Backframe. Cuello Armado." "[N61506747 CAJA] N61506747. Kit. Caja." "[N61506729 SEPARADOR] N61506729. Kit. Separador." ...
##  $ Cantidad            : num  1674 2 1 1 31 ...
##  $ Unidad.de.medida    : chr  "" "Unidad(es)" "Unidad(es)" "Unidad(es)" ...
##  $ Ubicación.de.origen : chr  "" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" ...
##  $ Ubicación.de.desecho: chr  "" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" ...
##  $ Estado              : chr  "" "Hecho" "Hecho" "Hecho" ...

library(psych)
describe(bd)

##                       vars   n   mean     sd median trimmed   mad min  max
## Referencia*              1 251 126.00  72.60    126  126.00 93.40   1  251
## Fecha*                   2 251 126.00  72.60    126  126.00 93.40   1  251
## Producto*                3 251  45.20  24.83     46   44.94 26.69   1   96
## Cantidad                 4 251  13.34 105.90      2    3.95  1.48   0 1674
## Unidad.de.medida*        5 251   2.00   0.06      2    2.00  0.00   1    2
## Ubicación.de.origen*     6 251   3.47   0.86      4    3.60  0.00   1    4
## Ubicación.de.desecho*    7 251   2.00   0.06      2    2.00  0.00   1    2
## Estado*                  8 251   2.00   0.06      2    2.00  0.00   1    2
##                       range   skew kurtosis   se
## Referencia*             250   0.00    -1.21 4.58
## Fecha*                  250   0.00    -1.21 4.58
## Producto*                95   0.01    -0.80 1.57
## Cantidad               1674  15.37   237.90 6.68
## Unidad.de.medida*         1 -15.65   244.02 0.00
## Ubicación.de.origen*      3  -1.11    -0.62 0.05
## Ubicación.de.desecho*     1 -15.65   244.02 0.00
## Estado*                   1 -15.65   244.02 0.00

2.¿Clasifica cada variable en cualitativa, cuantitativa discreta o cuantitativa continua.?

Variable<-c("Referencia","Fecha","Producto","Cantidad","Unidad.de.medida", "Ubicación.de.origen","Ubicación.de.desecho","Estado")
Type<-c("Cualitativa","Cuantitativa continua", "Cualitativa", "Cuantitativa continua", "Cualitativa", "Cualitativa","Cualitativa","Cualitativa")
table<-data.frame(Variable,Type)
knitr::kable(table)

Variable	Type
Referencia	Cualitativa
Fecha	Cuantitativa continua
Producto	Cualitativa
Cantidad	Cuantitativa continua
Unidad.de.medida	Cualitativa
Ubicación.de.origen	Cualitativa
Ubicación.de.desecho	Cualitativa
Estado	Cualitativa

3. Elige la escala de medición de cada variable.

Variable<-c("Referencia","Fecha","Producto","Cantidad","Unidad.de.medida", "Ubicación.de.origen","Ubicación.de.desecho","Estado")
Type<-c("Cualitativa","Cuantitativa continua", "Cualitativa", "Cuantitativa continua", "Cualitativa", "Cualitativa","Cualitativa","Cualitativa")
Escala_de_Medición <- c("Nominal","Intervalo","Nominal","Discreta","Nominal", "Nominal","Nominal", "Nominal")
table<-data.frame(Variable,Type,Escala_de_Medición)
knitr::kable(table)

Variable	Type	Escala_de_Medición
Referencia	Cualitativa	Nominal
Fecha	Cuantitativa continua	Intervalo
Producto	Cualitativa	Nominal
Cantidad	Cuantitativa continua	Discreta
Unidad.de.medida	Cualitativa	Nominal
Ubicación.de.origen	Cualitativa	Nominal
Ubicación.de.desecho	Cualitativa	Nominal
Estado	Cualitativa	Nominal

Técnicas de limpieza

-Técnica 1. Remover valores irrelevantes

Eliminar columnas

La base de datos contenía Referencia de Form, sin embargo, para nuestro análisis que estamos realizando no es importante por lo que utilizamos la función de subset para eliminar la columna.

bd1 <- bd
bd1<-subset(bd1,select=-c(Referencia))
str(bd1)

## 'data.frame':    251 obs. of  7 variables:
##  $ Fecha               : chr  "" "2022-08-31 14:55:40" "2022-08-31 14:49:25" "2022-08-31 13:49:29" ...
##  $ Producto            : chr  "" "[BACKFRAME 60% CUELLO ARMADO] 18805. 60% Backframe. Cuello Armado." "[N61506747 CAJA] N61506747. Kit. Caja." "[N61506729 SEPARADOR] N61506729. Kit. Separador." ...
##  $ Cantidad            : num  1674 2 1 1 31 ...
##  $ Unidad.de.medida    : chr  "" "Unidad(es)" "Unidad(es)" "Unidad(es)" ...
##  $ Ubicación.de.origen : chr  "" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" "SAB/Calidad/Entrega de PT" ...
##  $ Ubicación.de.desecho: chr  "" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" "Virtual Locations/Scrapped" ...
##  $ Estado              : chr  "" "Hecho" "Hecho" "Hecho" ...

-Técnica 2. Errores tipográficos y errores similares

Cantidades en enteros Es importante para nuestro análisis que la base de datos las cantidades estuvieran enteros ya que se tratan de cantidad de piezas de cierto producto por lo que para que el análisis sea congruente se deben tener enteros.

bd2 <- bd1
bd2$Cantidad <- ceiling (bd2$Cantidad)  
summary(bd2)

##     Fecha             Producto            Cantidad       Unidad.de.medida  
##  Length:251         Length:251         Min.   :   0.00   Length:251        
##  Class :character   Class :character   1st Qu.:   1.00   Class :character  
##  Mode  :character   Mode  :character   Median :   2.00   Mode  :character  
##                                        Mean   :  13.35                     
##                                        3rd Qu.:   7.00                     
##                                        Max.   :1675.00                     
##  Ubicación.de.origen Ubicación.de.desecho    Estado         
##  Length:251          Length:251           Length:251        
##  Class :character    Class :character     Class :character  
##  Mode  :character    Mode  :character     Mode  :character  
##                                                             
##                                                             
##

Análisis estadístico descriptivo.

Librerías requeridas

library(foreign)
library(dplyr)        # data manipulation 
library(forcats)      # to work with categorical variables
library(ggplot2)      # data visualization 
library(janitor)      # data exploration and cleaning 
#install.packages("psych")
library(corrplot)     # correlation plots
library(lmtest)       # diagnostic checks - linear regression analysis 
library(car)          # diagnostic checks - linear regression analysis

Tabla de frecuencia

knitr::kable(table(bd2$Ubicación.de.origen))

Var1	Freq
	1
SAB/Calidad/Entrega de PT	58
SAB/Post-Production	13
SAB/Pre-Production	179

Se puede observar que la mayor parte de desecho se encuentra en Pre-producción, mientras que en Post-producción es el que tiene menor número de desecho.

Gráficos de datos cualitativos y cuantitativos

pie(prop.table(table(bd2$Ubicación.de.origen)),col=c("pink","blue","orange"),main="Ubicacion de origen de merma", ylab =" ",las=1)

Grafica de dispersión

bd3<-group_by(bd2,Cantidad)%>%tally()

plot(bd3$n, xlab = "Scrap", ylab = "N", main = "Cantidad de merma" )

Reflexión

En esta base de datos podemos observar variables relacionadas con los desechos (scrap) que tiene la empresa en un cierto tiempo, ademas tenemos variables como de donde sale el desecho y donde se encuentra dentro de la fábrica, con el análisis estadistíco que realizamos pudimos observar que el 100% de los desechos ya se encuentran en la ubicación donde tiene que estar por el estado de hecho, tambien observamos que dentro de la fábrica de Form en el área donde se generan mas desechos en pre-producción y despues en calidad y entrega.
La recomendacion para Form es implementar una estrategia en la cual se centre en Pre-producción de como reducir el merma y implementar un área dentro de la empresa de innovavción en procesos para que en estas etapas se obtenga el menor desecho posible.

SCRAP