library(readxl)
DATOS <- read_excel("C:/Users/ANGIE VANESA/Documents/UNINORTE/DATOS.xlsx")
head(DATOS,5)
## # A tibble: 5 × 15
## IDENTIFICACION CLIENTE `No. ORDEN` TAMAÑO `CÓDIGO LAB` `TM (%)` `ASH (%)`
## <chr> <chr> <chr> <chr> <dbl> <dbl> <dbl>
## 1 TRANCORA DEL 2… TRAFIG… 31691-1 30x120 11862 4.3 14.7
## 2 SEVEN SEAS DEL… TRAFIG… 31691-1 30x120 12064 3.53 14.3
## 3 TRANCORA DEL 2… TRAFIG… 31773-1 30x120 12192 4.88 14.7
## 4 TRANCORA DEL 2… TRAFIG… 31773-1 30x120 12209 4.41 14.5
## 5 SEVEN SEAS DEL… TRAFIG… 31773-1 30x120 12210 3.97 14.7
## # ℹ 8 more variables: `Vol (%)` <dbl>, `FC (%)` <dbl>, S <dbl>, `40 mm` <dbl>,
## # `10 mm` <dbl>, CSR <dbl>, CRI <dbl>, FOSFORO <dbl>
DATOS$CLIENTE<-as.factor(DATOS$CLIENTE)
DATOS$`No. ORDEN`<-as.factor(DATOS$`No. ORDEN`)
DATOS$TAMAÑO<-as.factor(DATOS$TAMAÑO)
DATOS$`CÓDIGO LAB` <-as.factor(DATOS$`CÓDIGO LAB`)
colnames(DATOS)
## [1] "IDENTIFICACION" "CLIENTE" "No. ORDEN" "TAMAÑO"
## [5] "CÓDIGO LAB" "TM (%)" "ASH (%)" "Vol (%)"
## [9] "FC (%)" "S" "40 mm" "10 mm"
## [13] "CSR" "CRI" "FOSFORO"
DATOS<-as.data.frame(DATOS)
se observa un conjunto de datos compuesto por 15 columnas y 64 registros.
IDENTIFICACIÓN: Esta columna contiene información sobre la muestra recibida (proveedor, fecha , etc)
CLIENTE: Proporciona información sobre los clientes dueños de la muestra a analizar. Se identifican 6 tipos de clientes y otros clasificados como “otros”.
No. ORDEN: Es el número de orden de la muestra a analizar.
TAMAÑO:Indica las dimesiones del grano en la muestra.
CODIGO LAB: Código asignado por la empresa a la muestras.
TM %: Variable numérica continua, indica el porcentaje de humedad presente en la muestra.
ASH %: Variable numérica continua, indica el porcentaje de ceniza después del análisis realizado.
Vol %: Variable numérica continua, indica el porcentaje de materia volatil.
FC (%): variable numérica continua: indica porcentaje de carbono fijo.
S : variable numérica continua: Indica el porcentaje de azufre en la muestra.
40mm: variable numérica continua: Gramos retenidos en una malla de 40mm
10mm: variable numérica continua: Gramos retenidos en una malla de 10mm
CSR: Variable a predecir, es numérica continua e indica la medida de resistencia
CRI: Variable a predecir, es numérica continua e indica la medida de reactividad
FOSFORO: Variable numérica continua, mide el porcentaje de fósforo en la muestra.
TM %: Variable numérica continua
ASH %: Variable numérica continua
Vol %: Variable numérica continua
FC (%): variable numérica continua
S : variable numérica continua
40mm: variable numérica continua
10mm: variable numérica continua
CSR: Variable a predecir, es numérica continua
CRI: Variable a predecir, es numérica continua
FOSFORO: Variable numérica continua
summary(DATOS)
## IDENTIFICACION CLIENTE No. ORDEN TAMAÑO
## Length:64 TRAFIGURA :51 31773-1:14 30x120 :53
## Class :character CARBOCOQUE : 3 32101-1:10 30x100 : 4
## Mode :character CARBOMAX DE COLOMBIA: 3 31869-1: 8 30x90 : 2
## CARBONES ANDINOS : 3 31981-1: 8 10x30 : 1
## CONEXUS MINERAL : 1 31851-1: 3 20X60 : 1
## COQUECOL SAS : 1 31691-1: 2 40x100 : 1
## (Other) : 2 (Other):19 (Other): 2
## CÓDIGO LAB TM (%) ASH (%) Vol (%) FC (%)
## 11862 : 1 Min. :1.480 Min. :11.51 Min. :0.79 Min. :81.99
## 12064 : 1 1st Qu.:3.010 1st Qu.:13.72 1st Qu.:0.99 1st Qu.:84.27
## 12192 : 1 Median :3.970 Median :14.28 Median :1.05 Median :84.75
## 12209 : 1 Mean :4.306 Mean :14.09 Mean :1.19 Mean :84.69
## 12210 : 1 3rd Qu.:4.880 3rd Qu.:14.64 3rd Qu.:1.49 3rd Qu.:85.19
## 12239 : 1 Max. :9.900 Max. :16.42 Max. :1.93 Max. :86.70
## (Other):58 NA's :3 NA's :3 NA's :3 NA's :3
## S 40 mm 10 mm CSR
## Min. :0.6100 Min. : 0.00 Min. : 4.50 Min. :47.20
## 1st Qu.:0.6625 1st Qu.:77.60 1st Qu.: 7.40 1st Qu.:60.30
## Median :0.7100 Median :78.20 Median : 7.80 Median :61.50
## Mean :0.7191 Mean :76.64 Mean : 7.95 Mean :62.08
## 3rd Qu.:0.7725 3rd Qu.:80.10 3rd Qu.: 8.10 3rd Qu.:62.50
## Max. :0.8700 Max. :87.60 Max. :11.40 Max. :82.80
## NA's :42 NA's :3 NA's :3 NA's :3
## CRI FOSFORO
## Min. :14.79 Min. :0.0240
## 1st Qu.:19.40 1st Qu.:0.0410
## Median :20.40 Median :0.0445
## Mean :20.58 Mean :0.1544
## 3rd Qu.:21.70 3rd Qu.:0.1615
## Max. :33.40 Max. :0.5000
## NA's :3 NA's :56
colSums(is.na(DATOS))
## IDENTIFICACION CLIENTE No. ORDEN TAMAÑO CÓDIGO LAB
## 0 0 0 0 0
## TM (%) ASH (%) Vol (%) FC (%) S
## 3 3 3 3 42
## 40 mm 10 mm CSR CRI FOSFORO
## 3 3 3 3 56
De la información anterior puede verificarse que de los 64 registros, 51 son muestras porvenientes del cliente TRAFIGURA.
De la información anterior puede verificarse que el 82,81% de las muestras tienen un tamaño 30x120
humedad<-DATOS$`TM (%)`
boxplot(humedad, col = "skyblue", horizontal = T)
hist(humedad, col = "skyblue")
Claramente la variable “porcentaje de humedad” no tiene la forma de una distribución normal, por tanto no resulta convenieente imputar los datos faltantes con la media, ya que la media no es una medida de tendencia central representativa para esto datos. Se realiza la imputaicón con la mediana.
ceniza<-DATOS$ASH
boxplot(ceniza, col = "skyblue", horizontal = T)
hist(ceniza, col = "skyblue")
carbono_fijo<-DATOS$FC
boxplot(carbono_fijo, col = "skyblue", horizontal = T)
hist(carbono_fijo, col = "skyblue")
gr_40<-DATOS$`40 mm`
boxplot(gr_40, col = "skyblue", horizontal = T)
hist(gr_40, col = "skyblue")
gr_10=DATOS$`10 mm`
boxplot(gr_10, col = "skyblue", horizontal = T )
hist(gr_10, col = "skyblue")
reactividad<-DATOS$CRI
boxplot(reactividad, col="skyblue",horizontal = T )
hist(reactividad, col = "skyblue")
resistencia<-DATOS$CSR
boxplot(resistencia, col="skyblue",horizontal = T )
hist(resistencia, col = "skyblue")
# Reemplazar NA con la mediana de la columna
DATOS <- data.frame(lapply(DATOS, function(x) {
if(is.numeric(x)) {
x[is.na(x)] <- median(x, na.rm = TRUE) # Imputar mediana
}
return(x)
}))
colSums(is.na(DATOS))
## IDENTIFICACION CLIENTE No..ORDEN TAMAÑO CÓDIGO.LAB
## 0 0 0 0 0
## TM........ ASH.... Vol..... FC.... S
## 0 0 0 0 0
## X40.mm X10.mm CSR CRI FOSFORO
## 0 0 0 0 0
summary(DATOS)
## IDENTIFICACION CLIENTE No..ORDEN TAMAÑO
## Length:64 TRAFIGURA :51 31773-1:14 30x120 :53
## Class :character CARBOCOQUE : 3 32101-1:10 30x100 : 4
## Mode :character CARBOMAX DE COLOMBIA: 3 31869-1: 8 30x90 : 2
## CARBONES ANDINOS : 3 31981-1: 8 10x30 : 1
## CONEXUS MINERAL : 1 31851-1: 3 20X60 : 1
## COQUECOL SAS : 1 31691-1: 2 40x100 : 1
## (Other) : 2 (Other):19 (Other): 2
## CÓDIGO.LAB TM........ ASH.... Vol..... FC....
## 11862 : 1 Min. :1.480 Min. :11.51 Min. :0.790 Min. :81.99
## 12064 : 1 1st Qu.:3.055 1st Qu.:13.73 1st Qu.:0.990 1st Qu.:84.29
## 12192 : 1 Median :3.970 Median :14.28 Median :1.050 Median :84.75
## 12209 : 1 Mean :4.290 Mean :14.10 Mean :1.183 Mean :84.69
## 12210 : 1 3rd Qu.:4.850 3rd Qu.:14.62 3rd Qu.:1.445 3rd Qu.:85.15
## 12239 : 1 Max. :9.900 Max. :16.42 Max. :1.930 Max. :86.70
## (Other):58
## S X40.mm X10.mm CSR
## Min. :0.6100 Min. : 0.00 Min. : 4.500 Min. :47.20
## 1st Qu.:0.7100 1st Qu.:77.60 1st Qu.: 7.400 1st Qu.:60.38
## Median :0.7100 Median :78.20 Median : 7.800 Median :61.50
## Mean :0.7131 Mean :76.71 Mean : 7.943 Mean :62.05
## 3rd Qu.:0.7100 3rd Qu.:79.94 3rd Qu.: 8.100 3rd Qu.:62.35
## Max. :0.8700 Max. :87.60 Max. :11.400 Max. :82.80
##
## CRI FOSFORO
## Min. :14.79 Min. :0.02400
## 1st Qu.:19.55 1st Qu.:0.04450
## Median :20.40 Median :0.04450
## Mean :20.57 Mean :0.05823
## 3rd Qu.:21.49 3rd Qu.:0.04450
## Max. :33.40 Max. :0.50000
##
library(ggplot2)
plot(ceniza, reactividad,
main = "Gráfico de Dispersión",
xlab = "Variable ceniza",
ylab = "Variable CSI",
pch = 19, # Tipo de punto
col = "black")
plot(carbono_fijo, reactividad,
main = "Gráfico de Dispersión",
xlab = "Variable carbono fijo",
ylab = "Variable CSI",
pch = 19, # Tipo de punto
col = "black")
plot(humedad, reactividad,
main = "Gráfico de Dispersión",
xlab = "Variable humedad",
ylab = "Variable CSI",
pch = 19, # Tipo de punto
col = "black")
plot(gr_40, reactividad,
main = "Gráfico de Dispersión",
xlab = "Variable gramos retenidos 40",
ylab = "Variable CSI",
pch = 19, # Tipo de punto
col = "black")
plot(gr_10, reactividad,
main = "Gráfico de Dispersión",
xlab = "Variable gramos retenidos 10",
ylab = "Variable CSI",
pch = 19, # Tipo de punto
col = "black")
plot(gr_10, resistencia,
main = "Gráfico de Dispersión",
xlab = "Variable gramos retenidos 10",
ylab = "Variable CSR",
pch = 19, # Tipo de punto
col = "black")
plot(gr_40, resistencia,
main = "Gráfico de Dispersión",
xlab = "Variable gramos retenidos 40",
ylab = "Variable CSR",
pch = 19, # Tipo de punto
col = "black")
plot(humedad, resistencia,
main = "Gráfico de Dispersión",
xlab = "Variable gramos humedad",
ylab = "Variable CSR",
pch = 19, # Tipo de punto
col = "black")
plot(carbono_fijo, resistencia,
main = "Gráfico de Dispersión",
xlab = "Variable carbono fijo",
ylab = "Variable CSR",
pch = 19, # Tipo de punto
col = "black")
plot(ceniza, resistencia,
main = "Gráfico de Dispersión",
xlab = "Variable ceniza",
ylab = "Variable CSR",
pch = 19, # Tipo de punto
col = "black")
M_resistencia<-lm(CSR~ceniza+carbono_fijo+humedad+gr_10+gr_40, data=DATOS)
summary(M_resistencia)
##
## Call:
## lm(formula = CSR ~ ceniza + carbono_fijo + humedad + gr_10 +
## gr_40, data = DATOS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3263 -1.6226 -0.5479 0.8232 15.8407
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 431.63769 169.04722 2.553 0.0135 *
## ceniza -4.52277 1.69596 -2.667 0.0100 *
## carbono_fijo -3.83023 1.70697 -2.244 0.0289 *
## humedad 0.21133 0.36996 0.571 0.5702
## gr_10 0.31517 0.51969 0.606 0.5467
## gr_40 0.19777 0.04209 4.698 1.8e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.907 on 55 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.3477, Adjusted R-squared: 0.2884
## F-statistic: 5.863 on 5 and 55 DF, p-value: 0.0002068
M2_resistencia<-lm(CSR~ceniza+carbono_fijo+humedad+gr_40, data=DATOS)
summary(M2_resistencia)
##
## Call:
## lm(formula = CSR ~ ceniza + carbono_fijo + humedad + gr_40, data = DATOS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3508 -1.9915 -0.4769 0.8468 15.5794
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 464.36599 159.29452 2.915 0.00510 **
## ceniza -4.67643 1.66744 -2.805 0.00691 **
## carbono_fijo -4.15769 1.61015 -2.582 0.01246 *
## humedad 0.21738 0.36774 0.591 0.55681
## gr_40 0.19320 0.04118 4.692 1.79e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.885 on 56 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.3433, Adjusted R-squared: 0.2964
## F-statistic: 7.32 on 4 and 56 DF, p-value: 8.156e-05
ceniza<-DATOS$ASH
carbono_fijo<-DATOS$FC
gr_40<-DATOS$X40.mm
gr_10=DATOS$X10.mm
reactividad<-DATOS$CRI
resistencia<-DATOS$CSR
vol<-DATOS$Vol.....
plot(carbono_fijo, resistencia,
main = "Gráfico de Dispersión",
xlab = "Variable carbono fijo",
ylab = "Variable CSR",
pch = 19, # Tipo de punto
col = "black")
M2_resistencia<-lm(resistencia~reactividad+vol, data=DATOS)
summary(M2_resistencia)
##
## Call:
## lm(formula = resistencia ~ reactividad + vol, data = DATOS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.9487 -1.5678 -0.2934 0.9512 15.7695
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 83.5109 3.3283 25.091 < 2e-16 ***
## reactividad -1.2931 0.1411 -9.162 4.54e-13 ***
## vol 4.3493 1.1707 3.715 0.000443 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.804 on 61 degrees of freedom
## Multiple R-squared: 0.6291, Adjusted R-squared: 0.6169
## F-statistic: 51.72 on 2 and 61 DF, p-value: 7.307e-14
M2_reactividad<-lm(reactividad~vol+carbono_fijo+gr_10+gr_40, data=DATOS)
summary(M2_reactividad)
##
## Call:
## lm(formula = reactividad ~ vol + carbono_fijo + gr_10 + gr_40,
## data = DATOS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7316 -1.1735 0.1106 1.4657 3.9843
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 87.97071 27.26296 3.227 0.00204 **
## vol -2.36040 0.86724 -2.722 0.00852 **
## carbono_fijo -0.57872 0.30549 -1.894 0.06308 .
## gr_10 -0.57430 0.25189 -2.280 0.02624 *
## gr_40 -0.14374 0.02074 -6.932 3.52e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.91 on 59 degrees of freedom
## Multiple R-squared: 0.4579, Adjusted R-squared: 0.4212
## F-statistic: 12.46 on 4 and 59 DF, p-value: 2.073e-07