library(readxl)
DATOS <- read_excel("C:/Users/ANGIE VANESA/Documents/UNINORTE/DATOS.xlsx")
head(DATOS,5)
## # A tibble: 5 × 15
##   IDENTIFICACION  CLIENTE `No. ORDEN` TAMAÑO `CÓDIGO LAB` `TM     (%)` `ASH (%)`
##   <chr>           <chr>   <chr>       <chr>         <dbl>        <dbl>     <dbl>
## 1 TRANCORA DEL 2… TRAFIG… 31691-1     30x120        11862         4.3       14.7
## 2 SEVEN SEAS DEL… TRAFIG… 31691-1     30x120        12064         3.53      14.3
## 3 TRANCORA DEL 2… TRAFIG… 31773-1     30x120        12192         4.88      14.7
## 4 TRANCORA DEL 2… TRAFIG… 31773-1     30x120        12209         4.41      14.5
## 5 SEVEN SEAS DEL… TRAFIG… 31773-1     30x120        12210         3.97      14.7
## # ℹ 8 more variables: `Vol  (%)` <dbl>, `FC (%)` <dbl>, S <dbl>, `40 mm` <dbl>,
## #   `10 mm` <dbl>, CSR <dbl>, CRI <dbl>, FOSFORO <dbl>
DATOS$CLIENTE<-as.factor(DATOS$CLIENTE)
DATOS$`No. ORDEN`<-as.factor(DATOS$`No. ORDEN`)
DATOS$TAMAÑO<-as.factor(DATOS$TAMAÑO)
DATOS$`CÓDIGO LAB` <-as.factor(DATOS$`CÓDIGO LAB`)
colnames(DATOS)
##  [1] "IDENTIFICACION" "CLIENTE"        "No. ORDEN"      "TAMAÑO"        
##  [5] "CÓDIGO LAB"     "TM     (%)"     "ASH (%)"        "Vol  (%)"      
##  [9] "FC (%)"         "S"              "40 mm"          "10 mm"         
## [13] "CSR"            "CRI"            "FOSFORO"
DATOS<-as.data.frame(DATOS)

Descripción de las variables

se observa un conjunto de datos compuesto por 15 columnas y 64 registros.

IDENTIFICACIÓN: Esta columna contiene información sobre la muestra recibida (proveedor, fecha , etc)

CLIENTE: Proporciona información sobre los clientes dueños de la muestra a analizar. Se identifican 6 tipos de clientes y otros clasificados como “otros”.

No. ORDEN: Es el número de orden de la muestra a analizar.

TAMAÑO:Indica las dimesiones del grano en la muestra.

CODIGO LAB: Código asignado por la empresa a la muestras.

TM %: Variable numérica continua, indica el porcentaje de humedad presente en la muestra.

ASH %: Variable numérica continua, indica el porcentaje de ceniza después del análisis realizado.

Vol %: Variable numérica continua, indica el porcentaje de materia volatil.

FC (%): variable numérica continua: indica porcentaje de carbono fijo.

S : variable numérica continua: Indica el porcentaje de azufre en la muestra.

40mm: variable numérica continua: Gramos retenidos en una malla de 40mm

10mm: variable numérica continua: Gramos retenidos en una malla de 10mm

CSR: Variable a predecir, es numérica continua e indica la medida de resistencia

CRI: Variable a predecir, es numérica continua e indica la medida de reactividad

FOSFORO: Variable numérica continua, mide el porcentaje de fósforo en la muestra.

Variables a considerar

TM %: Variable numérica continua

ASH %: Variable numérica continua

Vol %: Variable numérica continua

FC (%): variable numérica continua

S : variable numérica continua

40mm: variable numérica continua

10mm: variable numérica continua

CSR: Variable a predecir, es numérica continua

CRI: Variable a predecir, es numérica continua

FOSFORO: Variable numérica continua

summary(DATOS)
##  IDENTIFICACION                     CLIENTE     No. ORDEN      TAMAÑO  
##  Length:64          TRAFIGURA           :51   31773-1:14   30x120 :53  
##  Class :character   CARBOCOQUE          : 3   32101-1:10   30x100 : 4  
##  Mode  :character   CARBOMAX DE COLOMBIA: 3   31869-1: 8   30x90  : 2  
##                     CARBONES ANDINOS    : 3   31981-1: 8   10x30  : 1  
##                     CONEXUS MINERAL     : 1   31851-1: 3   20X60  : 1  
##                     COQUECOL SAS        : 1   31691-1: 2   40x100 : 1  
##                     (Other)             : 2   (Other):19   (Other): 2  
##    CÓDIGO LAB   TM     (%)       ASH (%)         Vol  (%)        FC (%)     
##  11862  : 1   Min.   :1.480   Min.   :11.51   Min.   :0.79   Min.   :81.99  
##  12064  : 1   1st Qu.:3.010   1st Qu.:13.72   1st Qu.:0.99   1st Qu.:84.27  
##  12192  : 1   Median :3.970   Median :14.28   Median :1.05   Median :84.75  
##  12209  : 1   Mean   :4.306   Mean   :14.09   Mean   :1.19   Mean   :84.69  
##  12210  : 1   3rd Qu.:4.880   3rd Qu.:14.64   3rd Qu.:1.49   3rd Qu.:85.19  
##  12239  : 1   Max.   :9.900   Max.   :16.42   Max.   :1.93   Max.   :86.70  
##  (Other):58   NA's   :3       NA's   :3       NA's   :3      NA's   :3      
##        S              40 mm           10 mm            CSR       
##  Min.   :0.6100   Min.   : 0.00   Min.   : 4.50   Min.   :47.20  
##  1st Qu.:0.6625   1st Qu.:77.60   1st Qu.: 7.40   1st Qu.:60.30  
##  Median :0.7100   Median :78.20   Median : 7.80   Median :61.50  
##  Mean   :0.7191   Mean   :76.64   Mean   : 7.95   Mean   :62.08  
##  3rd Qu.:0.7725   3rd Qu.:80.10   3rd Qu.: 8.10   3rd Qu.:62.50  
##  Max.   :0.8700   Max.   :87.60   Max.   :11.40   Max.   :82.80  
##  NA's   :42       NA's   :3       NA's   :3       NA's   :3      
##       CRI           FOSFORO      
##  Min.   :14.79   Min.   :0.0240  
##  1st Qu.:19.40   1st Qu.:0.0410  
##  Median :20.40   Median :0.0445  
##  Mean   :20.58   Mean   :0.1544  
##  3rd Qu.:21.70   3rd Qu.:0.1615  
##  Max.   :33.40   Max.   :0.5000  
##  NA's   :3       NA's   :56

VERIFICACIÓN DE DATOS FALTANTES

colSums(is.na(DATOS))
## IDENTIFICACION        CLIENTE      No. ORDEN         TAMAÑO     CÓDIGO LAB 
##              0              0              0              0              0 
##     TM     (%)        ASH (%)       Vol  (%)         FC (%)              S 
##              3              3              3              3             42 
##          40 mm          10 mm            CSR            CRI        FOSFORO 
##              3              3              3              3             56

CLIENTE

De la información anterior puede verificarse que de los 64 registros, 51 son muestras porvenientes del cliente TRAFIGURA.

TAMAÑO

De la información anterior puede verificarse que el 82,81% de las muestras tienen un tamaño 30x120

TM % (PORCENTAJE DE HUMEDAD)

humedad<-DATOS$`TM     (%)`
boxplot(humedad, col = "skyblue", horizontal = T)

hist(humedad,  col = "skyblue")

Claramente la variable “porcentaje de humedad” no tiene la forma de una distribución normal, por tanto no resulta convenieente imputar los datos faltantes con la media, ya que la media no es una medida de tendencia central representativa para esto datos. Se realiza la imputaicón con la mediana.

Porcentaje de ceniza

ceniza<-DATOS$ASH
boxplot(ceniza, col = "skyblue", horizontal = T)

hist(ceniza,  col = "skyblue")

Carbono fijo

carbono_fijo<-DATOS$FC
boxplot(carbono_fijo, col = "skyblue", horizontal = T)

hist(carbono_fijo,  col = "skyblue")

GRAMOS RETENIDOS EN MALLA DE 40MM

gr_40<-DATOS$`40 mm`
boxplot(gr_40, col = "skyblue", horizontal = T)

hist(gr_40, col = "skyblue")

Gramos retenidos en malla de 10mm

gr_10=DATOS$`10 mm`
boxplot(gr_10, col = "skyblue", horizontal = T )

hist(gr_10, col = "skyblue")

Reactividad

reactividad<-DATOS$CRI
boxplot(reactividad, col="skyblue",horizontal = T )

hist(reactividad, col = "skyblue")

Resistencia

resistencia<-DATOS$CSR
boxplot(resistencia, col="skyblue",horizontal = T )

hist(resistencia, col = "skyblue")

Imputación de datos faltante

# Reemplazar NA con la mediana de la columna
DATOS <- data.frame(lapply(DATOS, function(x) {
  if(is.numeric(x)) {
    x[is.na(x)] <- median(x, na.rm = TRUE)  # Imputar mediana
  }
  return(x)
}))
colSums(is.na(DATOS))
## IDENTIFICACION        CLIENTE      No..ORDEN         TAMAÑO     CÓDIGO.LAB 
##              0              0              0              0              0 
##     TM........        ASH....       Vol.....         FC....              S 
##              0              0              0              0              0 
##         X40.mm         X10.mm            CSR            CRI        FOSFORO 
##              0              0              0              0              0
summary(DATOS)
##  IDENTIFICACION                     CLIENTE     No..ORDEN      TAMAÑO  
##  Length:64          TRAFIGURA           :51   31773-1:14   30x120 :53  
##  Class :character   CARBOCOQUE          : 3   32101-1:10   30x100 : 4  
##  Mode  :character   CARBOMAX DE COLOMBIA: 3   31869-1: 8   30x90  : 2  
##                     CARBONES ANDINOS    : 3   31981-1: 8   10x30  : 1  
##                     CONEXUS MINERAL     : 1   31851-1: 3   20X60  : 1  
##                     COQUECOL SAS        : 1   31691-1: 2   40x100 : 1  
##                     (Other)             : 2   (Other):19   (Other): 2  
##    CÓDIGO.LAB   TM........       ASH....         Vol.....         FC....     
##  11862  : 1   Min.   :1.480   Min.   :11.51   Min.   :0.790   Min.   :81.99  
##  12064  : 1   1st Qu.:3.055   1st Qu.:13.73   1st Qu.:0.990   1st Qu.:84.29  
##  12192  : 1   Median :3.970   Median :14.28   Median :1.050   Median :84.75  
##  12209  : 1   Mean   :4.290   Mean   :14.10   Mean   :1.183   Mean   :84.69  
##  12210  : 1   3rd Qu.:4.850   3rd Qu.:14.62   3rd Qu.:1.445   3rd Qu.:85.15  
##  12239  : 1   Max.   :9.900   Max.   :16.42   Max.   :1.930   Max.   :86.70  
##  (Other):58                                                                  
##        S              X40.mm          X10.mm            CSR       
##  Min.   :0.6100   Min.   : 0.00   Min.   : 4.500   Min.   :47.20  
##  1st Qu.:0.7100   1st Qu.:77.60   1st Qu.: 7.400   1st Qu.:60.38  
##  Median :0.7100   Median :78.20   Median : 7.800   Median :61.50  
##  Mean   :0.7131   Mean   :76.71   Mean   : 7.943   Mean   :62.05  
##  3rd Qu.:0.7100   3rd Qu.:79.94   3rd Qu.: 8.100   3rd Qu.:62.35  
##  Max.   :0.8700   Max.   :87.60   Max.   :11.400   Max.   :82.80  
##                                                                   
##       CRI           FOSFORO       
##  Min.   :14.79   Min.   :0.02400  
##  1st Qu.:19.55   1st Qu.:0.04450  
##  Median :20.40   Median :0.04450  
##  Mean   :20.57   Mean   :0.05823  
##  3rd Qu.:21.49   3rd Qu.:0.04450  
##  Max.   :33.40   Max.   :0.50000  
## 

ANÁLISIS DE CORRELACION LINEAL ENTRE VARIABLES

reactividad

library(ggplot2)
plot(ceniza, reactividad, 
     main = "Gráfico de Dispersión",
     xlab = "Variable ceniza", 
     ylab = "Variable CSI", 
     pch = 19,  # Tipo de punto
     col = "black")

plot(carbono_fijo, reactividad, 
     main = "Gráfico de Dispersión",
     xlab = "Variable carbono fijo", 
     ylab = "Variable CSI", 
     pch = 19, # Tipo de punto
     col = "black")

plot(humedad, reactividad, 
     main = "Gráfico de Dispersión",
     xlab = "Variable humedad", 
     ylab = "Variable CSI", 
     pch = 19,      # Tipo de punto
     col = "black")

plot(gr_40, reactividad, 
     main = "Gráfico de Dispersión",
     xlab = "Variable gramos retenidos 40", 
     ylab = "Variable CSI", 
     pch = 19,      # Tipo de punto
     col = "black")

plot(gr_10, reactividad, 
     main = "Gráfico de Dispersión",
     xlab = "Variable gramos retenidos 10", 
     ylab = "Variable CSI", 
     pch = 19,      # Tipo de punto
     col = "black")

RESISTENCIA

plot(gr_10, resistencia, 
     main = "Gráfico de Dispersión",
     xlab = "Variable gramos retenidos 10", 
     ylab = "Variable CSR", 
     pch = 19,      # Tipo de punto
     col = "black")

plot(gr_40, resistencia, 
     main = "Gráfico de Dispersión",
     xlab = "Variable gramos retenidos 40", 
     ylab = "Variable CSR", 
     pch = 19,      # Tipo de punto
     col = "black")

plot(humedad, resistencia, 
     main = "Gráfico de Dispersión",
     xlab = "Variable gramos humedad", 
     ylab = "Variable CSR", 
     pch = 19,      # Tipo de punto
     col = "black")

plot(carbono_fijo, resistencia, 
     main = "Gráfico de Dispersión",
     xlab = "Variable carbono fijo", 
     ylab = "Variable CSR", 
     pch = 19,      # Tipo de punto
     col = "black")

plot(ceniza, resistencia, 
     main = "Gráfico de Dispersión",
     xlab = "Variable ceniza", 
     ylab = "Variable CSR", 
     pch = 19,      # Tipo de punto
     col = "black")

REGRESIÓN LINEAL MULTIPLE

M_resistencia<-lm(CSR~ceniza+carbono_fijo+humedad+gr_10+gr_40, data=DATOS)
summary(M_resistencia)
## 
## Call:
## lm(formula = CSR ~ ceniza + carbono_fijo + humedad + gr_10 + 
##     gr_40, data = DATOS)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3263 -1.6226 -0.5479  0.8232 15.8407 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  431.63769  169.04722   2.553   0.0135 *  
## ceniza        -4.52277    1.69596  -2.667   0.0100 *  
## carbono_fijo  -3.83023    1.70697  -2.244   0.0289 *  
## humedad        0.21133    0.36996   0.571   0.5702    
## gr_10          0.31517    0.51969   0.606   0.5467    
## gr_40          0.19777    0.04209   4.698  1.8e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.907 on 55 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.3477, Adjusted R-squared:  0.2884 
## F-statistic: 5.863 on 5 and 55 DF,  p-value: 0.0002068
M2_resistencia<-lm(CSR~ceniza+carbono_fijo+humedad+gr_40, data=DATOS)
summary(M2_resistencia)
## 
## Call:
## lm(formula = CSR ~ ceniza + carbono_fijo + humedad + gr_40, data = DATOS)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3508 -1.9915 -0.4769  0.8468 15.5794 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  464.36599  159.29452   2.915  0.00510 ** 
## ceniza        -4.67643    1.66744  -2.805  0.00691 ** 
## carbono_fijo  -4.15769    1.61015  -2.582  0.01246 *  
## humedad        0.21738    0.36774   0.591  0.55681    
## gr_40          0.19320    0.04118   4.692 1.79e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.885 on 56 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.3433, Adjusted R-squared:  0.2964 
## F-statistic:  7.32 on 4 and 56 DF,  p-value: 8.156e-05
ceniza<-DATOS$ASH
carbono_fijo<-DATOS$FC
gr_40<-DATOS$X40.mm
gr_10=DATOS$X10.mm
reactividad<-DATOS$CRI
resistencia<-DATOS$CSR
vol<-DATOS$Vol.....
plot(carbono_fijo, resistencia, 
     main = "Gráfico de Dispersión",
     xlab = "Variable carbono fijo", 
     ylab = "Variable CSR", 
     pch = 19,      # Tipo de punto
     col = "black")

M2_resistencia<-lm(resistencia~reactividad+vol, data=DATOS)
summary(M2_resistencia)
## 
## Call:
## lm(formula = resistencia ~ reactividad + vol, data = DATOS)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.9487 -1.5678 -0.2934  0.9512 15.7695 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  83.5109     3.3283  25.091  < 2e-16 ***
## reactividad  -1.2931     0.1411  -9.162 4.54e-13 ***
## vol           4.3493     1.1707   3.715 0.000443 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.804 on 61 degrees of freedom
## Multiple R-squared:  0.6291, Adjusted R-squared:  0.6169 
## F-statistic: 51.72 on 2 and 61 DF,  p-value: 7.307e-14
M2_reactividad<-lm(reactividad~vol+carbono_fijo+gr_10+gr_40, data=DATOS)
summary(M2_reactividad)
## 
## Call:
## lm(formula = reactividad ~ vol + carbono_fijo + gr_10 + gr_40, 
##     data = DATOS)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7316 -1.1735  0.1106  1.4657  3.9843 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  87.97071   27.26296   3.227  0.00204 ** 
## vol          -2.36040    0.86724  -2.722  0.00852 ** 
## carbono_fijo -0.57872    0.30549  -1.894  0.06308 .  
## gr_10        -0.57430    0.25189  -2.280  0.02624 *  
## gr_40        -0.14374    0.02074  -6.932 3.52e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.91 on 59 degrees of freedom
## Multiple R-squared:  0.4579, Adjusted R-squared:  0.4212 
## F-statistic: 12.46 on 4 and 59 DF,  p-value: 2.073e-07