Introducción

Actualmente, el planeta enfrenta cambios ambientales significativos, principalmente debido a la contaminación provocada por los gases de efecto invernadero. El sector del transporte desempeña un papel crucial en esta contribución a la degradación ambiental, lo que ha impulsado la necesidad de desarrollar estrategias para mitigar los efectos de estas emisiones. Para abordar este desafío, han surgido iniciativas centradas en la movilidad sostenible, como los vehículos eléctricos de dos ruedas, que incluyen bicicletas eléctricas, patinetas y otros medios de transporte ecológicos. Estos vehículos buscan fomentar un estilo de vida más responsable con el medio ambiente, promoviendo opciones de transporte que reduzcan la huella de carbono y ayuden a disminuir los efectos de la contaminación. Sin embargo, uno de los problemas más relevantes que enfrentan estos vehículos sostenibles es el desgaste de sus componentes, especialmente los motores eléctricos y las baterías. Estos elementos son propensos a fallas y representan un reto en términos de confiabilidad y mantenimiento. Este estudio se enfoca en la evaluación de estos componentes, con el objetivo de predecir el estado de las fallas de los motores eléctricos y las baterías en vehículos de movilidad sostenible. La capacidad de anticipar fallas permitirá tomar medidas preventivas y mejorar la eficiencia y durabilidad de estos medios de transporte, contribuyendo a un futuro más sostenible.

Análisis Exploratorio de Datos (EDA)

Descripción de las variables:

Tabla Explicativa de las Variables
Variable Tipo Unidad.de.Medida Descripción.Breve
Corrientes (CURRENT_A, CURRENT_B, CURRENT_C, CURRENT_D) Cuantitativa Amperios (A) Corriente medida en cada una de las fases del motor
Potencias (POWER_A, POWER_B, POWER_C, POWER_D) Cuantitativa Vatios (W) Potencia medida en cada una de las fases del motor
Temperatura (TEPERATURE_MOTOR) Cuantitativa Grados Celsius Temperatura medida en el motor
Voltajes (VOLTAGE_A, VOLTAGE_B, VOLTAGE_C, VOLTAGE_D) Cuantitativa Voltios (V) Voltaje medido en cada una de las fases del motor
Aceleraciones (ACELERATION_X, ACELERATION_Y, ACELERATION_Z) Cuantitativa Metros por segundo al cuadrado (m/s^2) Aceleraciones medidas en los ejes X, Y y Z
Humedad Ambiental (ENV_HUMIDITY) Cuantitativa % de humedad Porcentaje de humedad ambiental durante la medición
Temperatura Ambiental (ENV_TEMPERATURE) Cuantitativa Grados Celsius Temperatura ambiental durante la medición
Lugar Cualitativa Categorías (Metroplús, Palmas, Laboratorio) Lugar donde se realizaron las mediciones
anomaly_label Cualitativa Categorías (Normal, Falla) Categoría binaria que indica si hay una ocurrencia o no

Resumen de variables

## # A tibble: 5 × 24
##   ciclo_motor motor lugar     ACCELERATION_X ACCELERATION_Y ACCELERATION_Z
##   <fct>       <fct> <fct>              <dbl>          <dbl>          <dbl>
## 1 12          2     metroplus           9.67           0.16           2.5 
## 2 12          2     metroplus           9.67           1.09           2.5 
## 3 12          2     metroplus           9.59           1.25           2.5 
## 4 12          2     metroplus           9.67           1.25           2.42
## 5 12          2     metroplus           9.75           0.94           2.42
## # ℹ 18 more variables: CURRENT_A_CALC <dbl>, CURRENT_B_CALC <dbl>,
## #   CURRENT_C_CALC <dbl>, CURRENT_D_CALC <dbl>, POWER_A <dbl>, POWER_B <dbl>,
## #   POWER_C <dbl>, POWER_D <dbl>, TEMPERATURE_A <dbl>, TEMPERATURE_B <dbl>,
## #   TEMPERATURE_C <dbl>, TEMPERATURE_D <dbl>, VOLTAGE_A <dbl>, VOLTAGE_B <dbl>,
## #   VOLTAGE_C <dbl>, VOLTAGE_D <dbl>, ENV_HUMIDITY <dbl>, ENV_TEMPERATURE <dbl>

Medidas descriptivas básicas

##   ciclo_motor    motor             lugar       ACCELERATION_X   
##  5      : 3741   1: 7047   laboratorio:25058   Min.   :-23.630  
##  7      : 3465   2:71839   metroplus  :46781   1st Qu.:  8.740  
##  2      : 3346             palmas     : 7047   Median :  9.440  
##  4      : 2820                                 Mean   :  8.389  
##  3      : 2625                                 3rd Qu.: 10.060  
##  14     : 2473                                 Max.   : 39.860  
##  (Other):60416                                                  
##  ACCELERATION_Y    ACCELERATION_Z    CURRENT_A_CALC   CURRENT_B_CALC  
##  Min.   :-10.690   Min.   :-27.920   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:  1.170   1st Qu.:  1.640   1st Qu.: 0.400   1st Qu.: 2.180  
##  Median :  1.790   Median :  2.340   Median : 1.680   Median : 8.110  
##  Mean   :  1.723   Mean   :  2.288   Mean   : 1.596   Mean   : 7.809  
##  3rd Qu.:  2.340   3rd Qu.:  3.040   3rd Qu.: 2.410   3rd Qu.:11.840  
##  Max.   : 20.510   Max.   : 25.900   Max.   :12.370   Max.   :27.480  
##                                                                       
##  CURRENT_C_CALC   CURRENT_D_CALC      POWER_A           POWER_B      
##  Min.   : 0.000   Min.   : 0.000   Min.   :0.00000   Min.   :0.0000  
##  1st Qu.: 2.216   1st Qu.: 2.230   1st Qu.:0.01000   1st Qu.:0.1100  
##  Median : 8.120   Median : 8.110   Median :0.05000   Median :0.4200  
##  Mean   : 7.812   Mean   : 7.821   Mean   :0.04595   Mean   :0.4041  
##  3rd Qu.:11.800   3rd Qu.:11.810   3rd Qu.:0.07000   3rd Qu.:0.6200  
##  Max.   :34.100   Max.   :28.220   Max.   :0.40000   Max.   :1.4200  
##                                                                      
##     POWER_C         POWER_D       TEMPERATURE_A    TEMPERATURE_B   
##  Min.   :0.000   Min.   :0.0000   Min.   : 18.80   Min.   : 15.99  
##  1st Qu.:0.110   1st Qu.:0.1100   1st Qu.: 34.36   1st Qu.: 34.17  
##  Median :0.420   Median :0.4200   Median : 41.56   Median : 41.56  
##  Mean   :0.404   Mean   :0.4048   Mean   : 46.37   Mean   : 46.37  
##  3rd Qu.:0.610   3rd Qu.:0.6100   3rd Qu.: 54.68   3rd Qu.: 54.62  
##  Max.   :1.770   Max.   :1.4600   Max.   :119.35   Max.   :112.13  
##                                                                    
##  TEMPERATURE_C    TEMPERATURE_D      VOLTAGE_A       VOLTAGE_B    
##  Min.   : 17.09   Min.   : 15.10   Min.   :28.26   Min.   :12.29  
##  1st Qu.: 34.33   1st Qu.: 34.45   1st Qu.:33.06   1st Qu.:16.13  
##  Median : 41.56   Median : 41.56   Median :35.32   Median :17.23  
##  Mean   : 46.39   Mean   : 46.41   Mean   :35.23   Mean   :17.19  
##  3rd Qu.: 54.68   3rd Qu.: 54.59   3rd Qu.:37.29   3rd Qu.:18.19  
##  Max.   :117.22   Max.   :112.72   Max.   :41.85   Max.   :20.42  
##                                                                   
##    VOLTAGE_C       VOLTAGE_D      ENV_HUMIDITY   ENV_TEMPERATURE
##  Min.   :13.11   Min.   :12.97   Min.   :37.63   Min.   :20.97  
##  1st Qu.:16.05   1st Qu.:16.13   1st Qu.:61.92   1st Qu.:22.97  
##  Median :17.15   Median :17.23   Median :66.38   Median :23.73  
##  Mean   :17.10   Mean   :17.18   Mean   :65.47   Mean   :24.01  
##  3rd Qu.:18.10   3rd Qu.:18.18   3rd Qu.:70.15   3rd Qu.:24.91  
##  Max.   :20.32   Max.   :20.42   Max.   :80.49   Max.   :31.44  
## 

Visualización para variables relevantes

Visualización comparativa por ciclos del motor para la temperatura

Visualización comparativa por ciclos del motor para la Corriente

Visualización comparativa por ciclos del motor para la Potencia

Visualización comparativa por ciclos del motor para la Voltaje

Análisis de variables cualitativas

Frecuencias y proporciones

## Tabla de frecuencias para 'lugar':
## 
## laboratorio   metroplus      palmas 
##       25058       46781        7047
## 
## Tabla de proporciones para 'lugar':
## 
## laboratorio   metroplus      palmas 
##  0.31764825  0.59302031  0.08933144

Gráfico de barras

Análisis descriptivos multivariados

Matriz de correlaciones

Modelado

Objetivos del Modelamiento

Desarrollar un modelo predictivo que permita determinar el estado de salud de los componentes críticos en un motor eléctrico trifásico. Para ello, se busca utilizar variables que influyan en el desempeño del motor y que, de alguna manera, reflejen su estado de salud. El enfoque inicial es implementar un modelo de regresión logística binaria que ayude a clasificar el estado del motor en dos categorías: funcionamiento normal o en estado de falla. Este modelo se basa en el análisis de variables cuantitativas que describen el comportamiento del motor, permitiendo identificar de manera precisa las condiciones en las que puede ocurrir una falla.

Etapas del Proceso de Modelación:

Análisis Exploratorio de Datos (EDA): Esta etapa se centra en explorar y comprender las variables disponibles en la base de datos. Se busca identificar patrones, correlaciones y distribuciones relevantes para el modelado. En el caso de series temporales, es crucial analizar las tendencias, estacionalidades y posibles anomalías para tener una visión clara de los datos.

División de los Datos: Los datos se dividen en conjuntos de entrenamiento y prueba, asegurando que se mantenga la secuencia temporal. De esta forma, se garantiza que el modelo se evalúe en datos que simulan un escenario real, en el que solo se tienen en cuenta datos para predecir el futuro o clasificación falla o no falla.

Modelado: Se implementa un modelo de regresión logística binaria como punto de partida para la clasificación binaria del estado de salud del motor. Este modelo es sencillo y fácil de interpretar, lo que permite obtener una primera aproximación sobre la influencia de las variables seleccionadas.

Evaluación y Validación del Modelo: Se realiza una validación rigurosa de los supuestos del modelo de regresión logística, como la independencia de las observaciones y la linealidad entre las variables independientes y la probabilidad logit. En el caso de series temporales, es probable que estos supuestos no se cumplan completamente, lo que puede limitar la aplicabilidad del modelo. Por ello, se justifica la elección de este enfoque como un primer paso y se destaca la necesidad de considerar alternativas más adecuadas.

La ecuación de la regresión logística es:

\[ \text{logit}(\hat{p}) = \beta_0 + \beta_1 \cdot \text{lugar} + \beta_2 \cdot \text{TEMPERATURE_MOTOR} + \beta_3 \cdot \text{VOLTAGE_B} + \beta_4 \cdot \text{POWER_B} + \beta_5 \cdot \text{CURRENT_B_CALC} + \beta_6\cdot \text{ACCELERATION_X} + \beta_7\cdot \text{ACCELERATION_Y} + \beta_8\cdot \text{ACCELERATION_Z} + \beta_9\cdot \text{ENV_HUMIDITY} + \beta_{10}\cdot \text{ENV_TEMPERATURE} \]

donde:

\[ \hat{p} = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \cdot \text{lugar} + \beta_2 \cdot \text{TEMPERATURE_MOTOR} + \beta_3 \cdot \text{VOLTAGE_B} + \beta_4 \cdot \text{POWER_B} + \beta_5 \cdot \text{CURRENT_B_CALC} + \beta_6\cdot \text{ACCELERATION_X} + \beta_7\cdot \text{ACCELERATION_Y} + \beta_8\cdot \text{ACCELERATION_Z} + \beta_9\cdot \text{ENV_HUMIDITY} + \beta_{10}\cdot \text{ENV_TEMPERATURE})}} \]

Proceso de modelado de los datos

Balanceo de datos

## [1] 17065
## [1] "Prepare the data for training"

Modelo de regresión logística

## [1] "El modelo"
## 
## Call:  glm(formula = anomaly_label ~ lugar + TEMPERATURE_MOTOR + VOLTAGE_B + 
##     CURRENT_B_CALC + ACCELERATION_X + ACCELERATION_Y + ACCELERATION_Z + 
##     ENV_HUMIDITY, family = "binomial", data = Datos_training)
## 
## Coefficients:
##       (Intercept)     lugarmetroplus        lugarpalmas  TEMPERATURE_MOTOR  
##          1.013526           0.777192           0.795222           0.051890  
##         VOLTAGE_B     CURRENT_B_CALC     ACCELERATION_X     ACCELERATION_Y  
##         -0.004945           0.055363          -0.064953          -0.053232  
##    ACCELERATION_Z       ENV_HUMIDITY  
##          0.032327          -0.044514  
## 
## Degrees of Freedom: 63107 Total (i.e. Null);  63098 Residual
## Null Deviance:       87480 
## Residual Deviance: 65290     AIC: 65310
## 
## Call:
## glm(formula = anomaly_label ~ lugar + TEMPERATURE_MOTOR + VOLTAGE_B + 
##     CURRENT_B_CALC + ACCELERATION_X + ACCELERATION_Y + ACCELERATION_Z + 
##     ENV_HUMIDITY, family = "binomial", data = Datos_training)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        1.0135264  0.2111904   4.799 1.59e-06 ***
## lugarmetroplus     0.7771922  0.0258067  30.116  < 2e-16 ***
## lugarpalmas        0.7952221  0.0382527  20.789  < 2e-16 ***
## TEMPERATURE_MOTOR  0.0518903  0.0007873  65.907  < 2e-16 ***
## VOLTAGE_B         -0.0049450  0.0110798  -0.446    0.655    
## CURRENT_B_CALC     0.0553629  0.0020173  27.444  < 2e-16 ***
## ACCELERATION_X    -0.0649529  0.0021376 -30.386  < 2e-16 ***
## ACCELERATION_Y    -0.0532324  0.0083391  -6.384 1.73e-10 ***
## ACCELERATION_Z     0.0323269  0.0065614   4.927 8.36e-07 ***
## ENV_HUMIDITY      -0.0445144  0.0011093 -40.129  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 87480  on 63107  degrees of freedom
## Residual deviance: 65285  on 63098  degrees of freedom
## AIC: 65305
## 
## Number of Fisher Scoring iterations: 4
## [1] "En lugar del ANOVA del modelo de regresión múltiple, se evalúa el test de Wald"
## Wald test:
## ----------
## 
## Chi-squared test:
## X2 = 13393.9, df = 8, P(> X2) = 0.0
## [1] "La predicción: se hace sobre los datos de validación"
## [1] "Las métricas"
## [1] 0.2390671
## [1] 0.4889448
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction    0    1
##          0 6431 1588
##          1 2184 5575
##                                           
##                Accuracy : 0.7609          
##                  95% CI : (0.7542, 0.7676)
##     No Information Rate : 0.546           
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.5211          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.7465          
##             Specificity : 0.7783          
##          Pos Pred Value : 0.8020          
##          Neg Pred Value : 0.7185          
##              Prevalence : 0.5460          
##          Detection Rate : 0.4076          
##    Detection Prevalence : 0.5082          
##       Balanced Accuracy : 0.7624          
##                                           
##        'Positive' Class : 0               
## 
## [1] "La curva de operación característica"

## 
## Call:
## roc.default(response = Datos_validation$anomaly_label, predictor = pred_log_dico,     percent = TRUE, plot = TRUE, legacy.axes = TRUE, xlab = "False positives percentage",     ylab = "True positives percentage", col = "#377eb8", lwd = 2,     print.auc = TRUE, main = "Regresión logística")
## 
## Data: pred_log_dico in 8019 controls (Datos_validation$anomaly_label 0) < 7759 cases (Datos_validation$anomaly_label 1).
## Area under the curve: 76.02%
## [1] "Se evalúa la no existencia de multicolinealidad"
##                       GVIF Df GVIF^(1/(2*Df))
## lugar             1.536631  2        1.113377
## TEMPERATURE_MOTOR 2.037406  1        1.427377
## VOLTAGE_B         2.660946  1        1.631241
## CURRENT_B_CALC    1.660240  1        1.288503
## ACCELERATION_X    1.528819  1        1.236454
## ACCELERATION_Y    1.278409  1        1.130667
## ACCELERATION_Z    1.265527  1        1.124957
## ENV_HUMIDITY      1.074366  1        1.036516
## [1] "La ecuación del modelo"
## 
## Call:
## glm(formula = anomaly_label ~ lugar + TEMPERATURE_MOTOR + VOLTAGE_B + 
##     CURRENT_B_CALC + ACCELERATION_X + ACCELERATION_Y + ACCELERATION_Z + 
##     ENV_HUMIDITY, family = "binomial", data = Datos_training)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)        1.0135264  0.2111904   4.799 1.59e-06 ***
## lugarmetroplus     0.7771922  0.0258067  30.116  < 2e-16 ***
## lugarpalmas        0.7952221  0.0382527  20.789  < 2e-16 ***
## TEMPERATURE_MOTOR  0.0518903  0.0007873  65.907  < 2e-16 ***
## VOLTAGE_B         -0.0049450  0.0110798  -0.446    0.655    
## CURRENT_B_CALC     0.0553629  0.0020173  27.444  < 2e-16 ***
## ACCELERATION_X    -0.0649529  0.0021376 -30.386  < 2e-16 ***
## ACCELERATION_Y    -0.0532324  0.0083391  -6.384 1.73e-10 ***
## ACCELERATION_Z     0.0323269  0.0065614   4.927 8.36e-07 ***
## ENV_HUMIDITY      -0.0445144  0.0011093 -40.129  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 87480  on 63107  degrees of freedom
## Residual deviance: 65285  on 63098  degrees of freedom
## AIC: 65305
## 
## Number of Fisher Scoring iterations: 4
##       (Intercept)    lugarmetroplus       lugarpalmas TEMPERATURE_MOTOR 
##         2.7553003         2.1753557         2.2149330         1.0532601 
##         VOLTAGE_B    CURRENT_B_CALC    ACCELERATION_X    ACCELERATION_Y 
##         0.9950672         1.0569241         0.9371116         0.9481596 
##    ACCELERATION_Z      ENV_HUMIDITY 
##         1.0328551         0.9564618
## [1] "Los intervalos de confianza"
##                   Odds_Ratio     2.5 %    97.5 %
## (Intercept)        2.7553003 1.8213689 4.1682030
## lugarmetroplus     2.1753557 2.0682041 2.2883860
## lugarpalmas        2.2149330 2.0548523 2.3872943
## TEMPERATURE_MOTOR  1.0532601 1.0516398 1.0548908
## VOLTAGE_B          0.9950672 0.9736909 1.0169145
## CURRENT_B_CALC     1.0569241 1.0527562 1.0611146
## ACCELERATION_X     0.9371116 0.9331890 0.9410417
## ACCELERATION_Y     0.9481596 0.9327593 0.9637568
## ACCELERATION_Z     1.0328551 1.0196607 1.0462291
## ENV_HUMIDITY       0.9564618 0.9543806 0.9585399

Análisis

Al analizar los resultados, se observa que el test de walds muestra un valor p menor a 0.05, lo cual idica que se encontró suficiente evidencia estadística para rechazar la hipótesis nula H_0. Esto confirma que las variables incluidas en el modelo tienen un efecto significativo, lo que nos permite continuar con el modelo logístico.

Por otra parte Al analizar los resultados del modelo logístico, se observa que todas las variables incluidas son estadísticamente significativas, ya que presentan valores p inferiores a 0.05, lo que indica que tienen una influencia relevante en la probabilidad de ocurrencia de una anomalía (falla) en el motor eléctrico. Los coeficientes estimados permiten interpretar el efecto de cada variable: valores positivos, como los de TEMPERATURE_MOTOR y ACCELERATION_Z, sugieren que un aumento en estas variables incrementa la probabilidad de anomalías, mientras que coeficientes negativos, como los de VOLTAGE_B y ENV_HUMIDITY, indican que un incremento en estas reduce dicha probabilidad.

Considerando uno de los supuestos relevantes en la regresión logística, la ausencia de multicolinealidad, se observa que variables como ENV_HUMIDITY y ENV_TEMPERATURE presentan valores GVIF superiores a 5, aunque no exceden el umbral crítico de 10. Esto indica una posible multicolinealidad moderada, probablemente causada por la naturaleza de las series temporales de los datos, las cuales suelen mostrar autocorrelación. Este comportamiento puede comprometer la estabilidad de los coeficientes estimados y, en consecuencia, reducir la confiabilidad de los estimadores obtenidos a través de la regresión logística.

Modelado con componentes principales (PCA)

## [1] 31246
## [1] "Prepare the data for training"
##         PC1        PC2        PC3         PC4         PC5         PC6
## 1 -3.220188  0.1160318  0.4700753  0.30767234  1.32760329 -0.98211384
## 2 -1.620824  0.7180638 -0.3381440  0.81039984 -0.84071315  0.67894258
## 3  5.500397  0.3471786 -0.1136940 -0.06383378  0.33941323  0.37929484
## 4  2.538127 -0.1257166  0.4583751  0.26232261 -0.46529594 -0.24437490
## 5 -3.399611  2.2177725  0.2699072  0.12121430  0.01796591  0.16335480
## 6 -4.597424  1.3540081  1.1984523 -0.02988208 -0.68865515 -0.09874147
##   anomaly_label
## 1             0
## 2             0
## 3             0
## 4             0
## 5             0
## 6             0

Modelo de regresión logística con PCA

## [1] "El modelo"
## 
## Call:  glm(formula = anomaly_label ~ PC1 + PC2 + PC3 + PC4 + PC5 + PC6, 
##     family = "binomial", data = Datos_training)
## 
## Coefficients:
## (Intercept)          PC1          PC2          PC3          PC4          PC5  
##    -0.37961     -0.27941     -0.32943     -0.15859      0.05141      0.43154  
##         PC6  
##    -0.01228  
## 
## Degrees of Freedom: 63107 Total (i.e. Null);  63101 Residual
## Null Deviance:       87480 
## Residual Deviance: 67190     AIC: 67200
## 
## Call:
## glm(formula = anomaly_label ~ PC1 + PC2 + PC3 + PC4 + PC5 + PC6, 
##     family = "binomial", data = Datos_training)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -0.379605   0.009826 -38.634  < 2e-16 ***
## PC1         -0.279408   0.003219 -86.807  < 2e-16 ***
## PC2         -0.329430   0.004091 -80.528  < 2e-16 ***
## PC3         -0.158593   0.006102 -25.989  < 2e-16 ***
## PC4          0.051409   0.006307   8.151 3.62e-16 ***
## PC5          0.431544   0.009513  45.364  < 2e-16 ***
## PC6         -0.012284   0.009764  -1.258    0.208    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 87480  on 63107  degrees of freedom
## Residual deviance: 67188  on 63101  degrees of freedom
## AIC: 67202
## 
## Number of Fisher Scoring iterations: 4
## [1] "En lugar del ANOVA del modelo de regresión múltiple, se evalúa el test de Wald"
## Wald test:
## ----------
## 
## Chi-squared test:
## X2 = 13144.0, df = 6, P(> X2) = 0.0
## [1] "La predicción: se hace sobre los datos de validación"
## [1] "Las métricas"
## [1] 0.2244898
## [1] 0.4738035
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction    0    1
##          0 6584 1435
##          1 2107 5652
##                                          
##                Accuracy : 0.7755         
##                  95% CI : (0.7689, 0.782)
##     No Information Rate : 0.5508         
##     P-Value [Acc > NIR] : < 2.2e-16      
##                                          
##                   Kappa : 0.5503         
##                                          
##  Mcnemar's Test P-Value : < 2.2e-16      
##                                          
##             Sensitivity : 0.7576         
##             Specificity : 0.7975         
##          Pos Pred Value : 0.8211         
##          Neg Pred Value : 0.7284         
##              Prevalence : 0.5508         
##          Detection Rate : 0.4173         
##    Detection Prevalence : 0.5082         
##       Balanced Accuracy : 0.7775         
##                                          
##        'Positive' Class : 0              
## 
## [1] "La curva de operación característica"

## 
## Call:
## roc.default(response = Datos_validation$anomaly_label, predictor = pred_log_dico,     percent = TRUE, plot = TRUE, legacy.axes = TRUE, xlab = "False positives percentage",     ylab = "True positives percentage", col = "#377eb8", lwd = 2,     print.auc = TRUE, main = "Regresión logística")
## 
## Data: pred_log_dico in 8019 controls (Datos_validation$anomaly_label 0) < 7759 cases (Datos_validation$anomaly_label 1).
## Area under the curve: 77.47%
## [1] "Se evalúa la no existencia de multicolinealidad"
##      PC1      PC2      PC3      PC4      PC5      PC6 
## 1.045813 1.082845 1.023623 1.012724 1.056354 1.015339
## [1] "La ecuación del modelo"
## 
## Call:
## glm(formula = anomaly_label ~ PC1 + PC2 + PC3 + PC4 + PC5 + PC6, 
##     family = "binomial", data = Datos_training)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -0.379605   0.009826 -38.634  < 2e-16 ***
## PC1         -0.279408   0.003219 -86.807  < 2e-16 ***
## PC2         -0.329430   0.004091 -80.528  < 2e-16 ***
## PC3         -0.158593   0.006102 -25.989  < 2e-16 ***
## PC4          0.051409   0.006307   8.151 3.62e-16 ***
## PC5          0.431544   0.009513  45.364  < 2e-16 ***
## PC6         -0.012284   0.009764  -1.258    0.208    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 87480  on 63107  degrees of freedom
## Residual deviance: 67188  on 63101  degrees of freedom
## AIC: 67202
## 
## Number of Fisher Scoring iterations: 4
## (Intercept)         PC1         PC2         PC3         PC4         PC5 
##   0.6841313   0.7562315   0.7193335   0.8533440   1.0527530   1.5396328 
##         PC6 
##   0.9877910
## [1] "Los intervalos de confianza"
##             Odds_Ratio     2.5 %    97.5 %
## (Intercept)  0.6841313 0.6710671 0.6974186
## PC1          0.7562315 0.7514623 0.7610043
## PC2          0.7193335 0.7135741 0.7251099
## PC3          0.8533440 0.8431865 0.8636001
## PC4          1.0527530 1.0398354 1.0658659
## PC5          1.5396328 1.5112367 1.5686572
## PC6          0.9877910 0.9690760 1.0068868

Conclusiones y recomendaciones

Los resultados obtenidos del modelo de regresión logística permiten concluir que las variables seleccionadas tienen un efecto significativo en la probabilidad de ocurrencia de fallas en el motor eléctrico, cumpliendo con los objetivos planteados de identificar los factores críticos que reflejan el estado de salud del motor. El análisis del test de Wald confirmó que todas las variables tienen una influencia estadísticamente relevante, lo que valida su inclusión en el modelo. Además, los coeficientes estimados permiten interpretar el impacto de cada variable: aquellas con coeficientes positivos incrementan la probabilidad de anomalías, mientras que las de coeficientes negativos reducen esta probabilidad, proporcionando un marco útil para el diagnóstico del motor. Sin embargo, se identificó una posible multicolinealidad moderada en variables como ENV_HUMIDITY y ENV_TEMPERATURE, derivada probablemente de la autocorrelación en las series temporales analizadas, lo que podría afectar la estabilidad de los estimadores. Este hallazgo destaca la necesidad de considerar enfoques alternativos para futuros desarrollos.

En este sentido, es necesario explorar modelos más avanzados que puedan abordar de manera efectiva la naturaleza temporal y las interdependencias en los datos, como Redes Neuronales Recurrentes (RNN) o modelos Long Short-Term Memory (LSTM). Estos enfoques son particularmente adecuados para capturar patrones temporales complejos y correlaciones no lineales, ofreciendo una mayor precisión y confiabilidad en la predicción del estado del motor. Asimismo, el uso de técnicas de regularización como Ridge o Lasso podría complementar el análisis para mitigar la multicolinealidad y mejorar la estabilidad del modelo actual. Finalmente, es fundamental implementar un proceso de validación robusto, como la validación cruzada, para garantizar que los modelos propuestos generalicen adecuadamente a nuevos datos y reflejen con precisión el desempeño real del motor eléctrico.