BTDataContest

Flavio Angeli

Scopo dell'indagine: Ricercare un pattern che preveda l'importo del costo nei prossimi mesi e pianificare di conseguenza le risorse.

Analisi completa: BTDataContest

Analisi di correlazione

Il coefficiente di correlazione tra le variabili numeriche mostra una forte correlazione tra il costo faultCost e le misure mediumRPMCorrected, mstar e minRPMCorrected. plot of chunk unnamed-chunk-1

Variabili correlate

mediumRPMCorrected e mstar presentano una forte correlazione con faultCost. plot of chunk unnamed-chunk-2

Modello lineare

Un modello con mstar e margin5 come input riesce a spiegare gran parte della varianza di faultCost.

          Estimate  Std. Error   t value Pr(>|t|)
mstar    1.0603983 0.001671138  634.5368        0
margin5 -0.9400843 0.005835354 -161.1015        0

R-Squared

[1] 0.998371

Random Forest

La costruzione di un modello Random Forest, nella sua versione basilare, mostra quali siano le variabili con maggiore valore predittivo. plot of chunk unnamed-chunk-5

Conclusioni

  • Si osserva una forte correlazione tra la variabile di costo faultCost e le variabili mstar, minRPMCorrected e mediumRPMCorrected.
  • Sembra possibile costruire un modello di regressione lineare con mstar e margin5 come variabili di input.
  • Un modello Random Forest sembra confermare il valore predittivo di minRPMCorrected, mstar e mediumRPMCorrected.

L'analisi sembra dimostrare che le variabili sopra menzionate potrebbero essere utilizzate per prevedere l'importo del costo delle macchine nei prossimi mesi e pianificare di conseguenza le risorse.