Modelo de regresión lineal:

Cantidad de gasolina obtenida a partir de la gravedad del crudo

Importación de los datos

datos <- read_excel("Reg_2.xlsx")
head(datos)
## # A tibble: 6 × 5
##   Cant_gasol Gravedad_crudo Presion_vapor temperatura10 temperatura100
##        <dbl>          <dbl>         <dbl>         <dbl>          <dbl>
## 1        6.9           38.4           6.1           220            235
## 2       14.4           40.3           4.8           231            307
## 3        7.4           40             6.1           217            212
## 4        8.5           31.8           0.2           316            365
## 5        8             40.8           3.5           210            218
## 6        2.8           41.3           1.8           267            235
summary(datos)
##    Cant_gasol    Gravedad_crudo  Presion_vapor   temperatura10  
##  Min.   : 2.80   Min.   :31.80   Min.   :0.200   Min.   :190.0  
##  1st Qu.:11.65   1st Qu.:36.62   1st Qu.:1.800   1st Qu.:216.0  
##  Median :17.80   Median :40.00   Median :4.800   Median :231.0  
##  Mean   :19.66   Mean   :39.25   Mean   :4.181   Mean   :240.9  
##  3rd Qu.:27.05   3rd Qu.:40.92   3rd Qu.:6.100   3rd Qu.:268.8  
##  Max.   :45.70   Max.   :50.80   Max.   :8.600   Max.   :316.0  
##  temperatura100 
##  Min.   :205.0  
##  1st Qu.:274.5  
##  Median :349.0  
##  Mean   :332.1  
##  3rd Qu.:383.0  
##  Max.   :444.0
gasolina <- datos$Cant_gasol
gravedad_crudo <- datos$Gravedad_crudo

Gráfico de correlación

par(mfrow = c(1, 1), mar = c(4, 4, 2, 1))
plot(gravedad_crudo, gasolina, main="Cantidad de Gasolina vs. Gravedad del crudo", pch=19, col="skyblue")
modelo <- lm(gasolina ~ gravedad_crudo)
abline(modelo, col="red", lwd=2)

Como se puede evidenciar en el gráfico, existe una tendencia ascendente moderada entre los datos, donde a medida que aumenta la gravedad del crudo encontramos mayores cantidades de gasolina. Aunque podemos notar que los datos están bastante dispersos entre s, lo que nos indica la existencia de otros factores que también afectan la cantidad de gasolina y que su aumento no se debe estrechamente a la gravedad del crudo.

Análisis de supuestos

Normalidad:

shapiro.test(gravedad_crudo)
## 
##  Shapiro-Wilk normality test
## 
## data:  gravedad_crudo
## W = 0.85135, p-value = 0.0004439
shapiro.test(gasolina)
## 
##  Shapiro-Wilk normality test
## 
## data:  gasolina
## W = 0.9604, p-value = 0.2817

Como podemos evidenciar de las pruebas de Shapiro-Wilk, la distribución de los datos de gravedad del crudo no presentan una distribución normal (p-value < 0.05). Por otro lado, la distribución de los datos de la cantidad de gasolina son normales (p-value > 0.05). Es por eso que para calcular la correlación necesitaremos el coeficiente de correlación de Spearman.

Coeficiente de correlación de Spearman

# CÁLCULO DEL COEFICIENTE DE PEARSON MUESTRAL (r):
# Cálculo manual (método Spearman):
rg_x <- rank(gravedad_crudo)
rg_y <- rank(gasolina)
media_rg_x <- mean(rg_x)
media_rg_y <- mean(rg_y)
x_diff <- rg_x - media_rg_x
y_diff <- rg_y - media_rg_y
numerator <- sum(x_diff * y_diff)
denominator <- sqrt(sum(x_diff^2) * sum(y_diff^2))
result_spearman <- numerator / denominator
print(paste("MANUAL SPEARMAN:", result_spearman))
## [1] "MANUAL SPEARMAN: 0.0946339591356681"
# Cálculo computacional:
print(paste("CÁLCULO COMPUTACIONAL: ", cor(gasolina, gravedad_crudo, method="spearman")))
## [1] "CÁLCULO COMPUTACIONAL:  0.0946339591356681"

Como podemos comprobar tanto del cálculo manual como del cálculo computacional es que, aunque los datos presentan una tendencia positiva, ésta es demasiado débil. Por lo tanto no es significativa, ya que podría ser puro azar o por el ruido en los datos. En conclusión, los cambios en la gravedad del crudo no explican los cambios en la cantidad de gasolina.

P-value

cor.test(gravedad_crudo, gasolina)
## 
##  Pearson's product-moment correlation
## 
## data:  gravedad_crudo and gasolina
## t = 1.3921, df = 30, p-value = 0.1741
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1119868  0.5479548
## sample estimates:
##      cor 
## 0.246326

Afirmando lo dicho anteriormente, tenemos un p-value > 0.05, por lo que no se rechaza nuestra hipótesis nula y tenemos que p = 0. En conclusión, la correlación no es estadísticamente significativa.

Interpretación de la pendiente (B_1), el intercepto en y (B_0) el coeficiente de determinación poblacional (p^2)

# Cálculo manual:
xy <- sum(gravedad_crudo*gasolina)
xi <- mean(gravedad_crudo)
yi <- mean(gasolina)
xn <- sum(gravedad_crudo)
yn <- sum(gasolina)
x1n <- sum((gravedad_crudo)^2)
y1n <- sum((gasolina)^2)
n <- length((gravedad_crudo))

numerator <- xy - ((xn*yn)/n)
denominator <- x1n - (xn^2/n)
b_1 <- numerator/denominator
b_0 <- yi - (b_1*xi)
print(paste("VALOR DE B_0: ", b_0))
## [1] "VALOR DE B_0:  1.26370333925847"
print(paste("VALOR DE B_1: ", b_1))
## [1] "VALOR DE B_1:  0.468679532757746"
# Cálculo computacional:
modelo1 <- lm(gasolina ~ gravedad_crudo)
summary(modelo1)
## 
## Call:
## lm(formula = gasolina ~ gravedad_crudo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.820  -7.381  -1.666   7.496  20.627 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)
## (Intercept)      1.2637    13.3458   0.095    0.925
## gravedad_crudo   0.4687     0.3367   1.392    0.174
## 
## Residual standard error: 10.56 on 30 degrees of freedom
## Multiple R-squared:  0.06068,    Adjusted R-squared:  0.02937 
## F-statistic: 1.938 on 1 and 30 DF,  p-value: 0.1741
B_1 = 0.4687

El valor nos indica que por cada grado adicional de gravedad de crudo, se espera que la cantidad de producción de gasolina aumente en 0.4687 galones.

B_0 = 1.2637

El valor nos indica que cuando la gravedad de crudo es igual a 0, se produce una cantidad de 1.2637 galones de gasolina.

p^2 = 0.06068

Este valor es proporcional al 6.07%, lo cuál indica que solo el 6.07% de la variabilidad observada en la producción de gasolina puede ser explicada y depende de la gravedad del crudo. Lo que nos permite concluir que el modelo es muy débil. El 93.93% restante de la variación de la gasolina depende de otros factores (temperatura, procesos de destilación, errores de medición, etc.) que no están incluidos en este modelo.