datos <- read_excel("Reg_2.xlsx")
head(datos)
## # A tibble: 6 × 5
## Cant_gasol Gravedad_crudo Presion_vapor temperatura10 temperatura100
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 6.9 38.4 6.1 220 235
## 2 14.4 40.3 4.8 231 307
## 3 7.4 40 6.1 217 212
## 4 8.5 31.8 0.2 316 365
## 5 8 40.8 3.5 210 218
## 6 2.8 41.3 1.8 267 235
summary(datos)
## Cant_gasol Gravedad_crudo Presion_vapor temperatura10
## Min. : 2.80 Min. :31.80 Min. :0.200 Min. :190.0
## 1st Qu.:11.65 1st Qu.:36.62 1st Qu.:1.800 1st Qu.:216.0
## Median :17.80 Median :40.00 Median :4.800 Median :231.0
## Mean :19.66 Mean :39.25 Mean :4.181 Mean :240.9
## 3rd Qu.:27.05 3rd Qu.:40.92 3rd Qu.:6.100 3rd Qu.:268.8
## Max. :45.70 Max. :50.80 Max. :8.600 Max. :316.0
## temperatura100
## Min. :205.0
## 1st Qu.:274.5
## Median :349.0
## Mean :332.1
## 3rd Qu.:383.0
## Max. :444.0
gasolina <- datos$Cant_gasol
gravedad_crudo <- datos$Gravedad_crudo
par(mfrow = c(1, 1), mar = c(4, 4, 2, 1))
plot(gravedad_crudo, gasolina, main="Cantidad de Gasolina vs. Gravedad del crudo", pch=19, col="skyblue")
modelo <- lm(gasolina ~ gravedad_crudo)
abline(modelo, col="red", lwd=2)
Como se puede evidenciar en el gráfico, existe una tendencia ascendente moderada entre los datos, donde a medida que aumenta la gravedad del crudo encontramos mayores cantidades de gasolina. Aunque podemos notar que los datos están bastante dispersos entre s, lo que nos indica la existencia de otros factores que también afectan la cantidad de gasolina y que su aumento no se debe estrechamente a la gravedad del crudo.
shapiro.test(gravedad_crudo)
##
## Shapiro-Wilk normality test
##
## data: gravedad_crudo
## W = 0.85135, p-value = 0.0004439
shapiro.test(gasolina)
##
## Shapiro-Wilk normality test
##
## data: gasolina
## W = 0.9604, p-value = 0.2817
Como podemos evidenciar de las pruebas de Shapiro-Wilk, la distribución de los datos de gravedad del crudo no presentan una distribución normal (p-value < 0.05). Por otro lado, la distribución de los datos de la cantidad de gasolina son normales (p-value > 0.05). Es por eso que para calcular la correlación necesitaremos el coeficiente de correlación de Spearman.
# CÁLCULO DEL COEFICIENTE DE PEARSON MUESTRAL (r):
# Cálculo manual (método Spearman):
rg_x <- rank(gravedad_crudo)
rg_y <- rank(gasolina)
media_rg_x <- mean(rg_x)
media_rg_y <- mean(rg_y)
x_diff <- rg_x - media_rg_x
y_diff <- rg_y - media_rg_y
numerator <- sum(x_diff * y_diff)
denominator <- sqrt(sum(x_diff^2) * sum(y_diff^2))
result_spearman <- numerator / denominator
print(paste("MANUAL SPEARMAN:", result_spearman))
## [1] "MANUAL SPEARMAN: 0.0946339591356681"
# Cálculo computacional:
print(paste("CÁLCULO COMPUTACIONAL: ", cor(gasolina, gravedad_crudo, method="spearman")))
## [1] "CÁLCULO COMPUTACIONAL: 0.0946339591356681"
Como podemos comprobar tanto del cálculo manual como del cálculo computacional es que, aunque los datos presentan una tendencia positiva, ésta es demasiado débil. Por lo tanto no es significativa, ya que podría ser puro azar o por el ruido en los datos. En conclusión, los cambios en la gravedad del crudo no explican los cambios en la cantidad de gasolina.
cor.test(gravedad_crudo, gasolina)
##
## Pearson's product-moment correlation
##
## data: gravedad_crudo and gasolina
## t = 1.3921, df = 30, p-value = 0.1741
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1119868 0.5479548
## sample estimates:
## cor
## 0.246326
Afirmando lo dicho anteriormente, tenemos un p-value > 0.05, por lo que no se rechaza nuestra hipótesis nula y tenemos que p = 0. En conclusión, la correlación no es estadísticamente significativa.
# Cálculo manual:
xy <- sum(gravedad_crudo*gasolina)
xi <- mean(gravedad_crudo)
yi <- mean(gasolina)
xn <- sum(gravedad_crudo)
yn <- sum(gasolina)
x1n <- sum((gravedad_crudo)^2)
y1n <- sum((gasolina)^2)
n <- length((gravedad_crudo))
numerator <- xy - ((xn*yn)/n)
denominator <- x1n - (xn^2/n)
b_1 <- numerator/denominator
b_0 <- yi - (b_1*xi)
print(paste("VALOR DE B_0: ", b_0))
## [1] "VALOR DE B_0: 1.26370333925847"
print(paste("VALOR DE B_1: ", b_1))
## [1] "VALOR DE B_1: 0.468679532757746"
# Cálculo computacional:
modelo1 <- lm(gasolina ~ gravedad_crudo)
summary(modelo1)
##
## Call:
## lm(formula = gasolina ~ gravedad_crudo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.820 -7.381 -1.666 7.496 20.627
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.2637 13.3458 0.095 0.925
## gravedad_crudo 0.4687 0.3367 1.392 0.174
##
## Residual standard error: 10.56 on 30 degrees of freedom
## Multiple R-squared: 0.06068, Adjusted R-squared: 0.02937
## F-statistic: 1.938 on 1 and 30 DF, p-value: 0.1741
El valor nos indica que por cada grado adicional de gravedad de crudo, se espera que la cantidad de producción de gasolina aumente en 0.4687 galones.
El valor nos indica que cuando la gravedad de crudo es igual a 0, se produce una cantidad de 1.2637 galones de gasolina.
Este valor es proporcional al 6.07%, lo cuál indica que solo el 6.07% de la variabilidad observada en la producción de gasolina puede ser explicada y depende de la gravedad del crudo. Lo que nos permite concluir que el modelo es muy débil. El 93.93% restante de la variación de la gasolina depende de otros factores (temperatura, procesos de destilación, errores de medición, etc.) que no están incluidos en este modelo.