ANÁLISIS ESTADÍSTICO

1. CARGA DE LIBRERÍAS Y DATOS

# 1. CARGA DE DATOS Y LIBRERIAS
library(dplyr)
library(knitr)
library(gt)

setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos<- read.csv("tablap.csv", header = TRUE, sep = ";", dec = ",")

2. TABLA PARES DE VALORES

Definición de variables

x <- as.numeric(datos$Horizontal.Length)   #variable Indepediente 
y <- as.numeric(datos$Fuel.consumed..drilling.in.gallon.) #Variable Dependiente


TPV <- data.frame(x, y)
TPV <- na.omit(TPV)
Tabla N°1. Pares de Valores de Longitud Horizontal y Consumo de Combustible de los pozos de gas Natural
Longitud Horizontal Consumo de Combustible
1 2,151.84 5,195.29
2 2,441.18 6,859.66
3 448.46 2,683.84
4 1,050.89 2,979.56
5 1,856.06 4,549.63
6 240.10 1,444.85
7 1,765.53 4,531.40
8 2,053.42 5,119.57
9 2,406.76 7,119.47
10 65.49 2,139.57
11 2,479.23 6,545.87
12 1,540.39 3,761.80
13 784.95 3,456.13
14 2,014.83 4,837.81
15 1,816.15 3,563.52
16 1,079.38 3,660.69
17 174.29 1,787.93
18 1,835.85 4,281.62
19 2,035.98 3,328.64
20 1,127.34 3,441.46
Tabla 1 de 2

3. DIAGRAMA DE DISPERSIÓN

par(oma = c(1, 1, 1, 1))
plot(x, y, 
     pch = 16, 
     col = "blue", 
     main = "Gráfica Nº1: Diagrama de dispersión entre Longitud 
     Horizontal y el consumo de Combustible por Perforacion",
     xlab = "Longitud Horizontal",
     ylab = "Consumo de combustible")
box(which = "outer", col = "black")

4. CONJETURA DEL MODELO

Debido a la similitud de la nube de puntos conjeturamos a un modelo Polinómico

Tranformacion Polinómica

xcuad <- x^2; xcub <- x^3; xcta <- x^4
regresion_polinomica <- lm(y ~ x + xcuad + xcub + xcta)

Cálculo de Parámetros

beta0 <- regresion_polinomica$coefficients[1] #Intercepto
beta0
## (Intercept) 
##    2533.241
beta1 <- regresion_polinomica$coefficients[2]
beta1
##         x 
## -1.440481
beta2 <- regresion_polinomica$coefficients[3]
beta2
##       xcuad 
## 0.004272684
beta3 <- regresion_polinomica$coefficients[4]
beta3
##          xcub 
## -2.935496e-06
beta4 <- regresion_polinomica$coefficients[5]
beta4
##         xcta 
## 7.094479e-10
# Generar la gráfica 
par(oma = c(1, 1, 1, 1))
plot(x, y, pch = 16, col = "blue",
     main = "Gráfica Nº 2: Comparación de la realidad con el 
     modelo polinómico de los pozos de gas natural",
     xlab = "Longitud Horizontal", ylab = "Consumo de combustible")

curve(beta0 + beta1*x + beta2*x^2 + beta3*x^3 + beta4*x^4, 
      from = min(x), to = max(x), add = TRUE, col = "red", lwd = 2)

# Generar el panel de la ecuación matemática
plot(1, type = "n", axes = FALSE, xlab = "", ylab = "") 
eq_text_panel <- paste0(
  " Ecuación Polinómica (Grado 4) \n",
  " Y = β0 + β1*X + β2*X² + β3*X³ + β4*X⁴ \n\n",
  " Y = ", round(beta0, 2), 
  " + (", round(beta1, 4), ")*X",
  " + (", round(beta2, 6), ")*X² \n",
  " + (", round(beta3, 8), ")*X³",
  " + (", round(beta4, 10), ")*X⁴ \n\n",
  " Donde: X = Longitud Horizontal \n Y = Consumo de Combustible"
)

text(x = 1, y = 1,
     labels = eq_text_panel,
     cex = 1.3,      
     col = "blue", 
     font = 2)     
box(which = "outer", col = "black")

5. TEST DE APROBACIÓN Y RESTRICCIONES

Cálculo de Indicadores

Coeficiente de Pearson

r <- cor(y, predict(regresion_polinomica))
r*100
## [1] 94.72126
Test de Aprobación del Modelo Polinómico
Indicador Valor
Correlación de Pearson (r) 94.72 %
Tabla 2 de 2
plot.new()
plot.window(xlim = c(0, 100), ylim = c(0, 100))

text(50, 85, "RESTRICCIONES DEL MODELO", cex = 1.4, font = 2, col = "#D9534F")

parrafo_1 <- "El modelo solo es confiable dentro del Dominio 
observado D = {x / 0 <= x <= 2500}. 
Los modelos de grado superior son altamente 
sensibles a la extrapolación."


text(50, 55, parrafo_1, cex = 1.3, font = 3, col = "black")

rect(2, 5, 98, 95, border = "#D9534F", lwd = 3)

6. CÁLCULO DE PRONÓSTICOS

x0_m <- 1000
x0 <- x0_m
consumo_esp <- beta0 + beta1*x0 + beta2*x0^2 + beta3*x0^3 + beta4*x0^4
consumo_esp
## (Intercept) 
##    3139.397

7. CONCLUSIÓN

Entre la Longitud Horizontal (m) y el Consumo de Combustible por Perforación (galones) se observa una relación de tipo polinomial de cuarto grado, la cual presenta una correlación de Pearson alta del 94.72%, demostrando un ajuste estadístico robusto. El modelo matemático estimado solo es confiable dentro del Dominio observado de la muestra D = {x / 0 <= x <= 2500}, debido a que los modelos de grado superior son altamente sensibles a la extrapolación.