Tipos de Pozos

Variable Cualitativa Ordinal

Cargamos las libreria

library(PASWR)
## Loading required package: lattice
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)
library(knitr)

Carga los datos (Conjunto de datos)

setwd("/cloud/project")
read_csv("P_oil-gas-other-regulated-wells-beginning-1860.csv")
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (19): Well Name, Company Name, Well Type, Map Symbol, Well Status, Conf...
## dbl  (22): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl   (1): Financial Security
## dttm (10): Status Date, Permit Application Date, Permit Issued Date, Date Sp...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## # A tibble: 42,045 × 52
##    `API Well Number` `County Code` `API Hole Number` Sidetrack Completion
##                <dbl>         <dbl>             <dbl>     <dbl>      <dbl>
##  1           3.10e13             1              1072         0          0
##  2           3.10e13             1              1073         0          0
##  3           3.10e13             1             21007         0          0
##  4           3.10e13             1             21008         0          0
##  5           3.10e13             1             21009         0          0
##  6           3.10e13             1             21010         0          0
##  7           3.10e13             1             21011         0          0
##  8           3.10e13             1             21014         0          0
##  9           3.10e13             1             21015         0          0
## 10           3.10e13             1             21016         0          0
## # ℹ 42,035 more rows
## # ℹ 47 more variables: `Well Name` <chr>, `Company Name` <chr>,
## #   `Operator Number` <dbl>, `Well Type` <chr>, `Map Symbol` <chr>,
## #   `Well Status` <chr>, `Status Date` <dttm>,
## #   `Permit Application Date` <dttm>, `Permit Issued Date` <dttm>,
## #   `Date Spudded` <dttm>, `Date of Total Depth` <dttm>,
## #   `Date Well Completed` <dttm>, `Date Well Plugged` <dttm>, …
datos2<- read.csv("point_oil-gas-other-regulated-wells-beginning-1860.csv", header = T, sep = ",", dec = ".",na.strings = "-")

ESTADÍSTICA DESCRIPTIVA

Tema: Tablas y gráficas de variables cualitativas ordinales

#   TIPO DE POZO
# Extraer variable ordinal
TipoPozo <- datos2$Well.Type

# EDA variable ordinal
TDF_TipoPozo <- table(TipoPozo)
Tabla_TipoPozo <- as.data.frame(TDF_TipoPozo)

# Cálculos de proporciones
hi <- TDF_TipoPozo / sum(TDF_TipoPozo)
hi_porc <- round(hi * 100, 2)

GRÁFICAS

# Gráfica No. 4.1: Diagrama de barras local
barplot(TDF_TipoPozo,main = "Gráfica No. 4.1:Distribución de cantidad del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",col = "salmon",xlab = "Tipo de pozo",ylab = "Cantidad",cex.names = 0.8,las = 2)

# Gráfica No. 4.2: Diagrama de barras global
barplot(TDF_TipoPozo,main = "Gráfica No. 4.2:Distribución de cantidad del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",col = "salmon",xlab = "Tipo de pozo",ylab = "Cantidad",ylim = c(0, length(TipoPozo)),cex.names = 0.8,las = 2)

# Gráfica No. 4.3: Diagrama de barras por porcentaje local
barplot(hi_porc,main = "Gráfica No. 4.3:Distribución del porcentaje del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",
        col = "salmon",xlab = "Tipo de pozo",ylab = "Porcentaje (%)",cex.names = 0.8,las = 2)

# Gráfica No. 4.3: Diagrama de barras por porcentaje global
barplot(hi_porc,main = "Gráfica No. 4.4:Distribución del porcentaje del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",
        col = "salmon",xlab = "Tipo de pozo",ylab = "Porcentaje (%)",ylim = c(0, 100),cex.names = 0.8,las = 2)

#Nomenclatura de los tipos de pozos: https://drive.google.com/file/d/1-J5_J5qAhqynsszls8UMfDgEatXPGW8E/view?usp=sharing

Debido a una gran variedad de tipos de pozos, la frecuencia de cada una distorsiona el diagrama circular y lo hacen inentendible, por lo que se ha agrupado en pozos de la misma naturaleza.

AGRUPACIÓN

datos2 <- datos2 %>%
  mutate(Tipo_pozo_grupo = case_when(
    Well.Type %in% c("OD", "OE", "OW") ~ "PETRÓLEO",
    Well.Type %in% c("GD", "GE", "GW", "IG") ~ "GAS",
    Well.Type %in% c("MB", "MM", "MS") ~ "MONITOREO",
    Well.Type %in% c("DS", "NL", "ST") ~ "SIN PRODUCCIÓN",
    TRUE ~ "OTROS"
  ))

Ordenamos los tipos de pozos por importancia de mayor a menor

# Orden manual deseado
orden_deseado <- c("PETRÓLEO", "GAS", "MONITOREO", "SIN PRODUCCIÓN", "OTROS")

# Reordenar tabla con orden manual
Tabla_TipoPozoFinal <- as.data.frame(table(datos2$Tipo_pozo_grupo))
colnames(Tabla_TipoPozoFinal) <- c("Tipo_de_pozo", "ni")
Tabla_TipoPozoFinal$Tipo_de_pozo <- factor(Tabla_TipoPozoFinal$Tipo_de_pozo, levels = orden_deseado)
Tabla_TipoPozoFinal <- Tabla_TipoPozoFinal[order(Tabla_TipoPozoFinal$Tipo_de_pozo), ]

TABLA DE FRECUENCIAS

ni_TipoPozo <- Tabla_TipoPozoFinal$ni
sum(ni_TipoPozo)
## [1] 42045
hi <- ni_TipoPozo / sum(ni_TipoPozo)
sum(hi)
## [1] 1
hi_porc <- round(hi * 100, 2)
etiqueta <- paste(hi_porc, "%", sep = " ")

Tabla_TipoPozoFinal2 <- data.frame("Tipo de pozo" = Tabla_TipoPozoFinal$Tipo_de_pozo,"ni" = ni_TipoPozo,
                                   "hi (%)" = hi_porc)

kable(Tabla_TipoPozoFinal2, format = "markdown", caption = "Tabla 4.1:Tabla de frecuencias agrupadas del tipo de pozo")
Tabla 4.1:Tabla de frecuencias agrupadas del tipo de pozo
Tipo.de.pozo ni hi….
PETRÓLEO 16339 38.86
GAS 10981 26.12
MONITOREO 181 0.43
SIN PRODUCCIÓN 6386 15.19
OTROS 8158 19.40

GRÁFICAS REORDENADAS Y AGRUPADAS

barplot(height = Tabla_TipoPozoFinal$ni,names.arg = Tabla_TipoPozoFinal$Tipo_de_pozo,main = "Gráfico No 4.5:Distribución de cantidad del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",col = "steelblue",xlab = "Tipo de pozo",ylab = "Cantidad",las = 1,cex.names = 0.6)

# Gráfica No. 4.5: Diagrama circular con orden manual
colores <- rainbow(length(ni_TipoPozo))

pie(hi_porc,labels = etiqueta,clockwise = TRUE,main = "Gráfica No. 4.5: Porcentaje del tipo de pozo\n
    en el estado de Nueva York",col = colores)

legend("bottomright",legend = as.character(Tabla_TipoPozoFinal$Tipo_de_pozo), cex = 0.6,
       fill = colores,title = "Leyenda", xpd = TRUE)

INDICADORES

# Como hay 5 elementos
#c("PETRÓLEO", "GAS", "MONITOREO", "SIN PRODUCCIÓN", "OTROS")
#la mediana está en la posición 3 → "MONITOREO"
mediana<-c("MONITOREO")
mediana
## [1] "MONITOREO"
moda<-c("PETRÓLEO")
moda
## [1] "PETRÓLEO"
Variable<-c("Tipos de pozos")


Tabla_indicadores<-data.frame(Variable,mediana,moda)
colnames(Tabla_indicadores)<-c("Variable","Mediana","Moda")
kable(Tabla_indicadores, format = "markdown", caption = "Tabla 4.2. Indicadores estadíticos de la variable tipos de pozos")
Tabla 4.2. Indicadores estadíticos de la variable tipos de pozos
Variable Mediana Moda
Tipos de pozos MONITOREO PETRÓLEO

CONCLUSIONES:

El tipo de pozos en el Estado de Nueva York fluctúa entre “Petróleo “ a “Otro”, siendo el más común los pozos de petróleo, esta mayor frecuencia es beneficiosa para la producción y extracción el cual ayuda la economía del estado.