Tipos de Pozos
Variable Cualitativa Ordinal
Cargamos las libreria
library(PASWR)
## Loading required package: lattice
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
library(knitr)
Carga los datos (Conjunto de datos)
setwd("/cloud/project")
read_csv("P_oil-gas-other-regulated-wells-beginning-1860.csv")
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (19): Well Name, Company Name, Well Type, Map Symbol, Well Status, Conf...
## dbl (22): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl (1): Financial Security
## dttm (10): Status Date, Permit Application Date, Permit Issued Date, Date Sp...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## # A tibble: 42,045 × 52
## `API Well Number` `County Code` `API Hole Number` Sidetrack Completion
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3.10e13 1 1072 0 0
## 2 3.10e13 1 1073 0 0
## 3 3.10e13 1 21007 0 0
## 4 3.10e13 1 21008 0 0
## 5 3.10e13 1 21009 0 0
## 6 3.10e13 1 21010 0 0
## 7 3.10e13 1 21011 0 0
## 8 3.10e13 1 21014 0 0
## 9 3.10e13 1 21015 0 0
## 10 3.10e13 1 21016 0 0
## # ℹ 42,035 more rows
## # ℹ 47 more variables: `Well Name` <chr>, `Company Name` <chr>,
## # `Operator Number` <dbl>, `Well Type` <chr>, `Map Symbol` <chr>,
## # `Well Status` <chr>, `Status Date` <dttm>,
## # `Permit Application Date` <dttm>, `Permit Issued Date` <dttm>,
## # `Date Spudded` <dttm>, `Date of Total Depth` <dttm>,
## # `Date Well Completed` <dttm>, `Date Well Plugged` <dttm>, …
datos2<- read.csv("point_oil-gas-other-regulated-wells-beginning-1860.csv", header = T, sep = ",", dec = ".",na.strings = "-")
ESTADÍSTICA DESCRIPTIVA
Tema: Tablas y gráficas de variables cualitativas ordinales
# TIPO DE POZO
# Extraer variable ordinal
TipoPozo <- datos2$Well.Type
# EDA variable ordinal
TDF_TipoPozo <- table(TipoPozo)
Tabla_TipoPozo <- as.data.frame(TDF_TipoPozo)
# Cálculos de proporciones
hi <- TDF_TipoPozo / sum(TDF_TipoPozo)
hi_porc <- round(hi * 100, 2)
GRÁFICAS
# Gráfica No. 4.1: Diagrama de barras local
barplot(TDF_TipoPozo,main = "Gráfica No. 4.1:Distribución de cantidad del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",col = "salmon",xlab = "Tipo de pozo",ylab = "Cantidad",cex.names = 0.8,las = 2)
# Gráfica No. 4.2: Diagrama de barras global
barplot(TDF_TipoPozo,main = "Gráfica No. 4.2:Distribución de cantidad del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",col = "salmon",xlab = "Tipo de pozo",ylab = "Cantidad",ylim = c(0, length(TipoPozo)),cex.names = 0.8,las = 2)
# Gráfica No. 4.3: Diagrama de barras por porcentaje local
barplot(hi_porc,main = "Gráfica No. 4.3:Distribución del porcentaje del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",
col = "salmon",xlab = "Tipo de pozo",ylab = "Porcentaje (%)",cex.names = 0.8,las = 2)
# Gráfica No. 4.3: Diagrama de barras por porcentaje global
barplot(hi_porc,main = "Gráfica No. 4.4:Distribución del porcentaje del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",
col = "salmon",xlab = "Tipo de pozo",ylab = "Porcentaje (%)",ylim = c(0, 100),cex.names = 0.8,las = 2)
#Nomenclatura de los tipos de pozos: https://drive.google.com/file/d/1-J5_J5qAhqynsszls8UMfDgEatXPGW8E/view?usp=sharing
Debido a una gran variedad de tipos de pozos, la frecuencia de cada una distorsiona el diagrama circular y lo hacen inentendible, por lo que se ha agrupado en pozos de la misma naturaleza.
AGRUPACIÓN
datos2 <- datos2 %>%
mutate(Tipo_pozo_grupo = case_when(
Well.Type %in% c("OD", "OE", "OW") ~ "PETRÓLEO",
Well.Type %in% c("GD", "GE", "GW", "IG") ~ "GAS",
Well.Type %in% c("MB", "MM", "MS") ~ "MONITOREO",
Well.Type %in% c("DS", "NL", "ST") ~ "SIN PRODUCCIÓN",
TRUE ~ "OTROS"
))
Ordenamos los tipos de pozos por importancia de mayor a menor
# Orden manual deseado
orden_deseado <- c("PETRÓLEO", "GAS", "MONITOREO", "SIN PRODUCCIÓN", "OTROS")
# Reordenar tabla con orden manual
Tabla_TipoPozoFinal <- as.data.frame(table(datos2$Tipo_pozo_grupo))
colnames(Tabla_TipoPozoFinal) <- c("Tipo_de_pozo", "ni")
Tabla_TipoPozoFinal$Tipo_de_pozo <- factor(Tabla_TipoPozoFinal$Tipo_de_pozo, levels = orden_deseado)
Tabla_TipoPozoFinal <- Tabla_TipoPozoFinal[order(Tabla_TipoPozoFinal$Tipo_de_pozo), ]
TABLA DE FRECUENCIAS
ni_TipoPozo <- Tabla_TipoPozoFinal$ni
sum(ni_TipoPozo)
## [1] 42045
hi <- ni_TipoPozo / sum(ni_TipoPozo)
sum(hi)
## [1] 1
hi_porc <- round(hi * 100, 2)
etiqueta <- paste(hi_porc, "%", sep = " ")
Tabla_TipoPozoFinal2 <- data.frame("Tipo de pozo" = Tabla_TipoPozoFinal$Tipo_de_pozo,"ni" = ni_TipoPozo,
"hi (%)" = hi_porc)
kable(Tabla_TipoPozoFinal2, format = "markdown", caption = "Tabla 4.1:Tabla de frecuencias agrupadas del tipo de pozo")
| Tipo.de.pozo | ni | hi…. |
|---|---|---|
| PETRÓLEO | 16339 | 38.86 |
| GAS | 10981 | 26.12 |
| MONITOREO | 181 | 0.43 |
| SIN PRODUCCIÓN | 6386 | 15.19 |
| OTROS | 8158 | 19.40 |
GRÁFICAS REORDENADAS Y AGRUPADAS
barplot(height = Tabla_TipoPozoFinal$ni,names.arg = Tabla_TipoPozoFinal$Tipo_de_pozo,main = "Gráfico No 4.5:Distribución de cantidad del tipo de pozo por compañía\nde cada uno de los pozos de hidrocarburos en el estado de Nueva York",col = "steelblue",xlab = "Tipo de pozo",ylab = "Cantidad",las = 1,cex.names = 0.6)
# Gráfica No. 4.5: Diagrama circular con orden manual
colores <- rainbow(length(ni_TipoPozo))
pie(hi_porc,labels = etiqueta,clockwise = TRUE,main = "Gráfica No. 4.5: Porcentaje del tipo de pozo\n
en el estado de Nueva York",col = colores)
legend("bottomright",legend = as.character(Tabla_TipoPozoFinal$Tipo_de_pozo), cex = 0.6,
fill = colores,title = "Leyenda", xpd = TRUE)
INDICADORES
# Como hay 5 elementos
#c("PETRÓLEO", "GAS", "MONITOREO", "SIN PRODUCCIÓN", "OTROS")
#la mediana está en la posición 3 → "MONITOREO"
mediana<-c("MONITOREO")
mediana
## [1] "MONITOREO"
moda<-c("PETRÓLEO")
moda
## [1] "PETRÓLEO"
Variable<-c("Tipos de pozos")
Tabla_indicadores<-data.frame(Variable,mediana,moda)
colnames(Tabla_indicadores)<-c("Variable","Mediana","Moda")
kable(Tabla_indicadores, format = "markdown", caption = "Tabla 4.2. Indicadores estadíticos de la variable tipos de pozos")
| Variable | Mediana | Moda |
|---|---|---|
| Tipos de pozos | MONITOREO | PETRÓLEO |
CONCLUSIONES:
El tipo de pozos en el Estado de Nueva York fluctúa entre “Petróleo “ a “Otro”, siendo el más común los pozos de petróleo, esta mayor frecuencia es beneficiosa para la producción y extracción el cual ayuda la economía del estado.