Carga de libreria

library(PASWR)
## Loading required package: lattice
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)

Carga de datos

setwd("/cloud/project")

datos <- read_csv("point_oil-gas-other-regulated-wells-beginning-1860.csv")
## Warning: One or more parsing issues, call `problems()` on your data frame for details,
## e.g.:
##   dat <- vroom(...)
##   problems(dat)
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (38): Well Name, Company Name, Well Type, Map Symbol, Well Status, Stat...
## dbl  (12): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl   (1): Financial Security
## dttm  (1): Date Last Modified
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Análisis “Con” vs “Sin Condición Estatal

Condicion_Estatal <- ifelse(is.na(datos$`State Lease`), "Sin Condicion Estatal", "Con Condicion Estatal")

# Crear Tabla de frecuencias

Tabla_Condicion <- table(Condicion_Estatal)
Tabla_Condicion <- as.data.frame(Tabla_Condicion)
Tabla_Condicion$Porcentaje <- round((Tabla_Condicion$Freq / sum(Tabla_Condicion$Freq)) * 100, 2)
Tabla_Condicion$hi <- round((Tabla_Condicion$Freq / sum(Tabla_Condicion$Freq)), 4)
print(Tabla_Condicion)
##       Condicion_Estatal  Freq Porcentaje    hi
## 1 Con Condicion Estatal   505        1.2 0.012
## 2 Sin Condicion Estatal 41540       98.8 0.988

Gráficos

barplot(Tabla_Condicion$Freq, names.arg = Tabla_Condicion$Condicion_Estatal,
        main = "Gráfica No. 1: Distribución de frecuencia de la condicion estatal
        de los pozos de hidrocarburos",
        ylab = "Frecuencia", col = c("lightblue", "orange"))

pie(Tabla_Condicion$Freq, labels = paste(Tabla_Condicion$Condicion_Estatal, "\n", Tabla_Condicion$Porcentaje, "%"),
    main = "Gráfica No. 2: Distribución de frecuencia de la condicion estatal
        de los pozos de hidrocarburos", col = c("lightblue", "orange"))

Filtrar solo los datos con Condición Estatal (no NA)

datos_filtrados <- datos[!is.na(datos$`State Lease`), ]

Tabla de frecuencias por cada valor único de Condición Estatal

TDF_Condicion <- table(datos_filtrados$`State Lease`)
Tabla_Condicion_Especifica <- as.data.frame(TDF_Condicion)
Tabla_Condicion_Especifica$Porcentaje <- round((Tabla_Condicion_Especifica$Freq / sum(TDF_Condicion)) * 100, 2)
Tabla_Condicion_Especifica$hi <- round((Tabla_Condicion_Especifica$Freq / sum(TDF_Condicion)), 4)

GRAFICOS PARA LA SEGUNDA VARIABLE Diagrama de barras LOCAL - Frecuencia Absoluta

barplot(TDF_Condicion, main = "Gráfica No. 3: Distribución de frecuencia absoluta de la condicion estatal
        de los pozos de hidrocarburos",
        xlab = "Condición Estatal", ylab = "Frecuencia Absoluta", col = "steelblue", las=2, cex.names=0.7)

# Diagrama de barras GLOBAL - Frecuencia Absoluta

barplot(TDF_Condicion, main = "Gráfica No. 4: Distribución de frecuencia absoluta de la condicion estatal
        de los pozos de hidrocarburos",
        xlab = "Condición Estatal", ylab = "Frecuencia Absoluta", col = "steelblue", las=2, cex.names=0.7,
        ylim = c(0, max(TDF_Condicion) + 100))

# Diagrama de barras LOCAL - Frecuencia Relativa (%)

hi <- TDF_Condicion / sum(TDF_Condicion) * 100
barplot(hi, main = "Gráfica No. 5: Distribución de frecuencia relativa de la condicion estatal
        de los pozos de hidrocarburos",
        xlab = "Condición Estatal", ylab = "Porcentaje (%)", col = "darkgreen", las=2, cex.names=0.7)

# Diagrama de barras GLOBAL - Frecuencia Relativa (%)

barplot(hi, main = "Gráfica No. 6: Distribución de frecuencia relativa de la condicion estatal
        de los pozos de hidrocarburos",
        xlab = "Condición Estatal", ylab = "Porcentaje (%)", col = "darkgreen", las=2, cex.names=0.7,
        ylim = c(0, 100))

# Diagrama circular

etiquetas <- paste(Tabla_Condicion_Especifica$Var1, "\n", Tabla_Condicion_Especifica$Porcentaje, "%")
colores <- rainbow(length(TDF_Condicion))

pie(TDF_Condicion, labels=etiquetas, main = "Gráfico 7: Distribución por Condición Estatal", col=colores)
legend("topright", legend=Tabla_Condicion_Especifica$Var1, fill=colores, title="Condición Estatal")