Carga de libreria
library(PASWR)
## Loading required package: lattice
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
Carga de datos
setwd("/cloud/project")
datos <- read_csv("point_oil-gas-other-regulated-wells-beginning-1860.csv")
## Warning: One or more parsing issues, call `problems()` on your data frame for details,
## e.g.:
## dat <- vroom(...)
## problems(dat)
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (38): Well Name, Company Name, Well Type, Map Symbol, Well Status, Stat...
## dbl (12): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl (1): Financial Security
## dttm (1): Date Last Modified
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Análisis “Con” vs “Sin Condición Estatal
Condicion_Estatal <- ifelse(is.na(datos$`State Lease`), "Sin Condicion Estatal", "Con Condicion Estatal")
# Crear Tabla de frecuencias
Tabla_Condicion <- table(Condicion_Estatal)
Tabla_Condicion <- as.data.frame(Tabla_Condicion)
Tabla_Condicion$Porcentaje <- round((Tabla_Condicion$Freq / sum(Tabla_Condicion$Freq)) * 100, 2)
Tabla_Condicion$hi <- round((Tabla_Condicion$Freq / sum(Tabla_Condicion$Freq)), 4)
print(Tabla_Condicion)
## Condicion_Estatal Freq Porcentaje hi
## 1 Con Condicion Estatal 505 1.2 0.012
## 2 Sin Condicion Estatal 41540 98.8 0.988
Gráficos
barplot(Tabla_Condicion$Freq, names.arg = Tabla_Condicion$Condicion_Estatal,
main = "Gráfica No. 1: Distribución de frecuencia de la condicion estatal
de los pozos de hidrocarburos",
ylab = "Frecuencia", col = c("lightblue", "orange"))
pie(Tabla_Condicion$Freq, labels = paste(Tabla_Condicion$Condicion_Estatal, "\n", Tabla_Condicion$Porcentaje, "%"),
main = "Gráfica No. 2: Distribución de frecuencia de la condicion estatal
de los pozos de hidrocarburos", col = c("lightblue", "orange"))
Filtrar solo los datos con Condición Estatal (no NA)
datos_filtrados <- datos[!is.na(datos$`State Lease`), ]
Tabla de frecuencias por cada valor único de Condición Estatal
TDF_Condicion <- table(datos_filtrados$`State Lease`)
Tabla_Condicion_Especifica <- as.data.frame(TDF_Condicion)
Tabla_Condicion_Especifica$Porcentaje <- round((Tabla_Condicion_Especifica$Freq / sum(TDF_Condicion)) * 100, 2)
Tabla_Condicion_Especifica$hi <- round((Tabla_Condicion_Especifica$Freq / sum(TDF_Condicion)), 4)
GRAFICOS PARA LA SEGUNDA VARIABLE Diagrama de barras LOCAL - Frecuencia Absoluta
barplot(TDF_Condicion, main = "Gráfica No. 3: Distribución de frecuencia absoluta de la condicion estatal
de los pozos de hidrocarburos",
xlab = "Condición Estatal", ylab = "Frecuencia Absoluta", col = "steelblue", las=2, cex.names=0.7)
# Diagrama de barras GLOBAL - Frecuencia Absoluta
barplot(TDF_Condicion, main = "Gráfica No. 4: Distribución de frecuencia absoluta de la condicion estatal
de los pozos de hidrocarburos",
xlab = "Condición Estatal", ylab = "Frecuencia Absoluta", col = "steelblue", las=2, cex.names=0.7,
ylim = c(0, max(TDF_Condicion) + 100))
# Diagrama de barras LOCAL - Frecuencia Relativa (%)
hi <- TDF_Condicion / sum(TDF_Condicion) * 100
barplot(hi, main = "Gráfica No. 5: Distribución de frecuencia relativa de la condicion estatal
de los pozos de hidrocarburos",
xlab = "Condición Estatal", ylab = "Porcentaje (%)", col = "darkgreen", las=2, cex.names=0.7)
# Diagrama de barras GLOBAL - Frecuencia Relativa (%)
barplot(hi, main = "Gráfica No. 6: Distribución de frecuencia relativa de la condicion estatal
de los pozos de hidrocarburos",
xlab = "Condición Estatal", ylab = "Porcentaje (%)", col = "darkgreen", las=2, cex.names=0.7,
ylim = c(0, 100))
# Diagrama circular
etiquetas <- paste(Tabla_Condicion_Especifica$Var1, "\n", Tabla_Condicion_Especifica$Porcentaje, "%")
colores <- rainbow(length(TDF_Condicion))
pie(TDF_Condicion, labels=etiquetas, main = "Gráfico 7: Distribución por Condición Estatal", col=colores)
legend("topright", legend=Tabla_Condicion_Especifica$Var1, fill=colores, title="Condición Estatal")