Pozos por Compañia

Variable Cualitativa Nominal

Cargamos las libreria

library(PASWR)
## Loading required package: lattice
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)

Carga los datos (Conjunto de datos)

setwd("/cloud/project")
read_csv("P_oil-gas-other-regulated-wells-beginning-1860.csv")
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (19): Well Name, Company Name, Well Type, Map Symbol, Well Status, Conf...
## dbl  (22): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl   (1): Financial Security
## dttm (10): Status Date, Permit Application Date, Permit Issued Date, Date Sp...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## # A tibble: 42,045 × 52
##    `API Well Number` `County Code` `API Hole Number` Sidetrack Completion
##                <dbl>         <dbl>             <dbl>     <dbl>      <dbl>
##  1           3.10e13             1              1072         0          0
##  2           3.10e13             1              1073         0          0
##  3           3.10e13             1             21007         0          0
##  4           3.10e13             1             21008         0          0
##  5           3.10e13             1             21009         0          0
##  6           3.10e13             1             21010         0          0
##  7           3.10e13             1             21011         0          0
##  8           3.10e13             1             21014         0          0
##  9           3.10e13             1             21015         0          0
## 10           3.10e13             1             21016         0          0
## # ℹ 42,035 more rows
## # ℹ 47 more variables: `Well Name` <chr>, `Company Name` <chr>,
## #   `Operator Number` <dbl>, `Well Type` <chr>, `Map Symbol` <chr>,
## #   `Well Status` <chr>, `Status Date` <dttm>,
## #   `Permit Application Date` <dttm>, `Permit Issued Date` <dttm>,
## #   `Date Spudded` <dttm>, `Date of Total Depth` <dttm>,
## #   `Date Well Completed` <dttm>, `Date Well Plugged` <dttm>, …
datos2<- read.csv("point_oil-gas-other-regulated-wells-beginning-1860.csv", header = T, sep = ",", dec = ".",na.strings = "-")

ESTADÍSTICA DESCRIPTIVA

Tema: Tablas y gráficas de variables cualitativas nominales

#1) POZOS POR COMPAÑÍA

# EXTRAER VARIABLE NOMINAL
Compañia<-datos2$Company.Name

# EDA VARAIBLE NOMINAL
TDF_Compañia<-table(Compañia)

AGRUPACIÓN

#Debido a la numerosa cantidad de compañias, la frecuencia de cada una distorsiona el diagrama circular 
#y lo hacen inentendible, por lo que se ha agrupado en cantidad de pozos por compañia.

Tabla_Compañia<-as.data.frame(TDF_Compañia)

# AGRUPACIÓN
for (i in 1:2237) {
  if(Tabla_Compañia$Freq[i] < 100)
    Tabla_Compañia$Grupo[i]<-as.character("Decenas")
    else if (Tabla_Compañia$Freq[i] >= 100 && Tabla_Compañia$Freq[i]<1000)
      Tabla_Compañia$Grupo[i]<- as.character("Centenas")
      else
        Tabla_Compañia$Grupo[i]<-as.character("Miles")
        
}

TABLA DE FRECUENCIAS

Grupo<-table(Tabla_Compañia$Grupo)
Grupo
## 
## Centenas  Decenas    Miles 
##       61     2168        8
TDF_PozoComp<-as.data.frame(Grupo)
ni_grupo<-TDF_PozoComp$Freq
sum(ni_grupo)
## [1] 2237
hi_grupo<-ni_grupo/sum(ni_grupo)
sum(hi_grupo)
## [1] 1
hi_grupo
## [1] 0.027268663 0.969155118 0.003576218
hi_grupo<-hi_grupo*100
sum(hi_grupo)
## [1] 100
Tabla_pozoComp<-data.frame(TDF_PozoComp,round(hi_grupo,2))
Tabla_pozoComp
##       Var1 Freq round.hi_grupo..2.
## 1 Centenas   61               2.73
## 2  Decenas 2168              96.92
## 3    Miles    8               0.36
colnames(Tabla_pozoComp)<- c("Pozos por compañia","ni","hi (%)")
library(knitr)

kable(Tabla_pozoComp, format = "markdown", caption = "Tabla 1.1:Tabla de Frecuencias de pozos por compañia")
Tabla 1.1:Tabla de Frecuencias de pozos por compañia
Pozos por compañia ni hi (%)
Centenas 61 2.73
Decenas 2168 96.92
Miles 8 0.36

GRÁFICAS

# Gráfica No. 1.1
# DIAGRAMA DE BARRAS LOCAL
barplot(Grupo,main="Gráfica No. 1.1:Distribución de cantidad de pozos por compañía de \ncada uno de los pozos de hidrocarburos en el estado de Nueva York",
        col="salmon",xlab = "Compañía",ylab = "Cantidad")

# Gráfica No. 1.2
# DIAGRAMA DE BARRAS GLOBAL
barplot(Grupo,main= "Gráfica No. 1.2:Distribución de cantidad de pozos por compañía de \ncada uno de los pozos de hidrocarburos en el estado de Nueva York",
        xlab= "Compañía", ylab= "Cantidad", col="salmon", las=1, ylim = c(0,i))

# Gráfica No. 1.3
# DIAGRAMA DE BARRAS POR PORCENTAJE LOCAL
barplot(round(hi_grupo,2),main="Gráfica No. 1.3:Distribución de porcentaje de pozos por compañía de \ncada uno de los pozos de hidrocarburos en el estado de Nueva York",col="salmon",
        xlab = "Compañía",ylab = "Porcentaje(%)")

# Gráfica No. 1.4
# DIAGRAMA DE BARRAS POR PORCENTAJE GLOBAL
barplot(round(hi_grupo,2),main="Gráfica No. 1.4:Distribución de porcentaje de pozos por compañía de \ncada uno de los pozos de hidrocarburos en el estado de Nueva York",col="salmon",
        xlab = "Compañía",ylab = "Porcentaje(%)", ylim = c(0,100))

# Gráfica No. 1.5
# DIAGRAMA CIRCULAR (frecuencia relativa en porcentaje)
etiqueta<- paste(round(hi_grupo,2), "%", sep=" ")
pie(round(hi_grupo,2),labels=etiqueta, clockwise = TRUE,main="Gráfica No. 1.5:Distribución de porcentaje de pozos por compañía de \ncada uno de los pozos de hidrocarburos en el estado de Nueva York",col=rainbow(3))
legend("bottomright",c("Centenas","Decenas","Miles"),cex=0.75, pt.cex=2, fill=rainbow(3),title="Leyenda ")

CONCLUSIONES: La variable de pozos por compañía de cada uno de los pozos en el estado de Nueva York es de tipo nominal donde en valor más frecuente es “decenas” con el 96.92%.