library(PASWR)
## Loading required package: lattice
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)
#Carga los datos (Conjunto de datos)
setwd("/cloud/project")
read_csv("point_oil-gas-other-regulated-wells-beginning-1860.csv")
## Warning: One or more parsing issues, call `problems()` on your data frame for details,
## e.g.:
##   dat <- vroom(...)
##   problems(dat)
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (38): Well Name, Company Name, Well Type, Map Symbol, Well Status, Stat...
## dbl  (12): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl   (1): Financial Security
## dttm  (1): Date Last Modified
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## # A tibble: 42,045 × 52
##    `API Well Number` `County Code` `API Hole Number` Sidetrack Completion
##                <dbl>         <dbl>             <dbl>     <dbl>      <dbl>
##  1           3.10e13             1              1072         0          0
##  2           3.10e13             1              1073         0          0
##  3           3.10e13             1             21007         0          0
##  4           3.10e13             1             21008         0          0
##  5           3.10e13             1             21009         0          0
##  6           3.10e13             1             21010         0          0
##  7           3.10e13             1             21011         0          0
##  8           3.10e13             1             21014         0          0
##  9           3.10e13             1             21015         0          0
## 10           3.10e13             1             21016         0          0
## # ℹ 42,035 more rows
## # ℹ 47 more variables: `Well Name` <chr>, `Company Name` <chr>,
## #   `Operator Number` <dbl>, `Well Type` <chr>, `Map Symbol` <chr>,
## #   `Well Status` <chr>, `Status Date` <chr>, `Permit Application Date` <chr>,
## #   `Permit Issued Date` <chr>, `Date Spudded` <chr>,
## #   `Date of Total Depth` <chr>, `Date Well Completed` <chr>,
## #   `Date Well Plugged` <chr>, `Date Well Confidentiality Ends` <chr>, …
datos2<- read.csv("point_oil-gas-other-regulated-wells-beginning-1860.csv", header = T, sep = ",", dec = ".",na.strings = "-")

Latitud_superficie EXTRAER LA VARIABLE CONTINUA

Latitud_superficie<-datos2$Surface.Latitude
Latitud_superficie<-na.omit(Latitud_superficie)

PROCEDIMIENTO MANUAL MÍNIMO Y MÁXIMO

min(Latitud_superficie)
## [1] 40.63866
max(Latitud_superficie)
## [1] 44.71934

RANGO (diferencia maximo y minimo)

R<-max(Latitud_superficie)-min(Latitud_superficie)
R
## [1] 4.080675

CALCULAR EL NUMERO DE INTERVALOS

k<-sqrt(length(Latitud_superficie))
k
## [1] 202.0619

REGLA DE STURGES

k<-1+(3.3*log10(length(Latitud_superficie)))
k<-floor(k)
k
## [1] 16

AMPLITUD

A<-R/k
A
## [1] 0.2550422
LimiteInf<-seq(from=min(Latitud_superficie),to=max(Latitud_superficie)-A,by=A)
LimiteInf
##  [1] 40.63866 40.89370 41.14875 41.40379 41.65883 41.91387 42.16892 42.42396
##  [9] 42.67900 42.93404 43.18908 43.44413 43.69917 43.95421 44.20925 44.46429
LimiteSup<-seq(from=min(Latitud_superficie)+A,to=max(Latitud_superficie),by=A)
LimiteSup
##  [1] 40.89370 41.14875 41.40379 41.65883 41.91387 42.16892 42.42396 42.67900
##  [9] 42.93404 43.18908 43.44413 43.69917 43.95421 44.20925 44.46429 44.71934

MC

MC<-(LimiteInf+LimiteSup)/2
MC
##  [1] 40.76618 41.02123 41.27627 41.53131 41.78635 42.04139 42.29644 42.55148
##  [9] 42.80652 43.06156 43.31660 43.57165 43.82669 44.08173 44.33677 44.59182
n <- numeric(k)  # inicializa un vector de ceros
for (i in 1:k) {
  if (i == k) {
    n[i] <- sum(Latitud_superficie >= LimiteInf[i] & Latitud_superficie <= LimiteSup[i])
  } else {
    n[i] <- sum(Latitud_superficie >= LimiteInf[i] & Latitud_superficie < LimiteSup[i])
  }
}

hi

hi<-(n/length(Latitud_superficie))*100
sum(hi)
## [1] 100
Ni_asc<-cumsum(n)
Ni_asc
##  [1]   246   309   312   341   353 25673 30600 34839 39340 40506 40631 40808
## [13] 40824 40827 40827 40829
Hi_asc<- cumsum(hi)
Hi_asc
##  [1]   0.6025129   0.7568150   0.7641627   0.8351907   0.8645815  62.8793260
##  [7]  74.9467290  85.3290553  96.3530824  99.2088956  99.5150506  99.9485660
## [13]  99.9877538  99.9951015  99.9951015 100.0000000
Ni_dsc<- rev(cumsum(rev(n)))  
Ni_dsc  
##  [1] 40829 40583 40520 40517 40488 40476 15156 10229  5990  1489   323   198
## [13]    21     5     2     2
Hi_dsc<- rev(cumsum(rev(hi)))  
Hi_dsc 
##  [1] 1.000000e+02 9.939749e+01 9.924318e+01 9.923584e+01 9.916481e+01
##  [6] 9.913542e+01 3.712067e+01 2.505327e+01 1.467094e+01 3.646918e+00
## [11] 7.911044e-01 4.849494e-01 5.143403e-02 1.224620e-02 4.898479e-03
## [16] 4.898479e-03
Tabla_Lat <- data.frame(LimiteInf,LimiteSup,MC,n,round(hi,2),Ni_asc,round(Hi_asc,2),
                              Ni_dsc,round(Hi_dsc,2)  )
colnames(Tabla_Lat)<- c("LimiteInf","LimiteSup","MC","ni","hi (%)","Ni_asc","Hi_asc(%)","Ni_dsc","Hi_dsc(%)")
Tabla_Lat 
##    LimiteInf LimiteSup       MC    ni hi (%) Ni_asc Hi_asc(%) Ni_dsc Hi_dsc(%)
## 1   40.63866  40.89370 40.76618   246   0.60    246      0.60  40829    100.00
## 2   40.89370  41.14875 41.02123    63   0.15    309      0.76  40583     99.40
## 3   41.14875  41.40379 41.27627     3   0.01    312      0.76  40520     99.24
## 4   41.40379  41.65883 41.53131    29   0.07    341      0.84  40517     99.24
## 5   41.65883  41.91387 41.78635    12   0.03    353      0.86  40488     99.16
## 6   41.91387  42.16892 42.04139 25320  62.01  25673     62.88  40476     99.14
## 7   42.16892  42.42396 42.29644  4927  12.07  30600     74.95  15156     37.12
## 8   42.42396  42.67900 42.55148  4239  10.38  34839     85.33  10229     25.05
## 9   42.67900  42.93404 42.80652  4501  11.02  39340     96.35   5990     14.67
## 10  42.93404  43.18908 43.06156  1166   2.86  40506     99.21   1489      3.65
## 11  43.18908  43.44413 43.31660   125   0.31  40631     99.52    323      0.79
## 12  43.44413  43.69917 43.57165   177   0.43  40808     99.95    198      0.48
## 13  43.69917  43.95421 43.82669    16   0.04  40824     99.99     21      0.05
## 14  43.95421  44.20925 44.08173     3   0.01  40827    100.00      5      0.01
## 15  44.20925  44.46429 44.33677     0   0.00  40827    100.00      2      0.00
## 16  44.46429  44.71934 44.59182     2   0.00  40829    100.00      2      0.00
library(knitr)
kable(Tabla_Lat, format = "markdown", caption = "Tabla de Frecuencias de Latitud de Superficie")
Tabla de Frecuencias de Latitud de Superficie
LimiteInf LimiteSup MC ni hi (%) Ni_asc Hi_asc(%) Ni_dsc Hi_dsc(%)
40.63866 40.89370 40.76618 246 0.60 246 0.60 40829 100.00
40.89370 41.14875 41.02123 63 0.15 309 0.76 40583 99.40
41.14875 41.40379 41.27627 3 0.01 312 0.76 40520 99.24
41.40379 41.65883 41.53131 29 0.07 341 0.84 40517 99.24
41.65883 41.91387 41.78635 12 0.03 353 0.86 40488 99.16
41.91387 42.16892 42.04139 25320 62.01 25673 62.88 40476 99.14
42.16892 42.42396 42.29644 4927 12.07 30600 74.95 15156 37.12
42.42396 42.67900 42.55148 4239 10.38 34839 85.33 10229 25.05
42.67900 42.93404 42.80652 4501 11.02 39340 96.35 5990 14.67
42.93404 43.18908 43.06156 1166 2.86 40506 99.21 1489 3.65
43.18908 43.44413 43.31661 125 0.31 40631 99.52 323 0.79
43.44413 43.69917 43.57165 177 0.43 40808 99.95 198 0.48
43.69917 43.95421 43.82669 16 0.04 40824 99.99 21 0.05
43.95421 44.20925 44.08173 3 0.01 40827 100.00 5 0.01
44.20925 44.46429 44.33677 0 0.00 40827 100.00 2 0.00
44.46429 44.71934 44.59182 2 0.00 40829 100.00 2 0.00

Gráfico No.7.1 DIAGRAMA DE BARRAS LOCAL

histoSturges <- hist(
  Latitud_superficie,
  main = "Gráfica No.7.1: Distribución de la frecuencia de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
  xlab = "Latitud (grados)",
  ylab = "Cantidad",
  col = "salmon",
  breaks = seq(min(Latitud_superficie), max(Latitud_superficie), by = A)
)

Gráfico No.7.2 DIAGRAMA DE BARRAS GLOBAL

histoSturges <- hist(
  Latitud_superficie,
  main = "Gráfica No.7.2 : Distribución de la frecuencia de la latitud superficial 
  de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
  xlab = "Latitud (grados)",
  ylab = "Cantidad",
  col = "salmon",
  breaks = seq(min(Latitud_superficie), max(Latitud_superficie), by = A),
  ylim = c(0, length(Latitud_superficie))
)

DETERMINACIÓN DE INTERVALOS CON R

histograma_Latitud <- hist(
  Latitud_superficie,
  main = " Gráfica No.7.3 : Distribución de la frecuencia 
  de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
  xlab = "Latitud (grados)",
  ylab = "Cantidad",
  col = "salmon",
  las = 2
)

Crear los limites

Limite <- histograma_Latitud$breaks
LimiteInf <- Limite[1:(length(Limite)-1)]
LimiteSup <- Limite[2:length(Limite)]

Marca de clase

MC <- histograma_Latitud$mids
MC
##  [1] 40.7 40.9 41.1 41.3 41.5 41.7 41.9 42.1 42.3 42.5 42.7 42.9 43.1 43.3 43.5
## [16] 43.7 43.9 44.1 44.3 44.5 44.7
ni <- histograma_Latitud$counts
sum(ni) 
## [1] 40829
hi <- ni / sum(ni) * 100
sum(hi)
## [1] 100

Frecuencia acumulada ascendente Frecuencia acumulada descendente

Ni_asc <- cumsum(ni)
Hi_asc <- cumsum(hi)
Ni_dsc <- rev(cumsum(rev(ni)))
Hi_dsc <- rev(cumsum(rev(hi)))

Tabla final de frecuencias

Tabla_LatitudFinal <- data.frame(
  LimiteInf,
  LimiteSup,
  MC,
  ni,
  `hi (%)` = round(hi, 2),
  Ni_asc,
  `Hi_asc (%)` = round(Hi_asc, 2),
  Ni_dsc,
  `Hi_dsc (%)` = round(Hi_dsc, 2)
)

Mostrar la tabla con kable

library(knitr)
kable(Tabla_LatitudFinal, format = "markdown", caption = "Tabla de Frecuencias de Latitud Superficial")
Tabla de Frecuencias de Latitud Superficial
LimiteInf LimiteSup MC ni hi…. Ni_asc Hi_asc…. Ni_dsc Hi_dsc….
40.6 40.8 40.7 197 0.48 197 0.48 40829 100.00
40.8 41.0 40.9 89 0.22 286 0.70 40632 99.52
41.0 41.2 41.1 26 0.06 312 0.76 40543 99.30
41.2 41.4 41.3 0 0.00 312 0.76 40517 99.24
41.4 41.6 41.5 29 0.07 341 0.84 40517 99.24
41.6 41.8 41.7 4 0.01 345 0.84 40488 99.16
41.8 42.0 41.9 103 0.25 448 1.10 40484 99.16
42.0 42.2 42.1 26183 64.13 26631 65.23 40381 98.90
42.2 42.4 42.3 3479 8.52 30110 73.75 14198 34.77
42.4 42.6 42.5 3747 9.18 33857 82.92 10719 26.25
42.6 42.8 42.7 2505 6.14 36362 89.06 6972 17.08
42.8 43.0 42.9 3647 8.93 40009 97.99 4467 10.94
43.0 43.2 43.1 501 1.23 40510 99.22 820 2.01
43.2 43.4 43.3 111 0.27 40621 99.49 319 0.78
43.4 43.6 43.5 115 0.28 40736 99.77 208 0.51
43.6 43.8 43.7 79 0.19 40815 99.97 93 0.23
43.8 44.0 43.9 11 0.03 40826 99.99 14 0.03
44.0 44.2 44.1 1 0.00 40827 100.00 3 0.01
44.2 44.4 44.3 0 0.00 40827 100.00 2 0.00
44.4 44.6 44.5 0 0.00 40827 100.00 2 0.00
44.6 44.8 44.7 2 0.00 40829 100.00 2 0.00

Tabla No.7.4 GDF, Diagrama de barras local

barplot(
  Tabla_LatitudFinal$ni,
  space = 0,
  main = "Gráfica No.7.4 : Distribución de la frecuencia de la latitud superficial 
  de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
  axis.lty = 1,
  cex.names = 0.8,
  xlab = "Latitud (grados)",
  ylab = "Cantidad",
  col = "salmon",
  las = 2,
  names.arg = Tabla_LatitudFinal$MC
)

Tabla No.7.5 Diagrama de barras Global

barplot(
  Tabla_LatitudFinal$ni,
  space = 0,
  main = "Gráfica No.7.5: Distribución de la frecuencia de la latitud superficial
  de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
  axis.lty = 1,
  cex.names = 0.8,
  xlab = "Latitud (grados)",
  ylab = "Cantidad",
  col = "salmon",
  las = 2,
  names.arg = Tabla_LatitudFinal$MC,
  ylim = c(0, length(Latitud_superficie))
)

Tabla No.7.6 Diagrama de barras porcentaje local

barplot(Tabla_LatitudFinal$hi...., 
        main = "Gráfica No. 7.6: Distribución de la frecuencia de la latitud superficial
        de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
        space = 0,
        axis.lty = 1,
        cex.names = 0.8,
        xlab = "Latitud (grados)",
        ylab = "Porcentaje (%)",
        col = "salmon",
        las = 2,
        names.arg = Tabla_LatitudFinal$MC)

Tabla No.7.7 Diagrama de barras porcentaje Global

barplot(as.numeric(Tabla_LatitudFinal$hi....), 
        main = "Gráfica No. 7.7: Distribución de la frecuencia de la latitud superficial
        de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
        space = 0,
        axis.lty = 1,
        cex.names = 0.8,
        xlab = "Latitud (grados)",
        ylab = "Porcentaje (%)",
        col = "salmon",
        las = 2,
        names.arg = Tabla_LatitudFinal$MC,
        ylim = c(0, 100))

Gráfico No.7.8 DIAGRAMA DE CAJAS Y BIGOTES

boxplot(Latitud_superficie,
        horizontal = TRUE,
        col = "salmon",
        main = "Gráfica No.7.8: Distribución de la frecuencia 
        de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
        xlab = "Latitud (grados)")

OJIVAS Gráfico No.7.9 OJIVAS COMBINADAS DE LA FRECUENCIA

plot(LimiteInf,Ni_dsc,main = "Grafica No.7.9: Ojivas combinadas de la latitud superficial de cada uno de los pozos de hidrocarburos en el 
        estado de Nueva York",xlab = "Latitud (grados)", ylab="Cantidad", col="black",type = "b")

lines(LimiteSup,Ni_asc,col="blue",type = "b")
legend("right",legend = c("Ojiva descendente", "Ojiva ascendente"),col = c("black", "blue"), pch = 1, lty = 1,cex = 0.7)

OJIVAS Gráfico No.7.10 OJIVAS COMBINADAS DE LA FRECUENCIA PORCENTUAL

plot(LimiteInf, Hi_dsc,
     main = "Gráfica No. 7.10: Ojivas combinadas de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
     xlab = "Latitud (grados)",
     ylab = "Cantidad (%)",
     col = "black",
     type = "b")

lines(LimiteSup, Hi_asc,
      col = "blue",
      type = "b")

legend("right",
       legend = c("Ojiva descendente", "Ojiva ascendente"),
       col = c("black", "blue"),
       pch = 1,
       lty = 1,
       cex = 0.7)

INDICADORES

library(e1071)

ri<-min(Latitud_superficie)
rs<-max(Latitud_superficie)
ri
## [1] 40.63866
rs
## [1] 44.71934
mediana<-median(Latitud_superficie)
mediana
## [1] 42.09076
media_aritmetica<-mean(Latitud_superficie)
media_aritmetica
## [1] 42.24987
Mo<- c("[2,2.2]")
Mo
## [1] "[2,2.2]"
desviación_estandar<-sd(Latitud_superficie)
desviación_estandar
## [1] 0.3399522
coeficiente_variabilidad <- (desviación_estandar/media_aritmetica)*100 
coeficiente_variabilidad
## [1] 0.804623
As<-skewness(Latitud_superficie)
As
## [1] 0.6468744
curtosis<-kurtosis(Latitud_superficie)
curtosis
## [1] 3.14518

Valores atípicos

outliers<-boxplot.stats(Latitud_superficie)$out 

Contar los valores atípicos

num_outliers <- length(outliers) 
num_outliers
## [1] 1129
minimooutliers<-min(outliers)
minimooutliers
## [1] 40.63866
maximooutliers<-max(outliers)
maximooutliers
## [1] 44.71934
Variable<-c("Latitud_superficie")



Tabla_indicadores<-data.frame(Variable,ri,rs,round(media_aritmetica,2),mediana,Mo,round(desviación_estandar,2), 
                              round(coeficiente_variabilidad,2), round(As,2),round(curtosis,2))
colnames(Tabla_indicadores)<-c("Variable","minimo","máximo","x","Me","Mo","S","Cv (%)","As","K")
library(knitr)
kable(Tabla_indicadores, format = "markdown", caption = "Tabla No.7 .11 : Indicadores estadíticos de la variable Latitud de superficie del pozo ")
Tabla No.7 .11 : Indicadores estadíticos de la variable Latitud de superficie del pozo
Variable minimo máximo x Me Mo S Cv (%) As K
Latitud_superficie 40.63866 44.71934 42.25 42.09076 [2,2.2] 0.34 0.8 0.65 3.15

TABLA DE LOS OUTLIERS

Tabla_outliers<-data.frame(num_outliers,minimooutliers,maximooutliers)
colnames(Tabla_outliers)<-c("Outliers","Minimo","Máximo")
library(knitr)
kable(Tabla_outliers, format = "markdown", caption = "Tabla No.7.12: Outliers de la variable latitud de superficie del pozo ")
Tabla No.7.12: Outliers de la variable latitud de superficie del pozo 
Outliers Minimo Máximo
1129 40.63866 44.71934