library(PASWR)
## Loading required package: lattice
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
#Carga los datos (Conjunto de datos)
setwd("/cloud/project")
read_csv("point_oil-gas-other-regulated-wells-beginning-1860.csv")
## Warning: One or more parsing issues, call `problems()` on your data frame for details,
## e.g.:
## dat <- vroom(...)
## problems(dat)
## Rows: 42045 Columns: 52
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (38): Well Name, Company Name, Well Type, Map Symbol, Well Status, Stat...
## dbl (12): API Well Number, County Code, API Hole Number, Sidetrack, Complet...
## lgl (1): Financial Security
## dttm (1): Date Last Modified
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## # A tibble: 42,045 × 52
## `API Well Number` `County Code` `API Hole Number` Sidetrack Completion
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3.10e13 1 1072 0 0
## 2 3.10e13 1 1073 0 0
## 3 3.10e13 1 21007 0 0
## 4 3.10e13 1 21008 0 0
## 5 3.10e13 1 21009 0 0
## 6 3.10e13 1 21010 0 0
## 7 3.10e13 1 21011 0 0
## 8 3.10e13 1 21014 0 0
## 9 3.10e13 1 21015 0 0
## 10 3.10e13 1 21016 0 0
## # ℹ 42,035 more rows
## # ℹ 47 more variables: `Well Name` <chr>, `Company Name` <chr>,
## # `Operator Number` <dbl>, `Well Type` <chr>, `Map Symbol` <chr>,
## # `Well Status` <chr>, `Status Date` <chr>, `Permit Application Date` <chr>,
## # `Permit Issued Date` <chr>, `Date Spudded` <chr>,
## # `Date of Total Depth` <chr>, `Date Well Completed` <chr>,
## # `Date Well Plugged` <chr>, `Date Well Confidentiality Ends` <chr>, …
datos2<- read.csv("point_oil-gas-other-regulated-wells-beginning-1860.csv", header = T, sep = ",", dec = ".",na.strings = "-")
Latitud_superficie EXTRAER LA VARIABLE CONTINUA
Latitud_superficie<-datos2$Surface.Latitude
Latitud_superficie<-na.omit(Latitud_superficie)
PROCEDIMIENTO MANUAL MÍNIMO Y MÁXIMO
min(Latitud_superficie)
## [1] 40.63866
max(Latitud_superficie)
## [1] 44.71934
RANGO (diferencia maximo y minimo)
R<-max(Latitud_superficie)-min(Latitud_superficie)
R
## [1] 4.080675
CALCULAR EL NUMERO DE INTERVALOS
k<-sqrt(length(Latitud_superficie))
k
## [1] 202.0619
REGLA DE STURGES
k<-1+(3.3*log10(length(Latitud_superficie)))
k<-floor(k)
k
## [1] 16
AMPLITUD
A<-R/k
A
## [1] 0.2550422
LimiteInf<-seq(from=min(Latitud_superficie),to=max(Latitud_superficie)-A,by=A)
LimiteInf
## [1] 40.63866 40.89370 41.14875 41.40379 41.65883 41.91387 42.16892 42.42396
## [9] 42.67900 42.93404 43.18908 43.44413 43.69917 43.95421 44.20925 44.46429
LimiteSup<-seq(from=min(Latitud_superficie)+A,to=max(Latitud_superficie),by=A)
LimiteSup
## [1] 40.89370 41.14875 41.40379 41.65883 41.91387 42.16892 42.42396 42.67900
## [9] 42.93404 43.18908 43.44413 43.69917 43.95421 44.20925 44.46429 44.71934
MC
MC<-(LimiteInf+LimiteSup)/2
MC
## [1] 40.76618 41.02123 41.27627 41.53131 41.78635 42.04139 42.29644 42.55148
## [9] 42.80652 43.06156 43.31660 43.57165 43.82669 44.08173 44.33677 44.59182
n <- numeric(k) # inicializa un vector de ceros
for (i in 1:k) {
if (i == k) {
n[i] <- sum(Latitud_superficie >= LimiteInf[i] & Latitud_superficie <= LimiteSup[i])
} else {
n[i] <- sum(Latitud_superficie >= LimiteInf[i] & Latitud_superficie < LimiteSup[i])
}
}
hi
hi<-(n/length(Latitud_superficie))*100
sum(hi)
## [1] 100
Ni_asc<-cumsum(n)
Ni_asc
## [1] 246 309 312 341 353 25673 30600 34839 39340 40506 40631 40808
## [13] 40824 40827 40827 40829
Hi_asc<- cumsum(hi)
Hi_asc
## [1] 0.6025129 0.7568150 0.7641627 0.8351907 0.8645815 62.8793260
## [7] 74.9467290 85.3290553 96.3530824 99.2088956 99.5150506 99.9485660
## [13] 99.9877538 99.9951015 99.9951015 100.0000000
Ni_dsc<- rev(cumsum(rev(n)))
Ni_dsc
## [1] 40829 40583 40520 40517 40488 40476 15156 10229 5990 1489 323 198
## [13] 21 5 2 2
Hi_dsc<- rev(cumsum(rev(hi)))
Hi_dsc
## [1] 1.000000e+02 9.939749e+01 9.924318e+01 9.923584e+01 9.916481e+01
## [6] 9.913542e+01 3.712067e+01 2.505327e+01 1.467094e+01 3.646918e+00
## [11] 7.911044e-01 4.849494e-01 5.143403e-02 1.224620e-02 4.898479e-03
## [16] 4.898479e-03
Tabla_Lat <- data.frame(LimiteInf,LimiteSup,MC,n,round(hi,2),Ni_asc,round(Hi_asc,2),
Ni_dsc,round(Hi_dsc,2) )
colnames(Tabla_Lat)<- c("LimiteInf","LimiteSup","MC","ni","hi (%)","Ni_asc","Hi_asc(%)","Ni_dsc","Hi_dsc(%)")
Tabla_Lat
## LimiteInf LimiteSup MC ni hi (%) Ni_asc Hi_asc(%) Ni_dsc Hi_dsc(%)
## 1 40.63866 40.89370 40.76618 246 0.60 246 0.60 40829 100.00
## 2 40.89370 41.14875 41.02123 63 0.15 309 0.76 40583 99.40
## 3 41.14875 41.40379 41.27627 3 0.01 312 0.76 40520 99.24
## 4 41.40379 41.65883 41.53131 29 0.07 341 0.84 40517 99.24
## 5 41.65883 41.91387 41.78635 12 0.03 353 0.86 40488 99.16
## 6 41.91387 42.16892 42.04139 25320 62.01 25673 62.88 40476 99.14
## 7 42.16892 42.42396 42.29644 4927 12.07 30600 74.95 15156 37.12
## 8 42.42396 42.67900 42.55148 4239 10.38 34839 85.33 10229 25.05
## 9 42.67900 42.93404 42.80652 4501 11.02 39340 96.35 5990 14.67
## 10 42.93404 43.18908 43.06156 1166 2.86 40506 99.21 1489 3.65
## 11 43.18908 43.44413 43.31660 125 0.31 40631 99.52 323 0.79
## 12 43.44413 43.69917 43.57165 177 0.43 40808 99.95 198 0.48
## 13 43.69917 43.95421 43.82669 16 0.04 40824 99.99 21 0.05
## 14 43.95421 44.20925 44.08173 3 0.01 40827 100.00 5 0.01
## 15 44.20925 44.46429 44.33677 0 0.00 40827 100.00 2 0.00
## 16 44.46429 44.71934 44.59182 2 0.00 40829 100.00 2 0.00
library(knitr)
kable(Tabla_Lat, format = "markdown", caption = "Tabla de Frecuencias de Latitud de Superficie")
| LimiteInf | LimiteSup | MC | ni | hi (%) | Ni_asc | Hi_asc(%) | Ni_dsc | Hi_dsc(%) |
|---|---|---|---|---|---|---|---|---|
| 40.63866 | 40.89370 | 40.76618 | 246 | 0.60 | 246 | 0.60 | 40829 | 100.00 |
| 40.89370 | 41.14875 | 41.02123 | 63 | 0.15 | 309 | 0.76 | 40583 | 99.40 |
| 41.14875 | 41.40379 | 41.27627 | 3 | 0.01 | 312 | 0.76 | 40520 | 99.24 |
| 41.40379 | 41.65883 | 41.53131 | 29 | 0.07 | 341 | 0.84 | 40517 | 99.24 |
| 41.65883 | 41.91387 | 41.78635 | 12 | 0.03 | 353 | 0.86 | 40488 | 99.16 |
| 41.91387 | 42.16892 | 42.04139 | 25320 | 62.01 | 25673 | 62.88 | 40476 | 99.14 |
| 42.16892 | 42.42396 | 42.29644 | 4927 | 12.07 | 30600 | 74.95 | 15156 | 37.12 |
| 42.42396 | 42.67900 | 42.55148 | 4239 | 10.38 | 34839 | 85.33 | 10229 | 25.05 |
| 42.67900 | 42.93404 | 42.80652 | 4501 | 11.02 | 39340 | 96.35 | 5990 | 14.67 |
| 42.93404 | 43.18908 | 43.06156 | 1166 | 2.86 | 40506 | 99.21 | 1489 | 3.65 |
| 43.18908 | 43.44413 | 43.31661 | 125 | 0.31 | 40631 | 99.52 | 323 | 0.79 |
| 43.44413 | 43.69917 | 43.57165 | 177 | 0.43 | 40808 | 99.95 | 198 | 0.48 |
| 43.69917 | 43.95421 | 43.82669 | 16 | 0.04 | 40824 | 99.99 | 21 | 0.05 |
| 43.95421 | 44.20925 | 44.08173 | 3 | 0.01 | 40827 | 100.00 | 5 | 0.01 |
| 44.20925 | 44.46429 | 44.33677 | 0 | 0.00 | 40827 | 100.00 | 2 | 0.00 |
| 44.46429 | 44.71934 | 44.59182 | 2 | 0.00 | 40829 | 100.00 | 2 | 0.00 |
Gráfico No.7.1 DIAGRAMA DE BARRAS LOCAL
histoSturges <- hist(
Latitud_superficie,
main = "Gráfica No.7.1: Distribución de la frecuencia de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
xlab = "Latitud (grados)",
ylab = "Cantidad",
col = "salmon",
breaks = seq(min(Latitud_superficie), max(Latitud_superficie), by = A)
)
Gráfico No.7.2 DIAGRAMA DE BARRAS GLOBAL
histoSturges <- hist(
Latitud_superficie,
main = "Gráfica No.7.2 : Distribución de la frecuencia de la latitud superficial
de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
xlab = "Latitud (grados)",
ylab = "Cantidad",
col = "salmon",
breaks = seq(min(Latitud_superficie), max(Latitud_superficie), by = A),
ylim = c(0, length(Latitud_superficie))
)
DETERMINACIÓN DE INTERVALOS CON R
histograma_Latitud <- hist(
Latitud_superficie,
main = " Gráfica No.7.3 : Distribución de la frecuencia
de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
xlab = "Latitud (grados)",
ylab = "Cantidad",
col = "salmon",
las = 2
)
Crear los limites
Limite <- histograma_Latitud$breaks
LimiteInf <- Limite[1:(length(Limite)-1)]
LimiteSup <- Limite[2:length(Limite)]
Marca de clase
MC <- histograma_Latitud$mids
MC
## [1] 40.7 40.9 41.1 41.3 41.5 41.7 41.9 42.1 42.3 42.5 42.7 42.9 43.1 43.3 43.5
## [16] 43.7 43.9 44.1 44.3 44.5 44.7
ni <- histograma_Latitud$counts
sum(ni)
## [1] 40829
hi <- ni / sum(ni) * 100
sum(hi)
## [1] 100
Frecuencia acumulada ascendente Frecuencia acumulada descendente
Ni_asc <- cumsum(ni)
Hi_asc <- cumsum(hi)
Ni_dsc <- rev(cumsum(rev(ni)))
Hi_dsc <- rev(cumsum(rev(hi)))
Tabla final de frecuencias
Tabla_LatitudFinal <- data.frame(
LimiteInf,
LimiteSup,
MC,
ni,
`hi (%)` = round(hi, 2),
Ni_asc,
`Hi_asc (%)` = round(Hi_asc, 2),
Ni_dsc,
`Hi_dsc (%)` = round(Hi_dsc, 2)
)
Mostrar la tabla con kable
library(knitr)
kable(Tabla_LatitudFinal, format = "markdown", caption = "Tabla de Frecuencias de Latitud Superficial")
| LimiteInf | LimiteSup | MC | ni | hi…. | Ni_asc | Hi_asc…. | Ni_dsc | Hi_dsc…. |
|---|---|---|---|---|---|---|---|---|
| 40.6 | 40.8 | 40.7 | 197 | 0.48 | 197 | 0.48 | 40829 | 100.00 |
| 40.8 | 41.0 | 40.9 | 89 | 0.22 | 286 | 0.70 | 40632 | 99.52 |
| 41.0 | 41.2 | 41.1 | 26 | 0.06 | 312 | 0.76 | 40543 | 99.30 |
| 41.2 | 41.4 | 41.3 | 0 | 0.00 | 312 | 0.76 | 40517 | 99.24 |
| 41.4 | 41.6 | 41.5 | 29 | 0.07 | 341 | 0.84 | 40517 | 99.24 |
| 41.6 | 41.8 | 41.7 | 4 | 0.01 | 345 | 0.84 | 40488 | 99.16 |
| 41.8 | 42.0 | 41.9 | 103 | 0.25 | 448 | 1.10 | 40484 | 99.16 |
| 42.0 | 42.2 | 42.1 | 26183 | 64.13 | 26631 | 65.23 | 40381 | 98.90 |
| 42.2 | 42.4 | 42.3 | 3479 | 8.52 | 30110 | 73.75 | 14198 | 34.77 |
| 42.4 | 42.6 | 42.5 | 3747 | 9.18 | 33857 | 82.92 | 10719 | 26.25 |
| 42.6 | 42.8 | 42.7 | 2505 | 6.14 | 36362 | 89.06 | 6972 | 17.08 |
| 42.8 | 43.0 | 42.9 | 3647 | 8.93 | 40009 | 97.99 | 4467 | 10.94 |
| 43.0 | 43.2 | 43.1 | 501 | 1.23 | 40510 | 99.22 | 820 | 2.01 |
| 43.2 | 43.4 | 43.3 | 111 | 0.27 | 40621 | 99.49 | 319 | 0.78 |
| 43.4 | 43.6 | 43.5 | 115 | 0.28 | 40736 | 99.77 | 208 | 0.51 |
| 43.6 | 43.8 | 43.7 | 79 | 0.19 | 40815 | 99.97 | 93 | 0.23 |
| 43.8 | 44.0 | 43.9 | 11 | 0.03 | 40826 | 99.99 | 14 | 0.03 |
| 44.0 | 44.2 | 44.1 | 1 | 0.00 | 40827 | 100.00 | 3 | 0.01 |
| 44.2 | 44.4 | 44.3 | 0 | 0.00 | 40827 | 100.00 | 2 | 0.00 |
| 44.4 | 44.6 | 44.5 | 0 | 0.00 | 40827 | 100.00 | 2 | 0.00 |
| 44.6 | 44.8 | 44.7 | 2 | 0.00 | 40829 | 100.00 | 2 | 0.00 |
Tabla No.7.4 GDF, Diagrama de barras local
barplot(
Tabla_LatitudFinal$ni,
space = 0,
main = "Gráfica No.7.4 : Distribución de la frecuencia de la latitud superficial
de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
axis.lty = 1,
cex.names = 0.8,
xlab = "Latitud (grados)",
ylab = "Cantidad",
col = "salmon",
las = 2,
names.arg = Tabla_LatitudFinal$MC
)
Tabla No.7.5 Diagrama de barras Global
barplot(
Tabla_LatitudFinal$ni,
space = 0,
main = "Gráfica No.7.5: Distribución de la frecuencia de la latitud superficial
de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
axis.lty = 1,
cex.names = 0.8,
xlab = "Latitud (grados)",
ylab = "Cantidad",
col = "salmon",
las = 2,
names.arg = Tabla_LatitudFinal$MC,
ylim = c(0, length(Latitud_superficie))
)
Tabla No.7.6 Diagrama de barras porcentaje local
barplot(Tabla_LatitudFinal$hi....,
main = "Gráfica No. 7.6: Distribución de la frecuencia de la latitud superficial
de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
space = 0,
axis.lty = 1,
cex.names = 0.8,
xlab = "Latitud (grados)",
ylab = "Porcentaje (%)",
col = "salmon",
las = 2,
names.arg = Tabla_LatitudFinal$MC)
Tabla No.7.7 Diagrama de barras porcentaje Global
barplot(as.numeric(Tabla_LatitudFinal$hi....),
main = "Gráfica No. 7.7: Distribución de la frecuencia de la latitud superficial
de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
space = 0,
axis.lty = 1,
cex.names = 0.8,
xlab = "Latitud (grados)",
ylab = "Porcentaje (%)",
col = "salmon",
las = 2,
names.arg = Tabla_LatitudFinal$MC,
ylim = c(0, 100))
Gráfico No.7.8 DIAGRAMA DE CAJAS Y BIGOTES
boxplot(Latitud_superficie,
horizontal = TRUE,
col = "salmon",
main = "Gráfica No.7.8: Distribución de la frecuencia
de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
xlab = "Latitud (grados)")
OJIVAS Gráfico No.7.9 OJIVAS COMBINADAS DE LA
FRECUENCIA
plot(LimiteInf,Ni_dsc,main = "Grafica No.7.9: Ojivas combinadas de la latitud superficial de cada uno de los pozos de hidrocarburos en el
estado de Nueva York",xlab = "Latitud (grados)", ylab="Cantidad", col="black",type = "b")
lines(LimiteSup,Ni_asc,col="blue",type = "b")
legend("right",legend = c("Ojiva descendente", "Ojiva ascendente"),col = c("black", "blue"), pch = 1, lty = 1,cex = 0.7)
OJIVAS Gráfico No.7.10 OJIVAS COMBINADAS DE LA FRECUENCIA PORCENTUAL
plot(LimiteInf, Hi_dsc,
main = "Gráfica No. 7.10: Ojivas combinadas de la latitud superficial de cada uno de los pozos de hidrocarburos en el estado de Nueva York",
xlab = "Latitud (grados)",
ylab = "Cantidad (%)",
col = "black",
type = "b")
lines(LimiteSup, Hi_asc,
col = "blue",
type = "b")
legend("right",
legend = c("Ojiva descendente", "Ojiva ascendente"),
col = c("black", "blue"),
pch = 1,
lty = 1,
cex = 0.7)
INDICADORES
library(e1071)
ri<-min(Latitud_superficie)
rs<-max(Latitud_superficie)
ri
## [1] 40.63866
rs
## [1] 44.71934
mediana<-median(Latitud_superficie)
mediana
## [1] 42.09076
media_aritmetica<-mean(Latitud_superficie)
media_aritmetica
## [1] 42.24987
Mo<- c("[2,2.2]")
Mo
## [1] "[2,2.2]"
desviación_estandar<-sd(Latitud_superficie)
desviación_estandar
## [1] 0.3399522
coeficiente_variabilidad <- (desviación_estandar/media_aritmetica)*100
coeficiente_variabilidad
## [1] 0.804623
As<-skewness(Latitud_superficie)
As
## [1] 0.6468744
curtosis<-kurtosis(Latitud_superficie)
curtosis
## [1] 3.14518
Valores atípicos
outliers<-boxplot.stats(Latitud_superficie)$out
Contar los valores atípicos
num_outliers <- length(outliers)
num_outliers
## [1] 1129
minimooutliers<-min(outliers)
minimooutliers
## [1] 40.63866
maximooutliers<-max(outliers)
maximooutliers
## [1] 44.71934
Variable<-c("Latitud_superficie")
Tabla_indicadores<-data.frame(Variable,ri,rs,round(media_aritmetica,2),mediana,Mo,round(desviación_estandar,2),
round(coeficiente_variabilidad,2), round(As,2),round(curtosis,2))
colnames(Tabla_indicadores)<-c("Variable","minimo","máximo","x","Me","Mo","S","Cv (%)","As","K")
library(knitr)
kable(Tabla_indicadores, format = "markdown", caption = "Tabla No.7 .11 : Indicadores estadíticos de la variable Latitud de superficie del pozo ")
| Variable | minimo | máximo | x | Me | Mo | S | Cv (%) | As | K |
|---|---|---|---|---|---|---|---|---|---|
| Latitud_superficie | 40.63866 | 44.71934 | 42.25 | 42.09076 | [2,2.2] | 0.34 | 0.8 | 0.65 | 3.15 |
TABLA DE LOS OUTLIERS
Tabla_outliers<-data.frame(num_outliers,minimooutliers,maximooutliers)
colnames(Tabla_outliers)<-c("Outliers","Minimo","Máximo")
library(knitr)
kable(Tabla_outliers, format = "markdown", caption = "Tabla No.7.12: Outliers de la variable latitud de superficie del pozo ")
| Outliers | Minimo | Máximo |
|---|---|---|
| 1129 | 40.63866 | 44.71934 |