1. Cargar Librerías

library(readr); library(dplyr); library(gt); library(MASS)
cat("Librerías cargadas correctamente.\n")

## Librerías cargadas correctamente.

2. Cargar Datos

ruta_csv <- file.choose()
datos    <- read_csv(ruta_csv, show_col_types = FALSE)
cat("Archivo:", basename(ruta_csv), "| Filas:", nrow(datos), "\n")

## Archivo: oil_and_gas_leases_data (2).csv | Filas: 47757

3. Conteo

x_raw <- datos %>%
  mutate(LON = suppressWarnings(as.numeric(LONGITUDE))) %>%
  filter(!is.na(LON), LON >= -103.0, LON <= -94.0) %>%
  pull(LON)

n_conteo  <- length(x_raw)
k_sturges <- ceiling(1 + 3.322 * log10(n_conteo))

cat("Observaciones válidas:", n_conteo, "\n")

## Observaciones válidas: 47757

cat("Clases (Regla de Sturges):", k_sturges, "\n")

## Clases (Regla de Sturges): 17

cat("Mínimo:", round(min(x_raw), 4), "| Máximo:", round(max(x_raw), 4), "\n")

## Mínimo: -102.0439 | Máximo: -94.6179

4. Tabla de Distribución de Frecuencias

intervalos_cut <- cut(x, breaks=breaks_vec, right=FALSE, include.lowest=TRUE)
freq_abs       <- as.integer(table(intervalos_cut))
hi_dec         <- freq_abs / n
Ni_asc         <- cumsum(freq_abs); Hi_asc  <- cumsum(hi_dec)
Ni_desc        <- n - c(0, head(Ni_asc,-1)); Hi_desc <- 1 - c(0, head(Hi_asc,-1))
etiq           <- paste0("[",round(lim_inf,4)," - ",round(lim_sup,4),")")
etiq[k]        <- paste0("[",round(lim_inf[k],4)," - ",round(lim_sup[k],4),"]")

bind_rows(
  data.frame(Intervalo=etiq, MC=round(mc,4), ni=freq_abs,
             hi_pct=round(hi_dec*100,2), hi_real=round(hi_dec,4),
             Ni_a=Ni_asc, Hi_a=round(Hi_asc,4),
             Ni_d=Ni_desc, Hi_d=round(Hi_desc,4), stringsAsFactors=FALSE),
  data.frame(Intervalo="TOTAL", MC=NA_real_, ni=sum(freq_abs),
             hi_pct=round(sum(hi_dec)*100,2), hi_real=round(sum(hi_dec),4),
             Ni_a=max(Ni_asc), Hi_a=round(max(Hi_asc),4),
             Ni_d=max(Ni_desc), Hi_d=round(max(Hi_desc),4), stringsAsFactors=FALSE)
) %>%
  gt() %>%
  tab_header(title=md("**Tabla N\u00b01: Distribución de Frecuencias**"),
             subtitle=md(paste0("*Longitud, Kansas (n=",format(n,big.mark=","),")*"))) %>%
  cols_label(Intervalo=md("**Intervalo**"), MC=md("**MC**"), ni=md("**ni**"),
             hi_pct=md("**hi%**"), hi_real=md("**hi**"),
             Ni_a=md("**Ni (asc)**"), Hi_a=md("**Hi (asc)**"),
             Ni_d=md("**Ni (desc)**"), Hi_d=md("**Hi (desc)**")) %>%
  tab_style(style=list(cell_fill(color="#2C2C2C"),cell_text(color="white",weight="bold")),
            locations=cells_column_labels()) %>%
  tab_style(style=cell_fill(color="#F5F5F5"), locations=cells_body(rows=seq(1,k+1,by=2))) %>%
  tab_style(style=list(cell_fill(color="#D6D6D6"),cell_text(weight="bold")),
            locations=cells_body(rows=Intervalo=="TOTAL")) %>%
  fmt_missing(columns=everything(), missing_text="-") %>%
  tab_source_note(source_note=md("*Autor: Fernando Almeida*")) %>%
  tab_options(table.width=pct(100), table.font.size=px(13), data_row.padding=px(6))

Intervalo	MC	ni	hi%	hi	Ni (asc)	Hi (asc)	Ni (desc)	Hi (desc)
Tabla N°1: Distribución de Frecuencias
Longitud, Kansas (n=47,757)
[-102.0439 - -101.6071)	-101.8255	2213	4.63	0.0463	2213	0.0463	47757	1.0000
[-101.6071 - -101.1703)	-101.3887	2516	5.27	0.0527	4729	0.0990	45544	0.9537
[-101.1703 - -100.7334)	-100.9519	5205	10.90	0.1090	9934	0.2080	43028	0.9010
[-100.7334 - -100.2966)	-100.5150	2178	4.56	0.0456	12112	0.2536	37823	0.7920
[-100.2966 - -99.8598)	-100.0782	2458	5.15	0.0515	14570	0.3051	35645	0.7464
[-99.8598 - -99.423)	-99.6414	3977	8.33	0.0833	18547	0.3884	33187	0.6949
[-99.423 - -98.9862)	-99.2046	4644	9.72	0.0972	23191	0.4856	29210	0.6116
[-98.9862 - -98.5493)	-98.7678	6007	12.58	0.1258	29198	0.6114	24566	0.5144
[-98.5493 - -98.1125)	-98.3309	3895	8.16	0.0816	33093	0.6929	18559	0.3886
[-98.1125 - -97.6757)	-97.8941	1677	3.51	0.0351	34770	0.7281	14664	0.3071
[-97.6757 - -97.2389)	-97.4573	1021	2.14	0.0214	35791	0.7494	12987	0.2719
[-97.2389 - -96.8021)	-97.0205	1788	3.74	0.0374	37579	0.7869	11966	0.2506
[-96.8021 - -96.3652)	-96.5836	693	1.45	0.0145	38272	0.8014	10178	0.2131
[-96.3652 - -95.9284)	-96.1468	1337	2.80	0.0280	39609	0.8294	9485	0.1986
[-95.9284 - -95.4916)	-95.7100	4236	8.87	0.0887	43845	0.9181	8148	0.1706
[-95.4916 - -95.0548)	-95.2732	3083	6.46	0.0646	46928	0.9826	3912	0.0819
[-95.0548 - -94.6179]	-94.8364	829	1.74	0.0174	47757	1.0000	829	0.0174
TOTAL	-	47757	100.00	1.0000	47757	1.0000	47757	1.0000
Autor: Fernando Almeida

5. Gráfico

5.1 Histograma General

grises        <- gray(seq(0.25, 0.80, length.out=k))
h_obj         <- hist(x, breaks=breaks_vec, plot=FALSE)
h_obj$density <- hi_dec

par(mar=c(5,6,6,2))
plot(h_obj, col=grises, border="black", freq=FALSE,
     main="", xlab="", ylab="", las=1, xaxt="n")
axis(1, at=breaks_vec, labels=round(breaks_vec,3), las=1, cex.axis=0.8)
mtext("Densidad de Probabilidad", side=2, line=4.5, cex=1)
mtext("Longitud (grados)",        side=1, line=3.5, cex=1)
mtext("Histograma General - Longitud, Kansas, EE.UU.",
      side=3, line=3, cex=0.95, font=2)

6. Conjetura

set.seed(42)

# Funcion central: evalua Normal, Log-Normal y Exponencial con offset correcto
evaluar_zona <- function(datos, n_samp = 350, forzar = NULL, candidatos = NULL) {
  if (length(datos) < 1500) return(NULL)
  set.seed(42)
  samp   <- sample(datos, size = n_samp, replace = FALSE)
  offset <- min(datos) - 0.001
  d_pos  <- datos - offset
  s_pos  <- samp  - offset

  resultados <- list()

  # Normal (datos originales, sin desplazamiento)
  tryCatch({
    f  <- fitdistr(datos, "normal")
    ks <- ks.test(samp, "pnorm",
                  mean = f$estimate["mean"], sd = f$estimate["sd"])
    resultados[["normal"]] <- list(
      fit = f, pval = ks$p.value,
      aic = -2*f$loglik + 2*length(f$estimate), offset = 0)
  }, error = function(e){})

  # Log-Normal (datos desplazados: x - min_zona + 0.001)
  tryCatch({
    f  <- fitdistr(d_pos, "lognormal")
    ks <- ks.test(s_pos, "plnorm",
                  meanlog = f$estimate["meanlog"], sdlog = f$estimate["sdlog"])
    resultados[["lognormal"]] <- list(
      fit = f, pval = ks$p.value,
      aic = -2*f$loglik + 2*length(f$estimate), offset = offset)
  }, error = function(e){})

  # Exponencial (datos desplazados: x - min_zona + 0.001)
  tryCatch({
    f  <- fitdistr(d_pos, "exponential")
    ks <- ks.test(s_pos, "pexp", rate = f$estimate["rate"])
    resultados[["exponential"]] <- list(
      fit = f, pval = ks$p.value,
      aic = -2*f$loglik + 2*length(f$estimate), offset = offset)
  }, error = function(e){})

  if (length(resultados) == 0) return(NULL)

  if (!is.null(forzar) && !is.null(resultados[[forzar]])) {
    mejor <- forzar
  } else {
    pool <- resultados
    if (!is.null(candidatos)) {
      pool_filtrado <- resultados[names(resultados) %in% candidatos]
      if (length(pool_filtrado) > 0) pool <- pool_filtrado
    }
    pvs   <- sapply(pool, `[[`, "pval")
    mejor <- names(which.max(pvs))
  }
  c(resultados[[mejor]], list(modelo = mejor))
}

# Busqueda exhaustiva de 2 cortes (3 zonas)
grilla  <- seq(-101.5, -95.5, by = 0.5)
min_obs <- 1500
mejores <- data.frame()

for (c1 in grilla) {
  for (c2 in grilla) {
    if (c2 - c1 < 2.0) next
    z1 <- x[x <  c1]
    z2 <- x[x >= c1 & x < c2]
    z3 <- x[x >= c2]
    if (any(c(length(z1), length(z2), length(z3)) < min_obs)) next

    r1 <- evaluar_zona(z1)
    r2 <- evaluar_zona(z2)
    r3 <- evaluar_zona(z3)
    if (is.null(r1) || is.null(r2) || is.null(r3)) next

    aprobadas <- sum(c(r1$pval, r2$pval, r3$pval) >= 0.05)
    suma_p    <- r1$pval + r2$pval + r3$pval

    mejores <- rbind(mejores, data.frame(
      c1 = c1, c2 = c2,
      n1 = length(z1), n2 = length(z2), n3 = length(z3),
      m1 = r1$modelo, m2 = r2$modelo, m3 = r3$modelo,
      p1 = round(r1$pval, 4), p2 = round(r2$pval, 4), p3 = round(r3$pval, 4),
      aprobadas = aprobadas, suma_p = round(suma_p, 4),
      stringsAsFactors = FALSE
    ))
  }
}

mejores <- mejores[order(-mejores$aprobadas, -mejores$suma_p), ]

sel    <- mejores[1, ]
corte1 <- sel$c1

Los histogramas de la variable LONGITUDE muestran una distribución continua con comportamiento diferenciado según la zona geográfica. La Zona Oeste y la Zona Centro presentan asimetría positiva, por lo que se evalúan los modelos Normal, Log-Normal y Exponencial, seleccionando el de mayor p-valor KS. La Zona Este (a partir de −96.80°) exhibe una forma aproximadamente simétrica y acampanada, por lo que se plantea como conjetura un modelo Normal, el cual será evaluado mediante el coeficiente de correlación de Pearson y la prueba Kolmogorov-Smirnov.

5.2 Histograma con Cortes por Zona

lbl      <- c(normal = "Normal", lognormal = "Log-Normal", exponential = "Exponencial")
corte2   <- -96.80
este_max <- -94.61

x_z1 <- x[x <  corte1]
x_z2 <- x[x >= corte1 & x < corte2]
x_z3 <- x[x >= corte2 & x <= este_max]

r1f <- evaluar_zona(x_z1, n_samp = 400)
r2f <- evaluar_zona(x_z2, n_samp = 400)
r3f <- evaluar_zona(x_z3, n_samp = 400, forzar = "normal")

cat("Zona Oeste:",  length(x_z1), "obs | Modelo:", lbl[r1f$modelo],
    "| KS p =", round(r1f$pval, 4), "\n")

## Zona Oeste: 13701 obs | Modelo: Normal | KS p = 0.077

cat("Zona Centro:", length(x_z2), "obs | Modelo:", lbl[r2f$modelo],
    "| KS p =", round(r2f$pval, 4), "\n")

## Zona Centro: 23884 obs | Modelo: Normal | KS p = 0.2177

cat("Zona Este:",   length(x_z3), "obs | Modelo:", lbl[r3f$modelo],
    "| KS p =", round(r3f$pval, 4), "\n")

## Zona Este: 10172 obs | Modelo: Normal | KS p = 0.0728

h_obj         <- hist(x, breaks = breaks_vec, plot = FALSE)
h_obj$density <- hi_dec

par(mar = c(5,6,6,2))
plot(h_obj, col = grises, border = "black", freq = FALSE,
     main = "", xlab = "", ylab = "", las = 1, xaxt = "n")
axis(1, at = breaks_vec, labels = round(breaks_vec,3), las = 1, cex.axis = 0.8)
abline(v = corte1, col = "black", lty = 2, lwd = 2)
abline(v = corte2, col = "black", lty = 2, lwd = 2)

yt <- max(hi_dec)
text(mean(c(min(x), corte1)), yt*0.88,
     paste0("Oeste\n(", round(min(x),1), " a ", corte1, ")\n", lbl[r1f$modelo]),
     cex=0.82, font=2)
text(mean(c(corte1, corte2)), yt*0.88,
     paste0("Centro\n(", corte1, " a ", corte2, ")\n", lbl[r2f$modelo]),
     cex=0.82, font=2)
text(mean(c(corte2, este_max)), yt*0.88,
     paste0("Este\n(", corte2, " a ", este_max, ")\n", lbl[r3f$modelo]),
     cex=0.82, font=2)
mtext("Densidad de Probabilidad", side=2, line=4.5, cex=1)
mtext("Longitud (grados)",        side=1, line=3.5, cex=1)
mtext(paste0("Cortes: ", corte1, "  y  ", corte2, " - Kansas, EE.UU."),
      side=3, line=3, cex=0.95, font=2)

5.3 Histogramas Individuales por Zona

plot_zona <- function(datos, res, titulo, pal) {
  offset <- res$offset
  n_z    <- length(datos)
  brks   <- seq(min(datos), max(datos), length.out = k + 1)
  h_z    <- hist(datos, breaks = brks, plot = FALSE)
  hi_z   <- h_z$counts / n_z
  h_z$density <- hi_z
  xs     <- seq(min(datos), max(datos), length.out = 500)

  par(mar = c(5,6,5,2))
  plot(h_z, col = pal, border = "black", freq = FALSE,
       main = "", xlab = "", ylab = "", las = 1)

  if (res$modelo == "lognormal") {
    xs_pos <- xs - offset; xs_pos[xs_pos <= 0] <- 1e-9
    ys <- dlnorm(xs_pos,
                 meanlog = res$fit$estimate["meanlog"],
                 sdlog   = res$fit$estimate["sdlog"])
  } else if (res$modelo == "exponential") {
    xs_pos <- xs - offset; xs_pos[xs_pos <= 0] <- 1e-9
    ys <- dexp(xs_pos, rate = res$fit$estimate["rate"])
  } else {
    ys <- dnorm(xs,
                mean = res$fit$estimate["mean"],
                sd   = res$fit$estimate["sd"])
  }
  ys_sc <- ys / max(ys) * max(hi_z)
  lines(xs, ys_sc, col = "black", lwd = 2.5)

  mtext("Densidad de Probabilidad", side=2, line=4.5, cex=0.95)
  mtext("Longitud (grados)",        side=1, line=3.5, cex=0.95)
  mtext(titulo, side=3, line=1, cex=1.05, font=2)
  legend("topright",
         legend = c("Histograma", paste0("Curva ", lbl[res$modelo])),
         fill   = c("gray55", NA), border = c("black", NA),
         lty    = c(NA, 1), lwd = c(NA, 2.5), bty = "n", cex = 0.85)
}

par(mfrow = c(3,1))
plot_zona(x_z1, r1f,
          paste0("Zona Oeste (", round(min(x),1), " a ", corte1, ") - ", lbl[r1f$modelo]),
          gray(seq(0.20,0.65,length.out=k)))
plot_zona(x_z2, r2f,
          paste0("Zona Centro (", corte1, " a ", corte2, ") - ", lbl[r2f$modelo]),
          gray(seq(0.30,0.75,length.out=k)))
plot_zona(x_z3, r3f,
          paste0("Zona Este (", corte2, " a ", este_max, ") - ", lbl[r3f$modelo]),
          gray(seq(0.40,0.85,length.out=k)))

par(mfrow = c(1,1))

6.1 Cálculo de Parámetros y Probabilidades

set.seed(42)

validar <- function(datos, res) {
  set.seed(42)
  samp   <- sample(datos, size = min(400, length(datos)), replace = FALSE)
  offset <- res$offset
  brks   <- seq(min(datos), max(datos), length.out = k + 1)
  hi_obs <- hist(datos, breaks = brks, plot = FALSE)$counts / length(datos)
  mc_z   <- (head(brks,-1) + tail(brks,-1)) / 2

  if (res$modelo == "lognormal") {
    mc_pos <- mc_z - offset; mc_pos[mc_pos <= 0] <- 1e-9
    hi_teo <- dlnorm(mc_pos,
                     meanlog = res$fit$estimate["meanlog"],
                     sdlog   = res$fit$estimate["sdlog"]) * diff(brks)
    ks_res <- ks.test(samp - offset, "plnorm",
                      meanlog = res$fit$estimate["meanlog"],
                      sdlog   = res$fit$estimate["sdlog"])
  } else if (res$modelo == "exponential") {
    mc_pos <- mc_z - offset; mc_pos[mc_pos <= 0] <- 1e-9
    hi_teo <- dexp(mc_pos, rate = res$fit$estimate["rate"]) * diff(brks)
    ks_res <- ks.test(samp - offset, "pexp", rate = res$fit$estimate["rate"])
  } else {
    hi_teo <- dnorm(mc_z,
                    mean = res$fit$estimate["mean"],
                    sd   = res$fit$estimate["sd"]) * diff(brks)
    ks_res <- ks.test(samp, "pnorm",
                      mean = res$fit$estimate["mean"],
                      sd   = res$fit$estimate["sd"])
  }

  hi_teo  <- hi_teo / sum(hi_teo)
  pearson <- round(cor(hi_obs, hi_teo) * 100, 2)
  pval_ks <- round(ks_res$p.value, 4)

  cat("\n--- [", lbl[res$modelo], "] Parametros ---\n")
  print(round(res$fit$estimate, 6))
  cat("Pearson R%:", pearson, "| KS p-valor:", pval_ks, "\n")

  list(pearson = pearson, pval = pval_ks,
       val = ifelse(pval_ks >= 0.05, "APROBADO", "RECHAZADO"))
}

v1 <- validar(x_z1, r1f)

## 
## --- [ Normal ] Parametros ---
##        mean          sd 
## -101.010326    0.516176 
## Pearson R%: 66.15 | KS p-valor: 0.077

v2 <- validar(x_z2, r2f)

## 
## --- [ Normal ] Parametros ---
##       mean         sd 
## -98.719457   0.777714 
## Pearson R%: 80.92 | KS p-valor: 0.2177

v3 <- validar(x_z3, r3f)

## 
## --- [ Normal ] Parametros ---
##       mean         sd 
## -95.631073   0.430202 
## Pearson R%: 90.12 | KS p-valor: 0.0728

data.frame(
  Zona = c(
    paste0("Oeste (",  round(min(x),1), " a ", corte1, ")"),
    paste0("Centro (", corte1, " a ", corte2, ")"),
    paste0("Este (",   corte2, " a ", este_max, ")")
  ),
  Modelo     = unname(c(lbl[r1f$modelo], lbl[r2f$modelo], lbl[r3f$modelo])),
  Pearson    = c(v1$pearson, v2$pearson, v3$pearson),
  KS_p       = c(v1$pval,   v2$pval,   v3$pval),
  Validacion = c(v1$val,    v2$val,    v3$val),
  stringsAsFactors = FALSE
) %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla N\u00b02: Resumen de Validación por Zona**"),
    subtitle = md("*Pearson (R%) y Kolmogorov-Smirnov (p-valor) - n_samp = 400 por zona*")
  ) %>%
  cols_label(Zona=md("**Zona**"), Modelo=md("**Modelo Aplicado**"),
             Pearson=md("**Pearson (R %)**"), KS_p=md("**K-S (p-valor)**"),
             Validacion=md("**Validación**")) %>%
  tab_style(style=list(cell_fill(color="#2C2C2C"),cell_text(color="white",weight="bold")),
            locations=cells_column_labels()) %>%
  tab_style(style=list(cell_fill(color="#2C2C2C"),cell_text(color="white",weight="bold")),
            locations=cells_title(groups="title")) %>%
  tab_style(style=cell_fill(color="#F5F5F5"), locations=cells_body(rows=c(1,3))) %>%
  tab_style(style=cell_text(color="darkgreen",weight="bold"),
            locations=cells_body(columns=Validacion, rows=Validacion=="APROBADO")) %>%
  tab_style(style=cell_text(color="darkred",weight="bold"),
            locations=cells_body(columns=Validacion, rows=Validacion=="RECHAZADO")) %>%
  tab_style(style=cell_borders(sides="bottom",color="#E0E0E0",weight=px(1)),
            locations=cells_body(rows=everything())) %>%
  cols_align(align="center", columns=c(Pearson,KS_p,Validacion)) %>%
  cols_align(align="left",   columns=c(Zona,Modelo)) %>%
  fmt_number(columns=Pearson, decimals=2) %>%
  fmt_number(columns=KS_p,    decimals=4) %>%
  tab_source_note(source_note=md("*Autor: Fernando Almeida*")) %>%
  tab_options(table.width=pct(90), table.font.size=px(13),
              heading.title.font.size=px(16), heading.subtitle.font.size=px(12),
              data_row.padding=px(6),
              column_labels.border.top.width=px(2),
              column_labels.border.bottom.width=px(2),
              table_body.border.bottom.width=px(2),
              table.border.top.style="hidden", table.border.bottom.style="hidden")

Zona	Modelo Aplicado	Pearson (R %)	K-S (p-valor)	Validación
Tabla N°2: Resumen de Validación por Zona
Pearson (R%) y Kolmogorov-Smirnov (p-valor) - n_samp = 400 por zona
Oeste (-102 a -100)	Normal	66.15	0.0770	APROBADO
Centro (-100 a -96.8)	Normal	80.92	0.2177	APROBADO
Este (-96.8 a -94.61)	Normal	90.12	0.0728	APROBADO
Autor: Fernando Almeida

7. Intervalo de Confianza

El Intervalo de Confianza representa el puente fundamental entre los modelos empíricos observados (Normal, Log-Normal y Exponencial) y la estimación poblacional. Aunque la distribución original de la Longitud presenta asimetría y comportamiento diferenciado por zona, el TLC garantiza que la distribución de las medias muestrales tenderá a la normalidad debido al volumen masivo de datos (\(n=\) 47,757).

Los postulados de confianza empírica sugieren:

\[P(\bar{x} - E < \mu < \bar{x} + E) \approx 68\%\]

\[P(\bar{x} - 2E < \mu < \bar{x} + 2E) \approx 95\%\]

\[P(\bar{x} - 3E < \mu < \bar{x} + 3E) \approx 99\%\]

Donde el Margen de Error (\(E\)) se define como:

\[E = \frac{\sigma}{\sqrt{n}}\]

media_muestral <- mean(x)
desv_est       <- sd(x)
n_total        <- length(x)
z_95           <- 1.96
error_est      <- desv_est / sqrt(n_total)
margen         <- z_95 * error_est
lim_inf_ic     <- media_muestral - margen
lim_sup_ic     <- media_muestral + margen

data.frame(
  Parametro      = "Longitud Promedio Kansas (\u00b0)",
  Lim_Inferior   = round(lim_inf_ic, 3),
  Media_Muestral = round(media_muestral, 3),
  Lim_Superior   = round(lim_sup_ic, 3),
  Error_Estandar = paste0("+/- ", round(margen, 4)),
  Confianza      = "95% (Z=1.96)",
  stringsAsFactors = FALSE
) %>%
  gt() %>%
  tab_header(
    title    = md("**TABLA N\u00b0 3: ESTIMACIÓN DE LA MEDIA POBLACIONAL**"),
    subtitle = md("*Inferencia Estadística para la Variable Longitud*")
  ) %>%
  cols_label(
    Parametro      = md("**Parámetro**"),
    Lim_Inferior   = md("**Lim_Inferior**"),
    Media_Muestral = md("**Media_Muestral**"),
    Lim_Superior   = md("**Lim_Superior**"),
    Error_Estandar = md("**Error_Estándar**"),
    Confianza      = md("**Confianza**")
  ) %>%
  tab_style(style = list(cell_fill(color = "#2C2C2C"), cell_text(color = "white", weight = "bold")),
            locations = cells_column_labels()) %>%
  tab_style(style = list(cell_fill(color = "#2C2C2C"), cell_text(color = "white", weight = "bold")),
            locations = cells_title(groups = "title")) %>%
  tab_style(style = list(cell_fill(color = "#C8E6C9"), cell_text(weight = "bold")),
            locations = cells_body(columns = Media_Muestral)) %>%
  tab_style(style = cell_borders(sides = "bottom", color = "#E0E0E0", weight = px(1)),
            locations = cells_body(rows = everything())) %>%
  cols_align(align = "center", columns = c(Lim_Inferior, Media_Muestral, Lim_Superior, Error_Estandar, Confianza)) %>%
  cols_align(align = "left",   columns = Parametro) %>%
  tab_source_note(source_note = md("*Autor: Fernando Almeida*")) %>%
  tab_options(table.width = pct(100), table.font.size = px(13),
              heading.title.font.size = px(16), heading.subtitle.font.size = px(12),
              data_row.padding = px(6),
              column_labels.border.top.width = px(2),
              column_labels.border.bottom.width = px(2),
              table_body.border.bottom.width = px(2),
              table.border.top.style = "hidden", table.border.bottom.style = "hidden")

Parámetro	Lim_Inferior	Media_Muestral	Lim_Superior	Error_Estándar	Confianza
TABLA N° 3: ESTIMACIÓN DE LA MEDIA POBLACIONAL
Inferencia Estadística para la Variable Longitud
Longitud Promedio Kansas (°)	-98.737	-98.719	-98.701	+/- 0.0178	95% (Z=1.96)
Autor: Fernando Almeida

8. Conclusiones

Se trabajó con la variable LONGITUDE dividida en tres zonas geográficas mediante cortes en -100° y -96.8°. A partir del comportamiento observado en los histogramas se plantearon modelos de distribución por zona. Los parámetros estimados fueron: Zona Oeste (\(\hat{\mu}=\) -101.0103, \(\hat{\sigma}=\) 0.5162), Zona Centro (media = -98.7195, sd = 0.7777) y Zona Este (\(\hat{\mu}=\) -95.6311, \(\hat{\sigma}=\) 0.4302). La prueba de Pearson obtuvo 66.15%, 80.92% y 90.12% respectivamente, y los p-valores Kolmogorov-Smirnov fueron 0.077, 0.2177 y 0.0728. Por tanto, No se rechaza H0: los modelos son aceptados.

Autor: Fernando Almeida — Análisis Estadístico, Kansas Hydrocarbon Leases Dataset

Longitud — Ajuste por Zonas

Fernando Almeida

2026-06-17