Produce Gas (Inferencial)

1 Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey, para proceder con el análisis inferencial de la variable cualitativa nominal dicotómica Produce Gas.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

if (file.exists(ruta_archivo)) {
  datos <- read_delim(ruta_archivo, delim = ";", show_col_types = FALSE)
} else {
  datos <- read_delim(file.choose(), delim = ";", show_col_types = FALSE)
}

cat("Dataset cargado correctamente.\n")

## Dataset cargado correctamente.

cat("Total de registros evaluados (filas):", nrow(datos), "\n")

## Total de registros evaluados (filas): 104173

2 Extracción y Limpieza de la Variable

La variable PRODUCES_GAS indica si el arrendamiento registra producción de gas. Se filtran únicamente los valores válidos: Yes y No; luego se traducen al español como Sí y No.

x_raw <- datos %>%
  filter(PRODUCES_GAS %in% c("Yes", "No")) %>%
  mutate(
    produce_gas = case_when(
      PRODUCES_GAS == "Yes" ~ "Sí",
      PRODUCES_GAS == "No"  ~ "No"
    )
  ) %>%
  pull(produce_gas)

n <- length(x_raw)
k <- length(unique(x_raw))

cat("Observaciones válidas:", n, "\n")

## Observaciones válidas: 95958

cat("Categorías distintas:", k, "\n")

## Categorías distintas: 2

cat("\nDistribución por categoría:\n")

## 
## Distribución por categoría:

print(table(x_raw))

## x_raw
##    No    Sí 
## 59056 36902

3 Identificación de la Variable

Criterio	Clasificación
Nombre	Produce Gas
Nombre técnico	PRODUCES_GAS
Tipo	Cualitativa
Subtipo	Nominal dicotómica
Dominio	{Sí, No}
Rango	2 categorías
Unidad	No aplica
Escala	Nominal
Fuente	Kansas Geological Survey - Kansas, EE.UU.

Justificación: La variable toma únicamente dos valores posibles, Sí y No, sin orden natural entre ellos. Por tanto, corresponde a una variable cualitativa nominal dicotómica. En variables nominales, la probabilidad de ocurrencia de cada categoría se estima mediante su frecuencia relativa observada:

\[P(X = x_i) = h_i = \frac{n_i}{n}\]

donde \(n_i\) es la frecuencia absoluta de la categoría \(i\) y \(n\) es el total de observaciones válidas.

4 Tabla de Distribución de Frecuencias

Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Gas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,958).

freq_abs   <- table(x_raw)
categorias <- names(freq_abs)
ni         <- as.integer(freq_abs)
hi_pct     <- ni / n * 100
hi_frac    <- ni / n

tabla_df <- data.frame(
  Categoria = categorias,
  ni        = ni,
  hi_pct    = sprintf("%.2f%%", hi_pct),
  hi_frac   = sprintf("%.4f", hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, ",
    "registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Produce Gas", "Frecuencia (n_i)", "Porcentaje (h_i %)", "Porcentaje en fracción (h_i)"),
  align = c("l", "c", "c", "c"),
  escape = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE,
    font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")

Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n = 95,958 registros válidos).
Produce Gas	Frecuencia (n_i)	Porcentaje (h_i %)	Porcentaje en fracción (h_i)
No	59056	61.54%	0.6154
Sí	36902	38.46%	0.3846
TOTAL	95958	100.00%	1.0000

5 Representación Gráfica

5.1 Gráfica N°1 - Diagrama de Barras (Frecuencia Absoluta)

freq_ord  <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))

par(mar = c(5, 6, 7, 2))
bp <- barplot(
  as.numeric(freq_ord),
  names.arg = names(freq_ord),
  col = colores_g,
  border = "black",
  ylim = c(0, max(as.numeric(freq_ord)) * 1.18),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

text(
  bp,
  as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
  labels = format(as.numeric(freq_ord), big.mark = ","),
  cex = 0.9
)

mtext("Frecuencia Absoluta (n_i)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras - Frecuencia Absoluta\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3,
  line = 3.5,
  cex = 0.9,
  font = 2
)

5.2 Gráfica N°2 - Diagrama de Barras (Porcentaje)

pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)

par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col = colores_g,
  border = "black",
  ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

text(
  bp2,
  as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
  labels = paste0(round(as.numeric(pct_ord), 2), "%"),
  cex = 0.9
)

mtext("Porcentaje (h_i %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras - Porcentaje\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3,
  line = 3.5,
  cex = 0.9,
  font = 2
)

5.3 Gráfica N°3 - Diagrama Circular (Distribución Porcentual)

pct_circ <- table(x_raw) / n * 100
grises_c <- gray(c(0.35, 0.72))

par(mar = c(2, 2, 6, 2))
pie(
  as.numeric(pct_circ),
  labels = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
  col = grises_c,
  border = "black",
  main = ""
)

mtext(
  "Gráfica N°3: Diagrama Circular - Distribución Porcentual\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3,
  line = 3.5,
  cex = 0.9,
  font = 2
)

6 Identificación del Modelo Probabilístico Inferencial

La variable Produce Gas es cualitativa nominal dicotómica. Para una variable nominal, las categorías no tienen jerarquía ni distancia numérica; por ello, la probabilidad de ocurrencia de cada valor se estima directamente con la frecuencia relativa observada:

\[P(X = x_i) = h_i\]

Como existen dos categorías, el comportamiento probabilístico puede representarse mediante un modelo Bernoulli si se selecciona una categoría de éxito, por ejemplo Sí, o mediante un modelo categórico con \(k = 2\) categorías:

\[X \sim \text{Categórica}(\pi_1, \pi_2)\]

donde:

\[\pi_i = P(X = x_i) = h_i = \frac{n_i}{n}\]

Por tanto, para este análisis inferencial no se asigna una probabilidad por orden o jerarquía, sino por la proporción observada de cada categoría.

tabla_frec <- data.frame(
  Categoria = categorias,
  Observada = ni,
  stringsAsFactors = FALSE
) %>%
  mutate(
    h_i = Observada / n,
    Probabilidad_Nominal = h_i,
    Porcentaje = h_i * 100
  )

moda_val <- tabla_frec$Categoria[which.max(tabla_frec$Observada)]
moda_n <- max(tabla_frec$Observada)
moda_hi <- max(tabla_frec$h_i)

cat("=== Modelo probabilístico nominal ===\n")

## === Modelo probabilístico nominal ===

cat("Número de categorías (k):", k, "\n")

## Número de categorías (k): 2

cat("Total de observaciones válidas (n):", n, "\n")

## Total de observaciones válidas (n): 95958

cat("Categoría modal:", moda_val, "\n")

## Categoría modal: No

cat("Frecuencia de la moda:", moda_n, "\n")

## Frecuencia de la moda: 59056

cat("Probabilidad estimada de la moda (h_i):", round(moda_hi, 4), "\n")

## Probabilidad estimada de la moda (h_i): 0.6154

7 Tabla de Probabilidades Nominales

En esta tabla se presentan las probabilidades estimadas para cada valor de la variable. Al ser una variable nominal, la probabilidad de que suceda cada categoría corresponde a su frecuencia relativa \(h_i\).

tabla_frec %>%
  mutate(
    h_i = sprintf("%.4f", h_i),
    Probabilidad_Nominal = sprintf("%.4f", Probabilidad_Nominal),
    Porcentaje = sprintf("%.2f%%", Porcentaje)
  ) %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°2: Probabilidades Nominales de Produce Gas**"),
    subtitle = md("*Para variables nominales: P(X = x_i) = h_i*")
  ) %>%
  cols_label(
    Categoria = md("**Categoría**"),
    Observada = md("**Frecuencia observada (n_i)**"),
    h_i = md("**Frecuencia relativa (h_i)**"),
    Probabilidad_Nominal = md("**P(X = x_i)**"),
    Porcentaje = md("**Porcentaje**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_frec), by = 2))
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(75),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )

Categoría	Frecuencia observada (n_i)	Frecuencia relativa (h_i)	P(X = x_i)	Porcentaje
Tabla N°2: Probabilidades Nominales de Produce Gas
Para variables nominales: P(X = x_i) = h_i
No	59056	0.6154	0.6154	61.54%
Sí	36902	0.3846	0.3846	38.46%
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

8 Intervalos de Confianza por Categoría

Se estima el intervalo de confianza al 95% para la proporción poblacional de cada categoría. El estimador puntual de cada probabilidad nominal es:

\[\hat{p}_i = h_i\]

y el intervalo de confianza se calcula mediante:

\[IC_{95\%}: \hat{p}_i \pm z_{\alpha/2}\sqrt{\frac{\hat{p}_i(1-\hat{p}_i)}{n}}\]

z <- qnorm(0.975)

tabla_ic <- tabla_frec %>%
  mutate(
    p_obs = h_i,
    error = z * sqrt((p_obs * (1 - p_obs)) / n),
    IC_inf = round(pmax(p_obs - error, 0), 4),
    IC_sup = round(pmin(p_obs + error, 1), 4),
    p_obs = round(p_obs, 4)
  ) %>%
  select(Categoria, Observada, p_obs, IC_inf, IC_sup)

tabla_ic %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°3: Intervalos de Confianza al 95%**"),
    subtitle = md("*Proporción por categoría - Produce Gas*")
  ) %>%
  cols_label(
    Categoria = md("**Categoría**"),
    Observada = md("**Frecuencia observada**"),
    p_obs = md("**p observada = h_i**"),
    IC_inf = md("**IC inferior 95%**"),
    IC_sup = md("**IC superior 95%**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_ic), by = 2))
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(70),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )

Categoría	Frecuencia observada	p observada = h_i	IC inferior 95%	IC superior 95%
Tabla N°3: Intervalos de Confianza al 95%
Proporción por categoría - Produce Gas
No	59056	0.6154	0.6124	0.6185
Sí	36902	0.3846	0.3815	0.3876
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

9 Test de Pearson para el Modelo Nominal

Como la variable Produce Gas es nominal, no se fuerza una probabilidad teórica de 0.5 para cada categoría. En su lugar, el modelo probabilístico nominal se construye con las probabilidades observadas:

\[P(X = x_i) = h_i\]

Por tanto, el Test de Pearson compara las frecuencias observadas con las frecuencias esperadas del propio modelo nominal:

\[E_i = n \cdot h_i\]

De esta forma, se evalúa el ajuste entre los datos observados y el modelo nominal estimado a partir de las frecuencias relativas.

9.1 Planteamiento de Hipótesis

\[H_0: \text{La variable Produce Gas se ajusta al modelo nominal } P(X = x_i) = h_i\]

\[H_1: \text{La variable Produce Gas no se ajusta al modelo nominal } P(X = x_i) = h_i\]

Nivel de significancia: \(\alpha = 0.05\)

9.2 Estadístico de Pearson

El estadístico de Pearson se calcula como:

\[X_P^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}\]

tabla_pearson <- tabla_frec %>%
  mutate(
    Esperada_Pearson = n * h_i,
    Diferencia = Observada - Esperada_Pearson,
    Componente_Pearson = ifelse(
      Esperada_Pearson > 0,
      (Diferencia^2) / Esperada_Pearson,
      0
    )
  )

pearson_estadistico <- sum(tabla_pearson$Componente_Pearson)
pearson_ajuste <- 100 / (1 + pearson_estadistico)
pearson_resultado <- ifelse(
  pearson_ajuste >= 95,
  "Modelo aceptado",
  "Modelo no aceptado"
)

cat("=== Test de Pearson para Modelo Nominal ===\n")

## === Test de Pearson para Modelo Nominal ===

cat("Regla nominal: P(X = x_i) = h_i\n")

## Regla nominal: P(X = x_i) = h_i

cat("Estadístico de Pearson:", round(pearson_estadistico, 6), "\n")

## Estadístico de Pearson: 0

cat("Porcentaje de ajuste Pearson:", round(pearson_ajuste, 2), "%\n")

## Porcentaje de ajuste Pearson: 100 %

cat("Resultado:", pearson_resultado, "\n")

## Resultado: Modelo aceptado

9.3 Tabla de Resultados del Test de Pearson

tabla_pearson %>%
  mutate(
    h_i = sprintf("%.4f", h_i),
    Esperada_Pearson = sprintf("%.2f", Esperada_Pearson),
    Diferencia = sprintf("%.4f", Diferencia),
    Componente_Pearson = sprintf("%.6f", Componente_Pearson)
  ) %>%
  select(Categoria, Observada, h_i, Esperada_Pearson, Diferencia, Componente_Pearson) %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°4: Test de Pearson para el Modelo Nominal**"),
    subtitle = md("*Modelo: P(X = x_i) = h_i*")
  ) %>%
  cols_label(
    Categoria = md("**Categoría**"),
    Observada = md("**Observada (O_i)**"),
    h_i = md("**Probabilidad h_i**"),
    Esperada_Pearson = md("**Esperada (E_i = n h_i)**"),
    Diferencia = md("**O_i - E_i**"),
    Componente_Pearson = md("**Componente Pearson**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_pearson), by = 2))
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(85),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )

Categoría	Observada (O_i)	Probabilidad h_i	Esperada (E_i = n h_i)	O_i - E_i	Componente Pearson
Tabla N°4: Test de Pearson para el Modelo Nominal
Modelo: P(X = x_i) = h_i
No	59056	0.6154	59056.00	0.0000	0.000000
Sí	36902	0.3846	36902.00	0.0000	0.000000
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

9.4 Resumen del Test de Pearson

tabla_resumen_pearson <- data.frame(
  Variable = "Produce Gas",
  Tipo_Variable = "Cualitativa nominal dicotómica",
  Modelo = "Nominal: P(X = x_i) = h_i",
  Pearson = round(pearson_estadistico, 6),
  Ajuste_Pearson = paste0(round(pearson_ajuste, 2), "%"),
  Umbral_Aceptacion = "95%",
  Resultado_Final = pearson_resultado,
  check.names = FALSE
)

tabla_resumen_pearson %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°5: Resumen del Test de Pearson**")
  ) %>%
  cols_label(
    Variable = md("**Variable**"),
    Tipo_Variable = md("**Tipo de variable**"),
    Modelo = md("**Modelo probabilístico**"),
    Pearson = md("**Test Pearson**"),
    Ajuste_Pearson = md("**Ajuste Pearson (%)**"),
    Umbral_Aceptacion = md("**Umbral de aceptación**"),
    Resultado_Final = md("**Resultado final**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold", align = "center")
    ),
    locations = cells_title()
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(90),
    heading.title.font.size = px(14),
    table.font.size = px(13),
    data_row.padding = px(8)
  )

Variable	Tipo de variable	Modelo probabilístico	Test Pearson	Ajuste Pearson (%)	Umbral de aceptación	Resultado final
Tabla N°5: Resumen del Test de Pearson
Produce Gas	Cualitativa nominal dicotómica	Nominal: P(X = x_i) = h_i	0	100%	95%	Modelo aceptado
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

10 Representación Gráfica Inferencial

10.1 Gráfica N°4 - Probabilidades Nominales Observadas

par(mar = c(5, 6, 6, 2))

bp4 <- barplot(
  tabla_frec$h_i,
  names.arg = tabla_frec$Categoria,
  col = gray(seq(0.35, 0.75, length.out = nrow(tabla_frec))),
  border = "black",
  ylim = c(0, max(tabla_frec$h_i) * 1.25),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

text(
  bp4,
  tabla_frec$h_i + max(tabla_frec$h_i) * 0.04,
  labels = sprintf("h_i = %.4f", tabla_frec$h_i),
  cex = 0.9
)

mtext("Probabilidad nominal P(X = x_i) = h_i", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°4: Probabilidades Nominales Observadas - Produce Gas",
  side = 3,
  line = 2.5,
  cex = 0.9,
  font = 2
)

10.2 Gráfica N°5 - Intervalos de Confianza al 95%

par(mar = c(5, 6, 6, 2))

bp5 <- barplot(
  tabla_ic$p_obs,
  names.arg = tabla_ic$Categoria,
  col = gray(seq(0.35, 0.75, length.out = nrow(tabla_ic))),
  border = "black",
  ylim = c(0, min(1, max(tabla_ic$IC_sup) * 1.25)),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

arrows(
  x0 = bp5,
  y0 = tabla_ic$IC_inf,
  x1 = bp5,
  y1 = tabla_ic$IC_sup,
  angle = 90,
  code = 3,
  length = 0.08,
  lwd = 1.5
)

abline(h = 0.5, col = "black", lty = 2, lwd = 1.2)

mtext("Proporción estimada", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°5: Intervalos de Confianza al 95% por Categoría - Produce Gas",
  side = 3,
  line = 2.5,
  cex = 0.85,
  font = 2
)

legend(
  "topright",
  legend = c("h_i observado", "Referencia 0.5", "IC 95%"),
  fill = c("gray60", NA, NA),
  lty = c(NA, 2, 1),
  lwd = c(NA, 1.2, 1.5),
  bty = "n",
  cex = 0.85
)

11 Tabla de Indicadores Inferenciales

decision_texto <- pearson_resultado

tabla_inf <- data.frame(
  Indicador = c(
    "Variable",
    "Tipo de variable",
    "Modelo probabilístico",
    "Número de categorías (k)",
    "Regla de probabilidad nominal",
    "Categoría modal",
    "Probabilidad de la categoría modal (h_i)",
    "Test de Pearson",
    "Ajuste Pearson (%)",
    "Umbral de aceptación",
    "Resultado del Test de Pearson",
    paste0("IC 95% - ", tabla_ic$Categoria[1]),
    paste0("IC 95% - ", tabla_ic$Categoria[2])
  ),
  Valor = c(
    "Produce Gas",
    "Cualitativa nominal dicotómica",
    "Bernoulli / Categórica nominal",
    as.character(k),
    "P(X = x_i) = h_i = n_i / n",
    moda_val,
    sprintf("%.4f", moda_hi),
    sprintf("%.6f", pearson_estadistico),
    paste0(round(pearson_ajuste, 2), "%"),
    "95%",
    decision_texto,
    sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf[1], tabla_ic$IC_sup[1]),
    sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf[2], tabla_ic$IC_sup[2])
  ),
  stringsAsFactors = FALSE
)

tabla_inf %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°6: Indicadores Inferenciales**"),
    subtitle = md("*Variable Cualitativa Nominal Dicotómica: Produce Gas*")
  ) %>%
  cols_label(
    Indicador = md("**Indicador**"),
    Valor = md("**Valor**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_inf), by = 2))
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#D6D6D6"),
      cell_text(weight = "bold")
    ),
    locations = cells_body(
      rows = Indicador == "Resultado del Test de Pearson",
      columns = everything()
    )
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(75),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )

Indicador	Valor
Tabla N°6: Indicadores Inferenciales
Variable Cualitativa Nominal Dicotómica: Produce Gas
Variable	Produce Gas
Tipo de variable	Cualitativa nominal dicotómica
Modelo probabilístico	Bernoulli / Categórica nominal
Número de categorías (k)	2
Regla de probabilidad nominal	P(X = x_i) = h_i = n_i / n
Categoría modal	No
Probabilidad de la categoría modal (h_i)	0.6154
Test de Pearson	0.000000
Ajuste Pearson (%)	100%
Umbral de aceptación	95%
Resultado del Test de Pearson	Modelo aceptado
IC 95% - No	[0.6124 ; 0.6185]
IC 95% - Sí	[0.3815 ; 0.3876]
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

12 Conclusiones

La variable Produce Gas fue analizada como una variable cualitativa nominal dicotómica, porque sus categorías Sí y No no poseen orden natural. Por esta razón, la probabilidad de ocurrencia de cada valor se estimó mediante su frecuencia relativa observada, es decir, \(P(X = x_i) = h_i\).

La categoría modal fue “No”, con una probabilidad nominal estimada de \(h_i = 0.6154\). Los intervalos de confianza al 95% permiten estimar el rango plausible de la proporción poblacional de cada categoría. Además, el Test de Pearson para el modelo nominal obtuvo un estadístico de 0 y un ajuste de 100%, por lo que el resultado inferencial fue: Modelo aceptado.

En síntesis, el análisis inferencial conserva la naturaleza nominal de la variable y expresa sus probabilidades mediante \(h_i\), complementando las tablas y gráficas descriptivas con intervalos de confianza y Test de Pearson.

Autor: Araujo Valeska | Análisis Estadístico Inferencial - Kansas Hydrocarbon Leases Dataset