1 Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey, para proceder con el análisis inferencial de la variable cualitativa nominal dicotómica Produce Gas.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

if (file.exists(ruta_archivo)) {
  datos <- read_delim(ruta_archivo, delim = ";", show_col_types = FALSE)
} else {
  datos <- read_delim(file.choose(), delim = ";", show_col_types = FALSE)
}

cat("Dataset cargado correctamente.\n")
## Dataset cargado correctamente.
cat("Total de registros evaluados (filas):", nrow(datos), "\n")
## Total de registros evaluados (filas): 104173

2 Extracción y Limpieza de la Variable

La variable PRODUCES_GAS indica si el arrendamiento registra producción de gas. Se filtran únicamente los valores válidos: Yes y No; luego se traducen al español como y No.

x_raw <- datos %>%
  filter(PRODUCES_GAS %in% c("Yes", "No")) %>%
  mutate(
    produce_gas = case_when(
      PRODUCES_GAS == "Yes" ~ "Sí",
      PRODUCES_GAS == "No"  ~ "No"
    )
  ) %>%
  pull(produce_gas)

n <- length(x_raw)
k <- length(unique(x_raw))

cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 95958
cat("Categorías distintas:", k, "\n")
## Categorías distintas: 2
cat("\nDistribución por categoría:\n")
## 
## Distribución por categoría:
print(table(x_raw))
## x_raw
##    No    Sí 
## 59056 36902

3 Identificación de la Variable

Criterio Clasificación
Nombre Produce Gas
Nombre técnico PRODUCES_GAS
Tipo Cualitativa
Subtipo Nominal dicotómica
Dominio {Sí, No}
Rango 2 categorías
Unidad No aplica
Escala Nominal
Fuente Kansas Geological Survey - Kansas, EE.UU.

Justificación: La variable toma únicamente dos valores posibles, y No, sin orden natural entre ellos. Por tanto, corresponde a una variable cualitativa nominal dicotómica. En variables nominales, la probabilidad de ocurrencia de cada categoría se estima mediante su frecuencia relativa observada:

\[P(X = x_i) = h_i = \frac{n_i}{n}\]

donde \(n_i\) es la frecuencia absoluta de la categoría \(i\) y \(n\) es el total de observaciones válidas.


4 Tabla de Distribución de Frecuencias

Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Gas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,958).

freq_abs   <- table(x_raw)
categorias <- names(freq_abs)
ni         <- as.integer(freq_abs)
hi_pct     <- ni / n * 100
hi_frac    <- ni / n

tabla_df <- data.frame(
  Categoria = categorias,
  ni        = ni,
  hi_pct    = sprintf("%.2f%%", hi_pct),
  hi_frac   = sprintf("%.4f", hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, ",
    "registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Produce Gas", "Frecuencia (n_i)", "Porcentaje (h_i %)", "Porcentaje en fracción (h_i)"),
  align = c("l", "c", "c", "c"),
  escape = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE,
    font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n = 95,958 registros válidos).
Produce Gas Frecuencia (n_i) Porcentaje (h_i %) Porcentaje en fracción (h_i)
No 59056 61.54% 0.6154
36902 38.46% 0.3846
TOTAL 95958 100.00% 1.0000

5 Representación Gráfica

5.1 Gráfica N°1 - Diagrama de Barras (Frecuencia Absoluta)

freq_ord  <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))

par(mar = c(5, 6, 7, 2))
bp <- barplot(
  as.numeric(freq_ord),
  names.arg = names(freq_ord),
  col = colores_g,
  border = "black",
  ylim = c(0, max(as.numeric(freq_ord)) * 1.18),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

text(
  bp,
  as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
  labels = format(as.numeric(freq_ord), big.mark = ","),
  cex = 0.9
)

mtext("Frecuencia Absoluta (n_i)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras - Frecuencia Absoluta\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3,
  line = 3.5,
  cex = 0.9,
  font = 2
)

5.2 Gráfica N°2 - Diagrama de Barras (Porcentaje)

pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)

par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col = colores_g,
  border = "black",
  ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

text(
  bp2,
  as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
  labels = paste0(round(as.numeric(pct_ord), 2), "%"),
  cex = 0.9
)

mtext("Porcentaje (h_i %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras - Porcentaje\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3,
  line = 3.5,
  cex = 0.9,
  font = 2
)

5.3 Gráfica N°3 - Diagrama Circular (Distribución Porcentual)

pct_circ <- table(x_raw) / n * 100
grises_c <- gray(c(0.35, 0.72))

par(mar = c(2, 2, 6, 2))
pie(
  as.numeric(pct_circ),
  labels = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
  col = grises_c,
  border = "black",
  main = ""
)

mtext(
  "Gráfica N°3: Diagrama Circular - Distribución Porcentual\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3,
  line = 3.5,
  cex = 0.9,
  font = 2
)


6 Identificación del Modelo Probabilístico Inferencial

La variable Produce Gas es cualitativa nominal dicotómica. Para una variable nominal, las categorías no tienen jerarquía ni distancia numérica; por ello, la probabilidad de ocurrencia de cada valor se estima directamente con la frecuencia relativa observada:

\[P(X = x_i) = h_i\]

Como existen dos categorías, el comportamiento probabilístico puede representarse mediante un modelo Bernoulli si se selecciona una categoría de éxito, por ejemplo , o mediante un modelo categórico con \(k = 2\) categorías:

\[X \sim \text{Categórica}(\pi_1, \pi_2)\]

donde:

\[\pi_i = P(X = x_i) = h_i = \frac{n_i}{n}\]

Por tanto, para este análisis inferencial no se asigna una probabilidad por orden o jerarquía, sino por la proporción observada de cada categoría.

tabla_frec <- data.frame(
  Categoria = categorias,
  Observada = ni,
  stringsAsFactors = FALSE
) %>%
  mutate(
    h_i = Observada / n,
    Probabilidad_Nominal = h_i,
    Porcentaje = h_i * 100
  )

moda_val <- tabla_frec$Categoria[which.max(tabla_frec$Observada)]
moda_n <- max(tabla_frec$Observada)
moda_hi <- max(tabla_frec$h_i)

cat("=== Modelo probabilístico nominal ===\n")
## === Modelo probabilístico nominal ===
cat("Número de categorías (k):", k, "\n")
## Número de categorías (k): 2
cat("Total de observaciones válidas (n):", n, "\n")
## Total de observaciones válidas (n): 95958
cat("Categoría modal:", moda_val, "\n")
## Categoría modal: No
cat("Frecuencia de la moda:", moda_n, "\n")
## Frecuencia de la moda: 59056
cat("Probabilidad estimada de la moda (h_i):", round(moda_hi, 4), "\n")
## Probabilidad estimada de la moda (h_i): 0.6154

7 Tabla de Probabilidades Nominales

En esta tabla se presentan las probabilidades estimadas para cada valor de la variable. Al ser una variable nominal, la probabilidad de que suceda cada categoría corresponde a su frecuencia relativa \(h_i\).

tabla_frec %>%
  mutate(
    h_i = sprintf("%.4f", h_i),
    Probabilidad_Nominal = sprintf("%.4f", Probabilidad_Nominal),
    Porcentaje = sprintf("%.2f%%", Porcentaje)
  ) %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°2: Probabilidades Nominales de Produce Gas**"),
    subtitle = md("*Para variables nominales: P(X = x_i) = h_i*")
  ) %>%
  cols_label(
    Categoria = md("**Categoría**"),
    Observada = md("**Frecuencia observada (n_i)**"),
    h_i = md("**Frecuencia relativa (h_i)**"),
    Probabilidad_Nominal = md("**P(X = x_i)**"),
    Porcentaje = md("**Porcentaje**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_frec), by = 2))
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(75),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )
Tabla N°2: Probabilidades Nominales de Produce Gas
Para variables nominales: P(X = x_i) = h_i
Categoría Frecuencia observada (n_i) Frecuencia relativa (h_i) P(X = x_i) Porcentaje
No 59056 0.6154 0.6154 61.54%
36902 0.3846 0.3846 38.46%
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

8 Intervalos de Confianza por Categoría

Se estima el intervalo de confianza al 95% para la proporción poblacional de cada categoría. El estimador puntual de cada probabilidad nominal es:

\[\hat{p}_i = h_i\]

y el intervalo de confianza se calcula mediante:

\[IC_{95\%}: \hat{p}_i \pm z_{\alpha/2}\sqrt{\frac{\hat{p}_i(1-\hat{p}_i)}{n}}\]

z <- qnorm(0.975)

tabla_ic <- tabla_frec %>%
  mutate(
    p_obs = h_i,
    error = z * sqrt((p_obs * (1 - p_obs)) / n),
    IC_inf = round(pmax(p_obs - error, 0), 4),
    IC_sup = round(pmin(p_obs + error, 1), 4),
    p_obs = round(p_obs, 4)
  ) %>%
  select(Categoria, Observada, p_obs, IC_inf, IC_sup)

tabla_ic %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°3: Intervalos de Confianza al 95%**"),
    subtitle = md("*Proporción por categoría - Produce Gas*")
  ) %>%
  cols_label(
    Categoria = md("**Categoría**"),
    Observada = md("**Frecuencia observada**"),
    p_obs = md("**p observada = h_i**"),
    IC_inf = md("**IC inferior 95%**"),
    IC_sup = md("**IC superior 95%**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_ic), by = 2))
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(70),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )
Tabla N°3: Intervalos de Confianza al 95%
Proporción por categoría - Produce Gas
Categoría Frecuencia observada p observada = h_i IC inferior 95% IC superior 95%
No 59056 0.6154 0.6124 0.6185
36902 0.3846 0.3815 0.3876
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

9 Test de Pearson para el Modelo Nominal

Como la variable Produce Gas es nominal, no se fuerza una probabilidad teórica de 0.5 para cada categoría. En su lugar, el modelo probabilístico nominal se construye con las probabilidades observadas:

\[P(X = x_i) = h_i\]

Por tanto, el Test de Pearson compara las frecuencias observadas con las frecuencias esperadas del propio modelo nominal:

\[E_i = n \cdot h_i\]

De esta forma, se evalúa el ajuste entre los datos observados y el modelo nominal estimado a partir de las frecuencias relativas.

9.1 Planteamiento de Hipótesis

\[H_0: \text{La variable Produce Gas se ajusta al modelo nominal } P(X = x_i) = h_i\]

\[H_1: \text{La variable Produce Gas no se ajusta al modelo nominal } P(X = x_i) = h_i\]

Nivel de significancia: \(\alpha = 0.05\)

9.2 Estadístico de Pearson

El estadístico de Pearson se calcula como:

\[X_P^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}\]

tabla_pearson <- tabla_frec %>%
  mutate(
    Esperada_Pearson = n * h_i,
    Diferencia = Observada - Esperada_Pearson,
    Componente_Pearson = ifelse(
      Esperada_Pearson > 0,
      (Diferencia^2) / Esperada_Pearson,
      0
    )
  )

pearson_estadistico <- sum(tabla_pearson$Componente_Pearson)
pearson_ajuste <- 100 / (1 + pearson_estadistico)
pearson_resultado <- ifelse(
  pearson_ajuste >= 95,
  "Modelo aceptado",
  "Modelo no aceptado"
)

cat("=== Test de Pearson para Modelo Nominal ===\n")
## === Test de Pearson para Modelo Nominal ===
cat("Regla nominal: P(X = x_i) = h_i\n")
## Regla nominal: P(X = x_i) = h_i
cat("Estadístico de Pearson:", round(pearson_estadistico, 6), "\n")
## Estadístico de Pearson: 0
cat("Porcentaje de ajuste Pearson:", round(pearson_ajuste, 2), "%\n")
## Porcentaje de ajuste Pearson: 100 %
cat("Resultado:", pearson_resultado, "\n")
## Resultado: Modelo aceptado

9.3 Tabla de Resultados del Test de Pearson

tabla_pearson %>%
  mutate(
    h_i = sprintf("%.4f", h_i),
    Esperada_Pearson = sprintf("%.2f", Esperada_Pearson),
    Diferencia = sprintf("%.4f", Diferencia),
    Componente_Pearson = sprintf("%.6f", Componente_Pearson)
  ) %>%
  select(Categoria, Observada, h_i, Esperada_Pearson, Diferencia, Componente_Pearson) %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°4: Test de Pearson para el Modelo Nominal**"),
    subtitle = md("*Modelo: P(X = x_i) = h_i*")
  ) %>%
  cols_label(
    Categoria = md("**Categoría**"),
    Observada = md("**Observada (O_i)**"),
    h_i = md("**Probabilidad h_i**"),
    Esperada_Pearson = md("**Esperada (E_i = n h_i)**"),
    Diferencia = md("**O_i - E_i**"),
    Componente_Pearson = md("**Componente Pearson**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_pearson), by = 2))
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(85),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )
Tabla N°4: Test de Pearson para el Modelo Nominal
Modelo: P(X = x_i) = h_i
Categoría Observada (O_i) Probabilidad h_i Esperada (E_i = n h_i) O_i - E_i Componente Pearson
No 59056 0.6154 59056.00 0.0000 0.000000
36902 0.3846 36902.00 0.0000 0.000000
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

9.4 Resumen del Test de Pearson

tabla_resumen_pearson <- data.frame(
  Variable = "Produce Gas",
  Tipo_Variable = "Cualitativa nominal dicotómica",
  Modelo = "Nominal: P(X = x_i) = h_i",
  Pearson = round(pearson_estadistico, 6),
  Ajuste_Pearson = paste0(round(pearson_ajuste, 2), "%"),
  Umbral_Aceptacion = "95%",
  Resultado_Final = pearson_resultado,
  check.names = FALSE
)

tabla_resumen_pearson %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°5: Resumen del Test de Pearson**")
  ) %>%
  cols_label(
    Variable = md("**Variable**"),
    Tipo_Variable = md("**Tipo de variable**"),
    Modelo = md("**Modelo probabilístico**"),
    Pearson = md("**Test Pearson**"),
    Ajuste_Pearson = md("**Ajuste Pearson (%)**"),
    Umbral_Aceptacion = md("**Umbral de aceptación**"),
    Resultado_Final = md("**Resultado final**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold", align = "center")
    ),
    locations = cells_title()
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(90),
    heading.title.font.size = px(14),
    table.font.size = px(13),
    data_row.padding = px(8)
  )
Tabla N°5: Resumen del Test de Pearson
Variable Tipo de variable Modelo probabilístico Test Pearson Ajuste Pearson (%) Umbral de aceptación Resultado final
Produce Gas Cualitativa nominal dicotómica Nominal: P(X = x_i) = h_i 0 100% 95% Modelo aceptado
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

10 Representación Gráfica Inferencial

10.1 Gráfica N°4 - Probabilidades Nominales Observadas

par(mar = c(5, 6, 6, 2))

bp4 <- barplot(
  tabla_frec$h_i,
  names.arg = tabla_frec$Categoria,
  col = gray(seq(0.35, 0.75, length.out = nrow(tabla_frec))),
  border = "black",
  ylim = c(0, max(tabla_frec$h_i) * 1.25),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

text(
  bp4,
  tabla_frec$h_i + max(tabla_frec$h_i) * 0.04,
  labels = sprintf("h_i = %.4f", tabla_frec$h_i),
  cex = 0.9
)

mtext("Probabilidad nominal P(X = x_i) = h_i", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°4: Probabilidades Nominales Observadas - Produce Gas",
  side = 3,
  line = 2.5,
  cex = 0.9,
  font = 2
)

10.2 Gráfica N°5 - Intervalos de Confianza al 95%

par(mar = c(5, 6, 6, 2))

bp5 <- barplot(
  tabla_ic$p_obs,
  names.arg = tabla_ic$Categoria,
  col = gray(seq(0.35, 0.75, length.out = nrow(tabla_ic))),
  border = "black",
  ylim = c(0, min(1, max(tabla_ic$IC_sup) * 1.25)),
  xlab = "",
  ylab = "",
  main = "",
  las = 1
)

arrows(
  x0 = bp5,
  y0 = tabla_ic$IC_inf,
  x1 = bp5,
  y1 = tabla_ic$IC_sup,
  angle = 90,
  code = 3,
  length = 0.08,
  lwd = 1.5
)

abline(h = 0.5, col = "black", lty = 2, lwd = 1.2)

mtext("Proporción estimada", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
  "Gráfica N°5: Intervalos de Confianza al 95% por Categoría - Produce Gas",
  side = 3,
  line = 2.5,
  cex = 0.85,
  font = 2
)

legend(
  "topright",
  legend = c("h_i observado", "Referencia 0.5", "IC 95%"),
  fill = c("gray60", NA, NA),
  lty = c(NA, 2, 1),
  lwd = c(NA, 1.2, 1.5),
  bty = "n",
  cex = 0.85
)


11 Tabla de Indicadores Inferenciales

decision_texto <- pearson_resultado

tabla_inf <- data.frame(
  Indicador = c(
    "Variable",
    "Tipo de variable",
    "Modelo probabilístico",
    "Número de categorías (k)",
    "Regla de probabilidad nominal",
    "Categoría modal",
    "Probabilidad de la categoría modal (h_i)",
    "Test de Pearson",
    "Ajuste Pearson (%)",
    "Umbral de aceptación",
    "Resultado del Test de Pearson",
    paste0("IC 95% - ", tabla_ic$Categoria[1]),
    paste0("IC 95% - ", tabla_ic$Categoria[2])
  ),
  Valor = c(
    "Produce Gas",
    "Cualitativa nominal dicotómica",
    "Bernoulli / Categórica nominal",
    as.character(k),
    "P(X = x_i) = h_i = n_i / n",
    moda_val,
    sprintf("%.4f", moda_hi),
    sprintf("%.6f", pearson_estadistico),
    paste0(round(pearson_ajuste, 2), "%"),
    "95%",
    decision_texto,
    sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf[1], tabla_ic$IC_sup[1]),
    sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf[2], tabla_ic$IC_sup[2])
  ),
  stringsAsFactors = FALSE
)

tabla_inf %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°6: Indicadores Inferenciales**"),
    subtitle = md("*Variable Cualitativa Nominal Dicotómica: Produce Gas*")
  ) %>%
  cols_label(
    Indicador = md("**Indicador**"),
    Valor = md("**Valor**")
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#2C2C2C"),
      cell_text(color = "white", weight = "bold")
    ),
    locations = cells_column_labels()
  ) %>%
  tab_style(
    style = cell_fill(color = "#F5F5F5"),
    locations = cells_body(rows = seq(1, nrow(tabla_inf), by = 2))
  ) %>%
  tab_style(
    style = list(
      cell_fill(color = "#D6D6D6"),
      cell_text(weight = "bold")
    ),
    locations = cells_body(
      rows = Indicador == "Resultado del Test de Pearson",
      columns = everything()
    )
  ) %>%
  tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
  tab_options(
    table.width = pct(75),
    heading.title.font.size = px(16),
    heading.subtitle.font.size = px(12),
    table.font.size = px(13),
    data_row.padding = px(6)
  )
Tabla N°6: Indicadores Inferenciales
Variable Cualitativa Nominal Dicotómica: Produce Gas
Indicador Valor
Variable Produce Gas
Tipo de variable Cualitativa nominal dicotómica
Modelo probabilístico Bernoulli / Categórica nominal
Número de categorías (k) 2
Regla de probabilidad nominal P(X = x_i) = h_i = n_i / n
Categoría modal No
Probabilidad de la categoría modal (h_i) 0.6154
Test de Pearson 0.000000
Ajuste Pearson (%) 100%
Umbral de aceptación 95%
Resultado del Test de Pearson Modelo aceptado
IC 95% - No [0.6124 ; 0.6185]
IC 95% - Sí [0.3815 ; 0.3876]
Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset

12 Conclusiones

La variable Produce Gas fue analizada como una variable cualitativa nominal dicotómica, porque sus categorías y No no poseen orden natural. Por esta razón, la probabilidad de ocurrencia de cada valor se estimó mediante su frecuencia relativa observada, es decir, \(P(X = x_i) = h_i\).

La categoría modal fue “No”, con una probabilidad nominal estimada de \(h_i = 0.6154\). Los intervalos de confianza al 95% permiten estimar el rango plausible de la proporción poblacional de cada categoría. Además, el Test de Pearson para el modelo nominal obtuvo un estadístico de 0 y un ajuste de 100%, por lo que el resultado inferencial fue: Modelo aceptado.

En síntesis, el análisis inferencial conserva la naturaleza nominal de la variable y expresa sus probabilidades mediante \(h_i\), complementando las tablas y gráficas descriptivas con intervalos de confianza y Test de Pearson.


Autor: Araujo Valeska | Análisis Estadístico Inferencial - Kansas Hydrocarbon Leases Dataset