2026-06-16Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey, para proceder con el análisis inferencial de la variable cualitativa nominal dicotómica Produce Gas.
ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"
if (file.exists(ruta_archivo)) {
datos <- read_delim(ruta_archivo, delim = ";", show_col_types = FALSE)
} else {
datos <- read_delim(file.choose(), delim = ";", show_col_types = FALSE)
}
cat("Dataset cargado correctamente.\n")
## Dataset cargado correctamente.
cat("Total de registros evaluados (filas):", nrow(datos), "\n")
## Total de registros evaluados (filas): 104173
La variable PRODUCES_GAS indica si el arrendamiento
registra producción de gas. Se filtran únicamente los valores válidos:
Yes y No; luego se traducen al español como
Sí y No.
x_raw <- datos %>%
filter(PRODUCES_GAS %in% c("Yes", "No")) %>%
mutate(
produce_gas = case_when(
PRODUCES_GAS == "Yes" ~ "Sí",
PRODUCES_GAS == "No" ~ "No"
)
) %>%
pull(produce_gas)
n <- length(x_raw)
k <- length(unique(x_raw))
cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 95958
cat("Categorías distintas:", k, "\n")
## Categorías distintas: 2
cat("\nDistribución por categoría:\n")
##
## Distribución por categoría:
print(table(x_raw))
## x_raw
## No Sí
## 59056 36902
| Criterio | Clasificación |
|---|---|
| Nombre | Produce Gas |
| Nombre técnico | PRODUCES_GAS |
| Tipo | Cualitativa |
| Subtipo | Nominal dicotómica |
| Dominio | {Sí, No} |
| Rango | 2 categorías |
| Unidad | No aplica |
| Escala | Nominal |
| Fuente | Kansas Geological Survey - Kansas, EE.UU. |
Justificación: La variable toma únicamente dos valores posibles, Sí y No, sin orden natural entre ellos. Por tanto, corresponde a una variable cualitativa nominal dicotómica. En variables nominales, la probabilidad de ocurrencia de cada categoría se estima mediante su frecuencia relativa observada:
\[P(X = x_i) = h_i = \frac{n_i}{n}\]
donde \(n_i\) es la frecuencia absoluta de la categoría \(i\) y \(n\) es el total de observaciones válidas.
Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Gas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,958).
freq_abs <- table(x_raw)
categorias <- names(freq_abs)
ni <- as.integer(freq_abs)
hi_pct <- ni / n * 100
hi_frac <- ni / n
tabla_df <- data.frame(
Categoria = categorias,
ni = ni,
hi_pct = sprintf("%.2f%%", hi_pct),
hi_frac = sprintf("%.4f", hi_frac),
stringsAsFactors = FALSE
)
total_row <- data.frame(
Categoria = "**TOTAL**",
ni = n,
hi_pct = "100.00%",
hi_frac = "1.0000",
stringsAsFactors = FALSE
)
tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)
tabla_final <- bind_rows(tabla_df, total_row)
kable(
tabla_final,
caption = paste0(
"Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, ",
"registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
"período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
),
col.names = c("Produce Gas", "Frecuencia (n_i)", "Porcentaje (h_i %)", "Porcentaje en fracción (h_i)"),
align = c("l", "c", "c", "c"),
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE,
font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
| Produce Gas | Frecuencia (n_i) | Porcentaje (h_i %) | Porcentaje en fracción (h_i) |
|---|---|---|---|
| No | 59056 | 61.54% | 0.6154 |
| Sí | 36902 | 38.46% | 0.3846 |
| TOTAL | 95958 | 100.00% | 1.0000 |
freq_ord <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))
par(mar = c(5, 6, 7, 2))
bp <- barplot(
as.numeric(freq_ord),
names.arg = names(freq_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(freq_ord)) * 1.18),
xlab = "",
ylab = "",
main = "",
las = 1
)
text(
bp,
as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
labels = format(as.numeric(freq_ord), big.mark = ","),
cex = 0.9
)
mtext("Frecuencia Absoluta (n_i)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°1: Diagrama de Barras - Frecuencia Absoluta\nde la Variable Produce Gas, Kansas, EE.UU.",
side = 3,
line = 3.5,
cex = 0.9,
font = 2
)
pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)
par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
as.numeric(pct_ord),
names.arg = names(pct_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
xlab = "",
ylab = "",
main = "",
las = 1
)
text(
bp2,
as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
labels = paste0(round(as.numeric(pct_ord), 2), "%"),
cex = 0.9
)
mtext("Porcentaje (h_i %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°2: Diagrama de Barras - Porcentaje\nde la Variable Produce Gas, Kansas, EE.UU.",
side = 3,
line = 3.5,
cex = 0.9,
font = 2
)
pct_circ <- table(x_raw) / n * 100
grises_c <- gray(c(0.35, 0.72))
par(mar = c(2, 2, 6, 2))
pie(
as.numeric(pct_circ),
labels = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
col = grises_c,
border = "black",
main = ""
)
mtext(
"Gráfica N°3: Diagrama Circular - Distribución Porcentual\nde la Variable Produce Gas, Kansas, EE.UU.",
side = 3,
line = 3.5,
cex = 0.9,
font = 2
)
La variable Produce Gas es cualitativa nominal dicotómica. Para una variable nominal, las categorías no tienen jerarquía ni distancia numérica; por ello, la probabilidad de ocurrencia de cada valor se estima directamente con la frecuencia relativa observada:
\[P(X = x_i) = h_i\]
Como existen dos categorías, el comportamiento probabilístico puede representarse mediante un modelo Bernoulli si se selecciona una categoría de éxito, por ejemplo Sí, o mediante un modelo categórico con \(k = 2\) categorías:
\[X \sim \text{Categórica}(\pi_1, \pi_2)\]
donde:
\[\pi_i = P(X = x_i) = h_i = \frac{n_i}{n}\]
Por tanto, para este análisis inferencial no se asigna una probabilidad por orden o jerarquía, sino por la proporción observada de cada categoría.
tabla_frec <- data.frame(
Categoria = categorias,
Observada = ni,
stringsAsFactors = FALSE
) %>%
mutate(
h_i = Observada / n,
Probabilidad_Nominal = h_i,
Porcentaje = h_i * 100
)
moda_val <- tabla_frec$Categoria[which.max(tabla_frec$Observada)]
moda_n <- max(tabla_frec$Observada)
moda_hi <- max(tabla_frec$h_i)
cat("=== Modelo probabilístico nominal ===\n")
## === Modelo probabilístico nominal ===
cat("Número de categorías (k):", k, "\n")
## Número de categorías (k): 2
cat("Total de observaciones válidas (n):", n, "\n")
## Total de observaciones válidas (n): 95958
cat("Categoría modal:", moda_val, "\n")
## Categoría modal: No
cat("Frecuencia de la moda:", moda_n, "\n")
## Frecuencia de la moda: 59056
cat("Probabilidad estimada de la moda (h_i):", round(moda_hi, 4), "\n")
## Probabilidad estimada de la moda (h_i): 0.6154
En esta tabla se presentan las probabilidades estimadas para cada valor de la variable. Al ser una variable nominal, la probabilidad de que suceda cada categoría corresponde a su frecuencia relativa \(h_i\).
tabla_frec %>%
mutate(
h_i = sprintf("%.4f", h_i),
Probabilidad_Nominal = sprintf("%.4f", Probabilidad_Nominal),
Porcentaje = sprintf("%.2f%%", Porcentaje)
) %>%
gt() %>%
tab_header(
title = md("**Tabla N°2: Probabilidades Nominales de Produce Gas**"),
subtitle = md("*Para variables nominales: P(X = x_i) = h_i*")
) %>%
cols_label(
Categoria = md("**Categoría**"),
Observada = md("**Frecuencia observada (n_i)**"),
h_i = md("**Frecuencia relativa (h_i)**"),
Probabilidad_Nominal = md("**P(X = x_i)**"),
Porcentaje = md("**Porcentaje**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_frec), by = 2))
) %>%
tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
tab_options(
table.width = pct(75),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°2: Probabilidades Nominales de Produce Gas | ||||
| Para variables nominales: P(X = x_i) = h_i | ||||
| Categoría | Frecuencia observada (n_i) | Frecuencia relativa (h_i) | P(X = x_i) | Porcentaje |
|---|---|---|---|---|
| No | 59056 | 0.6154 | 0.6154 | 61.54% |
| Sí | 36902 | 0.3846 | 0.3846 | 38.46% |
| Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset | ||||
Se estima el intervalo de confianza al 95% para la proporción poblacional de cada categoría. El estimador puntual de cada probabilidad nominal es:
\[\hat{p}_i = h_i\]
y el intervalo de confianza se calcula mediante:
\[IC_{95\%}: \hat{p}_i \pm z_{\alpha/2}\sqrt{\frac{\hat{p}_i(1-\hat{p}_i)}{n}}\]
z <- qnorm(0.975)
tabla_ic <- tabla_frec %>%
mutate(
p_obs = h_i,
error = z * sqrt((p_obs * (1 - p_obs)) / n),
IC_inf = round(pmax(p_obs - error, 0), 4),
IC_sup = round(pmin(p_obs + error, 1), 4),
p_obs = round(p_obs, 4)
) %>%
select(Categoria, Observada, p_obs, IC_inf, IC_sup)
tabla_ic %>%
gt() %>%
tab_header(
title = md("**Tabla N°3: Intervalos de Confianza al 95%**"),
subtitle = md("*Proporción por categoría - Produce Gas*")
) %>%
cols_label(
Categoria = md("**Categoría**"),
Observada = md("**Frecuencia observada**"),
p_obs = md("**p observada = h_i**"),
IC_inf = md("**IC inferior 95%**"),
IC_sup = md("**IC superior 95%**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_ic), by = 2))
) %>%
tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
tab_options(
table.width = pct(70),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°3: Intervalos de Confianza al 95% | ||||
| Proporción por categoría - Produce Gas | ||||
| Categoría | Frecuencia observada | p observada = h_i | IC inferior 95% | IC superior 95% |
|---|---|---|---|---|
| No | 59056 | 0.6154 | 0.6124 | 0.6185 |
| Sí | 36902 | 0.3846 | 0.3815 | 0.3876 |
| Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset | ||||
Como la variable Produce Gas es nominal, no se fuerza una probabilidad teórica de 0.5 para cada categoría. En su lugar, el modelo probabilístico nominal se construye con las probabilidades observadas:
\[P(X = x_i) = h_i\]
Por tanto, el Test de Pearson compara las frecuencias observadas con las frecuencias esperadas del propio modelo nominal:
\[E_i = n \cdot h_i\]
De esta forma, se evalúa el ajuste entre los datos observados y el modelo nominal estimado a partir de las frecuencias relativas.
\[H_0: \text{La variable Produce Gas se ajusta al modelo nominal } P(X = x_i) = h_i\]
\[H_1: \text{La variable Produce Gas no se ajusta al modelo nominal } P(X = x_i) = h_i\]
Nivel de significancia: \(\alpha = 0.05\)
El estadístico de Pearson se calcula como:
\[X_P^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}\]
tabla_pearson <- tabla_frec %>%
mutate(
Esperada_Pearson = n * h_i,
Diferencia = Observada - Esperada_Pearson,
Componente_Pearson = ifelse(
Esperada_Pearson > 0,
(Diferencia^2) / Esperada_Pearson,
0
)
)
pearson_estadistico <- sum(tabla_pearson$Componente_Pearson)
pearson_ajuste <- 100 / (1 + pearson_estadistico)
pearson_resultado <- ifelse(
pearson_ajuste >= 95,
"Modelo aceptado",
"Modelo no aceptado"
)
cat("=== Test de Pearson para Modelo Nominal ===\n")
## === Test de Pearson para Modelo Nominal ===
cat("Regla nominal: P(X = x_i) = h_i\n")
## Regla nominal: P(X = x_i) = h_i
cat("Estadístico de Pearson:", round(pearson_estadistico, 6), "\n")
## Estadístico de Pearson: 0
cat("Porcentaje de ajuste Pearson:", round(pearson_ajuste, 2), "%\n")
## Porcentaje de ajuste Pearson: 100 %
cat("Resultado:", pearson_resultado, "\n")
## Resultado: Modelo aceptado
tabla_pearson %>%
mutate(
h_i = sprintf("%.4f", h_i),
Esperada_Pearson = sprintf("%.2f", Esperada_Pearson),
Diferencia = sprintf("%.4f", Diferencia),
Componente_Pearson = sprintf("%.6f", Componente_Pearson)
) %>%
select(Categoria, Observada, h_i, Esperada_Pearson, Diferencia, Componente_Pearson) %>%
gt() %>%
tab_header(
title = md("**Tabla N°4: Test de Pearson para el Modelo Nominal**"),
subtitle = md("*Modelo: P(X = x_i) = h_i*")
) %>%
cols_label(
Categoria = md("**Categoría**"),
Observada = md("**Observada (O_i)**"),
h_i = md("**Probabilidad h_i**"),
Esperada_Pearson = md("**Esperada (E_i = n h_i)**"),
Diferencia = md("**O_i - E_i**"),
Componente_Pearson = md("**Componente Pearson**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_pearson), by = 2))
) %>%
tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
tab_options(
table.width = pct(85),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°4: Test de Pearson para el Modelo Nominal | |||||
| Modelo: P(X = x_i) = h_i | |||||
| Categoría | Observada (O_i) | Probabilidad h_i | Esperada (E_i = n h_i) | O_i - E_i | Componente Pearson |
|---|---|---|---|---|---|
| No | 59056 | 0.6154 | 59056.00 | 0.0000 | 0.000000 |
| Sí | 36902 | 0.3846 | 36902.00 | 0.0000 | 0.000000 |
| Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset | |||||
tabla_resumen_pearson <- data.frame(
Variable = "Produce Gas",
Tipo_Variable = "Cualitativa nominal dicotómica",
Modelo = "Nominal: P(X = x_i) = h_i",
Pearson = round(pearson_estadistico, 6),
Ajuste_Pearson = paste0(round(pearson_ajuste, 2), "%"),
Umbral_Aceptacion = "95%",
Resultado_Final = pearson_resultado,
check.names = FALSE
)
tabla_resumen_pearson %>%
gt() %>%
tab_header(
title = md("**Tabla N°5: Resumen del Test de Pearson**")
) %>%
cols_label(
Variable = md("**Variable**"),
Tipo_Variable = md("**Tipo de variable**"),
Modelo = md("**Modelo probabilístico**"),
Pearson = md("**Test Pearson**"),
Ajuste_Pearson = md("**Ajuste Pearson (%)**"),
Umbral_Aceptacion = md("**Umbral de aceptación**"),
Resultado_Final = md("**Resultado final**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold", align = "center")
),
locations = cells_title()
) %>%
tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
tab_options(
table.width = pct(90),
heading.title.font.size = px(14),
table.font.size = px(13),
data_row.padding = px(8)
)
| Tabla N°5: Resumen del Test de Pearson | ||||||
| Variable | Tipo de variable | Modelo probabilístico | Test Pearson | Ajuste Pearson (%) | Umbral de aceptación | Resultado final |
|---|---|---|---|---|---|---|
| Produce Gas | Cualitativa nominal dicotómica | Nominal: P(X = x_i) = h_i | 0 | 100% | 95% | Modelo aceptado |
| Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset | ||||||
par(mar = c(5, 6, 6, 2))
bp4 <- barplot(
tabla_frec$h_i,
names.arg = tabla_frec$Categoria,
col = gray(seq(0.35, 0.75, length.out = nrow(tabla_frec))),
border = "black",
ylim = c(0, max(tabla_frec$h_i) * 1.25),
xlab = "",
ylab = "",
main = "",
las = 1
)
text(
bp4,
tabla_frec$h_i + max(tabla_frec$h_i) * 0.04,
labels = sprintf("h_i = %.4f", tabla_frec$h_i),
cex = 0.9
)
mtext("Probabilidad nominal P(X = x_i) = h_i", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°4: Probabilidades Nominales Observadas - Produce Gas",
side = 3,
line = 2.5,
cex = 0.9,
font = 2
)
par(mar = c(5, 6, 6, 2))
bp5 <- barplot(
tabla_ic$p_obs,
names.arg = tabla_ic$Categoria,
col = gray(seq(0.35, 0.75, length.out = nrow(tabla_ic))),
border = "black",
ylim = c(0, min(1, max(tabla_ic$IC_sup) * 1.25)),
xlab = "",
ylab = "",
main = "",
las = 1
)
arrows(
x0 = bp5,
y0 = tabla_ic$IC_inf,
x1 = bp5,
y1 = tabla_ic$IC_sup,
angle = 90,
code = 3,
length = 0.08,
lwd = 1.5
)
abline(h = 0.5, col = "black", lty = 2, lwd = 1.2)
mtext("Proporción estimada", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°5: Intervalos de Confianza al 95% por Categoría - Produce Gas",
side = 3,
line = 2.5,
cex = 0.85,
font = 2
)
legend(
"topright",
legend = c("h_i observado", "Referencia 0.5", "IC 95%"),
fill = c("gray60", NA, NA),
lty = c(NA, 2, 1),
lwd = c(NA, 1.2, 1.5),
bty = "n",
cex = 0.85
)
decision_texto <- pearson_resultado
tabla_inf <- data.frame(
Indicador = c(
"Variable",
"Tipo de variable",
"Modelo probabilístico",
"Número de categorías (k)",
"Regla de probabilidad nominal",
"Categoría modal",
"Probabilidad de la categoría modal (h_i)",
"Test de Pearson",
"Ajuste Pearson (%)",
"Umbral de aceptación",
"Resultado del Test de Pearson",
paste0("IC 95% - ", tabla_ic$Categoria[1]),
paste0("IC 95% - ", tabla_ic$Categoria[2])
),
Valor = c(
"Produce Gas",
"Cualitativa nominal dicotómica",
"Bernoulli / Categórica nominal",
as.character(k),
"P(X = x_i) = h_i = n_i / n",
moda_val,
sprintf("%.4f", moda_hi),
sprintf("%.6f", pearson_estadistico),
paste0(round(pearson_ajuste, 2), "%"),
"95%",
decision_texto,
sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf[1], tabla_ic$IC_sup[1]),
sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf[2], tabla_ic$IC_sup[2])
),
stringsAsFactors = FALSE
)
tabla_inf %>%
gt() %>%
tab_header(
title = md("**Tabla N°6: Indicadores Inferenciales**"),
subtitle = md("*Variable Cualitativa Nominal Dicotómica: Produce Gas*")
) %>%
cols_label(
Indicador = md("**Indicador**"),
Valor = md("**Valor**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_inf), by = 2))
) %>%
tab_style(
style = list(
cell_fill(color = "#D6D6D6"),
cell_text(weight = "bold")
),
locations = cells_body(
rows = Indicador == "Resultado del Test de Pearson",
columns = everything()
)
) %>%
tab_source_note(source_note = md("*Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset*")) %>%
tab_options(
table.width = pct(75),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°6: Indicadores Inferenciales | |
| Variable Cualitativa Nominal Dicotómica: Produce Gas | |
| Indicador | Valor |
|---|---|
| Variable | Produce Gas |
| Tipo de variable | Cualitativa nominal dicotómica |
| Modelo probabilístico | Bernoulli / Categórica nominal |
| Número de categorías (k) | 2 |
| Regla de probabilidad nominal | P(X = x_i) = h_i = n_i / n |
| Categoría modal | No |
| Probabilidad de la categoría modal (h_i) | 0.6154 |
| Test de Pearson | 0.000000 |
| Ajuste Pearson (%) | 100% |
| Umbral de aceptación | 95% |
| Resultado del Test de Pearson | Modelo aceptado |
| IC 95% - No | [0.6124 ; 0.6185] |
| IC 95% - Sí | [0.3815 ; 0.3876] |
| Autor: Araujo Valeska - Kansas Hydrocarbon Leases Dataset | |
La variable Produce Gas fue analizada como una variable cualitativa nominal dicotómica, porque sus categorías Sí y No no poseen orden natural. Por esta razón, la probabilidad de ocurrencia de cada valor se estimó mediante su frecuencia relativa observada, es decir, \(P(X = x_i) = h_i\).
La categoría modal fue “No”, con una probabilidad nominal estimada de \(h_i = 0.6154\). Los intervalos de confianza al 95% permiten estimar el rango plausible de la proporción poblacional de cada categoría. Además, el Test de Pearson para el modelo nominal obtuvo un estadístico de 0 y un ajuste de 100%, por lo que el resultado inferencial fue: Modelo aceptado.
En síntesis, el análisis inferencial conserva la naturaleza nominal de la variable y expresa sus probabilidades mediante \(h_i\), complementando las tablas y gráficas descriptivas con intervalos de confianza y Test de Pearson.
Autor: Araujo Valeska | Análisis Estadístico Inferencial - Kansas Hydrocarbon Leases Dataset