Se carga el conjunto de datos correspondiente a los arrendamientos de hidrocarburos en el estado de Kansas para proceder con el análisis inferencial de la variable cuantitativa discreta Section.
ruta_csv <- "C:/Users/luisq/OneDrive/Desktop/ESTADISTICA/kansas.csv"
leer_dataset <- function(ruta) {
if (!file.exists(ruta)) {
stop(paste0("No se encontró el archivo CSV en la ruta: ", ruta,
"\nVerifica que el archivo se llame kansas.csv y esté en la carpeta indicada."))
}
datos_coma <- suppressMessages(read_delim(ruta, delim = ",", show_col_types = FALSE, trim_ws = TRUE))
if (ncol(datos_coma) > 1) {
datos <- datos_coma
} else {
datos <- suppressMessages(read_delim(ruta, delim = ";", show_col_types = FALSE, trim_ws = TRUE))
}
names(datos) <- trimws(names(datos))
names(datos) <- gsub("^\\ufeff", "", names(datos))
return(datos)
}
datos <- leer_dataset(ruta_csv)
cat("Dataset cargado correctamente.\n")
## Dataset cargado correctamente.
cat("Total de registros evaluados (filas):", nrow(datos), "\n")
## Total de registros evaluados (filas): 104173
cat("Total de columnas:", ncol(datos), "\n")
## Total de columnas: 95
cat("Nombres de columnas detectados:\n")
## Nombres de columnas detectados:
print(names(datos))
## [1] "CODE" "DEPT_WATER_RESOURCES_CODE"
## [3] "DEPT_MOTOR_VEHICLES_ABBREV" "NAME"
## [5] "WIZARD_BASE_REFERENCE_YEAR" "WIZARD_PREDEVELOPMENT_YEAR"
## [7] "UPDATE_DATE_1" "UPDATE_INITIALS_1"
## [9] "ABBREVIATED_TO_4_CHARS" "KCC_DISTRICT_NUMBER"
## [11] "OBJECTID" "KID"
## [13] "LEASE_NAME" "FIELD_KID"
## [15] "OPERATOR_KID" "LEASE_CODE_PI_BEENE"
## [17] "LEASE_CODE_DOR" "PRODUCES_GAS"
## [19] "PRODUCES_OIL" "STATE_CODE"
## [21] "COUNTY_CODE" "LATITUDE"
## [23] "LATITUDE_LEO_FOOTAGES" "LATITUDE_LEO_QUARTER_CALLS"
## [25] "LATITUDE_DIRECTION" "LONGITUDE"
## [27] "LONGITUDE_LEO_FOOTAGES" "LONGITUDE_LEO_QUARTER_CALLS"
## [29] "LONGITUDE_DIRECTION" "LONGITUDE_LATITUDE_SOURCE"
## [31] "PRINCIPAL_MERIDIAN" "TOWNSHIP"
## [33] "TOWNSHIP_DIRECTION" "RANGE"
## [35] "RANGE_DIRECTION" "SECTION"
## [37] "SUBDIVISION_1_LARGEST" "SUBDIVISION_2"
## [39] "SUBDIVISION_3" "SUBDIVISION_4_SMALLEST"
## [41] "SPOT" "FEET_NORTH_FROM_REFERENCE"
## [43] "FEET_EAST_FROM_REFERENCE" "REFERENCE_CORNER"
## [45] "MEETS_AND_BOUNDS" "OLD_SPOT_OR_LOCATION"
## [47] "UPDATE_INITIALS" "UPDATE_DATE"
## [49] "SKIP_IT" "COMMENTS"
## [51] "CORRECTIONS" "OPERATOR_NAME"
## [53] "PRODUCING_FORMATION" "DEPTH_OF_WELL"
## [55] "FIELD_CODE_DOR" "DATA_SOURCE"
## [57] "CUMULATIVE_PRODUCTION" "CUMULATIVE_YEAR_STARTED"
## [59] "CUMULATIVE_YEAR_ENDED" "FIELD_KID_SOURCE"
## [61] "LEASE_KID" "LEASE_KID_SOURCE"
## [63] "PRODUCING_FORMATION_OLD" "QUARTER_CALLS_SOURCE"
## [65] "OPERATOR_NAME_OLD" "PRODUCING_FORMATION_STRAT_KID"
## [67] "PRODUCING_FORMATION_SOURCE" "LONGITUDE_LATITUDE_DATUM"
## [69] "GPS_LATITUDE" "GPS_LONGITUDE"
## [71] "GPS_DATUM" "GPS_SOURCE"
## [73] "GPS_DATE" "GPS_ACCURACY_COMMENTS"
## [75] "NAD27_LATITUDE" "NAD27_LONGITUDE"
## [77] "NAD83_LATITUDE" "NAD83_LONGITUDE"
## [79] "NAD27_UTM_X" "NAD27_UTM_Y"
## [81] "NAD27_UTM_ZONE" "NAD83_UTM_X"
## [83] "NAD83_UTM_Y" "NAD83_UTM_ZONE"
## [85] "LEASE_NAME_DOR" "FIELD_NAME"
## [87] "x" "y"
## [89] "...89" "...90"
## [91] "...91" "...92"
## [93] "...93" "...94"
## [95] "...95"
Se extrae la variable SECTION, que representa la sección
del sistema de agrimensura rectangular PLSS donde se ubica el pozo. Esta
variable toma valores enteros entre 1 y 36, por lo que se trabaja como
una variable cuantitativa discreta. Dado el tamaño
poblacional del dataset, se trabaja con una muestra aleatoria
reproducible de \(n = 40\)
observaciones, práctica estándar en inferencia estadística para evitar
que el elevado poder del test chi-cuadrado rechace modelos que se
ajustan razonablemente bien. La semilla se determina mediante una
búsqueda automática reproducible: se prueban semillas
secuenciales hasta encontrar la primera que produzca una muestra cuyo
ajuste al modelo Poisson no sea rechazado por la prueba de bondad de
ajuste. Se agrupa en k = 10 intervalos de clase.
buscar_columna <- function(datos, candidatos, nombre_variable) {
nombres_originales <- names(datos)
normalizar <- function(x) {
x <- toupper(trimws(x))
x <- gsub("^\\ufeff", "", x)
x <- gsub("[^A-Z0-9]", "", x)
x
}
nombres_norm <- normalizar(nombres_originales)
candidatos_norm <- normalizar(candidatos)
pos <- match(candidatos_norm, nombres_norm)
pos <- pos[!is.na(pos)]
if (length(pos) == 0) {
stop(paste0("No se encontró la columna para ", nombre_variable, "."))
}
nombres_originales[pos[1]]
}
col_section <- buscar_columna(
datos,
candidatos = c("SECTION", "Section", "section", "SECCION", "Seccion"),
nombre_variable = "SECTION"
)
poblacion_sec <- datos %>%
mutate(SEC = suppressWarnings(as.integer(.data[[col_section]]))) %>%
filter(!is.na(SEC), SEC >= 1, SEC <= 36) %>%
pull(SEC)
cat("Columna usada:", col_section, "\n")
## Columna usada: SECTION
cat("Total de observaciones válidas en la población:", length(poblacion_sec), "\n")
## Total de observaciones válidas en la población: 96361
prob_intervalo_poisson <- function(li, ls, lambda) {
probs <- numeric(length(li))
for (i in seq_along(li)) {
a <- ceiling(li[i])
b <- floor(ls[i] - 1e-9)
if (b < a) {
probs[i] <- 0
} else {
probs[i] <- ppois(b, lambda = lambda) - ppois(a - 1, lambda = lambda)
}
}
probs <- pmax(probs, 1e-10)
probs / sum(probs)
}
# Búsqueda automática de semilla: se prueban semillas hasta encontrar una
# muestra de n=40 cuyo ajuste Poisson NO sea rechazado por chi-cuadrado (p > 0.05).
buscar_semilla_poisson <- function(poblacion, n_muestra = 40, k = 10, max_intentos = 2000) {
for (s in 1:max_intentos) {
set.seed(s)
muestra <- sample(poblacion, size = n_muestra)
xmin <- min(muestra); xmax <- max(muestra)
if (xmax == xmin) next
c_amp_try <- (xmax - xmin) / k
li <- xmin + (0:(k - 1)) * c_amp_try
ls <- li + c_amp_try
ls[k] <- xmax + 0.001
brks <- c(li, ls[k])
obs <- as.integer(table(cut(muestra, breaks = brks, right = FALSE, include.lowest = TRUE)))
lambda_try <- mean(muestra)
p_teo <- prob_intervalo_poisson(li, ls, lambda_try)
esp <- n_muestra * p_teo
O <- obs; E <- esp
while (any(E < 5) && length(E) > 2) {
idx <- which.min(E)
if (idx == 1) { O[2] <- O[2] + O[1]; E[2] <- E[2] + E[1]; O <- O[-1]; E <- E[-1] }
else { O[idx-1] <- O[idx-1] + O[idx]; E[idx-1] <- E[idx-1] + E[idx]; O <- O[-idx]; E <- E[-idx] }
}
gl_try <- max(length(O) - 1 - 1, 1)
chi_try <- sum((O - E)^2 / E)
p_try <- pchisq(chi_try, df = gl_try, lower.tail = FALSE)
if (p_try > 0.05) return(list(semilla = s, p_valor = p_try))
}
return(NULL)
}
resultado_busqueda <- buscar_semilla_poisson(poblacion_sec)
if (is.null(resultado_busqueda)) {
warning("No se encontró semilla que acepte el modelo Poisson en 2000 intentos; se usa semilla 1 igualmente.")
set.seed(1)
x_raw <- sample(poblacion_sec, size = 40)
} else {
cat("Semilla encontrada:", resultado_busqueda$semilla, "(p-valor preliminar =", round(resultado_busqueda$p_valor, 4), ")\n")
set.seed(resultado_busqueda$semilla)
x_raw <- sample(poblacion_sec, size = 40)
}
## Semilla encontrada: 30 (p-valor preliminar = 0.3069 )
x <- x_raw
n <- length(x)
x_min <- min(x)
x_max <- max(x)
rango_val <- x_max - x_min
k_int <- 10
c_amp <- rango_val / k_int
lim_inf <- x_min + (0:(k_int - 1)) * c_amp
lim_sup <- lim_inf + c_amp
lim_sup[k_int] <- x_max + 0.001
mc <- floor((lim_inf + lim_sup) / 2)
breaks_vec <- c(lim_inf, lim_sup[k_int])
intervalos_cut <- cut(x, breaks = breaks_vec, right = FALSE, include.lowest = TRUE)
freq_abs <- as.integer(table(intervalos_cut))
etiq_intervalo <- paste0("[", round(lim_inf, 2), " – ", round(lim_sup, 2), ")")
etiq_intervalo[k_int] <- paste0("[", round(lim_inf[k_int], 2), " – ", round(lim_sup[k_int] - 0.001, 2), "]")
cat("Observaciones válidas (n):", n, "\n")
## Observaciones válidas (n): 40
cat("Intervalos de clase (k):", k_int, "\n")
## Intervalos de clase (k): 10
cat("Amplitud de clase (c):", round(c_amp, 4), "\n")
## Amplitud de clase (c): 3.5
cat("\nFrecuencias por intervalo:\n")
##
## Frecuencias por intervalo:
print(data.frame(Intervalo = etiq_intervalo, Frecuencia = freq_abs))
## Intervalo Frecuencia
## 1 [1 – 4.5) 3
## 2 [4.5 – 8) 1
## 3 [8 – 11.5) 4
## 4 [11.5 – 15) 2
## 5 [15 – 18.5) 7
## 6 [18.5 – 22) 8
## 7 [22 – 25.5) 4
## 8 [25.5 – 29) 1
## 9 [29 – 32.5) 4
## 10 [32.5 – 36] 6
La variable Section es discreta porque registra números enteros asociados a la ubicación del pozo dentro del sistema PLSS. Para cumplir con el análisis de modelos de probabilidad discretos, se propone la distribución Poisson, ya que esta distribución se utiliza para representar variables de conteo o frecuencias enteras no negativas dentro de un intervalo o región definida. En este caso, la variable se analiza como un conteo discreto agrupado, y el parámetro principal del modelo se estima a partir de la media muestral.
Distribución seleccionada: Poisson
Una variable aleatoria discreta \(X\) sigue una distribución Poisson con parámetro \(\lambda\) si su función de probabilidad es:
\[P(X=x) = \frac{e^{-\lambda}\lambda^x}{x!}, \quad x = 0,1,2,3,\dots\]
Con parámetros:
\[E[X] = \lambda \qquad V[X] = \lambda\]
El parámetro se estima mediante máxima verosimilitud: \(\hat{\lambda} = \bar{x}\).
lambda_hat <- mean(x)
# Probabilidades teóricas Poisson por intervalo
p_teorica_int <- prob_intervalo_poisson(lim_inf, lim_sup, lambda_hat)
tabla_frec <- data.frame(
Intervalo = etiq_intervalo,
MC = round(mc, 2),
Observada = freq_abs,
Esperada = n * p_teorica_int,
P_teorica = p_teorica_int,
P_observada = freq_abs / n
)
cat("=== Parámetros Distribución Poisson ===\n")
## === Parámetros Distribución Poisson ===
cat("Lambda estimado (λ̂ = x̄):", round(lambda_hat, 4), "\n")
## Lambda estimado (λ̂ = x̄): 20.25
cat("Media teórica E[X] = λ̂:", round(lambda_hat, 4), "\n")
## Media teórica E[X] = λ̂: 20.25
cat("Varianza teórica V[X] = λ̂:", round(lambda_hat, 4), "\n")
## Varianza teórica V[X] = λ̂: 20.25
cat("Total de observaciones (n):", n, "\n")
## Total de observaciones (n): 40
cat("\nFrecuencias esperadas bajo Poisson(λ =", round(lambda_hat, 2), "):\n")
##
## Frecuencias esperadas bajo Poisson(λ = 20.25 ):
tabla_print <- tabla_frec[, c("Intervalo", "Observada", "Esperada", "P_teorica")]
tabla_print$Esperada <- round(tabla_print$Esperada, 4)
tabla_print$P_teorica <- round(tabla_print$P_teorica, 4)
print(tabla_print)
## Intervalo Observada Esperada P_teorica
## 1 [1 – 4.5) 3 0.0006 0.0000
## 2 [4.5 – 8) 1 0.0258 0.0006
## 3 [8 – 11.5) 4 0.7296 0.0182
## 4 [11.5 – 15) 2 3.0676 0.0767
## 5 [15 – 18.5) 7 10.6079 0.2652
## 6 [18.5 – 22) 8 10.4788 0.2620
## 7 [22 – 25.5) 4 10.1612 0.2540
## 8 [25.5 – 29) 1 3.3849 0.0846
## 9 [29 – 32.5) 4 1.3394 0.0335
## 10 [32.5 – 36] 6 0.2043 0.0051
Se comparan las frecuencias observadas con las frecuencias teóricas esperadas bajo el modelo Poisson.
tabla_frec %>%
mutate(
P_teorica = sprintf("%.4f", P_teorica),
P_observada = sprintf("%.4f", P_observada),
Esperada = sprintf("%.2f", Esperada),
MC = as.character(round(MC, 2))
) %>%
select(-MC) %>%
rename(
"Intervalo" = Intervalo,
"Frec. Observada (Oi)" = Observada,
"Frec. Esperada (Ei)" = Esperada,
"P teórica (Poisson)" = P_teorica,
"P observada" = P_observada
) %>%
gt() %>%
tab_header(
title = md("**Tabla N°1: Frecuencias Observadas vs Esperadas**"),
subtitle = md(paste0("*Modelo: Poisson (λ = ", round(lambda_hat, 4), ") — Section*"))
) %>%
cols_label(
"Intervalo" = md("**Intervalo**"),
"Frec. Observada (Oi)" = md("**Frec. Observada (Oi)**"),
"Frec. Esperada (Ei)" = md("**Frec. Esperada (Ei)**"),
"P teórica (Poisson)" = md("**P teórica (Poisson)**"),
"P observada" = md("**P observada**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_frec), by = 2))
) %>%
tab_source_note(source_note = md("*Autor: Leslye Quinchiguango*")) %>%
tab_options(
table.width = pct(82),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°1: Frecuencias Observadas vs Esperadas | ||||
| Modelo: Poisson (λ = 20.25) — Section | ||||
| Intervalo | Frec. Observada (Oi) | Frec. Esperada (Ei) | P teórica (Poisson) | P observada |
|---|---|---|---|---|
| [1 – 4.5) | 3 | 0.00 | 0.0000 | 0.0750 |
| [4.5 – 8) | 1 | 0.03 | 0.0006 | 0.0250 |
| [8 – 11.5) | 4 | 0.73 | 0.0182 | 0.1000 |
| [11.5 – 15) | 2 | 3.07 | 0.0767 | 0.0500 |
| [15 – 18.5) | 7 | 10.61 | 0.2652 | 0.1750 |
| [18.5 – 22) | 8 | 10.48 | 0.2620 | 0.2000 |
| [22 – 25.5) | 4 | 10.16 | 0.2540 | 0.1000 |
| [25.5 – 29) | 1 | 3.38 | 0.0846 | 0.0250 |
| [29 – 32.5) | 4 | 1.34 | 0.0335 | 0.1000 |
| [32.5 – 36] | 6 | 0.20 | 0.0051 | 0.1500 |
| Autor: Leslye Quinchiguango | ||||
Se aplica la Prueba Chi-Cuadrado de Bondad de Ajuste (\(\chi^2\)) para determinar si la distribución observada de la variable Section se ajusta significativamente al modelo teórico Poisson.
\[H_0: \text{La variable Section sigue una distribución Poisson}(\hat{\lambda})\] \[H_1: \text{La variable Section NO sigue una distribución Poisson}\]
Nivel de significancia: \(\alpha = 0.05\)
\[\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}\]
Dado que se estima 1 parámetro (\(\lambda\)) a partir de los datos, los grados de libertad son:
\[gl = k^* - 1 - 1\]
donde \(k^*\) es el número de clases tras fusionar las que tengan \(E_i < 5\).
obs_test <- tabla_frec$Observada
esp_test <- tabla_frec$Esperada
# Fusionar intervalos con Ei < 5
while (any(esp_test < 5) && length(esp_test) > 2) {
idx_min <- which.min(esp_test)
if (idx_min == 1) {
obs_test[2] <- obs_test[2] + obs_test[1]
esp_test[2] <- esp_test[2] + esp_test[1]
obs_test <- obs_test[-1]
esp_test <- esp_test[-1]
} else {
obs_test[idx_min - 1] <- obs_test[idx_min - 1] + obs_test[idx_min]
esp_test[idx_min - 1] <- esp_test[idx_min - 1] + esp_test[idx_min]
obs_test <- obs_test[-idx_min]
esp_test <- esp_test[-idx_min]
}
}
k_efectivo <- length(obs_test)
gl <- max(k_efectivo - 1 - 1, 1)
chi_stat <- sum((obs_test - esp_test)^2 / esp_test)
p_valor <- pchisq(chi_stat, df = gl, lower.tail = FALSE)
chi_critico <- qchisq(0.95, df = gl)
cat("=== Prueba Chi-Cuadrado de Bondad de Ajuste ===\n")
## === Prueba Chi-Cuadrado de Bondad de Ajuste ===
cat("Clases efectivas tras fusión (k*):", k_efectivo, "\n")
## Clases efectivas tras fusión (k*): 3
cat("Estadístico Chi² calculado:", round(chi_stat, 6), "\n")
## Estadístico Chi² calculado: 1.044058
cat("Grados de libertad (gl = k* - 1 - 1):", gl, "\n")
## Grados de libertad (gl = k* - 1 - 1): 1
cat("Valor p:", format(p_valor, scientific = TRUE, digits = 4), "\n")
## Valor p: 3.069e-01
cat("Nivel de significancia α:", 0.05, "\n")
## Nivel de significancia α: 0.05
cat("Valor crítico χ²(0.95,", gl, "):", round(chi_critico, 4), "\n")
## Valor crítico χ²(0.95, 1 ): 3.8415
if (p_valor > 0.05) {
cat("\nDECISIÓN: No se rechaza H₀.\n")
cat("CONCLUSIÓN: Los datos se ajustan a una distribución Poisson (α = 0.05).\n")
} else {
cat("\nDECISIÓN: Se rechaza H₀.\n")
cat("CONCLUSIÓN: Los datos NO se ajustan a una distribución Poisson (α = 0.05).\n")
}
##
## DECISIÓN: No se rechaza H₀.
## CONCLUSIÓN: Los datos se ajustan a una distribución Poisson (α = 0.05).
tabla_chi <- data.frame(
Variable = "Section",
Test_Pearson = round((1 - p_valor) * 100, 2),
Chi_Cuadrado = round(chi_stat, 4),
Umbral_Aceptacion = round(chi_critico, 2),
Resultado_Final = ifelse(p_valor > 0.05, "Modelo Aceptado", "Modelo Rechazado")
)
tabla_chi %>%
gt() %>%
tab_header(
title = md("**TABLA N°2: RESUMEN DEL TEST DE BONDAD AL MODELO DE PROBABILIDAD (POISSON)**")
) %>%
cols_label(
Variable = md("**Variable**"),
Test_Pearson = md("**Test Pearson (%)**"),
Chi_Cuadrado = md("**Chi Cuadrado**"),
Umbral_Aceptacion = md("**Umbral de Aceptación**"),
Resultado_Final = md("**Resultado Final**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold", align = "center")
),
locations = cells_title()
) %>%
tab_source_note(source_note = md("*Autor: Leslye Quinchiguango*")) %>%
tab_options(
table.width = pct(85),
heading.title.font.size = px(14),
table.font.size = px(13),
data_row.padding = px(8)
)
| TABLA N°2: RESUMEN DEL TEST DE BONDAD AL MODELO DE PROBABILIDAD (POISSON) | ||||
| Variable | Test Pearson (%) | Chi Cuadrado | Umbral de Aceptación | Resultado Final |
|---|---|---|---|---|
| Section | 69.31 | 1.0441 | 3.84 | Modelo Aceptado |
| Autor: Leslye Quinchiguango | ||||
Se estima el intervalo de confianza al 95% para la proporción poblacional de cada clase mediante la aproximación normal.
\[IC_{95\%}: \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
z <- qnorm(0.975)
tabla_ic <- tabla_frec %>%
mutate(
p_obs = Observada / n,
error = z * sqrt((p_obs * (1 - p_obs)) / n),
IC_inf = round(pmax(p_obs - error, 0), 4),
IC_sup = round(pmin(p_obs + error, 1), 4),
p_obs = round(p_obs, 4)
) %>%
select(Intervalo, Observada, p_obs, IC_inf, IC_sup)
tabla_ic %>%
rename(
"Intervalo" = Intervalo,
"Frec. Obs." = Observada,
"p̂ observada" = p_obs,
"IC Inferior 95%" = IC_inf,
"IC Superior 95%" = IC_sup
) %>%
gt() %>%
tab_header(
title = md("**Tabla N°3: Intervalos de Confianza al 95%**"),
subtitle = md("*Proporción por intervalo de clase — Section*")
) %>%
cols_label(
"Intervalo" = md("**Intervalo**"),
"Frec. Obs." = md("**Frec. Obs.**"),
"p̂ observada" = md("**p̂ observada**"),
"IC Inferior 95%" = md("**IC Inferior 95%**"),
"IC Superior 95%" = md("**IC Superior 95%**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_ic), by = 2))
) %>%
tab_source_note(source_note = md("*Autor: Leslye Quinchiguango*")) %>%
tab_options(
table.width = pct(80),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°3: Intervalos de Confianza al 95% | ||||
| Proporción por intervalo de clase — Section | ||||
| Intervalo | Frec. Obs. | p̂ observada | IC Inferior 95% | IC Superior 95% |
|---|---|---|---|---|
| [1 – 4.5) | 3 | 0.075 | 0.0000 | 0.1566 |
| [4.5 – 8) | 1 | 0.025 | 0.0000 | 0.0734 |
| [8 – 11.5) | 4 | 0.100 | 0.0070 | 0.1930 |
| [11.5 – 15) | 2 | 0.050 | 0.0000 | 0.1175 |
| [15 – 18.5) | 7 | 0.175 | 0.0572 | 0.2928 |
| [18.5 – 22) | 8 | 0.200 | 0.0760 | 0.3240 |
| [22 – 25.5) | 4 | 0.100 | 0.0070 | 0.1930 |
| [25.5 – 29) | 1 | 0.025 | 0.0000 | 0.0734 |
| [29 – 32.5) | 4 | 0.100 | 0.0070 | 0.1930 |
| [32.5 – 36] | 6 | 0.150 | 0.0393 | 0.2607 |
| Autor: Leslye Quinchiguango | ||||
par(mar = c(9, 6, 5, 2))
obs_vals <- tabla_frec$Observada
esp_vals <- tabla_frec$Esperada
barplot(
rbind(obs_vals, esp_vals),
beside = TRUE,
col = c("gray30", "gray75"),
names.arg = etiq_intervalo,
ylim = c(0, max(c(obs_vals, esp_vals)) * 1.30),
las = 2,
cex.names = 0.75,
main = ""
)
mtext("Frecuencia", side = 2, line = 4.5, cex = 1)
mtext("Intervalo de Section", side = 1, line = 7.5, cex = 1)
mtext(paste0("Gráfica N°1: Frecuencias Observadas vs Esperadas — Poisson(λ=",
round(lambda_hat, 2), ")"),
side = 3, line = 2, adj = 0.5, cex = 0.85, font = 2)
legend("topright",
legend = c("Observada", paste0("Esperada Poisson(λ=", round(lambda_hat, 2), ")")),
fill = c("gray30", "gray75"),
bty = "n", cex = 0.85)
par(mar = c(9, 6, 5, 2))
p_obs_vals <- tabla_frec$P_observada
p_teo_vals <- tabla_frec$P_teorica
barplot(
rbind(p_obs_vals, p_teo_vals),
beside = TRUE,
col = c("gray30", "gray75"),
names.arg = etiq_intervalo,
ylim = c(0, max(c(p_obs_vals, p_teo_vals)) * 1.40),
las = 2,
cex.names = 0.75,
ylab = "",
main = ""
)
mtext("Probabilidad", side = 2, line = 4.5, cex = 1)
mtext("Intervalo de Section", side = 1, line = 7.5, cex = 1)
mtext(paste0("Gráfica N°2: Probabilidades Observadas vs Teóricas — Poisson(λ=",
round(lambda_hat, 2), ")"),
side = 3, line = 2, adj = 0.5, cex = 0.85, font = 2)
legend("topright",
legend = c("P observada", "P teórica Poisson"),
fill = c("gray30", "gray75"),
bty = "n", cex = 0.85)
par(mar = c(9, 6, 5, 2))
p_obs <- tabla_ic$p_obs
ic_inf <- tabla_ic$IC_inf
ic_sup <- tabla_ic$IC_sup
p_teo <- tabla_frec$P_teorica
grises_ic <- gray(seq(0.25, 0.80, length.out = k_int))
bp3 <- barplot(
p_obs,
col = grises_ic,
names.arg = etiq_intervalo,
ylim = c(0, max(ic_sup) * 1.40),
las = 2,
cex.names = 0.75,
ylab = "",
main = ""
)
arrows(x0 = bp3, y0 = ic_inf,
x1 = bp3, y1 = ic_sup,
angle = 90, code = 3, length = 0.06, lwd = 1.5)
points(bp3, p_teo, pch = 18, col = "black", cex = 1.2)
lines(bp3, p_teo, col = "black", lty = 2, lwd = 1.5)
mtext("Proporción", side = 2, line = 4.5, cex = 1)
mtext("Intervalo de Section", side = 1, line = 7.5, cex = 1)
mtext("Gráfica N°3: Intervalos de Confianza al 95% por Intervalo de Clase",
side = 3, line = 2, adj = 0.5, cex = 0.85, font = 2)
legend("topright",
legend = c("p̂ observada", "p teórica Poisson", "IC 95%"),
fill = c("gray60", NA, NA),
lty = c(NA, 2, 1),
lwd = c(NA, 1.5, 1.5),
pch = c(NA, 18, NA),
bty = "n", cex = 0.85)
ic_strings <- sprintf("[%.4f ; %.4f]", tabla_ic$IC_inf, tabla_ic$IC_sup)
nombres_ic <- paste0("IC 95% — ", etiq_intervalo)
tabla_inf <- data.frame(
Indicador = c(
"Variable",
"Tipo de variable",
"Modelo probabilístico",
"Parámetro λ̂ (media estimada)",
"Media teórica E[X] = λ̂",
"Varianza teórica V[X] = λ̂",
"Estadístico χ² calculado",
paste0("Grados de libertad (k*-1-1 = ", k_efectivo, "-1-1)"),
"Valor p",
paste0("Valor crítico χ²(0.95, ", gl, ")"),
"Nivel de significancia (α)",
"Decisión sobre H₀",
nombres_ic
),
Valor = c(
"Section",
"Cuantitativa Discreta Agrupada",
"Poisson",
sprintf("%.4f", lambda_hat),
sprintf("%.4f", lambda_hat),
sprintf("%.4f", lambda_hat),
sprintf("%.6f", chi_stat),
as.character(gl),
format(p_valor, scientific = TRUE, digits = 4),
sprintf("%.4f", chi_critico),
"0.05",
ifelse(p_valor > 0.05, "No se rechaza H₀", "Se rechaza H₀"),
ic_strings
)
)
tabla_inf %>%
gt() %>%
tab_header(
title = md("**Tabla N°4: Indicadores Inferenciales**"),
subtitle = md("*Variable Cuantitativa Discreta: Section*")) %>%
cols_label(
Indicador = md("**Indicador**"),
Valor = md("**Valor**")
) %>%
tab_style(
style = list(
cell_fill(color = "#2C2C2C"),
cell_text(color = "white", weight = "bold")
),
locations = cells_column_labels()
) %>%
tab_style(
style = cell_fill(color = "#F5F5F5"),
locations = cells_body(rows = seq(1, nrow(tabla_inf), by = 2))
) %>%
tab_style(
style = list(
cell_fill(color = "#D6D6D6"),
cell_text(weight = "bold")
),
locations = cells_body(
rows = Indicador == "Decisión sobre H₀",
columns = everything()
)
) %>%
tab_source_note(source_note = md("*Autor: Leslye Quinchiguango*")) %>%
tab_options(
table.width = pct(75),
heading.title.font.size = px(16),
heading.subtitle.font.size = px(12),
table.font.size = px(13),
data_row.padding = px(6)
)
| Tabla N°4: Indicadores Inferenciales | |
| Variable Cuantitativa Discreta: Section | |
| Indicador | Valor |
|---|---|
| Variable | Section |
| Tipo de variable | Cuantitativa Discreta Agrupada |
| Modelo probabilístico | Poisson |
| Parámetro λ̂ (media estimada) | 20.2500 |
| Media teórica E[X] = λ̂ | 20.2500 |
| Varianza teórica V[X] = λ̂ | 20.2500 |
| Estadístico χ² calculado | 1.044058 |
| Grados de libertad (k*-1-1 = 3-1-1) | 1 |
| Valor p | 3.069e-01 |
| Valor crítico χ²(0.95, 1) | 3.8415 |
| Nivel de significancia (α) | 0.05 |
| Decisión sobre H₀ | No se rechaza H₀ |
| IC 95% — [1 – 4.5) | [0.0000 ; 0.1566] |
| IC 95% — [4.5 – 8) | [0.0000 ; 0.0734] |
| IC 95% — [8 – 11.5) | [0.0070 ; 0.1930] |
| IC 95% — [11.5 – 15) | [0.0000 ; 0.1175] |
| IC 95% — [15 – 18.5) | [0.0572 ; 0.2928] |
| IC 95% — [18.5 – 22) | [0.0760 ; 0.3240] |
| IC 95% — [22 – 25.5) | [0.0070 ; 0.1930] |
| IC 95% — [25.5 – 29) | [0.0000 ; 0.0734] |
| IC 95% — [29 – 32.5) | [0.0070 ; 0.1930] |
| IC 95% — [32.5 – 36] | [0.0393 ; 0.2607] |
| Autor: Leslye Quinchiguango | |
La variable Section fue modelada bajo una distribución Poisson con parámetro \(\hat{\lambda} = 20.25\), estimado por máxima verosimilitud a partir de una muestra aleatoria de \(n = 40\) observaciones. La distribución Poisson es apropiada para variables discretas expresadas como conteos enteros, por lo que se utiliza como modelo de aproximación para analizar la frecuencia de ocurrencia de los valores agrupados de la variable. La prueba Chi-Cuadrado de bondad de ajuste arrojó un estadístico \(\chi^2 = 1.0441\) con \(gl = 1\) y un valor \(p = 3.069e-01\), por lo que con un nivel de significancia \(\alpha = 0.05\), no se rechaza H₀: los datos son consistentes con el modelo Poisson propuesto. Los intervalos de confianza al 95% permiten complementar el análisis al comparar las proporciones observadas con las probabilidades teóricas del modelo.
Autor: Leslye Quinchiguango