UNIVERSIDAD CENTRAL DEL ECUADOR

PROYECTO:ESTUDIO ESTADÍSTICO DE LA CALIDAD DEL AIRE EN INDIA

FECHA: 2/01/2026

# ==============================================================================
# ESTADÍSTICA INFERENCIAL
# VARIABLE CUALITATIVA NOMINAL: ZONA
# Autor: Ariel Chiluisa
# Fecha: 23/12/2025
# ==============================================================================

# --------------------------
# 1. CARGA DE PAQUETES
# --------------------------
library(gt)
library(dplyr)

# --------------------------
# 2. CARGA DE DATOS
# --------------------------
datos <- read.csv("C:/Users/JOSELYN/Desktop/kangle/Datos Cambiados.csv",
                  header = TRUE,
                  dec = ".",
                  sep = ",")

# --------------------------
# 3. TABLA DE FRECUENCIAS – ZONA
# --------------------------
Zona <- datos$Zona
TDF_Zona <- data.frame(table(Zona))

ni <- TDF_Zona$Freq
hi <- round((ni / sum(ni)) * 100, 2)
P  <- hi  # P = hi (%)

Zona <- TDF_Zona$Zona

TDF_Zona <- data.frame(Zona, ni, hi, P)

# Fila TOTAL
Summary <- data.frame(
  Zona = "TOTAL",
  ni = sum(ni),
  hi = 100,
  P  = 100
)

TDF_Zona <- rbind(TDF_Zona, Summary)

colnames(TDF_Zona) <- c("Zona", "ni", "hi(%)", "P")

# --------------------------
# 4. TABLA GT
# --------------------------
TDF_Zona %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 1*"),
    subtitle = md("**Distribución de frecuencia de la variable Zona, estudio de calidad del aire en India (2015–2020)**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 2  
    Fuente: https://www.kaggle.com/datasets/rohanrao/air-quality-data-in-india")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE
  )

Zona	ni	hi(%)	P
Tabla Nro. 1
Distribución de frecuencia de la variable Zona, estudio de calidad del aire en India (2015–2020)
Centro	289	0.98	0.98
Este	7873	26.66	26.66
Oeste	21369	72.36	72.36
TOTAL	29531	100.00	100.00
Autor: Grupo 2 Fuente: https://www.kaggle.com/datasets/rohanrao/air-quality-data-in-india

# --------------------------
# 5. GRÁFICAS (sin TOTAL)
# --------------------------
TablaPlot <- TDF_Zona[TDF_Zona$Zona != "TOTAL", ]

# Gráfica 1: Frecuencia absoluta
barplot(
  TablaPlot$ni,
  names.arg = TablaPlot$Zona,
  main = "Gráfica Nro. 1: Distribución de Zonas (Frecuencia Absoluta)",
  xlab = "Zonas",
  ylab = "Cantidad",
  col = "lightblue",
  las = 2,
  ylim = c(0, max(TablaPlot$ni) * 1.1)
)

# Gráfica 2: Frecuencia relativa (%)
barplot(
  TablaPlot$`hi(%)`,
  names.arg = TablaPlot$Zona,
  main = "Gráfica Nro. 2: Distribución porcentual de Zonas",
  xlab = "Zonas",
  ylab = "Porcentaje (%)",
  col = "lightgreen",
  las = 2,
  ylim = c(0, 100)
)

# Gráfica 3: Probabilidad (P)
barplot(
  TablaPlot$P,
  names.arg = TablaPlot$Zona,
  main = "Gráfica Nro. 3: Distribución de probabilidad de la variable Zona",
  xlab = "Zonas",
  ylab = "Probabilidad (%)",
  col = "orange",
  las = 2,
  ylim = c(0, 100)
)

zona_mayor <- TablaPlot$Zona[which.max(TablaPlot$ni)]
prob_zona  <- TablaPlot$P[which.max(TablaPlot$ni)]

print(paste("La zona más probable es:", zona_mayor,
            "con una probabilidad de", prob_zona, "%"))

## [1] "La zona más probable es: Oeste con una probabilidad de 72.36 %"