##AirQualityUCI

En esta investigación, se realizó la validación empírica del Teorema del Límite Central (TLC) utilizando datos reales del dataset AirQualityUCI para demostrar que, independientemente de la distribución original de los contaminantes atmosféricos, la distribución de sus medias muestrales tiende hacia la normalidad. A través de la simulación en R, se compararon los efectos del muestreo con y sin reemplazo, probando que al aumentar el tamaño de la muestra, la variabilidad disminuye y los resultados empíricos convergen con precisión hacia el modelo teórico de la campana de Gauss.

Descripción de Variables

Variable Name Role Type Description Units Missing Values
Date Feature Date Date of measurement No
Time Feature Time Time of measurement No
CO Feature Integer True hourly averaged CO concentration (reference analyzer) mg/m³ Yes
PT08.S1(CO) Feature Categorical Sensor response (nominally CO targeted) No
NMHC(GT) Feature Integer True hourly averaged non-methane hydrocarbons concentration µg/m³ No
C6H6(GT) Feature Continuous True hourly averaged benzene concentration µg/m³ No
PT08.S2(NMHC) Feature Categorical Sensor response (nominally NMHC targeted) No
NOx Feature Integer True hourly averaged NOx concentration ppb No
PT08.S3(NOx) Feature Categorical Sensor response (nominally NOx targeted) No
NO2(GT) Feature Integer True hourly averaged NO₂ concentration µg/m³ No
library(ggplot2)
library(gridExtra)

p1 <- ggplot(data, aes(x = CO)) +
  geom_histogram(fill = "steelblue", color = "black", bins = 30) +
  labs(title = "Histograma CO")

p2 <- ggplot(data, aes(x = NOx)) +
  geom_histogram(fill = "tomato", color = "black", bins = 30) +
  labs(title = "Histograma NOx")

grid.arrange(p1, p2, ncol = 2)

library(plotly)

data$Hour <- substr(data$Time, 1, 2)

plot_ly(data,
        x = ~Hour,
        y = ~CO,
        type = "box",
        color = ~Hour) %>%
  layout(
    title = "Distribución de CO por hora del día",
    xaxis = list(
      title = "Hora",
      tickangle = -45
    ),
    yaxis = list(
      title = "Concentración de CO"
    ),
    showlegend = FALSE
  )

Variable MMAX

Variables

Seleccione una variable cuantitativa (numérica): MMAX, NMIN Elimine o trate valores faltantes si existen.

Parámetros poblacionales

resultado <- data.frame(
  Variable = c("CO", "NOx"),
  Media = c(mean(data$CO),
            mean(data$NOx)),
  Desv_Estandar = c(sd(data$CO),
                    sd(data$NOx)),
  N = c(length(data$CO),
        length(data$NOx))
)

resultado
##   Variable    Media Desv_Estandar   N
## 1       CO 225.8084     205.73159 877
## 2      NOx 141.7480      81.88721 877
##   Variable Tamano_Muestra
## 1       CO           1276
## 2      NOx            513

Extraer tamaño de muestra aleatorio

Estadísticos de muestra para NMAX

##   Variable    Media  Varianza Desv_Estandar Tamano_Muestra
## 1       CO 241.9333 61613.513     248.22069             30
## 2      NOx 146.4000  6238.593      78.98477             30
##   Variable Limite_Inferior Limite_Superior
## 1       CO        149.2462        334.6205
## 2      NOx        116.9066        175.8934

Interpretación de resultados