##AirQualityUCI
En esta investigación, se realizó la validación empírica del Teorema del Límite Central (TLC) utilizando datos reales del dataset AirQualityUCI para demostrar que, independientemente de la distribución original de los contaminantes atmosféricos, la distribución de sus medias muestrales tiende hacia la normalidad. A través de la simulación en R, se compararon los efectos del muestreo con y sin reemplazo, probando que al aumentar el tamaño de la muestra, la variabilidad disminuye y los resultados empíricos convergen con precisión hacia el modelo teórico de la campana de Gauss.
| Variable Name | Role | Type | Description | Units | Missing Values |
|---|---|---|---|---|---|
| Date | Feature | Date | Date of measurement | — | No |
| Time | Feature | Time | Time of measurement | — | No |
| CO | Feature | Integer | True hourly averaged CO concentration (reference analyzer) | mg/m³ | Yes |
| PT08.S1(CO) | Feature | Categorical | Sensor response (nominally CO targeted) | — | No |
| NMHC(GT) | Feature | Integer | True hourly averaged non-methane hydrocarbons concentration | µg/m³ | No |
| C6H6(GT) | Feature | Continuous | True hourly averaged benzene concentration | µg/m³ | No |
| PT08.S2(NMHC) | Feature | Categorical | Sensor response (nominally NMHC targeted) | — | No |
| NOx | Feature | Integer | True hourly averaged NOx concentration | ppb | No |
| PT08.S3(NOx) | Feature | Categorical | Sensor response (nominally NOx targeted) | — | No |
| NO2(GT) | Feature | Integer | True hourly averaged NO₂ concentration | µg/m³ | No |
library(ggplot2)
library(gridExtra)
p1 <- ggplot(data, aes(x = CO)) +
geom_histogram(fill = "steelblue", color = "black", bins = 30) +
labs(title = "Histograma CO")
p2 <- ggplot(data, aes(x = NOx)) +
geom_histogram(fill = "tomato", color = "black", bins = 30) +
labs(title = "Histograma NOx")
grid.arrange(p1, p2, ncol = 2)
library(plotly)
data$Hour <- substr(data$Time, 1, 2)
plot_ly(data,
x = ~Hour,
y = ~CO,
type = "box",
color = ~Hour) %>%
layout(
title = "Distribución de CO por hora del día",
xaxis = list(
title = "Hora",
tickangle = -45
),
yaxis = list(
title = "Concentración de CO"
),
showlegend = FALSE
)
Variable MMAX
Seleccione una variable cuantitativa (numérica): MMAX, NMIN Elimine o trate valores faltantes si existen.
resultado <- data.frame(
Variable = c("CO", "NOx"),
Media = c(mean(data$CO),
mean(data$NOx)),
Desv_Estandar = c(sd(data$CO),
sd(data$NOx)),
N = c(length(data$CO),
length(data$NOx))
)
resultado
## Variable Media Desv_Estandar N
## 1 CO 225.8084 205.73159 877
## 2 NOx 141.7480 81.88721 877
## Variable Tamano_Muestra
## 1 CO 1276
## 2 NOx 513
## Variable Media Varianza Desv_Estandar Tamano_Muestra
## 1 CO 241.9333 61613.513 248.22069 30
## 2 NOx 146.4000 6238.593 78.98477 30
## Variable Limite_Inferior Limite_Superior
## 1 CO 149.2462 334.6205
## 2 NOx 116.9066 175.8934