El presente estudio se realizó mediante la captura de datos de sonido en el campus de la universidad Javeriana Cali, utilizando la aplicación AirCasting, con el propósito de determinar si existe una diferencia significativa entre los valores de los decibeles en cada uno de los edificios recorridos (Acacias, El Lago, Palmas, Raúl Posada, Educación Continua, Cedro Rosado, Samán, Guayacanes, Biblioteca, Almendros y Centro de bienestar). Para esto se realizó una exploración inicial de los datos, seguida de una revisión de supuestos estadísticos del ANOVA, se aplicaron pruebas no paramétricas (Kruskal-Wallis y comparaciones post-hoc de Dunn) y por último se preparó una visualización de grupos de edificios con niveles de ruido estadísticamente similares.

1 Renombramiento de variables y preparación de paquetes necesarios

Con el fin de facilitar la preparación y exploración inicial de los datos, algunas variables son renombradas.

names(sonido_espacial_final)[names(sonido_espacial_final) == "X1:Measurement_Value"] <- "Measurement"
sonido = sonido_espacial_final$Measurement
edificio = sonido_espacial_final$edificio
Measurement = data.frame(sonido, edificio)
library(ggplot2)
library(table1)
library(FSA)
library(rcompanion)
library(dplyr)

2 Exploración inicial de los datos

A continuación se presenta una tabla descriptiva de las mediciones de sonido por edificio. Los resultados descriptivos muestran diferencias claras en las medianas y dispersión de los valores de ruido entre edificios.

library(table1)

label(Measurement$sonido) <- "Decibeles (dB)"
label(Measurement$edificio) <- "Edificio"

table1(~ sonido | edificio, data = Measurement,
       overall = "Total",
       render.missing = "Ninguno")
Acacias
(N=115)
Almendros
(N=150)
biblioteca
(N=239)
cedro_rosado
(N=569)
centro_bienestar
(N=62)
educacion_continua
(N=334)
Guayacanes
(N=99)
lago
(N=100)
Palmas
(N=134)
raul_posada
(N=141)
saman
(N=102)
Total
(N=2045)
Decibeles (dB)
Mean (SD) 62.7 (3.82) 65.3 (5.68) 64.5 (4.44) 65.2 (3.76) 58.9 (3.54) 63.4 (4.42) 65.8 (4.98) 62.3 (3.98) 63.9 (4.42) 63.8 (3.50) 65.4 (3.14) 64.2 (4.40)
Median [Min, Max] 62.0 [56.3, 74.0] 64.0 [54.9, 82.0] 64.7 [54.4, 77.0] 65.0 [56.4, 81.9] 58.3 [52.8, 67.0] 63.0 [54.5, 79.9] 65.0 [56.4, 78.0] 62.0 [54.7, 73.7] 63.0 [55.7, 78.0] 63.6 [55.8, 76.0] 65.0 [59.0, 73.0] 64.0 [52.8, 82.0]

Seguidamente, un gráfico de cajas y bigotes que permite hacer una comparación visual: se aprecian diferencias claras en las medianas y en la dispersión de los datos entre edificios. Algunos edificios muestran mayor variabilidad en los valores de ruido, lo que ya sugiere la existencia de diferencias significativas.

require(ggplot2)
ggplot(Measurement,aes(x=edificio,y=sonido,fill=edificio))+geom_boxplot()+theme_bw()

3 Revisión de supuestos

El test de Bartlett como el test de Shapiro-Wilk muestran un p-valor < 0.05, lo que indica que no se cumple la homogeneidad de varianzas y los residuos no siguen una distribución normal respectivamente, debe tenerse en cuenta que estos son supuestos esenciales del ANOVA. Por otro lado, al realizar los gráficos diagnósticos del modelo se refuerza esta conclusión, ya que los residuos no se distribuyen de manera aleatoria alrededor de cero. Seguidamente se aplicar una transformación logarítmica, pero los datos aún no logran ajustarse a los supuestos de normalidad, lo que puede tener múltiples causas. Por un lado, el ruido ambiental es altamente sensible a eventos aleatorios (como tránsito, conversaciones o actividades esporádicas), lo cual genera valores extremos u outliers que distorsionan la distribución. Adicionalmente, el número de observaciones por edificio no fue homogéneo, lo que puede contribuir a diferencias en la varianza entre grupos. Finalmente, la propia naturaleza de la variable medida (decibeles), al ser de escala logarítmica, tiende a mostrar distribuciones asimétricas. En consecuencia, el uso de ANOVA no es adecuado, y se opta por una prueba no paramétrica.

# Modelo lineal inicial
mod <- lm(sonido ~ edificio, data = Measurement)

# Homogeneidad de varianzas
bartlett.test(sonido ~ edificio, data = Measurement)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  sonido by edificio
## Bartlett's K-squared = 85.177, df = 10, p-value = 4.817e-14
# Normalidad de los residuos
shapiro.test(resid(mod))
## 
##  Shapiro-Wilk normality test
## 
## data:  resid(mod)
## W = 0.97875, p-value < 2.2e-16
# Gráficos diagnósticos
plot(mod)

# Intento de transformación logarítmica
mod_log <- lm(log(sonido) ~ edificio, data = Measurement)
plot(mod_log)

4 Prueba de Kruskal-Wallis

La prueba de Kruskal-Wallis arroja un estadístico de prueba elevado y un p-valor < 0.05, lo que indica que existen diferencias estadísticamente significativas en los niveles de ruido entre al menos dos de los edificios analizados. Sin embargo, esta prueba no indica cuáles edificios difieren entre sí, por lo que es necesario realizar comparaciones múltiples.

kruskal.test(sonido ~ edificio, data = Measurement)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  sonido by edificio
## Kruskal-Wallis chi-squared = 201.24, df = 10, p-value < 2.2e-16

5 Comparaciones post-hoc (Dunn con corrección Bonferroni)

La prueba de Dunn con corrección de Bonferroni identifica específicamente entre qué pares de edificios existen diferencias significativas. Con el fin de realizar una visualización más clara sobre cuáles edificios concentran los niveles más altos y más bajos de ruido, se utiliza un boxplot ordenado por mediana. Este resultado refuerza que la variabilidad observada en la exploración inicial tiene respaldo estadístico. Este gráfico permite observar que el edificio Samán tiene la mediana de ruido más alta de todo el campus, y a su vez, su contraparte es el Centro de Bienestar.

DT <- dunnTest(sonido ~ edificio, data = Measurement, method = "bonferroni")

# Boxplot ordenado por mediana
ggplot(Measurement, aes(x = reorder(edificio, sonido, median),
                        y = sonido, fill = edificio)) +
  geom_boxplot() +
  theme_bw() +
  labs(x = "Edificio", y = "Nivel de sonido (dB)",
       title = "Distribución del ruido por edificio (Kruskal-Wallis)") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

6 Grupos de similitud (Letras)

Con el fin de definir mejor las similitudes y diferencias entre cada uno de los edificios respecto a su ruido, se clasifican utilizando letras para representar grupos estadísticamente homogéneos: Los edificios que comparten la misma letra no presentan diferencias significativas en los niveles de ruidoy los edificios con letras diferentes sí difieren de forma significativa. Sabiendo esto, el análisis de la tabla permite afirmar que la diferencia del ruido en el edificio Acacias no es estadísticamente significativa respecto a el edificio EL Lago, asimismo, para los edificios Palmas, Raúl Posada y Educación Continua, los valores de decibeles son similares entre sí pero también entre los primeros dos edificios. Por otro lado, sí se pueden encontrar diferencias significativas en el ruido de los edificios Cedro Rosado y Samán frente al resto del campus; los edificios Guayacanes, Biblioteca y Almendros conforman un grupo similar tanto a Samán y GUayacanes como Palmas, Raúl Posada y Educación Continua. Por último, el análisis arroja que la diferencia más notable en el nivel de ruido se encuentre en el edificio Centro de Bienestar, que conforma un grupo completamente aislado del resto de los edificios del campus. Dicho esto, es importante destacar que la visualización del boxplot permite concluir que, de forma general el edificio Almendros es el más ruidoso, aunque no por mucha diferencia con el resto del campus, mientras que el edificio Centro de Bienestar sí es significativamente menos ruidoso que sus homólogos.

# Extraer resultados
dunn_res <- DT$res
cld <- cldList(P.adj ~ Comparison, data = dunn_res, threshold = 0.05)
print(cld)
##                 Group Letter MonoLetter
## 1             Acacias      a      a    
## 2           Almendros    bcd       bcd 
## 3          biblioteca     bc       bc  
## 4        cedro_rosado      b       b   
## 5    centro_bienestar      e          e
## 6  educacion_continua     ad      a  d 
## 7          Guayacanes     bc       bc  
## 8                lago      a      a    
## 9              Palmas    acd      a cd 
## 10        raul_posada    acd      a cd 
## 11              saman      b       b
# Data frame con letras organizadas por similitud
letras <- data.frame(
  edificio = c("Acacias","Almendros","biblioteca","cedro_rosado",
               "centro_bienestar","educacion_continua","Guayacanes",
               "lago","Palmas","raul_posada","saman"),
  letra = c("a","bcd","bc","b","e","ad","bc","a","acd","acd","b")
)

# Reordenar y unir con datos
letras <- letras %>%
  arrange(letra, edificio) %>%
  mutate(edificio = factor(edificio, levels = edificio))

Measurement <- Measurement %>%
  mutate(edificio = factor(edificio, levels = levels(letras$edificio)))

# Boxplot final con letras
ggplot(Measurement, aes(x = edificio, y = sonido, fill = edificio)) +
  geom_boxplot() +
  geom_text(data = letras,
            aes(x = edificio, y = max(Measurement$sonido) + 2, label = letra),
            inherit.aes = FALSE, vjust = 0) +
  theme_bw() +
  labs(x = "Edificio", y = "Nivel de sonido (dB)",
       title = "Comparación de ruido por edificio (Kruskal-Wallis + Dunn)") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

7 Conclusiones

El análisis realizado permite concluir que los niveles de ruido en el campus de la Universidad Javeriana Cali difieren de manera significativa entre edificios, con el edificio Samán y Almendros registrando los valores más altos de ruido, mientras que el Centro de Bienestar se distingue por presentar los niveles más bajos de forma estadísticamente significativa. Estos resultados sugieren que el ruido no se distribuye de manera uniforme en el campus, sino que está asociado a características particulares de cada edificio y su entorno inmediato, como su ubicación, la densidad de estudiantes, la cercanía a vías transitadas o a zonas verdes.

La elección de pruebas no paramétricas fue adecuada dado que los datos no cumplieron los supuestos de normalidad y homogeneidad, lo cual puede atribuirse a la presencia de valores extremos, tamaños de muestra desiguales entre edificios y la propia naturaleza de los decibeles como variable logarítmica. Si bien este enfoque permitió identificar patrones robustos, futuras investigaciones podrían considerar la recolección de datos más balanceados entre edificios, la identificación y control de fuentes de ruido extraordinarias (como obras o eventos puntuales), así como la inclusión de mediciones en distintos horarios para capturar mejor la variabilidad temporal.

En conjunto, este estudio constituye un primer paso hacia la caracterización del paisaje sonoro del campus y ofrece evidencia útil para diseñar estrategias de mitigación o manejo del ruido en espacios donde se concentran los niveles más elevados, contribuyendo así a mejorar la calidad ambiental y el bienestar de la comunidad universitaria.