Introducción

El presente informe se dispone a analizar datos sonoros recopilados en 3 lugares diferentes en la Universidad del Valle: Ingenierías, Herbario y Cafetería Central, empleando la aplicación AirCastingTM como base de las mediciones. AirCastingTM es una herramienta móvil que permite monitorear diversos factores ambientales, principalmente la calidad del aire y la intensidad de sonido en un área determinada, la cual puede ser medida gracias a algunas partes de los teléfonos móviles, como lo son los altavoces. El análisis de estos datos permitirá determinar los lugares de la Universidad del Valle en donde la intensidad de sonido es más alta en una hora estipulada.

Objetivo

Como objetivo se busca comparar los datos de intensidad de sonido obtenidos de cada zona estudiada de la Universidad del Valle, con los que posteriormente se revelará la zona con intensidad de sonido más alta de las analizadas en el estudio, es decir, aquella con mayor contaminación auditiva y que pueda representar un peligro para la audición de las personas que la frecuenten.

Metodología

La toma de datos se realizó mediante caminatas simultáneas hacia los 3 lugares previamente mencionados dentro de la Universidad del Valle, mientras la aplicación AirCasting tomaba un registro de la intensidad del sonido mediante los altavoces de los teléfonos móviles. Las caminatas tuvieron una duración de aproximadamente 15 minutos cada una, a una velocidad de caminata leve/moderada. Los datos fueron recopilados en un horario corriente empezando cerca de las 3:08 pm y acabando a las 3:23. Para comparar los datos recolectados, se emplearon varias de las bibliotecas presentes en la herramienta RStudio, como lo son leaflet, para realizar una visualización y rectificación del recorrido de toma de datos; table1, para obtener los indicadores de tendencia central; ggplot2, para realizar un gráfico boxplot que permita visualizar la distribución de los datos obtenidos y así mismo la zona con mayor contaminación auditiva y, por último, plotly, con la que se convertirá el boxplot obtenido con ggplot2 en interactivo.

Descripción y preparación de los datos

Antes de proceder con la carga de los datos en RStudio, es importante describir la estructura del conjunto de datos recopilado mediante AirCasting.

Cada uno de los archivos contiene información de extrema relevancia para el análisis de las mediciones realizadas. Entre los datos registrados se encuentra la información temporal, que indica la fecha y hora en que se tomó cada medición; la información espacial, que proporciona las coordenadas exactas del lugar donde se recopiló el dato; y la intensidad sonora, medida en decibeles (dB), correspondiente a cada instante registrado.

La carga de los datos se realizó mediante la función Import Dataset from Text (readr), ya que esta corresponde al formato de texto obtenido. Además, se aplicó la opción skip para omitir los primeros 8 registros del archivo, puesto que contenían información no relevante que podría afectar el análisis. Por último, las variables fueron renombradas con etiquetas más simples para facilitar su manipulación.

library(readr)
Central <- read_csv("C:/Users/Juan Esteban/Desktop/Cosas U/Trabajos/central_1954656__20260210-3266473-1wdr89.csv", 
                    skip = 8)
Herbario <- read_csv("C:/Users/Juan Esteban/Desktop/Cosas U/Trabajos/herbario_1954658__20260217-573689-ljin1w.csv", 
                     skip = 8)
Inges <- read_csv("C:/Users/Juan Esteban/Desktop/Cosas U/Trabajos/engineering_real_1954655__20260218-573689-ajmj2i.csv", 
                                                            skip = 8)

Con el fin de confirmar la correcta georreferenciación de los datos recopilados, se realizó una visualización geográfica de los registros. Para ello, se empleó la biblioteca leaflet, la cual permite generar mapas interactivos a partir de la visualización espacial de cada uno de los conjuntos de datos. Para cada dataset, se construyó un data.frame que contenía las coordenadas de longitud y latitud correspondientes a cada uno de los puntos registrados y, posteriormente, mediante la función addCircleMarkers, se desplegaron marcadores circulares en cada registro capturado. Este procedimiento se repitió para cada uno de los sitios de medición, con el propósito de comprobar que las ubicaciones registradas correspondieran a los trayectos realizados dentro de las zonas de estudio establecidas. De esta forma, esta visualización funciona como validación de los datos antes de proceder con su análisis estadístico.

require(leaflet)
leaflet() %>% addTiles() %>%
  addCircleMarkers(lng=Central$Longitude, lat=Central$Latitude)

Figura 1. Mapa de visualización de los puntos de medición en la zona “Central”.

require(leaflet)
leaflet() %>% addTiles() %>%
  addCircleMarkers(lng=Herbario$Longitude, lat=Herbario$Latitude)

Figura 2. Mapa de visualización de los puntos de medición en la zona “Herbario”.

require(leaflet)
leaflet() %>% addTiles() %>%
  addCircleMarkers(lng=Inges$Longitude, lat=Inges$Latitude)

Figura 3. Mapa de visualización de los puntos de medición en la zona “Ingenierías”.

Mapa de distribución de las mediciones

Una vez verificada la georreferencia correcta de los datos cargados, se empleó la función rbind() para unir los 3 data.frame asociados a los lugares de Univalle que fueron estudiados. Posteriormente, por medio de la biblioteca leaflet se generó un mapa interactivo que muestra la posición de los puntos de medición de todos los datos en la universidad. Este mapa conjunto se muestra a continuación:

Intensidad=rbind.data.frame(Herbario, Central, Inges)

Intensidad$Session_Name <- factor(
  Intensidad$Session_Name,
  levels = c("Herbario","Engineering Real","Central"),
  labels = c("Herbario","Ingenierias","Central")
)
require(leaflet)
leaflet() %>% addTiles() %>% addCircleMarkers(lng = Intensidad$Longitude, lat = Intensidad$Latitude)

Figura 4. Mapa de visualización de todos los puntos de medición empleados en el estudio.

En el mapa se muestran algunas zonas vacías o con interferencias, que se deben a la pérdida de señal que ocurre en ciertas zonas de la universidad.

Indicadores de tendencia central

Tras la obtención de la distribución geográfica de los datos, se procedió con un análisis estadístico descriptivo basado en los indicadores de tendencia central que se pueden obtener del data.frame que incluye a los 3 conjuntos de medición anteriormente descritos. En primera instancia, se generó un resumen de los indicadores de tendencia central principales (promedio y mediana) mediante el complemento table1 para el conjunto general de datos. La siguiente tabla muestra estos datos:

Tabla 1. Indicadores de tendencia central para el conjunto general de datos.

require(table1)
table1(~`1:Measurement_Value`, data = Intensidad)

	Overall (N=2121)
1:Measurement_Value
Mean (SD)	70.0 (10.2)
Median [Min, Max]	73.0 [41.0, 92.0]

Con el propósito de hacer más sencilla la resolución del objetivo planteado para el estudio, se generó una nueva tabla, esta vez reuniendo cada uno de los indicadores de tendencia central por zona de la universidad. Esta tabla es presentada a continuación:

Tabla 2. Indicadores de tendencia central para cada una de las zonas de medición.

require(table1)
table1(~`1:Measurement_Value` |Session_Name, data = Intensidad)

	Herbario (N=855)	Ingenierias (N=634)	Central (N=632)	Overall (N=2121)
1:Measurement_Value
Mean (SD)	78.2 (4.81)	72.0 (3.92)	56.9 (5.98)	70.0 (10.2)
Median [Min, Max]	77.0 [69.0, 92.0]	72.0 [61.0, 86.0]	56.0 [41.0, 81.0]	73.0 [41.0, 92.0]

Análisis simétrico de datos

De forma adicional, se realizó un gráfico boxplot interactivo con los datos de intensidad de sonido de cada lugar de la universidad que fue estudiado. En primera instancia, se realizó un boxplot base con ggplot2, que luego se convirtió en interactivo mediante la función ggplotly de la librería plotly. Esta gráfica nos muestra la distribución que tienen los datos de intensidad de sonido (medida en dB) en cada una de las zonas estudiadas, con lo que se puede confirmar gráficamente cuál es la zona que tiene mayor contaminación auditiva hacia el horario en el que se midieron los datos, así como la muestra que posee datos distribuidos de una forma más equilibrada.

require(ggplot2)
Dis_Intensidad= ggplot(Intensidad, aes(x = Session_Name, y = `1:Measurement_Value`, fill = Session_Name))+ 
  geom_boxplot()+
  scale_fill_manual(values = c(
  Herbario = "#7CA5DA",
  Ingeniería = "cyan",
  Central = "#2A5AA9"))
require(plotly)

ggplotly(Dis_Intensidad) %>%
   layout(title = "Distribucion Intensidad de sonido en Univalle",
   yaxis = list(title = "Intensidad (dB)"),
   xaxis = list(title = "Zona estudiada"),
   paper_bgcolor = "#E6FCF3",
   plot_bgcolor = "#F2E8E1")

Figura 5. Boxplot que muestra la distribución de los datos por zona estudiada.

Análisis de datos

En primer lugar, para elegir un indicador de tendencia central que pudiera caracterizar de una mejor manera al conjunto de datos, se consultó la literatura con el fin de hacer esta elección más ligada al contexto del estudio. De acuerdo con Triola (2013), los indicadores de tendencia central más fiables como medidas de cierto conjunto de datos son la media y la mediana. Sin embargo, la media es catalogada como un indicador confiable por tomar en cuenta todos los datos tomados en el muestreo, pero ser tan sensible a la presencia de datos atípicos. Mientras tanto, la mediana es catalogada como un indicador resistente, esto porque de ser capaz de describir al conjunto de datos de manera fiable, también es resistente a la presencia de datos atípicos. Así pues, por lo obtenido en la Figura 5, y debido a la presencia de varios datos atípicos en las 3 zonas de medición, se concluyó que la medida de tendencia central apropiada para esta caracterización es la mediana, por su carácter de resistencia a los datos atípicos.

Teniendo esto en cuenta, y observando la Tabla 2, la zona estudiada que posee una mediana mayor al resto es la zona del Herbario, con un valor de 77 dB frente a los valores de 72 dB y 56 dB que presentaron las zonas de Ingenierías y Central, respectivamente. Agregado a esto, fue posible encontrar un valor máximo atípico mucho mayor en la zona del Herbario, siendo este de 92 dB.

Para valorar el peligro que representan estos valores para el ser humano, se comparó con los valores expuestos por Cromer (1981), en donde es posible observar que el umbral de dolor se encuentra a los 120 dB, siendo 60 dB el valor medio y más seguro en esta escala. Con esto en mente la mayoría de valores de intensidad de sonido estudiados no resultan ser realmente peligrosos para las personas que frecuentan esos lugares, a excepción del valor máximo encontrado en la zona del Herbario, cuya exposición constante podría comenzar a generar problemas en la audición.

Conclusiones

Tras el análisis comparativo de los resultados del estudio, es posible concluir que la zona de Univalle en la que se experimenta una intensidad de sonido mayor es la zona del Herbario, en la que se encontró un promedio y una mediana de esta variable por encima de las otras 2 zonas estudiadas, teniendo un promedio de 78 dB y una mediana de 77 dB, demostrando además una distribución moderadamente simétrica de los datos. Además, por el valor máximo encontrado de 92 dB, se concluye que una exposición frecuente a intensidades de sonido tan altas en esta zona podría acarrear problemas auditivos a futuro.

Bibliografía

Triola, M. F. (2013). Estadística (11a ed.). Pearson educación; pp. 85-86.
Cromer, A. (1981). Fisica Para Las Ciencias de La Vida (2a ed.). Reverte; p. 312.

Informe #1 Estadística: Contaminación auditiva en Univalle

Andrade Bedoya Miguel Ángel(2520855); Chávez Leiton Juan Esteban (2517853); Cortés Aramburo Juan Diego (202520932)