Descripción de la base de datos

Se realizo una observación en el marco de un periodo de tiempo determinado sobre la presencia de 4 especies de animales en diferemtes entornos y horarios de la ciudad, los animales fueron zorros, palomas, mapaches y ardillas. Se lograron recolectar 1000 datos. Dentro de las variables clasificadas hay 2 tipos: Categoricas (especie del animal, horario donde se observo y lugar), en cuanto a las numericas son variables mas diversas como la densidad de humanos en la zona donde se avisto, los decibeles, la calidad del refugio cercano, la distancia estimada recorrida en km de cada animal, la cercania de alimento y las anomalias de comportamiento.

Especie:(Mapache, Paloma, Zorro, Ardilla). Observacion: Momento del día en que se realizó la observación. Lugar: (Parque, Residencial, Comercial, Industrial) ruido_dB: Nivel de ruido ambiental en el sitio de observación en decibeles (dB). densidad_humana: Presencia humana estimada por cada 100 metros cuadrados. cerania_alimento: Puntuación (1–10), indica facilidad de acceso a los alimentos. calidad_refugio: Puntuación (1–10), indica la calidad del refugio cercano. Anomalia_comport.: Puntuación de 0 a 1 que muestra cuán inusual fue el comportamiento observado. Distancia_estimada_km: Kilómetros estimados que recorre el animal diariamente. La informacion relevente sobre estas variables como sus limites, media y moda se puede apreciar a continuacion:

Overall
(N=1000)
Lugar
comercial 269 (26.9%)
industrial 246 (24.6%)
parque 250 (25.0%)
residencial 235 (23.5%)
Observacion
Despues de medio dia 251 (25.1%)
Mañana 231 (23.1%)
Noche 245 (24.5%)
Noche temprana 273 (27.3%)
ruido_dB
Mean (SD) 65.1 (9.85)
Median [Min, Max] 65.2 [27.0, 93.5]
Densidad_humana
Mean (SD) 30.5 (14.5)
Median [Min, Max] 30.5 [0, 71.3]
cercania_alimento
Mean (SD) 5.39 (2.84)
Median [Min, Max] 5.00 [1.00, 10.0]
calidad_refugio
Mean (SD) 5.47 (2.90)
Median [Min, Max] 5.00 [1.00, 10.0]
anomalia_comport.
Mean (SD) 0.288 (0.164)
Median [Min, Max] 0.260 [0.0100, 0.850]
diatancia_estimada_km
Mean (SD) 1.48 (1.38)
Median [Min, Max] 1.12 [0, 10.4]

Clustering

El clustering es una forma de machine learning no supervisado que organiza y clasifica diferentes objetos, puntos de datos u observaciones en grupos o clústeres basados en similitudes o patrones.

Analisis de datos

Se puede apreciar que en cuanto a el lugar de avistamiento y la hora se mantienen valores homogenos, excepto en la notable dominadancia en el numero de palomas observadas en la ciudad; en cuanto a los valores numericos se puede observar que la mediana y la media permanecen en todas las variables como valores cercanoa e incluso iguales, lo que es un claro indicador de una distribucion uniforme,

Dendograma:

En el dendrograma se muestra cómo se agrupan los individuos según sus características ecológicas, utilizando el método de agrupamiento jerárquico Ward.D2. Cada rama representa una fusión entre elementos similares, y la altura indica cuán diferentes son entre sí.

Al cortar el árbol en una altura específica, se forman 4 grupos claramente diferenciados, representados por colores. Esto significa que los datos presentan patrones naturales de agrupamiento, donde cada cluster reúne individuos con condiciones ambientales y comportamientos similares. El gráfico ayuda a visualizar la estructura interna del conjunto de datos y confirma que el número de grupos elegido (k = 4) tiene sentido ecológico. Es una herramienta clave para interpretar cómo las especies responden a distintas combinaciones de ruido, refugio, alimento y presencia humana.

Diagrama de cajas

El gráfico de boxplots muestra cómo varían seis variables ecológicas clave entre cuatro especies urbanas: ardilla, mapache, paloma y zorro. Cada caja representa la distribución de una variable como ruido, densidad humana, calidad del refugio, cercanía al alimento, anomalías de comportamiento y distancia recorrida. Las palomas destacan por tolerar ambientes más ruidosos y densamente poblados, lo que refleja su alta adaptación al entorno urbano. Los zorros, en cambio, se asocian con zonas más tranquilas y recorren mayores distancias, lo que sugiere un comportamiento más territorial. Los mapaches presentan alta variabilidad en varias variables, lo que indica flexibilidad ecológica y capacidad de adaptación a distintos entornos. Las ardillas muestran preferencia por refugios de buena calidad y ambientes con presencia humana moderada. Este análisis permite entender cómo cada especie ocupa un nicho ecológico distinto dentro de la ciudad, lo que tiene implicaciones importantes para el manejo de fauna urbana, la planificación de espacios verdes y la conservación de biodiversidad en entornos antropizados.

Matriz de confusion

## --- MATRIZ DE CONFUSIÓN SIMPLE (Datos Reales vs. Predichos) ---
##          prediccion
## Real        1   2   3   4
##   Ardilla  40  91  20  47
##   Mapache  53 107  23  60
##   Paloma   70 165  52  81
##   Zorro    48  72  16  55
## 
## Precision Total del Modelo: 25.4 %

La matriz de confusión y el mapa de calor evidencian que el agrupamiento jerárquico no logró segregar las especies basándose en las variables ecológicas recolectadas, obteniendo una coincidencia global del 25.4%, un valor equivalente al azar. Visualmente, destaca la dominancia del Cluster 2, el cual agrupa indiscriminadamente a la mayoría de los individuos de todas las especies (especialmente palomas y mapaches), impidiendo la formación de grupos exclusivos o distintivos. Esto sugiere una fuerte homogeneidad en los nichos ecológicos observados: las cuatro especies conviven en rangos similares de ruido, densidad humana y calidad de refugio, compartiendo un mismo espacio urbano sin fronteras claras. En conclusión, las variables ambientales medidas no actúan como factores diferenciadores, indicando que estas especies han adaptado su tolerancia para coexistir en condiciones prácticamente idénticas dentro de la ciudad.

El gráfico de pares (pairplot) confirma visualmente la alta superposición entre los clusters, lo que explica la confusión del modelo. Las curvas de densidad en la diagonal principal muestran distribuciones casi idénticas para los cuatro colores en variables críticas como ruido_dB y Densidad_humana, indicando que todos los grupos habitan entornos indistinguibles. Aunque se aprecian ligeras variaciones en anomalia_comport y distancia_estimada (donde las curvas violeta y verde se desplazan levemente), los diagramas de dispersión presentan “nubes” de puntos mezclados sin fronteras claras entre grupos. Sumado a coeficientes de correlación generalmente bajos, esto demuestra que no existen relaciones lineales fuertes ni patrones bivariados que permitan aislar un cluster de otro de manera efectiva; las especies y sus grupos asignados comparten características ecológicas demasiado homogéneas.

Grafico de silueta

El análisis de la Silueta sugiere que el número “óptimo” de clusters desde un punto de vista puramente matemático es k=3 (marcado por la línea punteada), ya que es donde se maximiza el ancho promedio. Sin embargo, el hallazgo más crítico es la magnitud extremadamente baja del índice, que apenas alcanza un valor de 0.09. En la escala de la silueta (de -1 a 1), valores cercanos a 0 indican que los datos se encuentran en los límites entre grupos y que existe un solapamiento masivo entre los clusters. Esto confirma que la estructura de los datos es muy débil; aunque biológicamente existen cuatro especies, sus variables ecológicas son tan homogéneas que el algoritmo no logra distinguir ni siquiera grupos compactos claros, validando la confusión observada en los análisis anteriores.

Grafico de codo

El gráfico del método del Codo muestra un descenso suave y progresivo de la suma de cuadrados intra-cluster (WSS) sin presentar un punto de inflexión o “codo” claro y marcado. A diferencia de escenarios ideales donde la curva se aplana drásticamente indicando el número óptimo de grupos, aquí la pendiente se suaviza muy gradualmente entre 3 y 6.Esto indica matemáticamente que no existe una partición natural evidente en los datos. El hecho de que no haya un quiebre distintivo en 4 (el número real de especies) confirma lo visto en los análisis anteriores: la varianza de los datos es continua y las especies no están formando grupos compactos y separados en el espacio ecológico, dificultando que el algoritmo identifique con certeza cuántos grupos existen realmente.

Grafico de mancuernas

El gráfico destaca contrastes claros en los patrones de actividad temporal de las especies. El Zorro muestra la mayor divergencia comportamental, con una marcada preferencia por los avistamientos nocturnos (punto rojo) frente a los matutinos, lo cual es consistente con su naturaleza. En el extremo opuesto, la Paloma exhibe un perfil temporal neutro, con proporciones prácticamente idénticas entre la mañana y la noche, sugiriendo una presencia constante independientemente del horario. Resulta particular el comportamiento de la Ardilla y el Mapache: la primera muestra inesperadamente mayor frecuencia nocturna en esta muestra, mientras que el mapache predomina en los registros matutinos, lo que podría indicar adaptaciones a los horarios de actividad humana en la ciudad o sesgos en la recolección de datos.

Grafico de burbujas

El gráfico de burbujas ilustra la segregación de nichos de las especies en función del espacio y el tiempo. Esta es la interpretación de los patrones observados:

Paloma (Generalista Dominante)️: Se confirma como la especie más frecuente y generalista en el conjunto de datos. Las burbujas más grandes aparecen consistentemente en todos los lugares (Comercial, Industrial, Parque, Residencial) y a todas las horas, lo que denota una alta adaptabilidad al entorno urbano sin dependencia espacial o temporal marcada.

Zorro (Segregación Temporal): Muestra la segregación temporal más clara. Sus avistamientos de mayor frecuencia ocurren en Noche y Noche temprana, lo cual es coherente con su comportamiento crepuscular/nocturno. Espacialmente, sus avistamientos más grandes se concentran en zonas Residenciales y Parques.

Ardilla y Mapache (Patrones mixtos): Ambas especies exhiben frecuencias más bajas que la paloma. La Ardilla evita las zonas Industriales y Comerciales, mostrando una pequeña preferencia por Parques y Residenciales. El Mapache es ligeramente más generalista, apareciendo en todas las zonas, pero con mayor frecuencia en Parques y Residenciales y durante la Noche temprana.

Preferencia Espacial Global: De forma consistente, todas las especies muestran una tendencia a ser observadas con mayor frecuencia en las zonas de Parque y Residencial en comparación con los entornos Comercial e Industrial, sugiriendo que la disponibilidad de refugio y espacio verde es un factor clave en la distribución.

Conclusion

El análisis exploratorio y de agrupamiento sobre la fauna urbana revela una doble realidad en el uso del espacio y el tiempo por parte de las especies. Desde la perspectiva de las variables ambientales (ruido, densidad humana, calidad de refugio, etc.), el modelo de Clustering no logró segregar a los animales: la matriz de confusión y el coeficiente de Silueta demostraron que las especies comparten nichos ecológicos superpuestos. Este resultado es confirmado por el gráfico de pares y el método del Codo, los cuales no encontraron una estructura natural de datos, indicando que las variables continuas medidas no son suficientes para diferenciar si un animal es un zorro o un mapache.A pesar de esta homogeneidad ecológica, el análisis de frecuencia por ubicación y horario revela una segregación comportamental clave. La Paloma se confirma como la especie más generalista y dominante, con alta frecuencia en todos los entornos urbanos y horarios, lo que refuerza su capacidad de adaptación. Por el contrario, el Zorro exhibe la especialización más marcada, concentrando sus avistamientos en las horas nocturnas y evitando los centros más ruidosos. De forma global, se observa una preferencia compartida por las zonas de Parque y Residencial en todas las especies, lo que sugiere que la calidad del refugio es un factor determinante, incluso más que la densidad humana o el ruido, para mantener la biodiversidad.En síntesis, aunque las cuatro especies toleran y habitan entornos con rangos de variables ambientales similares (solapamiento), el tiempo es el principal factor que utilizan para minimizar la competencia, permitiendo su coexistencia en la misma matriz urbana.