Examen Paracial 2: Ejercicio Galapagos Angélica Flórez A. Nicolas Hernández Omar Franky


load("C:/Users/angef/Downloads/gala (1).RData")

Introducción:

Este conjunto de islas es famoso por su extraordinaria biodiversidad y por ser el lugar donde Charles Darwin desarrolló parte de su teoría de la evolución por selección natural, tras observar cómo las especies variaban entre las diferentes islas. Debido a su aislamiento geográfico, muchas de las especies que allí habitan son endémicas, es decir, exclusivas del archipiélago. Gracias a su importancia ecológica y científica, las Islas Galápagos fueron declaradas Parque Nacional en 1959 y Patrimonio Natural de la Humanidad por la UNESCO en 1978, siendo hoy uno de los lugares más protegidos y estudiados del planeta.


Actividad a realizar: En este contexto, el conjunto de datos tomado de Faraway (2005) analiza el número de especies de tortugas en 30 islas de Galápagos, junto con variables ecológicas y geográficas que podrían influir en su distribución. Entre ellas se incluyen: Endemic (número de especies endémicas de cada isla), Area (km²) (tamaño de la isla),Elevation (m) (altura máxima),Nearest (km) (distancia a la isla más cercana),Scruz (km) (distancia a la isla Santa Cruz), y Adjacent (km²) (área de la isla adyacente más próxima).


library(ggplot2) 
library(corrplot) 
## corrplot 0.95 loaded
library(dplyr) 
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
datos_num <- gala %>% select(Species, Endemics, Area, Elevation, Nearest, Scruz,Adjacent)

Gráfico 1:

g_dist_species<- ggplot(gala, aes(y = Species)) + geom_boxplot(fill =
"skyblue", color = "darkblue") + labs(title = "Distribución del Número
de Especies (Y)", y = "Especies") + theme_minimal()
print(g_dist_species)

La gráfica muestra una distribución de especies en TOTAL (de la base de datos) con asimetría positiva, la gran mayoría de las observaciones tienen un número de especies menor a 100, los puntos dispersos y altos que se ven por encima de los usuales representan valores atípicos correspondientes a unas pocas áreas (islas) que poseen un número de especies más alto. ******

Gráfico 2:

g_dist_endemics <- ggplot(gala, aes(y = Endemics)) + geom_boxplot(fill
= "lightgreen", color = "darkgreen") + labs(title = "Distribución de
Especies Endémicas", y = "Endémicas") + theme_minimal()
print(g_dist_endemics)

Esta gráfica muestra la distribución de las Especies Endémicas de las Islas Glápagos, utilizando el conjunto de datos gala. La gráfica revela una distribución con asimetría positiva, donde la mayoría de las áreas presentan una cantidad moderada y concentrada de especies endémicas (reflejada en la caja principal), mientras que la presencia de valores atípicos elevados (los puntos individuales sobre el bigote) indica que unas pocas áreas son excepcionalmente ricas en estas especies únicas, ejerciendo una marcada influencia en la dispersión total de los datos.


Calcular la matriz de correlación :

matriz_cor <- cor(datos_num)
cor_species <- matriz_cor[,"Species"]
print("Correlación de 'Species' con las Predictoras (Xi):")
## [1] "Correlación de 'Species' con las Predictoras (Xi):"
print(round(cor_species, 3)) 
##   Species  Endemics      Area Elevation   Nearest     Scruz  Adjacent 
##     1.000     0.971     0.618     0.738    -0.014    -0.171     0.026

En esta matriz de relación de: -La variable de “Species” de la base de datos, se observa que se tiene una correlación positiva fuerte, pues es muy cercana a 1 (o.971),pues sugiere que que el número total de especies está casi directamente determinado por la cantidad de especies únicas.

-En elevación(o.738) y área(0.618) hay una correlación positivia pues a medida que la elevación máxima de una isla aumenta el número total de especies que se encuentran tiende a aumentar significativamente.

-Sin emargo, para las variables “Nearest” y “Adjacent” sus relaciones son más cercanas a 0, dado a la proximidad a otras islas o a la isla más cercana no tiene una relación lineal significativa con la riqueza de especies.


Visualización de la matriz de correlación:

corrplot(matriz_cor, method = "color", type = "upper", tl.col = "dark green", tl.srt = 45,
         addCoef.col = "grey30", number.cex = 0.7,
         title = "Correlación entre Variables de Galápagos", mar=c(0,0,1,0))

Esta gráfica explica la dispariedad, es decir, identificar cómo los cambios de las variables se asocian con los cambios de otra variable se asocian consistentemente con los cambios en otra variable, siguiendo un patrón de línea recta. En este sentido, las correlaciones positivas más fuertes son con “Endemincs”,“Elevation” y “Area”, lo cual demuestra que las islas que tienen la mayor riqueza biológica son, precisamente, aquellas que poseen mayor elevación y superficie. Pero, como se había notado anteriormente las variables y datos de “Nearest” y “Adjacent” confirman el tamaño y la complejidad que es del área de estudio.

Es decir que, para predecir la riqueza biológica en este ecosistema, los factores internos de la isla (área y elevación) son mucho más importantes y explicativos que los factores de aislamiento o conectividad (distancia).


Análisis de bivariedad:

gala$log_Species = log(gala$Species)
g_bivariado_log <- ggplot(gala, aes(x = Area, y = log_Species)) +
  geom_point(color = "red") +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Relación Bivariada: log(Especies) vs. Área (km²)",
       x = "Área de la Isla (km²)",
       y = "log(Número de Especies)") +
  theme_bw()
print(g_bivariado_log)
## `geom_smooth()` using formula = 'y ~ x'

Este gráfico muestra la relación de especies y el área. La línea azul en ascendencia confirma lo que se ha mostrado anteriormente, que a mayor Área de la isla, mayor será/es el número de especies y esto ecológicamente es fundamental, ya que, por ejemplo: Las áreas grandes tienen más individuos, lo que aumenta la probabilidad de encontrar individuos de especies raras. Los puntos rojos son la representación de una isla de la base de datos, los cuales se encuentran relativamente cerca de la línea azul, esto indica que el Área es un predictor fuerte y efectivo para explicar la variación en el logaritmo del número de especies.

El Intervalo de Confianza (Banda Gris) alrededor de la línea se ensancha notablemente a medida que el Área aumenta.Esto sugiere que, para las islas muy grandes, el modelo de regresión lineal es menos preciso o menos seguro al predecir el número exacto de especies. La incertidumbre predictiva es mayor para las islas más grandes.

–> Hay un punto bastante alejado:

isla_maxima <- gala %>%
  filter(Area == max(Area)) %>%

  select(Area, Species, log_Species, Elevation, Endemics)


print(isla_maxima)
##            Area Species log_Species Elevation Endemics
## Isabela 4669.32     347    5.849325      1707       89

Al estar alejada, la Isla Isabela, puede indicar una anomalía biológica que confirma los principios ecológicos, como por ejemplo:Al tener el área más grande, es la isla que ofrece la mayor diversidad de hábitats y el mayor espacio, lo que se traduce en el mayor número total de especies o que este punto es la principal causa de la asimetría positiva que viste en los Box Plots anteriores. Su existencia demuestra por qué la mayoría de las islas son pequeñas y pobres en especies, mientras que esta isla gigante eleva drásticamente el valor promedio de la diversidad del archipiélago.


Conclusión:

El análisis de la biodiversidad en Galápagos confirma que la riqueza de especies es muy desigual. La mayoría de las islas son pobres, pero unas pocas son excepcionalmente ricas.

Esta diferencia se debe directamente a factores físicos y no a la distancia: el Área y la Elevación son los predictores clave. El modelo de regresión valida que las islas más grandes albergan más especies, lo que es un principio fundamental de la ecología. En resumen, la geografía (tamaño y altura) manda sobre la biodiversidad en el archipiélago.