El presente estudio tiene como objetivo identificar el modelo de regresión múltiple más adecuado para explicar la variación en el número de especies de tortugas presentes en las islas Galápagos. Para ello, se analizaron 30 observaciones aleatorias que incluyen variables como el número total de especies, número de especies endémicas, área y elevación de cada isla, así como la distancia hasta la isla Santa Cruz y el área de la isla adyacente.
Inicialmente, se realiza una exploración de los datos a través del análisis de las medidas de tendencia para cada variable. Posteriormente se realiza una matriz de correlaciones para cada una de las variables con el fin de descartar multicolinealidad en las variables predictoras, en este apartado es importante resaltar lo siguiente: Para las variables Species y Endemics, la correlación es muy alta, lo cual es biológicamente lógico; las islas con más especies totales también tienen más endémicas. Sin embargo, esto implica que la variable Endemics no será relevante en el análisis a realizar. Por otro lado, las variables Species y Area poseen una correlación fuerte mas no redundante, lo que remite a la teoría de la biogeografía insular, donde las islas más grandes tienden a tener más especies, un caso similar ocurre al observar las variables Species y Elevation, esta correlación puede explicarse debido a la presencia de una mayor diversidad de hábitats y microclimas a medida que la elevación en una isla aumenta, no obstante, también es necesario resaltar que existe colinealidad interna para estas dos variables, por lo que es posible que incluir ambas en el análisis genera redundancia estadística. Por último, la relación de la variable Species, con las variables Adjacent, Scruz, y Nearest es sumamente débil, por lo que su influencia podría ser mínima en el modelo; además, existe un nuevo caso de colinealidad interna con las variables Nearest y Scruz. Para terminar, también se añade una matriz de diagramas de dispersión con el fin de observar de forma gráfica el análisis anteriormente presentado
## Species Endemics Area Elevation
## Min. : 2.00 Min. : 0.00 Min. : 0.0100 Min. : 25.00
## 1st Qu.: 13.00 1st Qu.: 7.25 1st Qu.: 0.2575 1st Qu.: 97.75
## Median : 42.00 Median :18.00 Median : 2.5900 Median : 192.00
## Mean : 85.23 Mean :26.10 Mean : 261.7087 Mean : 368.03
## 3rd Qu.: 96.00 3rd Qu.:32.25 3rd Qu.: 59.2375 3rd Qu.: 435.25
## Max. :444.00 Max. :95.00 Max. :4669.3200 Max. :1707.00
## Nearest Scruz Adjacent
## Min. : 0.20 Min. : 0.00 Min. : 0.03
## 1st Qu.: 0.80 1st Qu.: 11.03 1st Qu.: 0.52
## Median : 3.05 Median : 46.65 Median : 2.59
## Mean :10.06 Mean : 56.98 Mean : 261.10
## 3rd Qu.:10.03 3rd Qu.: 81.08 3rd Qu.: 59.24
## Max. :47.40 Max. :290.20 Max. :4669.32
## Species Endemics Area Elevation Nearest
## Species 1.00000000 0.970876516 0.6178431 0.73848666 -0.014094067
## Endemics 0.97087652 1.000000000 0.6169791 0.79290437 0.005994286
## Area 0.61784307 0.616979087 1.0000000 0.75373492 -0.111103196
## Elevation 0.73848666 0.792904369 0.7537349 1.00000000 -0.011076984
## Nearest -0.01409407 0.005994286 -0.1111032 -0.01107698 1.000000000
## Scruz -0.17114244 -0.154264319 -0.1007849 -0.01543829 0.615410357
## Adjacent 0.02616635 0.082658026 0.1800376 0.53645782 -0.116247885
## Scruz Adjacent
## Species -0.17114244 0.02616635
## Endemics -0.15426432 0.08265803
## Area -0.10078493 0.18003759
## Elevation -0.01543829 0.53645782
## Nearest 0.61541036 -0.11624788
## Scruz 1.00000000 0.05166066
## Adjacent 0.05166066 1.00000000
La primera modelización incluye todas las variables originales, y al observar la significancia de estas, se aprecia que Endemics presenta el valor p más pequeño, y el modelo en general posee un R^2 ajustado de 0.9362, no obstante, es posible determinar que este modelo no es adecuado para el caso de estudio por dos razones: Primero, no es biológicamente lógico que el número de especies pueda ser explicado por el número de especies endémicas en una zona; segundo, durante el análisis de correlaciones se determinó que la relación entre Species y Endemics es sumamente fuerte, al punto de poder afirmar que ambas presentan el mismo comportamiento, por lo tanto, esta variable explicativa enmascara el efecto de las otras, que , aunque menos marcado, es más explicativo en cuanto al fenómeno que se está estudiando.
mod_1 <- lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, data = gala)
summary(mod_1)##
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest +
## Scruz + Adjacent, data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## Endemics 4.393654 0.481203 9.131 4.13e-09 ***
## Area 0.013258 0.011403 1.163 0.257
## Elevation -0.047537 0.047596 -0.999 0.328
## Nearest -0.101460 0.500871 -0.203 0.841
## Scruz 0.008256 0.105884 0.078 0.939
## Adjacent 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
La segunda modelización excluye la variable Endemics, y por lo tanto permite observar el comportamiento y significancia de las demás variables explicativas dentro del modelo, para este obtenemos que: Primero, la variable Elevation es sumamente significativa, de nuevo es posible explicarlo mediante la teoría de la biogeografía insular, donde la amplia variedad de hábitats y microclimas promueve la biodiversidad, por lo tanto, esta variable es biológicamente lógica; segundo, la variable Adjacent también es sumamente significativa, lo cual es interesante, teniendo en cuenta que al hacer el primer análisis esta tuvo una correlación con Species muy débil, no obstante, este caso demuestra las marcadas ventajas de los modelos de regresión múltiple a la hora de evaluar el efecto de múltiples variables explicativas sobre una variable explicada, ya que la interacción de estas puede ser completamente distinta al efecto crudo de una sobre otra al momento de aislarlas. Este modelo cuenta con un valor R^2 ajustado de 0.7171, lo cual es aceptable aunque mejorable, ya que aún resta solucionar el efecto de la multicolinealidad entre Elevation y Area sobre el modelo.
##
## Call:
## lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent,
## data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -111.679 -34.898 -7.862 33.460 182.584
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.068221 19.154198 0.369 0.715351
## Area -0.023938 0.022422 -1.068 0.296318
## Elevation 0.319465 0.053663 5.953 3.82e-06 ***
## Nearest 0.009144 1.054136 0.009 0.993151
## Scruz -0.240524 0.215402 -1.117 0.275208
## Adjacent -0.074805 0.017700 -4.226 0.000297 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 60.98 on 24 degrees of freedom
## Multiple R-squared: 0.7658, Adjusted R-squared: 0.7171
## F-statistic: 15.7 on 5 and 24 DF, p-value: 6.838e-07
La tercera modelización incluye solo las variables que ya se comprobaron útiles en el segundo modelo y, adicionalemente, reemplaza la variable Area por su valor logarítmico, de ahora en adelante logArea, lo anterior se realiza por las siguientes razones: Generalmente, la relación entre el número de especies y el área de un hábitat es logarítmica, esto obedece a la conocida como curva de Arrhenius en biogeografía, donde en términos ecológicos, a medida que el área aumenta, el número de especies también lo hace, pero con rendimientos decrecientes, así cada nueva unidad de área agrega menos especies que la anterior. Adicionalmente, al observar el diagrama de dispersión para la relación Species-Area, se observa que los puntos no se organizan sobre la diagonal del plano, en cambio se disponen alrededor de una línea vertical en la zona izquierda del plano, lo que puede indicar que la relación entre estas dos variables puede existir, aunque no necesariamente es lineal. Por último, es importante resaltar también que, como se había mencionado anteriormente, la variable Area presenta multicolinealidad con la variable Elevation, por lo que antes de eliminarla debía revisarse si el efecto negativo podía mitigarse mediante otro método. Después de este proceso se obtiene un modelo con Area, Elevation y Adjacent como variables significativas y un valor R^2 ajustado de 0.7542, con lo que se obtiene un mejor ajuste respecto a los anteriores modelos.
gala$logArea <- log(gala$Area)
mod_3 <- lm(Species ~ logArea + Elevation + Nearest + Scruz + Adjacent, data = gala)
summary(mod_3)##
## Call:
## lm(formula = Species ~ logArea + Elevation + Nearest + Scruz +
## Adjacent, data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -79.424 -33.914 -9.292 17.384 170.346
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 35.63491 19.53412 1.824 0.08059 .
## logArea 13.97474 6.28918 2.222 0.03596 *
## Elevation 0.16592 0.05693 2.914 0.00760 **
## Nearest -0.71756 1.05375 -0.681 0.50242
## Scruz -0.20292 0.20171 -1.006 0.32445
## Adjacent -0.05517 0.01574 -3.505 0.00182 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 56.83 on 24 degrees of freedom
## Multiple R-squared: 0.7966, Adjusted R-squared: 0.7542
## F-statistic: 18.8 on 5 and 24 DF, p-value: 1.333e-07
Para el modelo final, se revisaron los supuestos de la regresión lineal múltiple mediante gráficos de diagnóstico y pruebas estadísticas complementarias. En primer lugar, el análisis del gráfico de residuos frente a los valores ajustados permitió evaluar la linealidad y la homocedasticidad. En este se observa una ligera tendencia curvilínea y una mayor dispersión de los residuos en las islas con un mayor número de especies, lo que sugiere una posible violación leve del supuesto de homocedasticidad. Esta variación podría atribuirse a la naturaleza ecológica de los datos, ya que las islas más grandes o con mayor elevación suelen presentar una mayor diversidad de hábitats y, por ende, una variabilidad biológica superior. Aun así, los residuos no muestran un patrón sistemático fuerte, por lo que el modelo conserva un ajuste adecuado para los fines del estudio.
En cuanto a la normalidad de los residuos, el gráfico Q-Q muestra que los puntos siguen aproximadamente la línea diagonal esperada bajo una distribución normal. No obstante, se observa una leve desviación en las islas Santa Cruz, San Cristóbal y Santa María, las cuales se apartan de los cuantiles teóricos. Esto sugiere que los residuos son casi normales, con algunas observaciones atípicas que reflejan características biológicas particulares más que errores de medición. Este diagnóstico puede complementarse con la prueba de Shapiro-Wilk, que tiene un valor p menor a 0.05 lo que indicaría que las desviaciones se deben a la influencia de algunos valores extremos.
La homogeneidad de varianzas se evaluó mediante la prueba de Breusch-Pagan (bptest). Donde el valor p de esta prueba es menor a 0.05, lo que indica que la varianza de los errores no es constante, sin embargo, en este caso, tanto visual como estadísticamente, la desviación de la homocedasticidad no parece crítica, por lo que el modelo mantiene su validez interpretativa.
Finalmente, el análisis del gráfico de residuos frente al leverage permitió identificar observaciones influyentes. Se observó que las islas Santa Cruz, San Cristóbal e Isabela presentan altos valores de leverage y residuos estandarizados, lo que indica que ejercen una influencia considerable sobre los coeficientes del modelo. En particular, Santa Cruz se aproxima al límite de la distancia de Cook, lo que sugiere que esta observación puede modificar de forma notable la estimación de los parámetros. Sin embargo, dado que Santa Cruz es la isla de mayor tamaño y diversidad biológica del archipiélago, su comportamiento extremo es coherente desde el punto de vista ecológico y puede considerarse un outlier legítimo y no un error.
En conjunto, los supuestos del modelo se cumplen de manera razonable. Las leves desviaciones detectadas no comprometen la validez del análisis y se interpretan como una consecuencia natural de la complejidad ecológica del sistema insular analizado.
##
## Shapiro-Wilk normality test
##
## data: resid(mod_3)
## W = 0.91809, p-value = 0.02394
##
## studentized Breusch-Pagan test
##
## data: mod_3
## BP = 8.6745, df = 5, p-value = 0.1228
El modelo de regresión múltiple que mejor explica el número de especies de tortugas en las islas Galápagos incluye las variables logArea, Elevation, Adjacent, Nearest y Scruz. Este modelo presenta un R² ajustado de aproximadamente 0.75, lo que indica que explica cerca del 75 % de la variabilidad observada en el número de especies. En términos ecológicos, los resultados muestran que tanto el tamaño de la isla como su elevación son predictores sólidos de la riqueza de especies, en concordancia con la teoría clásica de la biogeografía insular, que propone que la riqueza específica aumenta con el tamaño del hábitat y con la diversidad de microclimas disponibles.
Resulta particularmente interesante que la variable “Área adyacente”, que en el análisis de correlación inicial presentaba una relación muy débil con el número de especies, haya resultado significativa dentro del modelo multivariable. Este comportamiento sugiere que su efecto se hace evidente al controlar las demás variables, revelando la existencia de interacciones espaciales: las islas cercanas a otras de gran tamaño podrían favorecer el intercambio de especies y, en consecuencia, aumentar la riqueza local. En otras palabras, la significancia de esta variable no refleja una correlación directa, sino un efecto condicionado por la estructura espacial del archipiélago.
A pesar de la influencia destacada de islas como Santa Cruz, el modelo conserva su capacidad predictiva y representa adecuadamente las tendencias biogeográficas del sistema. Se recomienda, sin embargo, considerar en futuros análisis modelos no lineales o métodos robustos que permitan evaluar con mayor precisión la influencia de observaciones extremas y la posible interacción entre variables ambientales y espaciales. En conjunto, los resultados obtenidos respaldan de manera sólida los principios de la biogeografía insular y aportan evidencia cuantitativa sobre los factores que determinan la distribución y diversidad de tortugas en las islas Galápagos.