Tenemos una base de datos con 30 observaciones de tortugas en las islas Galápagos (Faraway, 2005), entre las variables estan el número de especies de tortugas, endemic (número de especies endémicas), area (km2), elevation (altura máxima, m), nearest (distancia a la isla más cercana, km), Scruz (distancia hasta la isla Santa Cruz, km) y adjacent (área de la isla adyacente, km2). Se quiere estudiar qué variables explican mejor el número de especies.
data(gala)
head(gala)
## Species Endemics Area Elevation Nearest Scruz Adjacent
## Baltra 58 23 25.09 346 0.6 0.6 1.84
## Bartolome 31 21 1.24 109 0.6 26.3 572.33
## Caldwell 3 3 0.21 114 2.8 58.7 0.78
## Champion 25 9 0.10 46 1.9 47.4 0.18
## Coamano 2 1 0.05 77 1.9 1.9 903.82
## Daphne.Major 18 11 0.34 119 8.0 8.0 1.84
summary(gala)
## Species Endemics Area Elevation
## Min. : 2.00 Min. : 0.00 Min. : 0.0100 Min. : 25.00
## 1st Qu.: 13.00 1st Qu.: 7.25 1st Qu.: 0.2575 1st Qu.: 97.75
## Median : 42.00 Median :18.00 Median : 2.5900 Median : 192.00
## Mean : 85.23 Mean :26.10 Mean : 261.7087 Mean : 368.03
## 3rd Qu.: 96.00 3rd Qu.:32.25 3rd Qu.: 59.2375 3rd Qu.: 435.25
## Max. :444.00 Max. :95.00 Max. :4669.3200 Max. :1707.00
## Nearest Scruz Adjacent
## Min. : 0.20 Min. : 0.00 Min. : 0.03
## 1st Qu.: 0.80 1st Qu.: 11.03 1st Qu.: 0.52
## Median : 3.05 Median : 46.65 Median : 2.59
## Mean :10.06 Mean : 56.98 Mean : 261.10
## 3rd Qu.:10.03 3rd Qu.: 81.08 3rd Qu.: 59.24
## Max. :47.40 Max. :290.20 Max. :4669.32
correlaciones <- c(
Endemics = cor(gala$Species, gala$Endemics),
Area = cor(gala$Species, gala$Area),
Elevation = cor(gala$Species, gala$Elevation),
Nearest = cor(gala$Species, gala$Nearest),
Scruz = cor(gala$Species, gala$Scruz),
Adjacent = cor(gala$Species, gala$Adjacent)
)
tabla_cor <- data.frame(Correlacion_con_Species = correlaciones)
tabla_cor
## Correlacion_con_Species
## Endemics 0.97087652
## Area 0.61784307
## Elevation 0.73848666
## Nearest -0.01409407
## Scruz -0.17114244
## Adjacent 0.02616635
Los valores de correlación cercanos a +1 indican una relación positiva fuerte, mientras que los cercanos a –1 representan una relación negativa fuerte. Por el contrario, valores próximos a 0 sugieren ausencia de una relación lineal entre las variables. En este caso, la correlación entre el número de especies y el número de especies endémicas es 0.97, lo cual es casi una correlación perfecta y evidencia una fuerte relación positiva entre ambas variables. En contraste, las demás variables presentan correlaciones débiles, por lo que no ofrecen una relación lo suficientemente fuerte como para explicar la variación en el número total de especies.
par(mfrow=c(2,3))
plot(gala$Endemics, gala$Species, main="Species vs Endemics",
xlab="Endemics", ylab="Species", pch=16)
plot(gala$Area, gala$Species, main="Species vs Area",
xlab="Area", ylab="Species", pch=16)
plot(gala$Elevation, gala$Species, main="Species vs Elevation",
xlab="Elevation", ylab="Species", pch=16)
plot(gala$Nearest, gala$Species, main="Species vs Nearest",
xlab="Nearest", ylab="Species", pch=16)
plot(gala$Scruz, gala$Species, main="Species vs Scruz",
xlab="Scruz", ylab="Species", pch=16)
plot(gala$Adjacent, gala$Species, main="Species vs Adjacent",
xlab="Adjacent", ylab="Species", pch=16)
par(mfrow=c(1,1))
En el gráfico se puede visualizar la relación positiva entre la cantidad de especies y las especies endémicas.
mod=lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent,
data = gala)
summary(mod)
##
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest +
## Scruz + Adjacent, data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## Endemics 4.393654 0.481203 9.131 4.13e-09 ***
## Area 0.013258 0.011403 1.163 0.257
## Elevation -0.047537 0.047596 -0.999 0.328
## Nearest -0.101460 0.500871 -0.203 0.841
## Scruz 0.008256 0.105884 0.078 0.939
## Adjacent 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
El modelo es estadísticamente significativo (p-value = 9.67e-14). Es decir, al menos una de las variables aporta información para predecir el número de especies. F-statistic = 71.88
El modelo explica el 94.9% de la variabilidad en el número de especies (R² = 0.9494). Aún después de penalizar por número de variables, el modelo sigue siendo muy bueno (R² ajustado = 0.9362).
Los residuos se distribuyen alrededor de 0 (mediana 1.83) y el rango es relativamente simétrico.
La variable Endemics (4.39, p-value < 0.001) es la única variable significativa.
par(mfrow=c(2,2))
plot(mod)
## Warning in sqrt(crit * p * (1 - hh)/hh): NaNs produced
## Warning in sqrt(crit * p * (1 - hh)/hh): NaNs produced
par(mfrow=c(1,1))
shapiro.test(resid(mod))
##
## Shapiro-Wilk normality test
##
## data: resid(mod)
## W = 0.93598, p-value = 0.07094
No hay evidencia estadística suficiente (p-value = 0.07094 > 0.05) para afirmar que los residuos se desvían de la normalidad. Asi que los residuos se pueden considerar aproximadamente normales.
La variable Endemics es la única variable significativa del modelo, indicando que, por cada especie endémica adicional presente en una isla, el número total de especies aumenta en promedio en 4.39 especies. En otras palabras, las islas con un mayor numero de especies, tienden a también presentar una mayor cantidad de especies endemicas. Las especies endémicas son aquellas cuya distribución está restringida a una región, ecosistema o área geográfica específica (Stattersfield et al., 1998). El alto nivel de endemismo en las islas se debe principalmente al aislamiento geográfico que enfrentan sus poblaciones, así como a las condiciones ambientales únicas que generan presiones selectivas distintas a las del continente. Estos factores promueven procesos de especiación, dando lugar a especies propias de cada territorio.
El modelo de regresión multiple revela que la única variable que explica significativamente el número total de especies en las islas Galápagos es el número de especies endémicas.
# observación
nueva_isla <- data.frame(
Endemics = 23,
Area = 25.09,
Elevation = 346,
Nearest = 0.6,
Scruz = 0.6,
Adjacent = 1.84
)
# Predicción del número de especies
predict(mod, newdata = nueva_isla)
## 1
## 69.54823
Stattersfield, A. J., Crosby, M. J., Long, A. J. & Wegen D. C. (1998). Endemic bird areas of the world: priorities for biodiversity conservation. London, England: Birdlife International.