Punto 1 - Parcial II

Introducción

Tenemos una base de datos con 30 observaciones de tortugas en las islas Galápagos (Faraway, 2005), entre las variables estan el número de especies de tortugas, endemic (número de especies endémicas), area (km2), elevation (altura máxima, m), nearest (distancia a la isla más cercana, km), Scruz (distancia hasta la isla Santa Cruz, km) y adjacent (área de la isla adyacente, km2). Se quiere estudiar qué variables explican mejor el número de especies.

data(gala)
head(gala)

##              Species Endemics  Area Elevation Nearest Scruz Adjacent
## Baltra            58       23 25.09       346     0.6   0.6     1.84
## Bartolome         31       21  1.24       109     0.6  26.3   572.33
## Caldwell           3        3  0.21       114     2.8  58.7     0.78
## Champion          25        9  0.10        46     1.9  47.4     0.18
## Coamano            2        1  0.05        77     1.9   1.9   903.82
## Daphne.Major      18       11  0.34       119     8.0   8.0     1.84

Descripción de variables

summary(gala)

##     Species          Endemics          Area             Elevation      
##  Min.   :  2.00   Min.   : 0.00   Min.   :   0.0100   Min.   :  25.00  
##  1st Qu.: 13.00   1st Qu.: 7.25   1st Qu.:   0.2575   1st Qu.:  97.75  
##  Median : 42.00   Median :18.00   Median :   2.5900   Median : 192.00  
##  Mean   : 85.23   Mean   :26.10   Mean   : 261.7087   Mean   : 368.03  
##  3rd Qu.: 96.00   3rd Qu.:32.25   3rd Qu.:  59.2375   3rd Qu.: 435.25  
##  Max.   :444.00   Max.   :95.00   Max.   :4669.3200   Max.   :1707.00  
##     Nearest          Scruz           Adjacent      
##  Min.   : 0.20   Min.   :  0.00   Min.   :   0.03  
##  1st Qu.: 0.80   1st Qu.: 11.03   1st Qu.:   0.52  
##  Median : 3.05   Median : 46.65   Median :   2.59  
##  Mean   :10.06   Mean   : 56.98   Mean   : 261.10  
##  3rd Qu.:10.03   3rd Qu.: 81.08   3rd Qu.:  59.24  
##  Max.   :47.40   Max.   :290.20   Max.   :4669.32

Correlaciones

correlaciones <- c(
  Endemics  = cor(gala$Species, gala$Endemics),
  Area      = cor(gala$Species, gala$Area),
  Elevation = cor(gala$Species, gala$Elevation),
  Nearest   = cor(gala$Species, gala$Nearest),
  Scruz     = cor(gala$Species, gala$Scruz),
  Adjacent  = cor(gala$Species, gala$Adjacent)
)

tabla_cor <- data.frame(Correlacion_con_Species = correlaciones)

tabla_cor

##           Correlacion_con_Species
## Endemics               0.97087652
## Area                   0.61784307
## Elevation              0.73848666
## Nearest               -0.01409407
## Scruz                 -0.17114244
## Adjacent               0.02616635

Los valores de correlación cercanos a +1 indican una relación positiva fuerte, mientras que los cercanos a –1 representan una relación negativa fuerte. Por el contrario, valores próximos a 0 sugieren ausencia de una relación lineal entre las variables. En este caso, la correlación entre el número de especies y el número de especies endémicas es 0.97, lo cual es casi una correlación perfecta y evidencia una fuerte relación positiva entre ambas variables. En contraste, las demás variables presentan correlaciones débiles, por lo que no ofrecen una relación lo suficientemente fuerte como para explicar la variación en el número total de especies.

Gráficos de Species vs variable

par(mfrow=c(2,3))
plot(gala$Endemics, gala$Species, main="Species vs Endemics",
     xlab="Endemics", ylab="Species", pch=16)
plot(gala$Area, gala$Species, main="Species vs Area",
     xlab="Area", ylab="Species", pch=16)
plot(gala$Elevation, gala$Species, main="Species vs Elevation",
     xlab="Elevation", ylab="Species", pch=16)
plot(gala$Nearest, gala$Species, main="Species vs Nearest",
     xlab="Nearest", ylab="Species", pch=16)
plot(gala$Scruz, gala$Species, main="Species vs Scruz",
     xlab="Scruz", ylab="Species", pch=16)
plot(gala$Adjacent, gala$Species, main="Species vs Adjacent",
     xlab="Adjacent", ylab="Species", pch=16)

par(mfrow=c(1,1))

En el gráfico se puede visualizar la relación positiva entre la cantidad de especies y las especies endémicas.

Modelo de regresion múltiple

mod=lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent,
             data = gala)
summary(mod)

## 
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest + 
##     Scruz + Adjacent, data = gala)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.337942   9.423550  -1.628    0.117    
## Endemics      4.393654   0.481203   9.131 4.13e-09 ***
## Area          0.013258   0.011403   1.163    0.257    
## Elevation    -0.047537   0.047596  -0.999    0.328    
## Nearest      -0.101460   0.500871  -0.203    0.841    
## Scruz         0.008256   0.105884   0.078    0.939    
## Adjacent      0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

El modelo es estadísticamente significativo (p-value = 9.67e-14). Es decir, al menos una de las variables aporta información para predecir el número de especies. F-statistic = 71.88

El modelo explica el 94.9% de la variabilidad en el número de especies (R² = 0.9494). Aún después de penalizar por número de variables, el modelo sigue siendo muy bueno (R² ajustado = 0.9362).

Los residuos se distribuyen alrededor de 0 (mediana 1.83) y el rango es relativamente simétrico.

La variable Endemics (4.39, p-value < 0.001) es la única variable significativa.

par(mfrow=c(2,2))
plot(mod)

## Warning in sqrt(crit * p * (1 - hh)/hh): NaNs produced
## Warning in sqrt(crit * p * (1 - hh)/hh): NaNs produced

par(mfrow=c(1,1))

Shapiro-Wilk normality test

shapiro.test(resid(mod))

## 
##  Shapiro-Wilk normality test
## 
## data:  resid(mod)
## W = 0.93598, p-value = 0.07094

No hay evidencia estadística suficiente (p-value = 0.07094 > 0.05) para afirmar que los residuos se desvían de la normalidad. Asi que los residuos se pueden considerar aproximadamente normales.

Interpretación

La variable Endemics es la única variable significativa del modelo, indicando que, por cada especie endémica adicional presente en una isla, el número total de especies aumenta en promedio en 4.39 especies. En otras palabras, las islas con un mayor numero de especies, tienden a también presentar una mayor cantidad de especies endemicas. Las especies endémicas son aquellas cuya distribución está restringida a una región, ecosistema o área geográfica específica (Stattersfield et al., 1998). El alto nivel de endemismo en las islas se debe principalmente al aislamiento geográfico que enfrentan sus poblaciones, así como a las condiciones ambientales únicas que generan presiones selectivas distintas a las del continente. Estos factores promueven procesos de especiación, dando lugar a especies propias de cada territorio.

Conclusión

El modelo de regresión multiple revela que la única variable que explica significativamente el número total de especies en las islas Galápagos es el número de especies endémicas.

Simular una situación para el modelo

# observación 
nueva_isla <- data.frame(
  Endemics = 23,
  Area = 25.09,
  Elevation = 346,
  Nearest = 0.6,
  Scruz = 0.6,
  Adjacent = 1.84
)

# Predicción del número de especies
predict(mod, newdata = nueva_isla)

##        1 
## 69.54823

Referencias

Stattersfield, A. J., Crosby, M. J., Long, A. J. & Wegen D. C. (1998). Endemic bird areas of the world: priorities for biodiversity conservation. London, England: Birdlife International.