Analisis de base de datos sobre especies de Galapago

La base de datos tiene informacion de varias islas de Galápagos, donde “Species” (número de especies) es la variable de interes.

Las demas variables son características físicas como “area”, “elevation”, biológicas como “Endemics” y de aislamiento “Nearest”, “Scruz”, “Adjacent”.

como se puede apreciar mas adelante, la variable, “Species”, tiene un amplio rango (Mín: 2, Máx: 93), indicando una gran diferencia en la riqueza de especies entre las islas. Esto justifica el uso de un modelo para identificar los posibles factores que explican esta variación.

# =========================================================
#  Analisis de tortugas
# =========================================================

load("gala.RData")   

# objetos cargados
ls()
## [1] "gala"
head(gala)
##              Species Endemics  Area Elevation Nearest Scruz Adjacent
## Baltra            58       23 25.09       346     0.6   0.6     1.84
## Bartolome         31       21  1.24       109     0.6  26.3   572.33
## Caldwell           3        3  0.21       114     2.8  58.7     0.78
## Champion          25        9  0.10        46     1.9  47.4     0.18
## Coamano            2        1  0.05        77     1.9   1.9   903.82
## Daphne.Major      18       11  0.34       119     8.0   8.0     1.84
summary(gala)
##     Species          Endemics          Area             Elevation      
##  Min.   :  2.00   Min.   : 0.00   Min.   :   0.0100   Min.   :  25.00  
##  1st Qu.: 13.00   1st Qu.: 7.25   1st Qu.:   0.2575   1st Qu.:  97.75  
##  Median : 42.00   Median :18.00   Median :   2.5900   Median : 192.00  
##  Mean   : 85.23   Mean   :26.10   Mean   : 261.7087   Mean   : 368.03  
##  3rd Qu.: 96.00   3rd Qu.:32.25   3rd Qu.:  59.2375   3rd Qu.: 435.25  
##  Max.   :444.00   Max.   :95.00   Max.   :4669.3200   Max.   :1707.00  
##     Nearest          Scruz           Adjacent      
##  Min.   : 0.20   Min.   :  0.00   Min.   :   0.03  
##  1st Qu.: 0.80   1st Qu.: 11.03   1st Qu.:   0.52  
##  Median : 3.05   Median : 46.65   Median :   2.59  
##  Mean   :10.06   Mean   : 56.98   Mean   : 261.10  
##  3rd Qu.:10.03   3rd Qu.: 81.08   3rd Qu.:  59.24  
##  Max.   :47.40   Max.   :290.20   Max.   :4669.32

En summary variables como Area y Elevation muestran una gran dispersión, lo que sugiere que hay algunas islas significativamente más grandes y altas que otras, lo cual puede influir fuertemente en el modelo.

#Correlaciones

Este paso evalúa la relación entre el número de especies y cada predictor.

#Gráficos de Dispersión

# ---------------------------------------------------------
# Correlaciones entre variables 
# ---------------------------------------------------------

names(gala)
## [1] "Species"   "Endemics"  "Area"      "Elevation" "Nearest"   "Scruz"    
## [7] "Adjacent"
# correlaciones entre Species 
cor(gala)
##               Species     Endemics       Area   Elevation      Nearest
## Species    1.00000000  0.970876516  0.6178431  0.73848666 -0.014094067
## Endemics   0.97087652  1.000000000  0.6169791  0.79290437  0.005994286
## Area       0.61784307  0.616979087  1.0000000  0.75373492 -0.111103196
## Elevation  0.73848666  0.792904369  0.7537349  1.00000000 -0.011076984
## Nearest   -0.01409407  0.005994286 -0.1111032 -0.01107698  1.000000000
## Scruz     -0.17114244 -0.154264319 -0.1007849 -0.01543829  0.615410357
## Adjacent   0.02616635  0.082658026  0.1800376  0.53645782 -0.116247885
##                 Scruz    Adjacent
## Species   -0.17114244  0.02616635
## Endemics  -0.15426432  0.08265803
## Area      -0.10078493  0.18003759
## Elevation -0.01543829  0.53645782
## Nearest    0.61541036 -0.11624788
## Scruz      1.00000000  0.05166066
## Adjacent   0.05166066  1.00000000
# graficar
plot(gala$Area, gala$Species, main="Species vs Area")

plot(gala$Elevation, gala$Species, main="Species vs Elevation")

plot(gala$Endemics, gala$Species, main="Species vs Endemics")

plot(gala$Nearest, gala$Species, main="Species vs Nearest")

plot(gala$Scruz, gala$Species, main="Species vs Scruz")

plot(gala$Adjacent, gala$Species, main="Species vs Adjacent")

Species vs Area y Species vs Elevation: Se observa una relación positiva. Las islas más grandes (mayor Área) y más altas (mayor Elevación) tienden a albergar un mayor número de especies.

Species vs Endemics: Muestra una correlación positiva muy fuerte. Es natural, ya que las islas con más especies totales suelen tener más especies únicas (endémicas).

Species vs Distancia (Nearest, Scruz, Adjacent): La relación es menos definida. Las variables de aislamiento parecen tener un impacto menos directo o más complejo en comparación con el tamaño físico de la isla.

Conclusión: El tamaño físico (Área y Elevación) son los factores que, individualmente, muestran la relación lineal más evidente con la riqueza de especies.

# ---------------------------------------------------------
# modelo regresion simple
# ---------------------------------------------------------

# modelo lineal
modelo <- lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, data = gala)

summary(modelo)
## 
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest + 
##     Scruz + Adjacent, data = gala)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.337942   9.423550  -1.628    0.117    
## Endemics      4.393654   0.481203   9.131 4.13e-09 ***
## Area          0.013258   0.011403   1.163    0.257    
## Elevation    -0.047537   0.047596  -0.999    0.328    
## Nearest      -0.101460   0.500871  -0.203    0.841    
## Scruz         0.008256   0.105884   0.078    0.939    
## Adjacent      0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

Esta vez podemos verificar en el summary que la variable con la mayor significancia es Endemics, ya que se señala con “***”

# prediccion

# Crear nueva "isla" 
nueva_isla <- data.frame(
  Endemics = 3,
  Area = 10,
  Elevation = 800,
  Nearest = 50,
  Scruz = 40,
  Adjacent = 5
)

# Usar mod para predecir cuántas especies tendría
predict(modelo, newdata = nueva_isla)
##         1 
## -44.78795
# También podemos obtener intervalos de confianza
predict(modelo, newdata = nueva_isla, interval = "confidence")
##         fit       lwr      upr
## 1 -44.78795 -127.4918 37.91594
# ---------------------------------------------------------
# graficar diagnostico
# ---------------------------------------------------------

par(mfrow = c(2,2))
plot(modelo)

par(mfrow = c(1,1))