La base de datos tiene informacion de varias islas de Galápagos, donde “Species” (número de especies) es la variable de interes.
Las demas variables son características físicas como “area”, “elevation”, biológicas como “Endemics” y de aislamiento “Nearest”, “Scruz”, “Adjacent”.
como se puede apreciar mas adelante, la variable, “Species”, tiene un amplio rango (Mín: 2, Máx: 93), indicando una gran diferencia en la riqueza de especies entre las islas. Esto justifica el uso de un modelo para identificar los posibles factores que explican esta variación.
# =========================================================
# Analisis de tortugas
# =========================================================
load("gala.RData")
# objetos cargados
ls()
## [1] "gala"
head(gala)
## Species Endemics Area Elevation Nearest Scruz Adjacent
## Baltra 58 23 25.09 346 0.6 0.6 1.84
## Bartolome 31 21 1.24 109 0.6 26.3 572.33
## Caldwell 3 3 0.21 114 2.8 58.7 0.78
## Champion 25 9 0.10 46 1.9 47.4 0.18
## Coamano 2 1 0.05 77 1.9 1.9 903.82
## Daphne.Major 18 11 0.34 119 8.0 8.0 1.84
summary(gala)
## Species Endemics Area Elevation
## Min. : 2.00 Min. : 0.00 Min. : 0.0100 Min. : 25.00
## 1st Qu.: 13.00 1st Qu.: 7.25 1st Qu.: 0.2575 1st Qu.: 97.75
## Median : 42.00 Median :18.00 Median : 2.5900 Median : 192.00
## Mean : 85.23 Mean :26.10 Mean : 261.7087 Mean : 368.03
## 3rd Qu.: 96.00 3rd Qu.:32.25 3rd Qu.: 59.2375 3rd Qu.: 435.25
## Max. :444.00 Max. :95.00 Max. :4669.3200 Max. :1707.00
## Nearest Scruz Adjacent
## Min. : 0.20 Min. : 0.00 Min. : 0.03
## 1st Qu.: 0.80 1st Qu.: 11.03 1st Qu.: 0.52
## Median : 3.05 Median : 46.65 Median : 2.59
## Mean :10.06 Mean : 56.98 Mean : 261.10
## 3rd Qu.:10.03 3rd Qu.: 81.08 3rd Qu.: 59.24
## Max. :47.40 Max. :290.20 Max. :4669.32
En summary variables como Area y Elevation muestran una gran dispersión, lo que sugiere que hay algunas islas significativamente más grandes y altas que otras, lo cual puede influir fuertemente en el modelo.
#Correlaciones
Este paso evalúa la relación entre el número de especies y cada predictor.
#Gráficos de Dispersión
# ---------------------------------------------------------
# Correlaciones entre variables
# ---------------------------------------------------------
names(gala)
## [1] "Species" "Endemics" "Area" "Elevation" "Nearest" "Scruz"
## [7] "Adjacent"
# correlaciones entre Species
cor(gala)
## Species Endemics Area Elevation Nearest
## Species 1.00000000 0.970876516 0.6178431 0.73848666 -0.014094067
## Endemics 0.97087652 1.000000000 0.6169791 0.79290437 0.005994286
## Area 0.61784307 0.616979087 1.0000000 0.75373492 -0.111103196
## Elevation 0.73848666 0.792904369 0.7537349 1.00000000 -0.011076984
## Nearest -0.01409407 0.005994286 -0.1111032 -0.01107698 1.000000000
## Scruz -0.17114244 -0.154264319 -0.1007849 -0.01543829 0.615410357
## Adjacent 0.02616635 0.082658026 0.1800376 0.53645782 -0.116247885
## Scruz Adjacent
## Species -0.17114244 0.02616635
## Endemics -0.15426432 0.08265803
## Area -0.10078493 0.18003759
## Elevation -0.01543829 0.53645782
## Nearest 0.61541036 -0.11624788
## Scruz 1.00000000 0.05166066
## Adjacent 0.05166066 1.00000000
# graficar
plot(gala$Area, gala$Species, main="Species vs Area")
plot(gala$Elevation, gala$Species, main="Species vs Elevation")
plot(gala$Endemics, gala$Species, main="Species vs Endemics")
plot(gala$Nearest, gala$Species, main="Species vs Nearest")
plot(gala$Scruz, gala$Species, main="Species vs Scruz")
plot(gala$Adjacent, gala$Species, main="Species vs Adjacent")
Species vs Area y Species vs Elevation: Se observa una relación positiva. Las islas más grandes (mayor Área) y más altas (mayor Elevación) tienden a albergar un mayor número de especies.
Species vs Endemics: Muestra una correlación positiva muy fuerte. Es natural, ya que las islas con más especies totales suelen tener más especies únicas (endémicas).
Species vs Distancia (Nearest, Scruz, Adjacent): La relación es menos definida. Las variables de aislamiento parecen tener un impacto menos directo o más complejo en comparación con el tamaño físico de la isla.
Conclusión: El tamaño físico (Área y Elevación) son los factores que, individualmente, muestran la relación lineal más evidente con la riqueza de especies.
# ---------------------------------------------------------
# modelo regresion simple
# ---------------------------------------------------------
# modelo lineal
modelo <- lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, data = gala)
summary(modelo)
##
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest +
## Scruz + Adjacent, data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## Endemics 4.393654 0.481203 9.131 4.13e-09 ***
## Area 0.013258 0.011403 1.163 0.257
## Elevation -0.047537 0.047596 -0.999 0.328
## Nearest -0.101460 0.500871 -0.203 0.841
## Scruz 0.008256 0.105884 0.078 0.939
## Adjacent 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
Esta vez podemos verificar en el summary que la variable con la mayor significancia es Endemics, ya que se señala con “***”
# prediccion
# Crear nueva "isla"
nueva_isla <- data.frame(
Endemics = 3,
Area = 10,
Elevation = 800,
Nearest = 50,
Scruz = 40,
Adjacent = 5
)
# Usar mod para predecir cuántas especies tendría
predict(modelo, newdata = nueva_isla)
## 1
## -44.78795
# También podemos obtener intervalos de confianza
predict(modelo, newdata = nueva_isla, interval = "confidence")
## fit lwr upr
## 1 -44.78795 -127.4918 37.91594
# ---------------------------------------------------------
# graficar diagnostico
# ---------------------------------------------------------
par(mfrow = c(2,2))
plot(modelo)
par(mfrow = c(1,1))