El presente ejercicio tiene como objetivo aplicar un modelo de regresión lineal múltiple utilizando el conjunto de datos gala, el cual contiene información sobre 30 islas del archipiélago de Galápagos. Este conjunto incluye variables biológicas y geográficas como el número total de especies (Species), número de especies endémicas (Endemics), área (Area), elevación máxima (Elevation), y diferentes medidas de distancia entre islas (Nearest, Scruz, Adjacent).
El análisis busca explicar el número de especies presentes en las islas en función de las variables mencionadas, con el propósito de identificar cuáles de ellas tienen una influencia significativa sobre la riqueza de especies. Finalmente, se utiliza el modelo ajustado para predecir el número esperado de especies en una isla hipotética denominada Isla Pigy, a partir de sus características geográficas.
#carga de datos
load("C:/Users/zz/Documents/Bioestadistica/gala.RData")
head(gala)
## Species Endemics Area Elevation Nearest Scruz Adjacent
## Baltra 58 23 25.09 346 0.6 0.6 1.84
## Bartolome 31 21 1.24 109 0.6 26.3 572.33
## Caldwell 3 3 0.21 114 2.8 58.7 0.78
## Champion 25 9 0.10 46 1.9 47.4 0.18
## Coamano 2 1 0.05 77 1.9 1.9 903.82
## Daphne.Major 18 11 0.34 119 8.0 8.0 1.84
# Ver estructura del dataset
str(gala)
## 'data.frame': 30 obs. of 7 variables:
## $ Species : num 58 31 3 25 2 18 24 10 8 2 ...
## $ Endemics : num 23 21 3 9 1 11 0 7 4 2 ...
## $ Area : num 25.09 1.24 0.21 0.1 0.05 ...
## $ Elevation: num 346 109 114 46 77 119 93 168 71 112 ...
## $ Nearest : num 0.6 0.6 2.8 1.9 1.9 8 6 34.1 0.4 2.6 ...
## $ Scruz : num 0.6 26.3 58.7 47.4 1.9 ...
## $ Adjacent : num 1.84 572.33 0.78 0.18 903.82 ...
Se cargó el conjunto de datos, el cual contiene información de 30 islas de Galápagos. A continuación se muestra su estructura general.
Species: número total de especies registradas en la isla. Endemics: número de especies endémicas. Area: superficie de la isla (km²). Elevation: altura máxima (m). Nearest: distancia a la isla más cercana (km). Scruz: distancia hasta Santa Cruz (km). Adjacent: área de la isla adyacente más grande (km²).
summary(gala)
## Species Endemics Area Elevation
## Min. : 2.00 Min. : 0.00 Min. : 0.0100 Min. : 25.00
## 1st Qu.: 13.00 1st Qu.: 7.25 1st Qu.: 0.2575 1st Qu.: 97.75
## Median : 42.00 Median :18.00 Median : 2.5900 Median : 192.00
## Mean : 85.23 Mean :26.10 Mean : 261.7087 Mean : 368.03
## 3rd Qu.: 96.00 3rd Qu.:32.25 3rd Qu.: 59.2375 3rd Qu.: 435.25
## Max. :444.00 Max. :95.00 Max. :4669.3200 Max. :1707.00
## Nearest Scruz Adjacent
## Min. : 0.20 Min. : 0.00 Min. : 0.03
## 1st Qu.: 0.80 1st Qu.: 11.03 1st Qu.: 0.52
## Median : 3.05 Median : 46.65 Median : 2.59
## Mean :10.06 Mean : 56.98 Mean : 261.10
## 3rd Qu.:10.03 3rd Qu.: 81.08 3rd Qu.: 59.24
## Max. :47.40 Max. :290.20 Max. :4669.32
cor(gala[, c("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent")])
## Species Endemics Area Elevation Nearest
## Species 1.00000000 0.970876516 0.6178431 0.73848666 -0.014094067
## Endemics 0.97087652 1.000000000 0.6169791 0.79290437 0.005994286
## Area 0.61784307 0.616979087 1.0000000 0.75373492 -0.111103196
## Elevation 0.73848666 0.792904369 0.7537349 1.00000000 -0.011076984
## Nearest -0.01409407 0.005994286 -0.1111032 -0.01107698 1.000000000
## Scruz -0.17114244 -0.154264319 -0.1007849 -0.01543829 0.615410357
## Adjacent 0.02616635 0.082658026 0.1800376 0.53645782 -0.116247885
## Scruz Adjacent
## Species -0.17114244 0.02616635
## Endemics -0.15426432 0.08265803
## Area -0.10078493 0.18003759
## Elevation -0.01543829 0.53645782
## Nearest 0.61541036 -0.11624788
## Scruz 1.00000000 0.05166066
## Adjacent 0.05166066 1.00000000
pairs(gala[, c("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent")],
main = "Relaciones entre Species y variables explicativas")
Se Observa una correlación positiva fuerte entre “Species” y “Endemics”, y en menor medida “Area” y “Elevation”.
modelo_gala <- lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, data = gala)
summary(modelo_gala)
##
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest +
## Scruz + Adjacent, data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## Endemics 4.393654 0.481203 9.131 4.13e-09 ***
## Area 0.013258 0.011403 1.163 0.257
## Elevation -0.047537 0.047596 -0.999 0.328
## Nearest -0.101460 0.500871 -0.203 0.841
## Scruz 0.008256 0.105884 0.078 0.939
## Adjacent 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
El coeficiente de Endemics es positivo y significativo, lo que indica que un un aumento en el número de especies endémicas está asociado con un incremente en el número total de especies.
isla pigy con valores: predicción Endemics=22, Area=159, Elevation=350, Nearest=1.5, Scruz=90, Adjacent= 100.
isla_pigy <- data.frame(Endemics = 22, Area = 159, Elevation = 350,
Nearest = 1.5, Scruz = 90, Adjacent = 100)
predict(modelo_gala,isla_pigy)
## 1
## 67.56432
Según el modelo, la ilsa Pigy tendría aproximadamente 67.6 especies.
El modelo de regresión múltiple explicó un 93.6% de la variabilidad en el número de especies entre las islas del archipiélago de Galápagos. La variable con mayor influencia fue el número de especies endémicas, mientras que las distancias entre islas no mostraron efectos significativos. La predicción para la isla hipotética Pigy sugiere que tendría alrededor de 68 especies, lo cual concuerda con las tendencias observadas en el conjunto de datos.