Introducción

El presente ejercicio tiene como objetivo aplicar un modelo de regresión lineal múltiple utilizando el conjunto de datos gala, el cual contiene información sobre 30 islas del archipiélago de Galápagos. Este conjunto incluye variables biológicas y geográficas como el número total de especies (Species), número de especies endémicas (Endemics), área (Area), elevación máxima (Elevation), y diferentes medidas de distancia entre islas (Nearest, Scruz, Adjacent).

El análisis busca explicar el número de especies presentes en las islas en función de las variables mencionadas, con el propósito de identificar cuáles de ellas tienen una influencia significativa sobre la riqueza de especies. Finalmente, se utiliza el modelo ajustado para predecir el número esperado de especies en una isla hipotética denominada Isla Pigy, a partir de sus características geográficas.

#carga de datos 

load("C:/Users/zz/Documents/Bioestadistica/gala.RData")

head(gala)
##              Species Endemics  Area Elevation Nearest Scruz Adjacent
## Baltra            58       23 25.09       346     0.6   0.6     1.84
## Bartolome         31       21  1.24       109     0.6  26.3   572.33
## Caldwell           3        3  0.21       114     2.8  58.7     0.78
## Champion          25        9  0.10        46     1.9  47.4     0.18
## Coamano            2        1  0.05        77     1.9   1.9   903.82
## Daphne.Major      18       11  0.34       119     8.0   8.0     1.84
# Ver estructura del dataset 

str(gala)
## 'data.frame':    30 obs. of  7 variables:
##  $ Species  : num  58 31 3 25 2 18 24 10 8 2 ...
##  $ Endemics : num  23 21 3 9 1 11 0 7 4 2 ...
##  $ Area     : num  25.09 1.24 0.21 0.1 0.05 ...
##  $ Elevation: num  346 109 114 46 77 119 93 168 71 112 ...
##  $ Nearest  : num  0.6 0.6 2.8 1.9 1.9 8 6 34.1 0.4 2.6 ...
##  $ Scruz    : num  0.6 26.3 58.7 47.4 1.9 ...
##  $ Adjacent : num  1.84 572.33 0.78 0.18 903.82 ...

Se cargó el conjunto de datos, el cual contiene información de 30 islas de Galápagos. A continuación se muestra su estructura general.

Descripción de las variables

Species: número total de especies registradas en la isla. Endemics: número de especies endémicas. Area: superficie de la isla (km²). Elevation: altura máxima (m). Nearest: distancia a la isla más cercana (km). Scruz: distancia hasta Santa Cruz (km). Adjacent: área de la isla adyacente más grande (km²).

summary(gala) 
##     Species          Endemics          Area             Elevation      
##  Min.   :  2.00   Min.   : 0.00   Min.   :   0.0100   Min.   :  25.00  
##  1st Qu.: 13.00   1st Qu.: 7.25   1st Qu.:   0.2575   1st Qu.:  97.75  
##  Median : 42.00   Median :18.00   Median :   2.5900   Median : 192.00  
##  Mean   : 85.23   Mean   :26.10   Mean   : 261.7087   Mean   : 368.03  
##  3rd Qu.: 96.00   3rd Qu.:32.25   3rd Qu.:  59.2375   3rd Qu.: 435.25  
##  Max.   :444.00   Max.   :95.00   Max.   :4669.3200   Max.   :1707.00  
##     Nearest          Scruz           Adjacent      
##  Min.   : 0.20   Min.   :  0.00   Min.   :   0.03  
##  1st Qu.: 0.80   1st Qu.: 11.03   1st Qu.:   0.52  
##  Median : 3.05   Median : 46.65   Median :   2.59  
##  Mean   :10.06   Mean   : 56.98   Mean   : 261.10  
##  3rd Qu.:10.03   3rd Qu.: 81.08   3rd Qu.:  59.24  
##  Max.   :47.40   Max.   :290.20   Max.   :4669.32

Análisis de correlaciones

cor(gala[, c("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent")])
##               Species     Endemics       Area   Elevation      Nearest
## Species    1.00000000  0.970876516  0.6178431  0.73848666 -0.014094067
## Endemics   0.97087652  1.000000000  0.6169791  0.79290437  0.005994286
## Area       0.61784307  0.616979087  1.0000000  0.75373492 -0.111103196
## Elevation  0.73848666  0.792904369  0.7537349  1.00000000 -0.011076984
## Nearest   -0.01409407  0.005994286 -0.1111032 -0.01107698  1.000000000
## Scruz     -0.17114244 -0.154264319 -0.1007849 -0.01543829  0.615410357
## Adjacent   0.02616635  0.082658026  0.1800376  0.53645782 -0.116247885
##                 Scruz    Adjacent
## Species   -0.17114244  0.02616635
## Endemics  -0.15426432  0.08265803
## Area      -0.10078493  0.18003759
## Elevation -0.01543829  0.53645782
## Nearest    0.61541036 -0.11624788
## Scruz      1.00000000  0.05166066
## Adjacent   0.05166066  1.00000000

Gráficos bivariados

pairs(gala[, c("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent")],
      main = "Relaciones entre Species y variables explicativas")

Interpretación

Se Observa una correlación positiva fuerte entre “Species” y “Endemics”, y en menor medida “Area” y “Elevation”.

Ajuste del modelo de regresión múltiple

modelo_gala <- lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, data = gala)
summary(modelo_gala)
## 
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest + 
##     Scruz + Adjacent, data = gala)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.337942   9.423550  -1.628    0.117    
## Endemics      4.393654   0.481203   9.131 4.13e-09 ***
## Area          0.013258   0.011403   1.163    0.257    
## Elevation    -0.047537   0.047596  -0.999    0.328    
## Nearest      -0.101460   0.500871  -0.203    0.841    
## Scruz         0.008256   0.105884   0.078    0.939    
## Adjacent      0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

Interpretación

El coeficiente de Endemics es positivo y significativo, lo que indica que un un aumento en el número de especies endémicas está asociado con un incremente en el número total de especies.

Predicción con el modelo

isla pigy con valores: predicción Endemics=22, Area=159, Elevation=350, Nearest=1.5, Scruz=90, Adjacent= 100.

isla_pigy <- data.frame(Endemics = 22, Area = 159, Elevation = 350,
                        Nearest = 1.5, Scruz = 90, Adjacent = 100)


predict(modelo_gala,isla_pigy)
##        1 
## 67.56432

Interpretación

Según el modelo, la ilsa Pigy tendría aproximadamente 67.6 especies.

Conclusión

El modelo de regresión múltiple explicó un 93.6% de la variabilidad en el número de especies entre las islas del archipiélago de Galápagos. La variable con mayor influencia fue el número de especies endémicas, mientras que las distancias entre islas no mostraron efectos significativos. La predicción para la isla hipotética Pigy sugiere que tendría alrededor de 68 especies, lo cual concuerda con las tendencias observadas en el conjunto de datos.