Punto 1
Introducción
El presente análisis tiene como propósito examinar los factores ambientales y geográficos que influyen en la riqueza de especies (Species) presentes en las islas del archipiélago de Galápagos. El conjunto de datos gala contiene información de islas, incluyendo variables como el número de especies endémicas (Endemics), el área de cada isla (Area), la elevación máxima (Elevation), la distancia a la isla más cercana (Nearest), la distancia a la isla de Santa Cruz (Scruz) y el área de las islas adyacentes (Adjacent).
A través del uso de un modelo de regresión lineal múltiple, se busca determinar cuáles de estas variables explican de forma significativa la variación en el número total de especies registradas por isla. Este tipo de análisis es relevante dentro de la biogeografía insular, ya que permite comprender cómo factores como el tamaño, la elevación y el aislamiento afectan la biodiversidad. Además, la identificación de las variables predictoras más influyentes puede aportar información útil para estrategias de conservación y manejo de ecosistemas insulares.
load("C:/Users/Acer/OneDrive/Escritorio/Universidad/Bioesta/gala.RData")
head(gala)
## Species Endemics Area Elevation Nearest Scruz Adjacent
## Baltra 58 23 25.09 346 0.6 0.6 1.84
## Bartolome 31 21 1.24 109 0.6 26.3 572.33
## Caldwell 3 3 0.21 114 2.8 58.7 0.78
## Champion 25 9 0.10 46 1.9 47.4 0.18
## Coamano 2 1 0.05 77 1.9 1.9 903.82
## Daphne.Major 18 11 0.34 119 8.0 8.0 1.84
# Ver estructura del dataset
str(gala)
## 'data.frame': 30 obs. of 7 variables:
## $ Species : num 58 31 3 25 2 18 24 10 8 2 ...
## $ Endemics : num 23 21 3 9 1 11 0 7 4 2 ...
## $ Area : num 25.09 1.24 0.21 0.1 0.05 ...
## $ Elevation: num 346 109 114 46 77 119 93 168 71 112 ...
## $ Nearest : num 0.6 0.6 2.8 1.9 1.9 8 6 34.1 0.4 2.6 ...
## $ Scruz : num 0.6 26.3 58.7 47.4 1.9 ...
## $ Adjacent : num 1.84 572.33 0.78 0.18 903.82 ...
summary(gala)
## Species Endemics Area Elevation
## Min. : 2.00 Min. : 0.00 Min. : 0.0100 Min. : 25.00
## 1st Qu.: 13.00 1st Qu.: 7.25 1st Qu.: 0.2575 1st Qu.: 97.75
## Median : 42.00 Median :18.00 Median : 2.5900 Median : 192.00
## Mean : 85.23 Mean :26.10 Mean : 261.7087 Mean : 368.03
## 3rd Qu.: 96.00 3rd Qu.:32.25 3rd Qu.: 59.2375 3rd Qu.: 435.25
## Max. :444.00 Max. :95.00 Max. :4669.3200 Max. :1707.00
## Nearest Scruz Adjacent
## Min. : 0.20 Min. : 0.00 Min. : 0.03
## 1st Qu.: 0.80 1st Qu.: 11.03 1st Qu.: 0.52
## Median : 3.05 Median : 46.65 Median : 2.59
## Mean :10.06 Mean : 56.98 Mean : 261.10
## 3rd Qu.:10.03 3rd Qu.: 81.08 3rd Qu.: 59.24
## Max. :47.40 Max. :290.20 Max. :4669.32
#Analisis de correlaciones
cor(gala[, c("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent")])
## Species Endemics Area Elevation Nearest
## Species 1.00000000 0.970876516 0.6178431 0.73848666 -0.014094067
## Endemics 0.97087652 1.000000000 0.6169791 0.79290437 0.005994286
## Area 0.61784307 0.616979087 1.0000000 0.75373492 -0.111103196
## Elevation 0.73848666 0.792904369 0.7537349 1.00000000 -0.011076984
## Nearest -0.01409407 0.005994286 -0.1111032 -0.01107698 1.000000000
## Scruz -0.17114244 -0.154264319 -0.1007849 -0.01543829 0.615410357
## Adjacent 0.02616635 0.082658026 0.1800376 0.53645782 -0.116247885
## Scruz Adjacent
## Species -0.17114244 0.02616635
## Endemics -0.15426432 0.08265803
## Area -0.10078493 0.18003759
## Elevation -0.01543829 0.53645782
## Nearest 0.61541036 -0.11624788
## Scruz 1.00000000 0.05166066
## Adjacent 0.05166066 1.00000000
#Gráficos bivariados
pairs(gala[, c("Species","Endemics","Area","Elevation","Nearest","Scruz","Adjacent")],
main = "Relaciones entre Species y variables explicativas")
#Ajuste del modelo de regresión múltiple
modelo_gala <- lm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, data = gala)
summary(modelo_gala)
##
## Call:
## lm(formula = Species ~ Endemics + Area + Elevation + Nearest +
## Scruz + Adjacent, data = gala)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## Endemics 4.393654 0.481203 9.131 4.13e-09 ***
## Area 0.013258 0.011403 1.163 0.257
## Elevation -0.047537 0.047596 -0.999 0.328
## Nearest -0.101460 0.500871 -0.203 0.841
## Scruz 0.008256 0.105884 0.078 0.939
## Adjacent 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
#Predicción con el modelo
isla_pigy <- data.frame(Endemics = 22, Area = 159, Elevation = 350,
Nearest = 1.5, Scruz = 90, Adjacent = 100)
predict(modelo_gala,isla_pigy)
## 1
## 67.56432
Conclusiones
El modelo de regresión lineal múltiple ajustado mostró un alto nivel de ajuste (R² = 0.9494 y R² ajustado = 0.9362), lo que indica que aproximadamente el 94% de la variabilidad en el número de especies puede explicarse por las variables incluidas en el modelo.
De las variables analizadas, únicamente Endemics (número de especies endémicas) resultó ser estadísticamente significativa (p < 0.001), lo que sugiere que la riqueza total de especies en cada isla está fuertemente relacionada con la cantidad de especies endémicas que contiene. Este resultado es coherente con los patrones biogeográficos esperados, ya que las islas con un mayor grado de endemismo tienden a poseer también una mayor diversidad total debido a procesos evolutivos y ecológicos locales.
Por el contrario, variables como área, elevación, distancia a la isla más cercana (Nearest), distancia a Santa Cruz (Scruz) y área de las islas adyacentes (Adjacent) no mostraron efectos estadísticamente significativos sobre la riqueza de especies. Esto podría deberse a la alta correlación existente entre algunas de estas variables o a que su influencia es indirecta y se manifiesta a través del endemismo.
Finalmente, la predicción realizada para una isla hipotética (“Isla Pigy”), con valores intermedios en área, elevación y aislamiento, estimó una riqueza aproximada de 68 especies, lo que valida la utilidad del modelo para realizar estimaciones de biodiversidad basadas en variables geográficas.
Punto 2
Introducción
El objetivo del presente análisis fue determinar los factores morfológicos que influyen en la presencia de satélites en los cangrejos del conjunto de datos crab. En este contexto, la variable respuesta (y) indica la presencia de satélites (1 = tiene satélites, 0 = no tiene satélites), mientras que las variables predictoras corresponden a medidas morfológicas y características del caparazón: peso (weight), ancho (width), color (color) y espina (spine).
load("C:/Users/Acer/OneDrive/Escritorio/Universidad/Bioesta/crab.RData")
head(crab)
## crab satellites weight width color spine y
## 1 1 8 3.05 28.3 2 3 1
## 2 2 0 1.55 22.5 3 3 0
## 3 3 9 2.30 26.0 1 1 1
## 4 4 0 2.10 24.8 3 3 0
## 5 5 4 2.60 26.0 3 3 1
## 6 6 0 2.10 23.8 2 3 0
# CARGAR DATOS DESDE ARCHIVO .RData
load("crab.RData")
# VER DATOS
print("Primeros cangrejos:")
## [1] "Primeros cangrejos:"
print(head(crab))
## crab satellites weight width color spine y
## 1 1 8 3.05 28.3 2 3 1
## 2 2 0 1.55 22.5 3 3 0
## 3 3 9 2.30 26.0 1 1 1
## 4 4 0 2.10 24.8 3 3 0
## 5 5 4 2.60 26.0 3 3 1
## 6 6 0 2.10 23.8 2 3 0
# CREAR VARIABLE Y (1 si tiene satélites, 0 si no)
crab$y <- ifelse(crab$satellites > 0, 1, 0)
# MODELO DE REGRESIÓN LOGÍSTICA
modelo <- glm(y ~ weight + width + color + spine,
data = crab,
family = binomial)
# RESULTADOS
print("RESULTADOS:")
## [1] "RESULTADOS:"
print(summary(modelo))
##
## Call:
## glm(formula = y ~ weight + width + color + spine, family = binomial,
## data = crab)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -7.5994 3.7542 -2.024 0.0429 *
## weight 0.7949 0.6917 1.149 0.2505
## width 0.2733 0.1893 1.443 0.1489
## color -0.5915 0.2417 -2.447 0.0144 *
## spine 0.2717 0.2410 1.127 0.2597
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 225.76 on 172 degrees of freedom
## Residual deviance: 186.66 on 168 degrees of freedom
## AIC: 196.66
##
## Number of Fisher Scoring iterations: 4
# GRÁFICO
plot(crab$width, crab$y,
main = "Satélites vs Ancho",
xlab = "Ancho", ylab = "Tiene satélites",
col = ifelse(crab$y == 1, "red", "blue"),
pch = 16)
# EJECUTA ESTO PARA LA RESPUESTA COMPLETA
print("VARIABLES SIGNIFICATIVAS (p < 0.05):")
## [1] "VARIABLES SIGNIFICATIVAS (p < 0.05):"
signif <- summary(modelo)$coefficients
print(signif[signif[,4] < 0.05, ])
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -7.5993721 3.7541784 -2.024244 0.04294508
## color -0.5915286 0.2417241 -2.447123 0.01440019
Interpretación
Los resultados muestran que solo las variables intercepto y color fueron estadísticamente significativas (p < 0.05). El coeficiente negativo asociado al color (-0.5915) indica que, a medida que el valor de esta variable aumenta (es decir, a colores más altos en la escala registrada), la probabilidad de que el cangrejo tenga satélites disminuye.
Por otro lado, las variables peso, ancho y espina no presentaron una relación significativa con la presencia de satélites dentro del nivel de confianza del 95%. Esto sugiere que estas características morfológicas no influyen de manera determinante en el comportamiento observado.
Conclusiones
El análisis de regresión logística permitió identificar que el color del cangrejo es un factor significativo en la presencia de satélites, siendo los individuos con coloraciones más intensas o de mayor valor menos propensos a tenerlos. Este hallazgo podría estar relacionado con factores de comportamiento, jerarquía o selección sexual dentro de la especie.
Las demás variables analizadas (peso, ancho y espina) no mostraron efectos estadísticamente significativos sobre la variable respuesta, por lo que su influencia no se considera determinante en este modelo.
En conjunto, el estudio evidencia la importancia de las características visuales (como el color) sobre las interacciones sociales o reproductivas en los cangrejos, lo que podría ser explorado con mayor detalle en futuros análisis con muestras más amplias o variables adicionales.
Punto 3
# Cargar datos
load("crab.RData")
# Ajustar modelo Poisson para número de satélites
modelo_pois <- glm(satellites ~ weight + width + color + spine,
data = crab,
family = poisson)
# Resumen del modelo
summary(modelo_pois)
##
## Call:
## glm(formula = satellites ~ weight + width + color + spine, family = poisson,
## data = crab)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.52848 0.94867 -0.557 0.57748
## weight 0.47246 0.16490 2.865 0.00417 **
## width 0.02753 0.04794 0.574 0.56588
## color -0.18493 0.06652 -2.780 0.00544 **
## spine 0.03998 0.05681 0.704 0.48160
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 632.79 on 172 degrees of freedom
## Residual deviance: 551.85 on 168 degrees of freedom
## AIC: 917.15
##
## Number of Fisher Scoring iterations: 6
Para modelar la variable de respuesta número de satélites, que corresponde a una variable de conteo (toma valores enteros no negativos), se propone ajustar un modelo lineal generalizado con distribución Poisson y enlace logarítmico:
glm ( 𝑠 𝑎 𝑡 𝑒 𝑙 𝑙 𝑖 𝑡 𝑒 𝑠 𝑤 𝑒 𝑖 𝑔 ℎ 𝑡 + 𝑤 𝑖 𝑑 𝑡 ℎ + 𝑐 𝑜 𝑙 𝑜 𝑟 + 𝑠 𝑝 𝑖 𝑛 𝑒 , family = poisson ) glm(satellites weight+width+color+spine,family=poisson)
Ventajas:
Es apropiado para variables de conteo, ya que considera la naturaleza discreta y no negativa de la respuesta.
Permite interpretar los coeficientes como el cambio logarítmico esperado en el número medio de satélites por unidad de cambio en la variable predictora.
Aprovecha toda la información de la variable respuesta, a diferencia del modelo binomial previo (que solo distinguía presencia o ausencia de satélites).
Desventajas:
Supone equidispersión, es decir, que la varianza es igual a la media. Si los datos presentan sobredispersión, el modelo Poisson puede subestimar la variabilidad y generar errores estándar incorrectos.
En caso de sobredispersión o de un número excesivo de ceros, puede ser más adecuado utilizar un modelo binomial negativo o un modelo de inflación de ceros (ZIP o ZINB), que relajan esas suposiciones.