Punto 2

Para el siguiente experimento se evaluará si el número de expecies (riqueza) de moluscos varía entre los diferentes tamaños de cantos y en distintas epocas del año. Asimismo, se comprobará si existe interacción entre las dos variables independientes (canto y época de año).

require(ggplot2)
require(plotly)
require(agricolae)
library(tidyverse)
library(readxl)
Molusco_Canto <- read_excel("C:/Users/beatriz/beatriz/bioestadistica/parcial 3/Molusco_Canto.xlsx")
View(Molusco_Canto)
Molusco_Canto
## # A tibble: 64 x 3
##    Tamano_Canto Epoca Datos
##    <chr>        <chr> <dbl>
##  1 S1           T1        7
##  2 S1           T1        5
##  3 S1           T1        7
##  4 S1           T1        7
##  5 S1           T2        6
##  6 S1           T2        4
##  7 S1           T2        9
##  8 S1           T2        8
##  9 S1           T3        7
## 10 S1           T3       11
## # ... with 54 more rows

La siguiente base de datos contiene 3 variables:

Exploración de datos

ggplot(data = Molusco_Canto, aes(y=Datos, x=Tamano_Canto, fill=Tamano_Canto))+geom_boxplot()+theme_bw()+facet_grid(~Epoca)

En el diagrama de cajas se observa:

Coeficiente de correlación de Pearson

library(readxl)
Molusco_Canto3 <- read_excel("C:/Users/beatriz/beatriz/bioestadistica/parcial 3/Molusco_Canto3.xlsx")
View(Molusco_Canto3)

corr= cor.test(Molusco_Canto3$Tamano_Canto, Molusco_Canto3$Epoca, alternative = "two.sided", method = "pearson")
corr
## 
##  Pearson's product-moment correlation
## 
## data:  Molusco_Canto3$Tamano_Canto and Molusco_Canto3$Epoca
## t = 0, df = 62, p-value = 1
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2458093  0.2458093
## sample estimates:
## cor 
##   0

La correlación de Pearson expone un valor que entre más cercano a cero quiere decir, que hay menor relación entre las variables. En este caso, la relación entre el tamaño del canto y la época es poca.

Modelo de diseño

Modelo1=lm(Datos~Tamano_Canto+Epoca, data = Molusco_Canto)
summary(Modelo1)
## 
## Call:
## lm(formula = Datos ~ Tamano_Canto + Epoca, data = Molusco_Canto)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.0937 -1.5312 -0.1563  1.2969  5.4062 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      7.1563     0.7460   9.592 1.69e-13 ***
## Tamano_CantoS2  -1.4375     0.7976  -1.802   0.0768 .  
## Tamano_CantoS3  -3.9375     0.7976  -4.937 7.27e-06 ***
## Tamano_CantoS4  -5.0000     0.7976  -6.269 5.19e-08 ***
## EpocaT2          0.4375     0.7976   0.549   0.5855    
## EpocaT3          0.3750     0.7976   0.470   0.6400    
## EpocaT4         -0.1875     0.7976  -0.235   0.8150    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.256 on 57 degrees of freedom
## Multiple R-squared:  0.4677, Adjusted R-squared:  0.4117 
## F-statistic: 8.348 on 6 and 57 DF,  p-value: 1.666e-06

El modelo de regresión lineal muestra que los tamaños de canto S3 y S4 tienen valores más significativos (***) por lo tanto, estan relacionados con la riqueza de especies pero en menor cantidad. El canto S2 presenta siginificancia cercana a 0.05 (.). Las épocas no estan relacionadas con el número de moluscos.

Validación de supuestos

par(mfrow=c(2,2))
plot(Modelo1)

La gráfica de los residuales no muestra ningún comportamiento por lo que, los datos estan en forma aleatoria. Los datos de normal Q-Q presentan un comportamiento lineal es decir, que se encuentran de forma ascendiente sobre la pendiente.

Prueba de normalidad

shapiro.test(Molusco_Canto$Datos)
## 
##  Shapiro-Wilk normality test
## 
## data:  Molusco_Canto$Datos
## W = 0.95524, p-value = 0.02089

La prueba Shapiro asume que los datos presentan una distribución normal, para que sea posible realizar el análisis de varianaza (Anova).

Anova

anova(Modelo1)
## Analysis of Variance Table
## 
## Response: Datos
##              Df  Sum Sq Mean Sq F value    Pr(>F)    
## Tamano_Canto  3 250.563  83.521 16.4126 8.323e-08 ***
## Epoca         3   4.312   1.437  0.2825    0.8378    
## Residuals    57 290.062   5.089                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se realizó el análisis de varianza con las varibles: época y tamaño de canto. El tamaño del canto influye sobre la riqueza de moluscos ya que, el valor P para el tamaño del canto muestra un valor significativo es decir, que alfa es menor a 0.5. El valor P de la varible época no muestra siginificacia por lo tanto, no influye sobre la riqueza de especies.

Postanova

Postanova4= LSD.test(Modelo1, "Tamano_Canto")
Postanova4
## $statistics
##    MSerror Df    Mean       CV  t.value      LSD
##   5.088816 57 4.71875 47.80589 2.002465 1.597086
## 
## $parameters
##         test p.ajusted       name.t ntr alpha
##   Fisher-LSD      none Tamano_Canto   4  0.05
## 
## $means
##     Datos      std  r      LCL      UCL Min Max  Q25 Q50  Q75
## S1 7.3125 1.922455 16 6.183189 8.441811   4  11 6.75   7 8.00
## S2 5.8750 2.963669 16 4.745689 7.004311   0  11 3.75   6 8.00
## S3 3.3750 2.276694 16 2.245689 4.504311   0   9 2.00   3 4.25
## S4 2.3125 1.400893 16 1.183189 3.441811   0   5 1.00   2 3.25
## 
## $comparison
## NULL
## 
## $groups
##     Datos groups
## S1 7.3125      a
## S2 5.8750      a
## S3 3.3750      b
## S4 2.3125      b
## 
## attr(,"class")
## [1] "group"

Se realizó una comparación múltiple para saber que tipos de tamaño de canto presentan diferencias por lo tanto, una mayor proporción en la riqueza de especies. Los resultados arrojados indican que el tamaño de canto S1 y S2 tienen mayor número de especies, mientras que S3 y S4 presentan una menor cantidad de especies.