Pregunta de investigación:¿El tamaño de la nidada tiene algún efecto sobre el tamaño de los huevos en la especie de cocodrilos Yacaré Overo(Caiman latirostris)?

Hipotesis cientifica:El tamaño de la nidada si tiene un efecto sobre el tamaño de los huevos en la especie Caiman latirostris.

Hipotesis estadisticas

Hipotesis nula:El tamaño de los huevos no tiene dependencia del tamaño de la nidada. Hipotesis alternativa:El tamaño de los huevos si depende el tamaño de la nidada.

Alfa: 0.03

Variable dependiente:Tamaño del huevo, ya que, se pretende analizar si este es se relaciona de alguna forma con el tamaño de la nidada.

Variable independiente:Tamaño de la nidada porque esta es la que se va a utilizar como referencia y por lo tanto no es dependiente al tamaño de los huevos.

Evaluacion de la normalidad

Histograma, distribucion de frecuencias de dos variables(Tamaño de huevo y Tamaño de nidada):

cocodrilos= read.table("C:\\Users\\USUARIO\\AppData\\Local\\Temp\\Copia de Cocodrilos.txt", header=T)

library(ggplot2)
large_text= theme(plot.title = element_text(size=18),axis.title=element_text(size=15), axis.text=element_text(size=10),legend.title=element_text(size=20),legend.text=element_text(size=10))

hist_tamaño= ggplot(cocodrilos, aes(x=egg_size)) + geom_histogram(bins=15, color="black") + theme_classic() + ggtitle("             Histograma tamaño del huevo")+ xlab("Tamaño de huevo") + ylab("Frecuencia")+ large_text
hist_tamaño

hist_nidada= ggplot(cocodrilos, aes(x=ClutchS)) + geom_histogram(bins=19, color="black") + theme_classic() + ggtitle("         Histograma tamaño de la nidada")+ xlab("Tamaño de nidada") + ylab("Frecuencia")+ large_text
hist_nidada

library(gridExtra)
grid.arrange(hist_tamaño, hist_nidada, ncol=2)

La variable del tamaño del huevo parece tener una distribucion un poco torcida a la izquierda, mientras que la variable de tamaño de la nidada tiene una distribucion torcida a la derecha.

Graficos de cuantil-cuantil de dos variables(Tamaño de huevo y Tamaño de nidada):

cocodrilos= read.table("C:\\Users\\USUARIO\\AppData\\Local\\Temp\\Copia de Cocodrilos.txt", header=T)

library(ggplot2)
library(gridExtra)
large_text_qq= theme(plot.title = element_text(size=16),axis.title=element_text(size=10), axis.text=element_text(size=10),legend.title=element_text(size=20),legend.text=element_text(size=10))

qq_tamaño= ggplot()+ xlab("Cuantil teórico") + ylab ("Muestra de cuantiles del tamaño del huevo") + aes(sample =cocodrilos$egg_size) +stat_qq() + stat_qq_line() +labs(title = expression(paste('Distribución Normal tamaño del huevo ', mu, ' = 0, ', sigma,' = 1'))) + theme_minimal()+ large_text_qq
qq_tamaño

qq_nidada= ggplot()+ xlab("Cuantil teórico") + ylab ("Muestra de cuantiles del tamaño de nidada") + aes(sample =cocodrilos$ClutchS) +stat_qq() + stat_qq_line() +labs(title = expression(paste('Distribución Normal tamaño de nidada ', mu, ' = 0, ', sigma,' = 1'))) + theme_minimal()+large_text_qq
qq_nidada

grid.arrange(qq_tamaño, qq_nidada,ncol=2)

Los graficos de cuantil-cuantil nos indican un posible ajuste de normalidad, sin embargo se debe confirmar si los datos son normales con un Shapiro-test, y si es necesario realizar las transfromaciones correspondientes.

Shapiro Wilk test Hipotesis Shapiro test: Hipotesis nula: Los datos siguen una distribucion normal. Hipotesis alternativa:Los datos no siguen una distribucion normal.

shapiro.test(cocodrilos$egg_size)
## 
##  Shapiro-Wilk normality test
## 
## data:  cocodrilos$egg_size
## W = 0.97635, p-value = 0.3256
shapiro.test(cocodrilos$ClutchS)
## 
##  Shapiro-Wilk normality test
## 
## data:  cocodrilos$ClutchS
## W = 0.93721, p-value = 0.005385

Teniendo en cuenta el resultado obtenido del Shapiro test y el alfa escogida, podemos evidenciar que en el caso del tamaño del huevo el Valor-p es mayor que el alfa por lo que se no rechaza la hipótesis nula lo que significa que esta variable tiene una distribución normal, sin embargo, en el caso del tamaño de la nidada el Valor-p es menor que alfa por lo que se rechaza la hipótesis nula lo que significa que esta variable no tiene una distribución normal. Debido a que una variable no tiene una distribución se debe aplicar una transformación a estos datos.

Transformaciones:

tr_nidada= 1/(cocodrilos$ClutchS)
shapiro.test(tr_nidada)
## 
##  Shapiro-Wilk normality test
## 
## data:  tr_nidada
## W = 0.56394, p-value = 9.405e-12

Pudimos observar luego de transformacion la distribucion de la variable de tamaño de nidada no es normal, por lo que no se puede hacer una correlacion, y debe hacer una regresion lineal en donde solo la variable dependiente debe tener una distribucion normal.

Regresion lineal

modelo_cocodrilos= lm(formula= egg_size~ClutchS, data=cocodrilos)
par(mfcol=c(1,1))
plot(modelo_cocodrilos)

En la gráfica de Residuals vs Fitted, se logra observar los residuos del eje y contra los valores ajustados del eje x. En donde se logra evidenciar que los puntos no tienen una distribución, por lo que se deduce que los datos están bien con respecto a la homogeneidad de varianza. En la gráfica de Normal Q-Q se puede observar una línea recta, por lo que se puede deducir que los errores se distribuyen normalmente, y no se debe ajustar un modelo diferente a los datos. En la gráfica de Scale-Location, se logra evidenciar como la gráfica no tiene una distribución. Finalmente, en la gráfica de Residuals vs Leverage en donde se logran evidenciar los puntos que tienen los mayores efectos en las estimaciones de parámetros.

Grafica relacion entre el tamaño de la nidada y el tamaño del huevo:

library(ggplot2)
ggplot (cocodrilos, aes(x=ClutchS, y=egg_size)) + geom_point(col="royalblue2")+
  labs(x="Tamaño de nidada", y="Tamaño del huevo (mm)") + 
  geom_smooth(method="lm", level=0.99,col="dimgrey") + theme_light()
## `geom_smooth()` using formula 'y ~ x'

La grafica muestra la relación entre el tamaño del huevo y el tamaño de la nidada, y en un sombreado gris se muestra el intervalo de confianza de 99%. La tendencia de la gráfica es negativa, por lo que cuando el tamaño de la nidada aumenta el tamaño del huevo disminuye.

summary(modelo_cocodrilos)
## 
## Call:
## lm(formula = egg_size ~ ClutchS, data = cocodrilos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -18.117  -6.846  -3.196   9.000  20.067 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 115.3497     3.4380   33.55  < 2e-16 ***
## ClutchS      -2.1925     0.1973  -11.11 1.11e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.23 on 55 degrees of freedom
## Multiple R-squared:  0.6919, Adjusted R-squared:  0.6863 
## F-statistic: 123.5 on 1 and 55 DF,  p-value: 1.109e-15

En el modelo obtuvimos que el valor de la pendiente en este caso fue -2.1925, este valor indica el tamaño en el cual la variable independiente afecta al valor dependiente. En este caso la pendiente es negativa, lo que significa que el tamaño de la nidada causa un efecto negativo sobre el tamaño del huevo. El coeficiente de determinación obtenido fue 0.6863, por lo que el porcentaje de varianza explicado por el modelo es de 68.63%. Además, encontramos un Valor-p de 1.109e-15, debido a que este es menor que el alfa escogida podemos rechazar la hipótesis nula.