Analizar la fuerza de relación entre dos variables.
Establecer la relación que existe entre una variable dependiente y una independiente.
Correlaciones
Se procedió a crear los vectores a utilizar (Talla, Densidad, Salinidad, Temperatura y Abundancia), los cuales fueron extraídos específicamente de la hoja Muestreo, la cual se encontraba en la base de datos denominada Peces herbívoros. A cada uno de los vectores creados con anterioridad, se les realizó la prueba de Shapiro para contrastar la normalidad de los datos con intervalo de confianza del 95%. Seguidamente, se procedió a realizar las pruebas de correlación, cada una de las pruebas realizadas se llevó a cabo siguiendo el método de Spearman. Los gráficos realizados para observar los niveles de correlación fueron creados mediante el comando chart.Correlation, presente en la librería PerformanceAnalytics
Regresiones
Se realizó la activación de las librerías lmtest,car y ggplot2 para crear los dos modelos de regresiones lineales, los cuales fueron Temperatura_Salinidad y Densidad_Abundancia, respectivamente. Una vez creados los modelos, se procedió con la verificación de los mismos.Para ello se realizaron las pruebas de Durbin-Watson, Shapiro y homocedasticidad. Concluido con lo anterior se comenzaron a ejecutar las ecuaciones para las regresiones siguiendo el modelo y=mx+b. Finalmente, fueron creados dos gráficos para observar el comportamiento de las regresiones ,ambos gráficos fueron creados utilizando la librería ggplot. Todas las pruebas fueron realizadas con un intervalo de confianza del 95%.
Extracción de datos
library(readr)
library(PerformanceAnalytics)
Muestreo <- read_delim("muestreo.csv", ";",
escape_double = FALSE, trim_ws = TRUE)
TASA <- read_delim("~/cursos de biología/Bioestadística/proyecto/Peces Herbivorostasa.csv", ";", escape_double = FALSE, trim_ws = TRUE)
Tasa de crecimiento por las cuatro especies: Scarus ghobban (SCA_GHO),Scarus perrico (SAC_PER),Johnrandallia nigrirostris (JOH_NIG),Stegastes flavilatus (STE_FLA.
Se crean los vectores y los filtros.
Se definió cual variable sería el factor y cual sería la numerica.
is.numeric(Tasas_crecimiento)
## [1] TRUE
Especie <- as.factor(TASA$Especie)
is.factor(Especie)
## [1] TRUE
Se creó un data frame y un aov respectivamente.
ió a crear un cuadro y un grafico más elaborado para un mejor entendimiento con la libreria ggplot2
Talla de la especie Stegastes flavilatus (STE_FLA) por los cuatro sitios
Primero se crean los vectores y los filtros a utilizar.
Despues se elije la variable factor.
Se crea un data frame y un aov respectivamente.
Se procede a verificar si los supuestos son cumplidos.
Se realiza la grafica y el cuadro para representación y para mejorar el entendimiento de los datos.
Se procede a verificar si los supuestos son cumplidos.
Abudancia de las cuatro especies Scarus ghobban (SCA_GHO),Scarus perrico (SAC_PER),Johnrandallia nigrirostris (JOH_NIG),Stegastes flavilatus (STE_FLA) ,por pais
Se llaman las variables a utilizar y se genera el vector factor.
Se prosigue con la creación del data frame y el aov.
El paso siguiente fue realizar las pruebas necesarias para comprobar que los supuestos se cumplen y crear la andeva.
De ultimo se hace un cuadro y un grafico con la libreria ggplot2
Talla de la especie Johnrandallia nigrirostris (JOH_NIG) por estaciones lluviosas de los paises.
Se construye un data frame y un aov respectivamente.
Se realizaron las pruebas necesarias para observar si los opuestos se cumplian y se podía ejecutar el andeva.
Se crea el cuadro y el gráfico necesario para representar lo ejecutado.
##
## Shapiro-Wilk normality test
##
## data: Tallas
## W = 0.79908, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: Densidad
## W = 0.8723, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: Salinidad
## W = 0.98358, p-value = 4.755e-14
##
## Shapiro-Wilk normality test
##
## data: Temperatura
## W = 0.93481, p-value < 2.2e-16
##
## Spearman's rank correlation rho
##
## data: Salinidad and Temperatura
## S = 2016210780, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.7091635
## [1] "Figura 1. Correlación positiva entre Salinidad y Temperatura,R² =0.5029129 "
##
## Spearman's rank correlation rho
##
## data: Abundancia and Densidad
## S = 2.6193e-07, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 1
## Warning in cor.test.default(as.numeric(x), as.numeric(y), method = method):
## Cannot compute exact p-value with ties
## [1] "Figura 2. Correlación positiva entre Salinidad y Temperatura "
## [1] "Y = 3.333e-02x -3.730e-15, R² = 1"
##
## Durbin-Watson test
##
## data: Temperatura_Salinidad
## DW = 0.26034, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## [1] "valor DW"
## [1] 0.26034
##
## Shapiro-Wilk normality test
##
## data: Temperatura_Salinidad$residuals
## W = 0.93481, p-value < 2.2e-16
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 157.2844, Df = 1, p = < 2.22e-16
##
## Call:
## lm(formula = Temperatura ~ Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.8324 -0.7032 0.1765 1.4903 3.8286
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 83.11198 1.63262 50.91 <2e-16 ***
## Salinidad -1.68631 0.04598 -36.68 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.819 on 1918 degrees of freedom
## Multiple R-squared: 0.4122, Adjusted R-squared: 0.4119
## F-statistic: 1345 on 1 and 1918 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Temperatura ~ Salinidad)
##
## Coefficients:
## (Intercept) Salinidad
## 83.112 -1.686
## [1] 15.672
## `geom_smooth()` using formula 'y ~ x'
##
## Durbin-Watson test
##
## data: Densidad_Abundancia
## DW = 2.048, p-value = 0.8519
## alternative hypothesis: true autocorrelation is greater than 0
## [1] "valor DW"
## [1] 1.6727
##
## Shapiro-Wilk normality test
##
## data: Densidad_Abundancia$residuals
## W = 0.8298, p-value < 2.2e-16
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.4817516, Df = 1, p = 0.48763
##
## Call:
## lm(formula = Densidad ~ Abundancia, data = Tabla2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.625e-10 -3.098e-10 1.623e-11 3.291e-10 3.598e-10
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.942e-11 9.811e-12 -2.998e+00 0.00275 **
## Abundancia 3.333e-02 5.969e-13 5.585e+10 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.719e-10 on 1918 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 3.119e+21 on 1 and 1918 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Densidad ~ Abundancia, data = Tabla2)
##
## Coefficients:
## (Intercept) Abundancia
## -2.942e-11 3.333e-02
## [1] 1.16655
## `geom_smooth()` using formula 'y ~ x'
Al realizarle las pruebas de shapiro a los vectores creados en correlaciones se pudo observar que todos poseían una distribución asimétrica en sus datos, por lo tanto se utilizó el método de Spearman, donde se encontró una correlación fuerte negativa para los valores de salinidad y temperatura este fenómeno se dió porque ninguna de las dos variables se encuentran correlacionadas con la abundancia de los individuos,ni con las tallas de los mismos.Para los vectores de talla y abundancia se descubrió que estas se encuentran débilmente correlacionadas, mientras que, para los vectores de abundancia y densidad se encontró una correlación perfecta, ésto es debido a que son la misma variable, ya que la abundancia es el número del conteo de individuos de forma absoluta y la densidad es la cantidad absoluta de individuos/m².
En las regresiones , el primer modelo es capaz de predecir la temperatura de las aguas, a partir de la salinidad, se observó que los supuestos de autocorrelación, normalidad y homocedasticidad de los datos no se cumplían mas, sin embargo, el modelo al poseer una pendiente distinta de 0 es capaz de realizar estimaciones. Por último, su porcentaje de determinación es del 41%. El segundo modelo es apto para predecir la densidad a partir de la abundancia de individuos, este modelo posee un nivel de autocorrelación aceptable, no obstante, los supuestos de normalidad de los datos y homocedasticidad no se cumplen. Sin embargo, la pendiente es distinta de 0, lo cual confirma que el modelo es competente para predecir. En este caso, la no normalidad de los datos se puede deber a la naturaleza de las variables, ya que la correlación entre ambas es perfecta, haciendo que todos los residuos se encuentren en la línea de ajuste. Debido a esto, el porcentaje de determinación del modelo es del 100%.
El análisis de correlaciones constituye un metodo que se emplea entre dos variables numéricas para conocer la intensidad de la relación lineal entre dos variables, cuando el coeficiente de correlación (r) tiene valor de 1,0 es una correlación positiva perfecta y si tiene valor de -1,0 es una correlación negativa perfecta por ello entre más cerca se encuentren los coeficientes de estos valores habrá mayor fuerza de relación entre las variables.
Ciertamente la regresión lineal se basa en general un modelo que permita explicar la relación lineal entre una variable dependiente (Y) y una variable independiente (X), el modelo ajustado es significativo cuando el valor del p-value es menor a 0,05 esto sugiere que la pendiente es distinta de 0 y que los cambios en la variable independiente están asociados con cambios en la variable dependiente.