library(readxl)
# Ruta del archivo de Excel
archivo_excel <- "C:\\Users\\Juan\\Downloads\\Oceanografia_Dataset.xlsx"

# Leer la primera hoja del archivo de Excel
datos <- read_excel(archivo_excel)

# Verificacion carga correcta de datos
head(datos)
## # A tibble: 6 × 10
##   Profundidad_del_agua_m Temperatura_agua_supe…¹ Salinidad_ppm Tipo_fondo_marino
##                    <dbl>                   <dbl>         <dbl> <chr>            
## 1                  2744.                    14.3          37.7 roca             
## 2                  3576.                    16.0          35.4 lodo             
## 3                  3014.                    14.6          39.8 arena            
## 4                  2724.                    19.0          30.7 roca             
## 5                  2118.                    21.0          37.7 arena            
## 6                  3229.                    16.4          32.7 lodo             
## # ℹ abbreviated name: ¹​Temperatura_agua_superficial_C
## # ℹ 6 more variables: Presencia_corales <chr>,
## #   Concentracion_oxigeno_disuelto_mg_L <dbl>, Presencia_algas <chr>,
## #   Velocidad_corriente_m_s <dbl>, Area_geografica <chr>, pH_agua <dbl>

##Prueba de normalidad (Profundidad vs salinidad)

shapiro.test(datos$Profundidad_del_agua_m)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Profundidad_del_agua_m
## W = 0.95246, p-value = 2.341e-16
shapiro.test(datos$Salinidad_ppm)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Salinidad_ppm
## W = 0.958, p-value = 2.759e-15

Como son valores menores a alfa, se rechaza la hipotesis nula(HO), por lo que ninguno de las variables están normalmente distribuidos.

#Prueba de independencia (Tipo de fondo marino vs Presencia de corales)

tabla <- table(datos$Tipo_fondo_marino, datos$Presencia_corales)

#Prueba de chi-cuadrado

chisq.test(tabla)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 3.4607, df = 2, p-value = 0.1772

Al ser el p valor es mayor a 0.05, se acepta la hipotesis 0, por lo que los datos si son independientes

#ANOVA (Presencia de alga - pH)

anova_resultado <- aov(datos$pH_agua ~ datos$Presencia_algas, data = datos)
summary(anova_resultado)
##                        Df Sum Sq Mean Sq F value Pr(>F)
## datos$Presencia_algas   2   0.85  0.4255   1.257  0.285
## Residuals             887 300.19  0.3384

La probabilidad de F es menor al valor de F, la hipotesis 0 se acepta, por lo que la media de los datos son iguales

#Prueba de Barlett (las mismas de tabla ANOVA)

bartlett.test(datos$pH_agua ~ datos$Presencia_algas, data = datos)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  datos$pH_agua by datos$Presencia_algas
## Bartlett's K-squared = 1.3555, df = 2, p-value = 0.5078

El p-valor es mayor al alfa, de 0.05, entonces no se rechaza la hipotesis 0, indicando que la varianza entre la presencia de algas y el pH del agua son iguales.

#Correlación (Profundidad vs salinidad).

#Si estan normalmente distribuidas, se usa pearson, si no, se usa pierman.

cor.test(datos$Profundidad_del_agua_m, datos$Salinidad_ppm)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Profundidad_del_agua_m and datos$Salinidad_ppm
## t = -0.15225, df = 888, p-value = 0.879
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.07079950  0.06062571
## sample estimates:
##          cor 
## -0.005108955

La correlación es menor a 0, entonces se rechaza la hipotesis 0, indicando que las variables no están correlacionadas entre si.