MODULO 2. TECNICAS ESTADISTICAS
                            TALLER DE SIMULACION ESTADISTICA EN R
                            Alumno: Oscar Andres Ramirez Avendaño
                                      codigo: 1118863919
                                  Maestria en Ciencia de datos
                                Pontificia Universidad Javeriana
                             
                                        ### Punto 1
                             

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

  1. Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
load("C:/Users/user/Desktop/Estadistica 2/moluscos.RData")

BD_moluscos= data.frame(BD_moluscos)
BD_moluscos$c_agua= as.factor(BD_moluscos$c_agua)
View(BD_moluscos)
summary(BD_moluscos)
##  c_agua     molusco              cons_o      
##  50 :16   Length:48          Min.   : 1.800  
##  75 :16   Class :character   1st Qu.: 6.312  
##  100:16   Mode  :character   Median : 9.700  
##                              Mean   : 9.305  
##                              3rd Qu.:11.232  
##                              Max.   :18.800
g1_moluscos=ggplot(BD_moluscos,aes(x= c_agua, y=cons_o, fill=molusco))+  geom_boxplot()+ theme_bw()+ geom_point(position=position_jitterdodge(),alpha=0.3)+   ggtitle("Consumo de Oxigeno por  Tipo de Molusco")+   scale_x_discrete("% Concentración de Agua de mar")+  scale_y_continuous("Consumo de Oxigeno")

g1_moluscos

summary(BD_moluscos)
##  c_agua     molusco              cons_o      
##  50 :16   Length:48          Min.   : 1.800  
##  75 :16   Class :character   1st Qu.: 6.312  
##  100:16   Mode  :character   Median : 9.700  
##                              Mean   : 9.305  
##                              3rd Qu.:11.232  
##                              Max.   :18.800

Analisis Exploratorio

Se observan los mayores consumos de oxigeno en las menores cantidades de concentracion de agua para este caso puntual en la concentracion de 50 %, para los niveles de 75 % de concentracion el consumo disminuyo y volvio a incrementarse con el 100 % de concentracion, por lo cual se evidencia que con la muestra tomada no es preciso indicadar que exista una relacion inversamente proporcional entre el consumo de oxigeno y la concentracion de agua de mar.

Los datos de menor consumo de oxigeno se presentaron para ambos grupos con niveles de concentracion de agua de mar del 75 %

En promedio de tiene menor consumo de oxigeno con los molusculos del tipo B, con excepcion del niveles mas bajo de concentracion de agua de mar (50 %)

Los datos del consumo de los moluscos tipo A se encuentran mas concentradas y con menor desviacion estandar vs lo moluscos del tipo B. es decir los del grupo A tienen niveles de consumo mas estables.

  1. Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.
modelo=lm(formula = cons_o ~ c_agua:molusco, data = BD_moluscos)
summary(modelo)
## 
## Call:
## lm(formula = cons_o ~ c_agua:molusco, data = BD_moluscos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -5.946 -1.736 -0.710  2.237  6.625 
## 
## Coefficients: (1 not defined because of singularities)
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          7.4063     1.0466   7.077 1.13e-08 ***
## c_agua50:moluscoA    4.7687     1.4800   3.222  0.00246 ** 
## c_agua75:moluscoA    0.4837     1.4800   0.327  0.74541    
## c_agua100:moluscoA   2.5300     1.4800   1.709  0.09476 .  
## c_agua50:moluscoB    4.9200     1.4800   3.324  0.00185 ** 
## c_agua75:moluscoB   -1.3113     1.4800  -0.886  0.38069    
## c_agua100:moluscoB       NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.96 on 42 degrees of freedom
## Multiple R-squared:  0.4226, Adjusted R-squared:  0.3539 
## F-statistic: 6.149 on 5 and 42 DF,  p-value: 0.0002324

para el analisis del modelo se plantean las siguientes hipotesis: H0 = los datos de la variable c_agua no son influyentes en el consumo de oxigeno H1 = los datos de la variable c_agua si son influyentes en el consumo de oxigeno

para un nivel de confianza del 95 % se observan que solo son significativas las variables de c_agua50 en tipo A y B, las demas no tienen gran influencia en el dato del estimador.

El modelo explica el comportamiento de los datos con una precision del 42 % lo cual evidencia que es un modelo con bajo nivel de precision.

anova=aov(modelo)
summary(anova)
##                Df Sum Sq Mean Sq F value   Pr(>F)    
## c_agua:molusco  5  269.4   53.88   6.149 0.000232 ***
## Residuals      42  368.0    8.76                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 4.1.3
postanova_moluscos= LSD.test(modelo,c("c_agua","molusco"))
postanova_moluscos
## $statistics
##    MSerror Df     Mean      CV  t.value      LSD
##   8.762171 42 9.304792 31.8126 2.018082 2.986858
## 
## $parameters
##         test p.ajusted         name.t ntr alpha
##   Fisher-LSD      none c_agua:molusco   6  0.05
## 
## $means
##         cons_o      std r       LCL       UCL  Min   Max     Q25    Q50     Q75
## 100:A  9.93625 2.747976 8  7.824222 12.048278 6.78 14.00  7.9850  9.295 11.7250
## 100:B  7.40625 2.844076 8  5.294222  9.518278 3.68 11.60  5.7225  6.140 10.1000
## 50:A  12.17500 3.090178 8 10.062972 14.287028 9.74 18.80 10.3100 11.110 12.5000
## 50:B  12.32625 3.517909 8 10.214222 14.438278 6.38 17.70 10.0575 12.850 14.5000
## 75:A   7.89000 2.739578 8  5.777972 10.002028 5.20 13.20  6.0775  7.180  8.8925
## 75:B   6.09500 2.739108 8  3.982972  8.207028 1.80  9.96  4.8300  5.595  7.3425
## 
## $comparison
## NULL
## 
## $groups
##         cons_o groups
## 50:B  12.32625      a
## 50:A  12.17500      a
## 100:A  9.93625     ab
## 75:A   7.89000     bc
## 100:B  7.40625     bc
## 75:B   6.09500      c
## 
## attr(,"class")
## [1] "group"

Del analisis se observa que las concentraciones de los niveles de agua de mar si es influyente en el consumo de oxigeno, pero no es influyente el tipo de molusco, las medias arrojadas por el postanova evidencias valores similares para los dos tipos de moluscos estudiados.

                                  # Punto 2
                                
  1. Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

a)Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones)

load("C:/Users/user/Desktop/Estadistica 2/Salinidad.RData")
library(corrplot)
## corrplot 0.92 loaded
library(GGally)
## Warning: package 'GGally' was built under R version 4.1.3
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
BD_salinidad= data.frame(Salinidad)
corrplot(cor(BD_salinidad),
         method = "number", 
         type = "lower",    
         diag = TRUE,      
         tl.col = "black", 
         bg = "white",
         is.corr=T,
         insig = "label_sig",
         title = "",       
         col = NULL)

ggpairs(BD_salinidad, columns=c("Biomasa", "pH", "Salinidad", "Zinc", "Potasio"), columnLabels = c("Biomasa", "pH", "Salinidad", "Zinc", "Potasio"), lower = list(continuous = "smooth"), diag = list(continuous = "barDiag"), axisLabels = "none")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Del analisis de correlaciones se observa que existen tres correlaciones:

  1. Correlacion fuerte directamente proporcional entre la Biomasa y el Ph con un coeficiente de 0.93 lo cual quiere decir que las plantas ubicadas en suelos con mayores Ph, mayor cantidad de biomasa generaron

  2. Correlacion fuerte inversamente propocional entre el Zinc y el Ph con un coeficiente de -0.72

  3. Correlacion fuerte inversamente proporcional entre el Zinc y la biomasa con un coeficiente de -0.78

De las correlaciones 2 y 3 se observa que entre mas elevado es el Ph menores del suelo menores cantidades de zinc se presenta, pero a la vez se generan mayores incrementos en la biomasa de la planta

B)Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

modelo_salinidad=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=BD_salinidad)
summary(modelo_salinidad)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = BD_salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Del modelo se observa que las variables Ph, salinidad y zinc son influyentes en la biomasa de las plantas, por su contraparte el potasio no es influyente en la variable de respuesta.

B1 : Por cada 1 unidad que se incremente la variable ph, el valor de la biomasa se incrementa en 262.88 unidades. manteniendo constante las demas variables.

B2 : Por cada 1 unidad que se incremente la variable salinidad, el valor de la biomasa se disminuye en 33.49 unidades. manteniendo constante las demas variables.

B3: Por cada 1 unidad que se incremente la variable zinc, el valor de la biomasa se disminuye en 28.97 unidades. manteniendo constante las demas variables.

B4: debido a que no es influyente esta variable se excluye del modelo.

R2 = 0.92 significa que el modelo explica el comportamiento de la variable dependiente “Biomasa” con un nivel de confianza del 92 % lo cual es un muy buen indicador.