MODULO 2. TECNICAS ESTADISTICAS
TALLER DE SIMULACION ESTADISTICA EN R
Alumno: Oscar Andres Ramirez Avendaño
codigo: 1118863919
Maestria en Ciencia de datos
Pontificia Universidad Javeriana
### Punto 1
Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
load("C:/Users/user/Desktop/Estadistica 2/moluscos.RData")
BD_moluscos= data.frame(BD_moluscos)
BD_moluscos$c_agua= as.factor(BD_moluscos$c_agua)
View(BD_moluscos)
summary(BD_moluscos)
## c_agua molusco cons_o
## 50 :16 Length:48 Min. : 1.800
## 75 :16 Class :character 1st Qu.: 6.312
## 100:16 Mode :character Median : 9.700
## Mean : 9.305
## 3rd Qu.:11.232
## Max. :18.800
g1_moluscos=ggplot(BD_moluscos,aes(x= c_agua, y=cons_o, fill=molusco))+ geom_boxplot()+ theme_bw()+ geom_point(position=position_jitterdodge(),alpha=0.3)+ ggtitle("Consumo de Oxigeno por Tipo de Molusco")+ scale_x_discrete("% Concentración de Agua de mar")+ scale_y_continuous("Consumo de Oxigeno")
g1_moluscos
summary(BD_moluscos)
## c_agua molusco cons_o
## 50 :16 Length:48 Min. : 1.800
## 75 :16 Class :character 1st Qu.: 6.312
## 100:16 Mode :character Median : 9.700
## Mean : 9.305
## 3rd Qu.:11.232
## Max. :18.800
Analisis Exploratorio
Se observan los mayores consumos de oxigeno en las menores cantidades de concentracion de agua para este caso puntual en la concentracion de 50 %, para los niveles de 75 % de concentracion el consumo disminuyo y volvio a incrementarse con el 100 % de concentracion, por lo cual se evidencia que con la muestra tomada no es preciso indicadar que exista una relacion inversamente proporcional entre el consumo de oxigeno y la concentracion de agua de mar.
Los datos de menor consumo de oxigeno se presentaron para ambos grupos con niveles de concentracion de agua de mar del 75 %
En promedio de tiene menor consumo de oxigeno con los molusculos del tipo B, con excepcion del niveles mas bajo de concentracion de agua de mar (50 %)
Los datos del consumo de los moluscos tipo A se encuentran mas concentradas y con menor desviacion estandar vs lo moluscos del tipo B. es decir los del grupo A tienen niveles de consumo mas estables.
modelo=lm(formula = cons_o ~ c_agua:molusco, data = BD_moluscos)
summary(modelo)
##
## Call:
## lm(formula = cons_o ~ c_agua:molusco, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.946 -1.736 -0.710 2.237 6.625
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.4063 1.0466 7.077 1.13e-08 ***
## c_agua50:moluscoA 4.7687 1.4800 3.222 0.00246 **
## c_agua75:moluscoA 0.4837 1.4800 0.327 0.74541
## c_agua100:moluscoA 2.5300 1.4800 1.709 0.09476 .
## c_agua50:moluscoB 4.9200 1.4800 3.324 0.00185 **
## c_agua75:moluscoB -1.3113 1.4800 -0.886 0.38069
## c_agua100:moluscoB NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.96 on 42 degrees of freedom
## Multiple R-squared: 0.4226, Adjusted R-squared: 0.3539
## F-statistic: 6.149 on 5 and 42 DF, p-value: 0.0002324
para el analisis del modelo se plantean las siguientes hipotesis: H0 = los datos de la variable c_agua no son influyentes en el consumo de oxigeno H1 = los datos de la variable c_agua si son influyentes en el consumo de oxigeno
para un nivel de confianza del 95 % se observan que solo son significativas las variables de c_agua50 en tipo A y B, las demas no tienen gran influencia en el dato del estimador.
El modelo explica el comportamiento de los datos con una precision del 42 % lo cual evidencia que es un modelo con bajo nivel de precision.
anova=aov(modelo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## c_agua:molusco 5 269.4 53.88 6.149 0.000232 ***
## Residuals 42 368.0 8.76
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 4.1.3
postanova_moluscos= LSD.test(modelo,c("c_agua","molusco"))
postanova_moluscos
## $statistics
## MSerror Df Mean CV t.value LSD
## 8.762171 42 9.304792 31.8126 2.018082 2.986858
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none c_agua:molusco 6 0.05
##
## $means
## cons_o std r LCL UCL Min Max Q25 Q50 Q75
## 100:A 9.93625 2.747976 8 7.824222 12.048278 6.78 14.00 7.9850 9.295 11.7250
## 100:B 7.40625 2.844076 8 5.294222 9.518278 3.68 11.60 5.7225 6.140 10.1000
## 50:A 12.17500 3.090178 8 10.062972 14.287028 9.74 18.80 10.3100 11.110 12.5000
## 50:B 12.32625 3.517909 8 10.214222 14.438278 6.38 17.70 10.0575 12.850 14.5000
## 75:A 7.89000 2.739578 8 5.777972 10.002028 5.20 13.20 6.0775 7.180 8.8925
## 75:B 6.09500 2.739108 8 3.982972 8.207028 1.80 9.96 4.8300 5.595 7.3425
##
## $comparison
## NULL
##
## $groups
## cons_o groups
## 50:B 12.32625 a
## 50:A 12.17500 a
## 100:A 9.93625 ab
## 75:A 7.89000 bc
## 100:B 7.40625 bc
## 75:B 6.09500 c
##
## attr(,"class")
## [1] "group"
Del analisis se observa que las concentraciones de los niveles de agua de mar si es influyente en el consumo de oxigeno, pero no es influyente el tipo de molusco, las medias arrojadas por el postanova evidencias valores similares para los dos tipos de moluscos estudiados.
# Punto 2
a)Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones)
load("C:/Users/user/Desktop/Estadistica 2/Salinidad.RData")
library(corrplot)
## corrplot 0.92 loaded
library(GGally)
## Warning: package 'GGally' was built under R version 4.1.3
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
BD_salinidad= data.frame(Salinidad)
corrplot(cor(BD_salinidad),
method = "number",
type = "lower",
diag = TRUE,
tl.col = "black",
bg = "white",
is.corr=T,
insig = "label_sig",
title = "",
col = NULL)
ggpairs(BD_salinidad, columns=c("Biomasa", "pH", "Salinidad", "Zinc", "Potasio"), columnLabels = c("Biomasa", "pH", "Salinidad", "Zinc", "Potasio"), lower = list(continuous = "smooth"), diag = list(continuous = "barDiag"), axisLabels = "none")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Del analisis de correlaciones se observa que existen tres correlaciones:
Correlacion fuerte directamente proporcional entre la Biomasa y el Ph con un coeficiente de 0.93 lo cual quiere decir que las plantas ubicadas en suelos con mayores Ph, mayor cantidad de biomasa generaron
Correlacion fuerte inversamente propocional entre el Zinc y el Ph con un coeficiente de -0.72
Correlacion fuerte inversamente proporcional entre el Zinc y la biomasa con un coeficiente de -0.78
De las correlaciones 2 y 3 se observa que entre mas elevado es el Ph menores del suelo menores cantidades de zinc se presenta, pero a la vez se generan mayores incrementos en la biomasa de la planta
B)Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.
modelo_salinidad=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=BD_salinidad)
summary(modelo_salinidad)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = BD_salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
Del modelo se observa que las variables Ph, salinidad y zinc son influyentes en la biomasa de las plantas, por su contraparte el potasio no es influyente en la variable de respuesta.
B1 : Por cada 1 unidad que se incremente la variable ph, el valor de la biomasa se incrementa en 262.88 unidades. manteniendo constante las demas variables.
B2 : Por cada 1 unidad que se incremente la variable salinidad, el valor de la biomasa se disminuye en 33.49 unidades. manteniendo constante las demas variables.
B3: Por cada 1 unidad que se incremente la variable zinc, el valor de la biomasa se disminuye en 28.97 unidades. manteniendo constante las demas variables.
B4: debido a que no es influyente esta variable se excluye del modelo.
R2 = 0.92 significa que el modelo explica el comportamiento de la variable dependiente “Biomasa” con un nivel de confianza del 92 % lo cual es un muy buen indicador.