Informe Regresión Multiple

1. Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco .

Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

Interpretación: Según lo visto en el grafico de cajas podemos ver que, para concentraciones de agua de un 50% el molusco tipo A consume menos oxigeno que el molusco tipo B, mientras que para el 75% y 100% de concentración de agua; el molusco tipo A consume mas oxigeno que el tipo B

load("C:/Users/Luisa/Desktop/metodos estadisticos para toma de decisiones/moluscos.RData")
data_moluscos= data.frame(BD_moluscos)
data_moluscos$c_agua= as.factor(data_moluscos$c_agua)
head(data_moluscos)

c_agua	molusco	cons_o
100	A	7.16
100	A	8.26
100	A	6.78
100	A	14.00
100	A	13.60
100	A	11.10

require(ggplot2)
require(plotly)

g1_moluscos=ggplot(data_moluscos,aes(x= c_agua, y=cons_o, fill=molusco))+  geom_boxplot()+ theme_bw()+ geom_point(position=position_jitterdodge(),alpha=0.3)+   ggtitle("Consumo de Oxigeno por  Tipo de Molusco")+   scale_x_discrete("% Concentración de Agua de mar")+  scale_y_continuous("Consumo de Oxigeno")

g1_moluscos

require(table1)
table1(~c_agua+cons_o+molusco,data = data_moluscos)

	Overall (N=48)
c_agua
50	16 (33.3%)
75	16 (33.3%)
100	16 (33.3%)
cons_o
Mean (SD)	9.30 (3.68)
Median [Min, Max]	9.70 [1.80, 18.8]
molusco
A	24 (50.0%)
B	24 (50.0%)

Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

Interpretación: Según lo visto en el Postanova, logramos identificar que:

  -El molusco B con 50% de concentración de agua de mar es estadisticamente similar al molusco A en una                    concentración de agua de 50%.
  -El molusco A con concentración de 75% de agua de mar es estadisticamente similar al molusco B con 
    concentración de agua de 100%.

Al ver el valor p de del modelo, logramos ver que la base (Intercepto), concentración de agua de 75% y 100% son Significativas, ya que son igual a cero. Por otro lado, el valor p del molusco b nos dice que no es significativo, ya que su valor p es mayor que el alfa de 0.05, por lo tanto no es significativo.

modelo_moluscos=lm(cons_o~c_agua+molusco, data = data_moluscos)

summary(modelo_moluscos)

## 
## Call:
## lm(formula = cons_o ~ c_agua + molusco, data = data_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.1750 -1.9877 -0.7019  2.1244  6.1450 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  12.9463     0.8521  15.193  < 2e-16 ***
## c_agua75     -5.2581     1.0436  -5.038 8.49e-06 ***
## c_agua100    -3.5794     1.0436  -3.430  0.00132 ** 
## moluscoB     -1.3913     0.8521  -1.633  0.10966    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.952 on 44 degrees of freedom
## Multiple R-squared:  0.3986, Adjusted R-squared:  0.3575 
## F-statistic: 9.719 on 3 and 44 DF,  p-value: 4.866e-05

#Anova

anova(modelo_moluscos)

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
c_agua	2	230.81603	115.408015	13.245654	0.0000314
molusco	1	23.22692	23.226919	2.665809	0.1096627
Residuals	44	383.36745	8.712897	NA	NA

##Interpretación: Lo que nos dice el anova con el valor p es que la concentración de agua si es significativo al ser su valor cero. Por otro lado, nos muestra que el molusco no es significativo en el modelo, ya que su valor p es mayor que nuestro alfa de 0.05.

#Postanova

attach(data_moluscos)
require(agricolae)
comparar_moluscos= LSD.test(modelo_moluscos,c("c_agua","molusco"))
comparar_moluscos

## $statistics
##    MSerror Df     Mean       CV  t.value      LSD
##   8.712897 44 9.304792 31.72303 2.015368 2.974442
## 
## $parameters
##         test p.ajusted         name.t ntr alpha
##   Fisher-LSD      none c_agua:molusco   6  0.05
## 
## $means
##         cons_o      std r       LCL       UCL  Min   Max     Q25    Q50     Q75
## 100:A  9.93625 2.747976 8  7.833002 12.039498 6.78 14.00  7.9850  9.295 11.7250
## 100:B  7.40625 2.844076 8  5.303002  9.509498 3.68 11.60  5.7225  6.140 10.1000
## 50:A  12.17500 3.090178 8 10.071752 14.278248 9.74 18.80 10.3100 11.110 12.5000
## 50:B  12.32625 3.517909 8 10.223002 14.429498 6.38 17.70 10.0575 12.850 14.5000
## 75:A   7.89000 2.739578 8  5.786752  9.993248 5.20 13.20  6.0775  7.180  8.8925
## 75:B   6.09500 2.739108 8  3.991752  8.198248 1.80  9.96  4.8300  5.595  7.3425
## 
## $comparison
## NULL
## 
## $groups
##         cons_o groups
## 50:B  12.32625      a
## 50:A  12.17500      a
## 100:A  9.93625     ab
## 75:A   7.89000     bc
## 100:B  7.40625     bc
## 75:B   6.09500      c
## 
## attr(,"class")
## [1] "group"

2. Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).

load("C:/Users/Luisa/Desktop/metodos estadisticos para toma de decisiones/Salinidad.RData")
data_salinidad= data.frame(Salinidad)

head(data_salinidad)

Biomasa	pH	Salinidad	Zinc	Potasio
765.280	5.00	33	16.4524	1441.67
954.017	4.70	35	13.9852	1299.19
827.686	4.20	32	15.3276	1154.27
755.072	4.40	30	17.3128	1045.15
896.176	5.55	33	22.3312	521.62
1422.836	5.50	33	12.2778	1273.02

#Analisis de Correlación

attach(data_salinidad)


library(GGally)
library(dplyr)
ggpairs(select_if(data_salinidad, is.numeric), lower = list(continuous = "smooth"),diag = list(continuous = "barDiag"), axisLabels = "none")

##Interpretación: Se logro ver que:

 #-Biomasa-pH(0.928)=Existe una relación positiva fuerte entre la biomasa y el Ph, es decir que si uno aumenta el otro tambien lo hara.
# -Biomasa-Salinidad= Existe una relación poco significativa entre estas dos variables.
# -Biomasa-Zinc (-0.781)= Existe una relación Inversa fuerte entre estas dos variables.
# -Biomasa-Potasio= Existe una relación poco significativa entre estas dos variables.

cor(Biomasa,data_salinidad)

##      Biomasa        pH   Salinidad       Zinc     Potasio
## [1,]       1 0.9281023 -0.06657756 -0.7814625 -0.07319518

Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

\[ Y(Biomasa)=1492.8076+262.8829*pH-33.4997*Salidad-28.9727*Zinc-0.1150*Potasio\]

Interpretación: Según lo que nos muestra el valor p es que el intercepto, el pH, la Salinidad y el Zinc son significativos en el modelo ya que su valor es cero. Por otro lado, el potasio nos muestra que no es significativo porque su valor p nos da un valor de 0.167979, el cual es mayor que nuestro alfa de 0.05.

En cuanto al R2 nos dice que las variables ph, salinidad, zinc y potasio, explican la biomasa en un 92%.

modelo_salinidad= lm(Biomasa~pH+Salinidad+Zinc+Potasio, data = data_salinidad)
summary(modelo_salinidad)

## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = data_salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Informe Regresión Multiple

Luisa Fernanda Giraldo-Mena

2022-09-10

1. Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco .