Alumno: Daniel Lorenzo Medina Salcedo
Correo: medinada@javerianacali.edu.co
Asignatura: Métodos estadisticos para la toma de decisiones
Profesor: Daniel Enrique González Gómez
Maestria en Ciencia de Datos
Universidad Javeriana de Cali
Agosto 2022
Este documento se puede consulta en línea en el siguiente link:
Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.
c_agua | molusco | cons_o |
---|---|---|
100 | A | 7.16 |
100 | A | 8.26 |
100 | A | 6.78 |
100 | A | 14.00 |
100 | A | 13.60 |
100 | A | 11.10 |
100 | A | 8.93 |
100 | A | 9.66 |
100 | B | 6.14 |
100 | B | 6.14 |
100 | B | 3.68 |
100 | B | 10.00 |
100 | B | 10.40 |
100 | B | 11.60 |
100 | B | 5.49 |
100 | B | 5.80 |
75 | A | 5.20 |
75 | A | 13.20 |
75 | A | 5.20 |
75 | A | 8.39 |
75 | A | 7.18 |
75 | A | 10.40 |
75 | A | 6.37 |
75 | A | 7.18 |
75 | B | 4.47 |
75 | B | 4.95 |
75 | B | 9.96 |
75 | B | 6.49 |
75 | B | 5.75 |
75 | B | 5.44 |
75 | B | 1.80 |
75 | B | 9.90 |
50 | A | 11.11 |
50 | A | 10.50 |
50 | A | 9.74 |
50 | A | 14.60 |
50 | A | 18.80 |
50 | A | 11.11 |
50 | A | 9.74 |
50 | A | 11.80 |
50 | B | 9.63 |
50 | B | 14.50 |
50 | B | 6.38 |
50 | B | 10.20 |
50 | B | 13.40 |
50 | B | 17.70 |
50 | B | 14.50 |
50 | B | 12.30 |
Realizaremos graficos de cajas y bigotes para anlizar quartiles y medias
promA | promB | promA50 | promB50 | promA75 | promB75 | promA100 | promB100 |
---|---|---|---|---|---|---|---|
10.00042 | 8.609167 | 12.175 | 12.32625 | 7.89 | 6.095 | 7.89 | 6.095 |
50 | 75 | 100 |
---|---|---|
9.74 | 5.200 | 6.780 |
10.12 | 5.785 | 7.710 |
11.11 | 7.180 | 9.295 |
13.20 | 9.395 | 12.350 |
14.60 | 13.200 | 14.000 |
50 | 75 | 100 |
---|---|---|
6.380 | 1.800 | 3.680 |
9.915 | 4.710 | 5.645 |
12.850 | 5.595 | 6.140 |
14.500 | 8.195 | 10.200 |
17.700 | 9.960 | 11.600 |
Se evidencia gráficamente y por análisis de medias y cuartiles que el resultado de concentración de O2 es distinto para el Molusco A y el Molusco B
Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.
Crearemos dos modelos:
Analizaremos la correlación de las variables.
## c_agua molusco cons_o
## c_agua 1.0000000 0.0000000 -0.4009984
## molusco 0.0000000 1.0000000 0.1908913
## cons_o -0.4009984 0.1908913 1.0000000
modelo1 = lm(cons_o ~ c_agua + molusco, moluscos)
modelo2 = lm(cons_o ~ c_agua , moluscos)
mtable(modelo1, modelo2)
##
## Calls:
## modelo1: lm(formula = cons_o ~ c_agua + molusco, data = moluscos)
## modelo2: lm(formula = cons_o ~ c_agua, data = moluscos)
##
## =====================================
## modelo1 modelo2
## -------------------------------------
## (Intercept) 13.978*** 14.674***
## (1.916) (1.874)
## c_agua -0.072** -0.072**
## (0.024) (0.024)
## molusco 1.391
## (0.973)
## -------------------------------------
## R-squared 0.197 0.161
## N 48 48
## =====================================
## Significance: *** = p < 0.001;
## ** = p < 0.01;
## * = p < 0.05
anova(modelo1)
Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
---|---|---|---|---|---|
c_agua | 1 | 102.49540 | 102.49540 | 9.013877 | 0.0043619 |
molusco | 1 | 23.22692 | 23.22692 | 2.042673 | 0.1598464 |
Residuals | 45 | 511.68808 | 11.37085 | NA | NA |
Conclusiones:
- Hay una correlación muy baja entre las variables
- Analizando el modelo 1 se evidencia R2 es muy bajo por debajo de 0.20
- La prueba de ANOVA del modelo permite validar la significaciá del modelo a partir del análisis de la varianza. Se evidencia que la única variable que suma al modelo es la variable Concentración de Agua
Biomasa | pH | Salinidad | Zinc | Potasio |
---|---|---|---|---|
765.280 | 5.00 | 33 | 16.4524 | 1441.67 |
954.017 | 4.70 | 35 | 13.9852 | 1299.19 |
827.686 | 4.20 | 32 | 15.3276 | 1154.27 |
755.072 | 4.40 | 30 | 17.3128 | 1045.15 |
896.176 | 5.55 | 33 | 22.3312 | 521.62 |
1422.836 | 5.50 | 33 | 12.2778 | 1273.02 |
821.069 | 4.25 | 36 | 17.8225 | 1346.35 |
1008.804 | 4.45 | 30 | 14.3516 | 1253.88 |
1306.494 | 4.75 | 38 | 13.6826 | 1242.65 |
1039.637 | 4.60 | 30 | 11.7566 | 1282.95 |
1193.223 | 4.10 | 30 | 9.8820 | 553.69 |
777.474 | 3.45 | 37 | 16.6752 | 494.74 |
818.127 | 3.45 | 33 | 12.3730 | 526.97 |
1203.568 | 4.10 | 36 | 9.4058 | 571.14 |
977.515 | 3.50 | 30 | 14.9302 | 408.64 |
369.823 | 3.25 | 30 | 31.2865 | 646.65 |
509.872 | 3.25 | 27 | 30.1652 | 514.03 |
448.315 | 3.20 | 29 | 28.5901 | 350.73 |
615.091 | 3.35 | 34 | 17.8795 | 496.29 |
545.538 | 3.30 | 36 | 18.5056 | 580.92 |
436.552 | 3.25 | 30 | 22.1344 | 535.82 |
465.907 | 3.25 | 28 | 28.6101 | 490.34 |
664.601 | 3.20 | 31 | 23.1908 | 552.39 |
502.466 | 3.20 | 31 | 24.6917 | 661.32 |
496.797 | 3.35 | 35 | 22.6758 | 672.12 |
2270.294 | 7.10 | 29 | 0.3729 | 525.65 |
2332.220 | 7.35 | 35 | 0.2703 | 563.13 |
2162.531 | 7.45 | 35 | 0.3205 | 497.96 |
2222.588 | 7.45 | 30 | 0.2648 | 458.38 |
2337.326 | 7.40 | 30 | 0.2105 | 498.25 |
1349.192 | 4.85 | 26 | 18.9875 | 936.26 |
1058.976 | 4.60 | 29 | 20.9687 | 894.79 |
1408.206 | 5.20 | 25 | 23.9841 | 941.36 |
1491.276 | 4.75 | 26 | 19.9727 | 1038.79 |
1254.872 | 5.20 | 26 | 21.3864 | 898.05 |
1152.341 | 4.55 | 25 | 23.7063 | 989.87 |
568.455 | 3.95 | 26 | 30.5589 | 951.28 |
612.447 | 3.70 | 26 | 26.8415 | 929.83 |
654.825 | 3.75 | 27 | 27.7292 | 925.42 |
991.829 | 4.15 | 27 | 21.5699 | 954.11 |
1895.942 | 5.60 | 24 | 19.6531 | 720.72 |
1346.880 | 5.35 | 27 | 20.3295 | 782.09 |
1482.793 | 5.50 | 26 | 19.5880 | 773.30 |
1145.643 | 5.50 | 28 | 20.1328 | 829.26 |
1137.193 | 5.40 | 28 | 19.2420 | 856.96 |
Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).
Se evidencia una alta correlación de la Biomasa con dos variables
-pH : 0.93
-Zinc : -0.78
Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.
modelo_bio = lm(Biomasa ~ pH + Zinc, Salinidad)
summary(modelo_bio)
##
## Call:
## lm(formula = Biomasa ~ pH + Zinc, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -467.50 -98.86 -0.22 113.45 514.41
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -165.01 223.03 -0.740 0.46350
## pH 330.51 32.45 10.187 6.44e-13 ***
## Zinc -15.48 4.92 -3.147 0.00303 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 187.3 on 42 degrees of freedom
## Multiple R-squared: 0.8878, Adjusted R-squared: 0.8825
## F-statistic: 166.2 on 2 and 42 DF, p-value: < 2.2e-16
anova(modelo_bio)
Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
---|---|---|---|---|---|
pH | 1 | 11310631 | 11310631.13 | 322.518901 | 0.0000000 |
Zinc | 1 | 347361 | 347360.98 | 9.904883 | 0.0030291 |
Residuals | 42 | 1472926 | 35069.67 | NA | NA |