Processing math: 100%
  • Inicio
  • 1.
    • a.
    • b.
  • 2.
    • a.
    • b.

Inicio

Alumno: Daniel Lorenzo Medina Salcedo

Correo:

Asignatura: Métodos estadisticos para la toma de decisiones

Profesor: Daniel Enrique González Gómez

Maestria en Ciencia de Datos

Universidad Javeriana de Cali

Agosto 2022

Este documento se puede consulta en línea en el siguiente link:

Ver en línea en R PUbs

1.

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

a.

Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

Análisis exploratorio
Datos a estudiar
c_agua molusco cons_o
100 A 7.16
100 A 8.26
100 A 6.78
100 A 14.00
100 A 13.60
100 A 11.10
100 A 8.93
100 A 9.66
100 B 6.14
100 B 6.14
100 B 3.68
100 B 10.00
100 B 10.40
100 B 11.60
100 B 5.49
100 B 5.80
75 A 5.20
75 A 13.20
75 A 5.20
75 A 8.39
75 A 7.18
75 A 10.40
75 A 6.37
75 A 7.18
75 B 4.47
75 B 4.95
75 B 9.96
75 B 6.49
75 B 5.75
75 B 5.44
75 B 1.80
75 B 9.90
50 A 11.11
50 A 10.50
50 A 9.74
50 A 14.60
50 A 18.80
50 A 11.11
50 A 9.74
50 A 11.80
50 B 9.63
50 B 14.50
50 B 6.38
50 B 10.20
50 B 13.40
50 B 17.70
50 B 14.50
50 B 12.30

Realizaremos graficos de cajas y bigotes para anlizar quartiles y medias

Resumen de las Medias
promA promB promA50 promB50 promA75 promB75 promA100 promB100
10.00042 8.609167 12.175 12.32625 7.89 6.095 7.89 6.095
Quartiles Molusco A
50 75 100
9.74 5.200 6.780
10.12 5.785 7.710
11.11 7.180 9.295
13.20 9.395 12.350
14.60 13.200 14.000
Quartiles Molusco B
50 75 100
6.380 1.800 3.680
9.915 4.710 5.645
12.850 5.595 6.140
14.500 8.195 10.200
17.700 9.960 11.600
Respuesta:

Se evidencia gráficamente y por análisis de medias y cuartiles que el resultado de concentración de O2 es distinto para el Molusco A y el Molusco B

b.

Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

Crearemos dos modelos:

  1. Modelo de regresión multiple con la variable Concentración de Agua y la variable Categorica Molusco para la cual haremos la siguiente transformación. Molusco={MoluscoA=1MoluscoB=0

  2. Modelo de regresión simple con la variable Concentración de Agua

    Analizaremos la correlación de las variables.

##             c_agua   molusco     cons_o
## c_agua   1.0000000 0.0000000 -0.4009984
## molusco  0.0000000 1.0000000  0.1908913
## cons_o  -0.4009984 0.1908913  1.0000000

modelo1 = lm(cons_o ~ c_agua + molusco, moluscos)
modelo2 = lm(cons_o ~ c_agua , moluscos)
mtable(modelo1, modelo2)
## 
## Calls:
## modelo1: lm(formula = cons_o ~ c_agua + molusco, data = moluscos)
## modelo2: lm(formula = cons_o ~ c_agua, data = moluscos)
## 
## =====================================
##                 modelo1    modelo2   
## -------------------------------------
##   (Intercept)  13.978***  14.674***  
##                (1.916)    (1.874)    
##   c_agua       -0.072**   -0.072**   
##                (0.024)    (0.024)    
##   molusco       1.391                
##                (0.973)               
## -------------------------------------
##   R-squared     0.197      0.161     
##   N            48         48         
## =====================================
##   Significance: *** = p < 0.001;   
##                 ** = p < 0.01;   
##                 * = p < 0.05

anova(modelo1)
Df Sum Sq Mean Sq F value Pr(>F)
c_agua 1 102.49540 102.49540 9.013877 0.0043619
molusco 1 23.22692 23.22692 2.042673 0.1598464
Residuals 45 511.68808 11.37085 NA NA

Conclusiones:

- Hay una correlación muy baja entre las variables

- Analizando el modelo 1 se evidencia R2 es muy bajo por debajo de 0.20

- La prueba de ANOVA del modelo permite validar la significaciá del modelo a partir del análisis de la varianza. Se evidencia que la única variable que suma al modelo es la variable Concentración de Agua

2.

Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).
Datos a estudiar
Biomasa pH Salinidad Zinc Potasio
765.280 5.00 33 16.4524 1441.67
954.017 4.70 35 13.9852 1299.19
827.686 4.20 32 15.3276 1154.27
755.072 4.40 30 17.3128 1045.15
896.176 5.55 33 22.3312 521.62
1422.836 5.50 33 12.2778 1273.02
821.069 4.25 36 17.8225 1346.35
1008.804 4.45 30 14.3516 1253.88
1306.494 4.75 38 13.6826 1242.65
1039.637 4.60 30 11.7566 1282.95
1193.223 4.10 30 9.8820 553.69
777.474 3.45 37 16.6752 494.74
818.127 3.45 33 12.3730 526.97
1203.568 4.10 36 9.4058 571.14
977.515 3.50 30 14.9302 408.64
369.823 3.25 30 31.2865 646.65
509.872 3.25 27 30.1652 514.03
448.315 3.20 29 28.5901 350.73
615.091 3.35 34 17.8795 496.29
545.538 3.30 36 18.5056 580.92
436.552 3.25 30 22.1344 535.82
465.907 3.25 28 28.6101 490.34
664.601 3.20 31 23.1908 552.39
502.466 3.20 31 24.6917 661.32
496.797 3.35 35 22.6758 672.12
2270.294 7.10 29 0.3729 525.65
2332.220 7.35 35 0.2703 563.13
2162.531 7.45 35 0.3205 497.96
2222.588 7.45 30 0.2648 458.38
2337.326 7.40 30 0.2105 498.25
1349.192 4.85 26 18.9875 936.26
1058.976 4.60 29 20.9687 894.79
1408.206 5.20 25 23.9841 941.36
1491.276 4.75 26 19.9727 1038.79
1254.872 5.20 26 21.3864 898.05
1152.341 4.55 25 23.7063 989.87
568.455 3.95 26 30.5589 951.28
612.447 3.70 26 26.8415 929.83
654.825 3.75 27 27.7292 925.42
991.829 4.15 27 21.5699 954.11
1895.942 5.60 24 19.6531 720.72
1346.880 5.35 27 20.3295 782.09
1482.793 5.50 26 19.5880 773.30
1145.643 5.50 28 20.1328 829.26
1137.193 5.40 28 19.2420 856.96

a.

Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).

Se evidencia una alta correlación de la Biomasa con dos variables

-pH : 0.93

-Zinc : -0.78

b.

Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

modelo_bio = lm(Biomasa ~ pH + Zinc, Salinidad)
summary(modelo_bio)
## 
## Call:
## lm(formula = Biomasa ~ pH + Zinc, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -467.50  -98.86   -0.22  113.45  514.41 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -165.01     223.03  -0.740  0.46350    
## pH            330.51      32.45  10.187 6.44e-13 ***
## Zinc          -15.48       4.92  -3.147  0.00303 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 187.3 on 42 degrees of freedom
## Multiple R-squared:  0.8878, Adjusted R-squared:  0.8825 
## F-statistic: 166.2 on 2 and 42 DF,  p-value: < 2.2e-16
anova(modelo_bio)
Df Sum Sq Mean Sq F value Pr(>F)
pH 1 11310631 11310631.13 322.518901 0.0000000
Zinc 1 347361 347360.98 9.904883 0.0030291
Residuals 42 1472926 35069.67 NA NA
Respuestas:

  • β0 = -165.01

  • β1 = 330.51

  • β2 = -15.48

  • R2 = 0.88

  • Analizando los valores P se evidencia que las variables pH y Zinc son muy significabas.