Parcial #2 Bioestadistica

Punto #1

Base de datos Moluscos

Cargamos la base de datos “BD_moluscos” para analizar los datos

load("C:/Users/U S E R/Documents/Documents france/Documentos U/Bioestadistica/Parcial #1/YDRAY-moluscos.Rdata")
BD_moluscos
##    c_agua molusco cons_o
## 1     100       A   7.16
## 2     100       A   8.26
## 3     100       A   6.78
## 4     100       A  14.00
## 5     100       A  13.60
## 6     100       A  11.10
## 7     100       A   8.93
## 8     100       A   9.66
## 9     100       B   6.14
## 10    100       B   6.14
## 11    100       B   3.68
## 12    100       B  10.00
## 13    100       B  10.40
## 14    100       B  11.60
## 15    100       B   5.49
## 16    100       B   5.80
## 17     75       A   5.20
## 18     75       A  13.20
## 19     75       A   5.20
## 20     75       A   8.39
## 21     75       A   7.18
## 22     75       A  10.40
## 23     75       A   6.37
## 24     75       A   7.18
## 25     75       B   4.47
## 26     75       B   4.95
## 27     75       B   9.96
## 28     75       B   6.49
## 29     75       B   5.75
## 30     75       B   5.44
## 31     75       B   1.80
## 32     75       B   9.90
## 33     50       A  11.11
## 34     50       A  10.50
## 35     50       A   9.74
## 36     50       A  14.60
## 37     50       A  18.80
## 38     50       A  11.11
## 39     50       A   9.74
## 40     50       A  11.80
## 41     50       B   9.63
## 42     50       B  14.50
## 43     50       B   6.38
## 44     50       B  10.20
## 45     50       B  13.40
## 46     50       B  17.70
## 47     50       B  14.50
## 48     50       B  12.30
summary(BD_moluscos)
##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800
attach(BD_moluscos)
tapply(cons_o,c_agua,mean,na.rm=TRUE)
##       50       75      100 
## 12.25062  6.99250  8.67125
tapply(cons_o,molusco,mean,na.rm=TRUE)
##         A         B 
## 10.000417  8.609167

Utilizamos la función summary para calcular todos los datos necesarios para el estudio de la relación entre estos y la función tapply para obtener los promedios de consumo por concentración de agua y el consumo de oxigeno promedio por grupo de crustáceos (A y B). El consumo de oxigeno promedio para la concentraciones de agua del 50% es 12.2, para concentraciones de 75% el consumo de oxigeno es de 6.99 y por ultimo para concentraciones de agua del 100% el consumo es de 8.67.

El consumo de oxigeno promedio para el grupo B fue de 8.6 y para el grupoa A fue 10.

Analisis de datos univariados

Concentración de agua de mar

require(ggplot2)
## Loading required package: ggplot2
ggplot(data=BD_moluscos,aes(x=c_agua,colour=molusco))+geom_bar()+theme_bw()+xlab("Concentración de agua de mar")+ylab("Cantidad")+ggtitle("Cocentración de agua de mar")+facet_grid(~molusco)+theme(plot.title = element_text(hjust = 0.5))

En el gráfico podemos observar la distribución de los individuos de estudio los cuales fueron divididos en 2 grupos, grupo A y B y dentro de ellos 3 sub grupos divididos por concentración de agua de mar (50%. 75% y 100%). Un diseño experimental estable.

Consumo de Oxigeno

require(plotly)
## Loading required package: plotly
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
ggplot(data=BD_moluscos,aes(y=cons_o,fill=molusco))+geom_boxplot()+theme_bw()+xlab("Concentración de Oxigeno")+ylab("Consumo de O2")+ggtitle("Consumo de O2")+facet_grid(~molusco)+theme(plot.title = element_text(hjust = 0.5))

En este gráfico podemos observar el consumo de oxigeno de los moluscos separado por grupos, vemos que los datos varían mucho con un mínimo de 1.8 y un máximo de 18.8 en el grupo B y en el grupo A se observa un consumo mínimo por encima de 5 y un máximo de por menor de 15 para el grupo A, promedio de consumo de oxigeno es 9.3 en el grupo A y menor a 9 en el grupo B.

Analisis de datos bivariados

Relación Consumo de oxigeno y concentración de agua

require(ggplot2)
ggplot(data=BD_moluscos,aes(x=c_agua,y=cons_o, colour=molusco))+geom_point()+theme_bw()+xlab("Concentración de agua de mar")+ylab("Consumo de O.")+geom_smooth()+facet_grid(~molusco)+ggtitle("Relacion consumo de oxigeno y concentración de agua")+theme(plot.title = element_text(hjust = 0.5))

En este gráfico podemos observar que las variables consumo de oxigeno y concentración de agua de mar están relacionadas, se puede apreciar que en bajas concentraciones de agua de mar el consumo de oxigeno en los dos grupos es muy similar aunque en el grupo de B los moluscos consumen un poco mas de oxigeno, pero al aumentar las concentraciones de agua de mar vemos que el consumo de oxigeno disminuye radicalmente para los dos grupos. Aunque en el grupo A parece lograr adaptarse mucho mejor a las grandes concentraciones de agua aumentando su consumo de oxigeno un poco en grandes concentraciones el grupo B no lo puede hacer con la misma eficiencia.

Diseño del modelo

Aplicamos el modelo de diseño - Anova (Consumo de oxigeno)

mod_a=lm(cons_o~molusco,data=BD_moluscos)
summary(mod_a)
## 
## Call:
## lm(formula = cons_o ~ molusco, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.8254 -0.2604  1.7930  9.0908 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  10.0004     0.7459  13.408   <2e-16 ***
## moluscoB     -1.3913     1.0548  -1.319    0.194    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.654 on 46 degrees of freedom
## Multiple R-squared:  0.03644,    Adjusted R-squared:  0.01549 
## F-statistic:  1.74 on 1 and 46 DF,  p-value: 0.1937
anova(mod_a)
## Analysis of Variance Table
## 
## Response: cons_o
##           Df Sum Sq Mean Sq F value Pr(>F)
## molusco    1  23.23  23.227  1.7396 0.1937
## Residuals 46 614.18  13.352
table(molusco)
## molusco
##  A  B 
## 24 24

El modelo lineal para el consumo de oxigeno de los moluscos arrojo un P significativo en el grupo de moluscos A, en el caso de los moluscos del grupo B no obtuvimos un valor significativo por lo que debimos analizar los datos por medio del análisis anova para estar totalmente seguros. Por el medio del análisis anova el modelo a no mostró diferencias significativas entre si por lo que no se debe hacer un análisis post anova.

Modelo Anova (Moluscos/Concentración de agua)

BD_moluscos$c_agua_=as.factor(BD_moluscos$c_agua)
mod_b=lm(cons_o~c_agua_,data=BD_moluscos)
summary(mod_b)
## 
## Call:
## lm(formula = cons_o ~ c_agua_, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.8706 -2.0445 -0.4766  2.2494  6.5494 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  12.2506     0.7515  16.302  < 2e-16 ***
## c_agua_75    -5.2581     1.0627  -4.948 1.09e-05 ***
## c_agua_100   -3.5794     1.0627  -3.368  0.00156 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.006 on 45 degrees of freedom
## Multiple R-squared:  0.3621, Adjusted R-squared:  0.3338 
## F-statistic: 12.77 on 2 and 45 DF,  p-value: 4.043e-05
anova(mod_b)
## Analysis of Variance Table
## 
## Response: cons_o
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## c_agua_    2 230.82 115.408  12.773 4.043e-05 ***
## Residuals 45 406.59   9.035                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
table(c_agua)
## c_agua
##  50  75 100 
##  16  16  16

Podemos ver los coeficientes del modelo 2 tomo como referencia la concentración de agua del 50% donde todos los coeficientes del modelo tienen un valor p significativo, aún así es necesario realizar un análisis anova para confirmar que existen diferencias.

Modelo Post Anova (Moluscos/Concentración de agua)

require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 4.1.1
Comparar_b=LSD.test(mod_b,"c_agua_")
Comparar_b
## $statistics
##   MSerror Df     Mean       CV  t.value     LSD
##   9.03543 45 9.304792 32.30485 2.014103 2.14048
## 
## $parameters
##         test p.ajusted  name.t ntr alpha
##   Fisher-LSD      none c_agua_   3  0.05
## 
## $means
##       cons_o      std  r       LCL       UCL  Min  Max    Q25    Q50     Q75
## 100  8.67125 3.000940 16  7.157702 10.184798 3.68 14.0  6.140  8.595 10.5750
## 50  12.25062 3.199643 16 10.737077 13.764173 6.38 18.8 10.085 11.455 14.5000
## 75   6.99250 2.804093 16  5.478952  8.506048 1.80 13.2  5.200  6.430  8.7675
## 
## $comparison
## NULL
## 
## $groups
##       cons_o groups
## 50  12.25062      a
## 100  8.67125      b
## 75   6.99250      b
## 
## attr(,"class")
## [1] "group"

Conclusiones

En este análisis post anova se observaron los intervalos de confianza para las concentraciones de agua de mar, en la sección groups se observa la concentración de agua de mar del 50% la cual fue la variable mas significativa con respecto a las otras concentraciones.

Punto #2

Base de datos salinidad

Cargamos la base de datos “salinidad” para analizar los datos

load("C:/Users/U S E R/Documents/Documents france/Documentos U/Bioestadistica/Parcial #1/YDRAY-Salinidad.Rdata")
Salinidad
##     Biomasa   pH Salinidad    Zinc Potasio
## 1   765.280 5.00        33 16.4524 1441.67
## 2   954.017 4.70        35 13.9852 1299.19
## 3   827.686 4.20        32 15.3276 1154.27
## 4   755.072 4.40        30 17.3128 1045.15
## 5   896.176 5.55        33 22.3312  521.62
## 6  1422.836 5.50        33 12.2778 1273.02
## 7   821.069 4.25        36 17.8225 1346.35
## 8  1008.804 4.45        30 14.3516 1253.88
## 9  1306.494 4.75        38 13.6826 1242.65
## 10 1039.637 4.60        30 11.7566 1282.95
## 11 1193.223 4.10        30  9.8820  553.69
## 12  777.474 3.45        37 16.6752  494.74
## 13  818.127 3.45        33 12.3730  526.97
## 14 1203.568 4.10        36  9.4058  571.14
## 15  977.515 3.50        30 14.9302  408.64
## 16  369.823 3.25        30 31.2865  646.65
## 17  509.872 3.25        27 30.1652  514.03
## 18  448.315 3.20        29 28.5901  350.73
## 19  615.091 3.35        34 17.8795  496.29
## 20  545.538 3.30        36 18.5056  580.92
## 21  436.552 3.25        30 22.1344  535.82
## 22  465.907 3.25        28 28.6101  490.34
## 23  664.601 3.20        31 23.1908  552.39
## 24  502.466 3.20        31 24.6917  661.32
## 25  496.797 3.35        35 22.6758  672.12
## 26 2270.294 7.10        29  0.3729  525.65
## 27 2332.220 7.35        35  0.2703  563.13
## 28 2162.531 7.45        35  0.3205  497.96
## 29 2222.588 7.45        30  0.2648  458.38
## 30 2337.326 7.40        30  0.2105  498.25
## 31 1349.192 4.85        26 18.9875  936.26
## 32 1058.976 4.60        29 20.9687  894.79
## 33 1408.206 5.20        25 23.9841  941.36
## 34 1491.276 4.75        26 19.9727 1038.79
## 35 1254.872 5.20        26 21.3864  898.05
## 36 1152.341 4.55        25 23.7063  989.87
## 37  568.455 3.95        26 30.5589  951.28
## 38  612.447 3.70        26 26.8415  929.83
## 39  654.825 3.75        27 27.7292  925.42
## 40  991.829 4.15        27 21.5699  954.11
## 41 1895.942 5.60        24 19.6531  720.72
## 42 1346.880 5.35        27 20.3295  782.09
## 43 1482.793 5.50        26 19.5880  773.30
## 44 1145.643 5.50        28 20.1328  829.26
## 45 1137.193 5.40        28 19.2420  856.96
summary(Salinidad)
##     Biomasa             pH          Salinidad          Zinc        
##  Min.   : 369.8   Min.   :3.200   Min.   :24.00   Min.   : 0.2105  
##  1st Qu.: 654.8   1st Qu.:3.450   1st Qu.:27.00   1st Qu.:13.9852  
##  Median : 991.8   Median :4.450   Median :30.00   Median :19.2420  
##  Mean   :1082.2   Mean   :4.609   Mean   :30.27   Mean   :17.8308  
##  3rd Qu.:1346.9   3rd Qu.:5.350   3rd Qu.:33.00   3rd Qu.:22.6758  
##  Max.   :2337.3   Max.   :7.450   Max.   :38.00   Max.   :31.2865  
##     Potasio      
##  Min.   : 350.7  
##  1st Qu.: 527.0  
##  Median : 773.3  
##  Mean   : 797.4  
##  3rd Qu.: 954.1  
##  Max.   :1441.7

Se utilizo la función summary para calcular distintos valores como la media, promedio, cuartiles, la mediana, etc… para estudiar las relaciones entre estos datos.

Analisis de datos Univariados

Salinidad

require(ggplot2)
ggplot(data=Salinidad,aes(x=Salinidad))+geom_histogram()+theme_bw()+xlab("Concentración de sal")+ylab("Frecuancia")+ggtitle("Cocentración de sal")+theme(plot.title = element_text(hjust = 0.5))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Se puede observar en la gráfica que la concentración de sal en el suelo tiene un mínimo de 24, un máximo de 38, una mediana de 30.00 y un promedio de 30.27, la concentración mas frecuenta de sal se observa en 30.00. Los datos nos indican que la muestra es asimétrica positiva.

Ph

require(ggplot2)
ggplot(data=Salinidad,aes(x=pH))+geom_histogram()+theme_bw()+xlab("Escala de pH")+ylab("Frecuancia")+ggtitle("Niveles de pH")+theme(plot.title = element_text(hjust = 0.5))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

En esta gráfica podemos observar las escalas de ph que se encuentran en el suelo, se observa que la escala promedio de pH en el suelo es de 4.4, un valor Mínimo de 3.2 y máximo de 7.4.

Zinc

require(ggplot2)
ggplot(data=Salinidad,aes(x=Zinc))+geom_histogram()+theme_bw()+xlab("Concentración de zinc")+ylab("Cantidad")+ggtitle("Concentración de Zinc en el suelo")+theme(plot.title = element_text(hjust = 0.5))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

En este gráfico podemos observa la concentración de zinc de suelo, vemos que la presencia de zinc varían en un rango entre 0.2 y 31.2 y presenta una concentración promedio es de 17.8. Un dato a tener en cuenta es que el promedio es menor a la mediana lo que quiere decir que es una muestra asimétrica negativa.

Potasio

require(ggplot2)
ggplot(data=Salinidad,aes(x=Potasio))+geom_histogram()+theme_bw()+xlab("Concentración de potasio")+ylab("Frecuencia")+ggtitle("Concentración de Potasio en el suelo")+theme(plot.title = element_text(hjust = 0.5))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Aquí podemos observar que la concentración promedio de potasio del suelo es de 797.4. Los valores de potasio en suelo se encuentran en un rango de 350.7 a 1441.7 y su promedio al ser mayor que la mediana representa una muestra asimétrica positiva.

Analisis de Datos bivariados

Relacion entre concentración de salinidad y Biomasa

require(ggplot2)
ggplot(data=Salinidad,aes(x=Salinidad,y=Biomasa))+geom_point()+theme_bw()+xlab("Salinidad")+ylab("Biomasa")+geom_smooth(color="orange")+ggtitle("Relación entre Biomasa y salinidad")+theme(plot.title = element_text(hjust = 0.5))
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

En esta gráfica de correlación no podemos identificar una relación entre la Biomasa y la salinidad puesto que los datos se encuentran muy dispersos lo que nos dice que este factor no influye en el desarrollo de la biomasa.

Relación entre Biomasa y pH

require(ggplot2)
ggplot(data=Salinidad,aes(x=Biomasa,y=pH))+geom_point()+theme_bw()+xlab("Biomasa")+ylab("Nivel de pH")+ggtitle("Relación entre Biomasa y pH")+geom_smooth(color="orange")+theme(plot.title = element_text(hjust = 0.5))
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Se puede ver que existe una relación entre el pH y la Biomasa, entre menores sean los niveles de pH en suelo se producirá un medio ácido que no permitirá que el organismo desarrolle Biomasa, por otro parte los niveles altos de ph cercanos a 7 permiten que se desarrolle una gran concentración de Biomasa.

Relación Biomasa y Zinc

require(ggplot2)
ggplot(data=Salinidad,aes(x=Biomasa,y=Zinc))+geom_point()+theme_bw()+xlab("Biomasa")+ylab("Concentración de Zinc")+ggtitle("Relación entre Biomasa y Zinc")+geom_smooth(color="orange")+theme(plot.title = element_text(hjust = 0.5))
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

En esta gráfica podemos observar que que entre menores sean las concentraciones de Zinc se va a ver un aumento en la Biomasa del organismo. En el punto mínimo de Zinc el cual es 350.7 se observa el pico mas alto de desarrollo en Biomasa mientras que en el punto máximo de Zinc se produce lo contrario.

Diseño del modelo

Correlaciones bivariadas

datos=Salinidad
attach(datos)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
cor(Biomasa,Salinidad)
##      Biomasa        pH   Salinidad       Zinc     Potasio
## [1,]       1 0.9281023 -0.06657756 -0.7814625 -0.07319518
mod_b=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=datos)
summary(mod_b)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Utilizando la función de correlación estudiamos la correlación entre las variables pH, salinidad, zinc y potasio en función de la biomasa. Se pudo observar una relación positiva entre la biomasa y el ph y una relación negativa entra biomasa y zinc. El resto de variables como el potasio y la salinidad no podríamos considerarlas relevantes ya que no presentan una estrecha relación con la producción de biomasa.

Modelo de Regresión Lineal Múltiple

mod_c=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod_c)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Conclusiones

Las variables pH, salinidad y zinc tienen valores p significativos lo que nos indica que son factores que afectan significativamente a la producción de biomasa excepto el potasio que no influye para nada. El Zinc y Salinidad afectan de manera inversa a Salinidad.