PONTIFICIA UNIVERSIDAD JAVERIANA CALI FACULTAD DE INGENIERIA Y CIENCIAS DEPARTAMENTO DE CIENCIAS NATURALES Y MATEMATICAS BIOESTADISTICA PARCIAL # 2 NOMBRE: Juan David Betancourth López CODIGO: 8952627

  1. Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.
  1. Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.
load("C:/Users/Juan David Betancour/Downloads/YDRAY-moluscos (1).RData")
require(faraway)
## Loading required package: faraway
data(BD_moluscos)
## Warning in data(BD_moluscos): data set 'BD_moluscos' not found
BD_moluscos
##    c_agua molusco cons_o
## 1     100       A   7.16
## 2     100       A   8.26
## 3     100       A   6.78
## 4     100       A  14.00
## 5     100       A  13.60
## 6     100       A  11.10
## 7     100       A   8.93
## 8     100       A   9.66
## 9     100       B   6.14
## 10    100       B   6.14
## 11    100       B   3.68
## 12    100       B  10.00
## 13    100       B  10.40
## 14    100       B  11.60
## 15    100       B   5.49
## 16    100       B   5.80
## 17     75       A   5.20
## 18     75       A  13.20
## 19     75       A   5.20
## 20     75       A   8.39
## 21     75       A   7.18
## 22     75       A  10.40
## 23     75       A   6.37
## 24     75       A   7.18
## 25     75       B   4.47
## 26     75       B   4.95
## 27     75       B   9.96
## 28     75       B   6.49
## 29     75       B   5.75
## 30     75       B   5.44
## 31     75       B   1.80
## 32     75       B   9.90
## 33     50       A  11.11
## 34     50       A  10.50
## 35     50       A   9.74
## 36     50       A  14.60
## 37     50       A  18.80
## 38     50       A  11.11
## 39     50       A   9.74
## 40     50       A  11.80
## 41     50       B   9.63
## 42     50       B  14.50
## 43     50       B   6.38
## 44     50       B  10.20
## 45     50       B  13.40
## 46     50       B  17.70
## 47     50       B  14.50
## 48     50       B  12.30
#Correlación bivariados

require(ggplot2)
## Loading required package: ggplot2
ggplot(BD_moluscos,aes(x=c_agua,y=cons_o))+geom_point()+theme_bw()

ggplot(BD_moluscos,aes(x=molusco,y=cons_o))+geom_point()+theme_bw()

attach(BD_moluscos)

#Ajuste del modelo

lm(cons_o~c_agua+molusco,data=BD_moluscos)
## 
## Call:
## lm(formula = cons_o ~ c_agua + molusco, data = BD_moluscos)
## 
## Coefficients:
## (Intercept)       c_agua     moluscoB  
##    15.36948     -0.07159     -1.39125

El procedimiento fue de sumergir poblaciones de las dos especies en tanques con tres diferentex concentrraciones de agua de mar para ver como cambia su consumo de oxígeno.

load("C:/Users/Juan David Betancour/Downloads/YDRAY-moluscos (1).RData")
require(faraway)
require(ggplot2)
data(BD_moluscos)
## Warning in data(BD_moluscos): data set 'BD_moluscos' not found
ggplot(data=BD_moluscos,aes(y=cons_o,x=molusco,colour=molusco))+geom_boxplot()+theme_bw()+xlab("Especie de molusco")+ylab("Consumo de oxígeno")

ggplot(data=BD_moluscos,aes(y=cons_o,x=molusco,colour=molusco))+geom_boxplot()+theme_bw()+xlab("Especie de molusco")+ylab("Consumo de oxígeno")

ggplot(data=BD_moluscos, aes(y=cons_o,x=c_agua,colour=molusco))+geom_point()+theme_bw()+xlab("Concentración de gua salada")+ylab("Consumo de oxígeno")+geom_smooth()+facet_grid(~molusco)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 3.0071e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 3.0071e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 3.0071e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 3.0071e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1

Con el gráfico anterior podemos ver que existen diferencias entre el consumo de oxígeno de cada especie según la cantidad de agua de mar en la que se encuentran. El molusco A consume más oxígeno que el molusco B sin importar las condiciones. Ambas especies reaccionan de manera similar a los cambios en la cantidad de agua de mar pues conforme esta aumenta los niveles de consumo de oxígeno decrecen para luego aumentar un poco más llegando a lo que parece un nivel ideal donde están en 100% agua de mar. Ambas especies consumen mucho más oxígeno cuando están en 50% agua de mar. A pesar de todo esto las diferencias entre el consumo de oxígeno no son tan grandes.

load("C:/Users/Juan David Betancour/Downloads/YDRAY-moluscos.RData")
sum(BD_moluscos$c_agua)
## [1] 3600
mean(BD_moluscos$c_agua)
## [1] 75
sd(BD_moluscos$c_agua)
## [1] 20.62842
min(BD_moluscos$c_agua)
## [1] 50
median(BD_moluscos$c_agua)
## [1] 75
max(BD_moluscos$c_agua)
## [1] 100
min(BD_moluscos$molusco)
## [1] "A"
max(BD_moluscos$molusco)
## [1] "B"
sum(BD_moluscos$cons_o)
## [1] 446.63
mean(BD_moluscos$cons_o)
## [1] 9.304792
sd(BD_moluscos$cons_o)
## [1] 3.682652
min(BD_moluscos$cons_o)
## [1] 1.8
median(BD_moluscos$cons_o)
## [1] 9.7
max(BD_moluscos$cons_o)
## [1] 18.8
hist(BD_moluscos$cons_o,  xlab ="Consumo de oxígeno", ylab="Frecuencia"  , xlim=c(1.80, 18.80), ylim=c(0, 15),breaks=15, col="orange", main="Histograma de consumo de oxígeno")

boxplot(BD_moluscos$cons_o, col="green", main="Boxplot de consumo de oxígeno")

hist(BD_moluscos$c_agua, col="yellow", main="Histograma del Consumo de agua", xlab ="Concentración de agua de mar", ylab="Frecuencia"  , xlim=c(50, 100), ylim=c(0, 49),breaks=15)

El menor consumo de oxpigeno fue de 1,8 y corresponde a la especie B en 75% de agua de mar. El consumo de oxígeno máximo corresponde a 18.8 y es de la especie A en 50% de agua de mar.

Aún más exploratorio

require(ggplot2)
ggplot(data=BD_moluscos, aes(y=cons_o, x=c_agua))+geom_point()+theme_bw()+xlab("Concentración de agua de mar")+ylab("Consumo de oxígeno")+geom_smooth()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 9.1868e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 9.1868e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1

Una vez más vemos que en términos generales el mayor consumo de oxígeno por ambas especies se da donde la concentración de agua de mar es de 50%

require(ggplot2)

ggplot(BD_moluscos,aes(x=molusco, y=cons_o))+geom_point()+theme_bw()

ggplot(BD_moluscos,aes(x=c_agua, y=cons_o))+geom_point()+theme_bw()

Una última vez visualizamos los datos, de la manera que pude visualizarlos dado que el último método no pude ejecutarlo dado que no cuento con la base de datos en formato hoja de cálculo de Excel

  1. Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.
anova
## function (object, ...) 
## UseMethod("anova")
## <bytecode: 0x0000000012ac9e10>
## <environment: namespace:stats>
data("BD_moluscos")
## Warning in data("BD_moluscos"): data set 'BD_moluscos' not found
BD_moluscos
## # A tibble: 48 x 3
##    c_agua molusco cons_o
##     <dbl> <chr>    <dbl>
##  1    100 A         7.16
##  2    100 A         8.26
##  3    100 A         6.78
##  4    100 A        14   
##  5    100 A        13.6 
##  6    100 A        11.1 
##  7    100 A         8.93
##  8    100 A         9.66
##  9    100 B         6.14
## 10    100 B         6.14
## # ... with 38 more rows
table(BD_moluscos$cons_o)
## 
##   1.8  3.68  4.47  4.95   5.2  5.44  5.49  5.75   5.8  6.14  6.37  6.38  6.49 
##     1     1     1     1     2     1     1     1     1     2     1     1     1 
##  6.78  7.16  7.18  8.26  8.39  8.93  9.63  9.66  9.74   9.9  9.96    10  10.2 
##     1     1     2     1     1     1     1     1     2     1     1     1     1 
##  10.4  10.5  11.1 11.11  11.6  11.8  12.3  13.2  13.4  13.6    14  14.5  14.6 
##     2     1     1     2     1     1     1     1     1     1     1     2     1 
##  17.7  18.8 
##     1     1
table(BD_moluscos$c_agua)
## 
##  50  75 100 
##  16  16  16
table(BD_moluscos$molusco)
## 
##  A  B 
## 24 24
BD_moluscos$cons_o_=as.factor(BD_moluscos$cons_o)
BD_moluscos$c_agua_=as.factor(BD_moluscos$c_agua)
BD_moluscos$molusco_=as.factor(BD_moluscos$molusco)

BD_moluscos$cons_o_
##  [1] 7.16  8.26  6.78  14    13.6  11.1  8.93  9.66  6.14  6.14  3.68  10   
## [13] 10.4  11.6  5.49  5.8   5.2   13.2  5.2   8.39  7.18  10.4  6.37  7.18 
## [25] 4.47  4.95  9.96  6.49  5.75  5.44  1.8   9.9   11.11 10.5  9.74  14.6 
## [37] 18.8  11.11 9.74  11.8  9.63  14.5  6.38  10.2  13.4  17.7  14.5  12.3 
## 41 Levels: 1.8 3.68 4.47 4.95 5.2 5.44 5.49 5.75 5.8 6.14 6.37 6.38 ... 18.8
BD_moluscos$c_agua_
##  [1] 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 75  75  75 
## [20] 75  75  75  75  75  75  75  75  75  75  75  75  75  50  50  50  50  50  50 
## [39] 50  50  50  50  50  50  50  50  50  50 
## Levels: 50 75 100
BD_moluscos$molusco_
##  [1] A A A A A A A A B B B B B B B B A A A A A A A A B B B B B B B B A A A A A A
## [39] A A B B B B B B B B
## Levels: A B
ggplot(BD_moluscos,aes(x=c_agua, y=cons_o, fill=c_agua))+geom_boxplot()+theme_bw()
## Warning: Continuous x aesthetic -- did you forget aes(group=...)?

require(ggplot2)
ggplot(BD_moluscos, aes(x=molusco,y=cons_o,fill=molusco))+geom_boxplot()+theme_bw()

x=as.numeric(BD_moluscos$molusco=="yes")
y=BD_moluscos$cons_o
require(faraway)

data(BD_moluscos)
## Warning in data(BD_moluscos): data set 'BD_moluscos' not found
BD_moluscos
## # A tibble: 48 x 6
##    c_agua molusco cons_o cons_o_ c_agua_ molusco_
##     <dbl> <chr>    <dbl> <fct>   <fct>   <fct>   
##  1    100 A         7.16 7.16    100     A       
##  2    100 A         8.26 8.26    100     A       
##  3    100 A         6.78 6.78    100     A       
##  4    100 A        14    14      100     A       
##  5    100 A        13.6  13.6    100     A       
##  6    100 A        11.1  11.1    100     A       
##  7    100 A         8.93 8.93    100     A       
##  8    100 A         9.66 9.66    100     A       
##  9    100 B         6.14 6.14    100     B       
## 10    100 B         6.14 6.14    100     B       
## # ... with 38 more rows
require(ggplot2)
ggplot(BD_moluscos, aes(x=molusco,y=cons_o,fill=molusco))+geom_boxplot()

x=as.numeric(BD_moluscos$molusco=="yes")
y=BD_moluscos$cons_o
  1. Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio)
  1. Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).
load("C:/Users/Juan David Betancour/Downloads/YDRAY-Salinidad (2).RData")
datos=Salinidad
attach(datos)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
cor(Biomasa, pH)
## [1] 0.9281023
cor(Biomasa, datos$Salinidad)
## [1] -0.06657756
cor(Biomasa, Zinc)
## [1] -0.7814625
cor(Biomasa, Potasio)
## [1] -0.07319518
mod3=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=datos)
summary(mod3)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16
##Predecir con el modelo
predict(mod3, list(pH=7, Salinidad=30, Zinc=8, Potasio=1500), interval="confidence")
##        fit      lwr      upr
## 1 1923.707 1771.311 2076.103

Con estos datos tenemos que el coeficiente de correlación corresponde a 0,9607809324. Según la biomasa de las plantas en diferentes condiciones ambientales

require(faraway)
data(Salinidad)
## Warning in data(Salinidad): data set 'Salinidad' not found
Salinidad
##     Biomasa   pH Salinidad    Zinc Potasio
## 1   765.280 5.00        33 16.4524 1441.67
## 2   954.017 4.70        35 13.9852 1299.19
## 3   827.686 4.20        32 15.3276 1154.27
## 4   755.072 4.40        30 17.3128 1045.15
## 5   896.176 5.55        33 22.3312  521.62
## 6  1422.836 5.50        33 12.2778 1273.02
## 7   821.069 4.25        36 17.8225 1346.35
## 8  1008.804 4.45        30 14.3516 1253.88
## 9  1306.494 4.75        38 13.6826 1242.65
## 10 1039.637 4.60        30 11.7566 1282.95
## 11 1193.223 4.10        30  9.8820  553.69
## 12  777.474 3.45        37 16.6752  494.74
## 13  818.127 3.45        33 12.3730  526.97
## 14 1203.568 4.10        36  9.4058  571.14
## 15  977.515 3.50        30 14.9302  408.64
## 16  369.823 3.25        30 31.2865  646.65
## 17  509.872 3.25        27 30.1652  514.03
## 18  448.315 3.20        29 28.5901  350.73
## 19  615.091 3.35        34 17.8795  496.29
## 20  545.538 3.30        36 18.5056  580.92
## 21  436.552 3.25        30 22.1344  535.82
## 22  465.907 3.25        28 28.6101  490.34
## 23  664.601 3.20        31 23.1908  552.39
## 24  502.466 3.20        31 24.6917  661.32
## 25  496.797 3.35        35 22.6758  672.12
## 26 2270.294 7.10        29  0.3729  525.65
## 27 2332.220 7.35        35  0.2703  563.13
## 28 2162.531 7.45        35  0.3205  497.96
## 29 2222.588 7.45        30  0.2648  458.38
## 30 2337.326 7.40        30  0.2105  498.25
## 31 1349.192 4.85        26 18.9875  936.26
## 32 1058.976 4.60        29 20.9687  894.79
## 33 1408.206 5.20        25 23.9841  941.36
## 34 1491.276 4.75        26 19.9727 1038.79
## 35 1254.872 5.20        26 21.3864  898.05
## 36 1152.341 4.55        25 23.7063  989.87
## 37  568.455 3.95        26 30.5589  951.28
## 38  612.447 3.70        26 26.8415  929.83
## 39  654.825 3.75        27 27.7292  925.42
## 40  991.829 4.15        27 21.5699  954.11
## 41 1895.942 5.60        24 19.6531  720.72
## 42 1346.880 5.35        27 20.3295  782.09
## 43 1482.793 5.50        26 19.5880  773.30
## 44 1145.643 5.50        28 20.1328  829.26
## 45 1137.193 5.40        28 19.2420  856.96
#Correlación bivariados

require(ggplot2)

ggplot(Salinidad,aes(x=pH,y=Biomasa))+geom_point()+theme_bw()

ggplot(Salinidad,aes(x=Salinidad,y=Biomasa))+geom_point()+theme_bw()

ggplot(Salinidad,aes(x=Zinc,y=Biomasa))+geom_point()+theme_bw()

ggplot(Salinidad,aes(x=Potasio,y=Biomasa))+geom_point()+theme_bw()

attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
## The following objects are masked from datos:
## 
##     Biomasa, pH, Potasio, Salinidad, Zinc
cor(Biomasa,pH)
## [1] 0.9281023
cor(Biomasa,Salinidad)
##      Biomasa        pH   Salinidad       Zinc     Potasio
## [1,]       1 0.9281023 -0.06657756 -0.7814625 -0.07319518
cor(Biomasa,Zinc)
## [1] -0.7814625
cor(Biomasa,Potasio)
## [1] -0.07319518
#Ajuste del modelo

lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Coefficients:
## (Intercept)           pH    Salinidad         Zinc      Potasio  
##    1492.808      262.883      -33.500      -28.973       -0.115
mod=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Según las gráficas y datos numéricos las plantas incrementan su biomasa conforme el pH aumenta de ácido a neutro mientras que por su parte nutrientes como el Zinc o niveles de salinidad impiden un aumento de biomasa. El potasio parece causar un decrecimiento pero estos datos no presentan un patrón tan significativo.

  1. Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.
require(faraway)
data(Salinidad)
## Warning in data(Salinidad): data set 'Salinidad' not found
Salinidad
##     Biomasa   pH Salinidad    Zinc Potasio
## 1   765.280 5.00        33 16.4524 1441.67
## 2   954.017 4.70        35 13.9852 1299.19
## 3   827.686 4.20        32 15.3276 1154.27
## 4   755.072 4.40        30 17.3128 1045.15
## 5   896.176 5.55        33 22.3312  521.62
## 6  1422.836 5.50        33 12.2778 1273.02
## 7   821.069 4.25        36 17.8225 1346.35
## 8  1008.804 4.45        30 14.3516 1253.88
## 9  1306.494 4.75        38 13.6826 1242.65
## 10 1039.637 4.60        30 11.7566 1282.95
## 11 1193.223 4.10        30  9.8820  553.69
## 12  777.474 3.45        37 16.6752  494.74
## 13  818.127 3.45        33 12.3730  526.97
## 14 1203.568 4.10        36  9.4058  571.14
## 15  977.515 3.50        30 14.9302  408.64
## 16  369.823 3.25        30 31.2865  646.65
## 17  509.872 3.25        27 30.1652  514.03
## 18  448.315 3.20        29 28.5901  350.73
## 19  615.091 3.35        34 17.8795  496.29
## 20  545.538 3.30        36 18.5056  580.92
## 21  436.552 3.25        30 22.1344  535.82
## 22  465.907 3.25        28 28.6101  490.34
## 23  664.601 3.20        31 23.1908  552.39
## 24  502.466 3.20        31 24.6917  661.32
## 25  496.797 3.35        35 22.6758  672.12
## 26 2270.294 7.10        29  0.3729  525.65
## 27 2332.220 7.35        35  0.2703  563.13
## 28 2162.531 7.45        35  0.3205  497.96
## 29 2222.588 7.45        30  0.2648  458.38
## 30 2337.326 7.40        30  0.2105  498.25
## 31 1349.192 4.85        26 18.9875  936.26
## 32 1058.976 4.60        29 20.9687  894.79
## 33 1408.206 5.20        25 23.9841  941.36
## 34 1491.276 4.75        26 19.9727 1038.79
## 35 1254.872 5.20        26 21.3864  898.05
## 36 1152.341 4.55        25 23.7063  989.87
## 37  568.455 3.95        26 30.5589  951.28
## 38  612.447 3.70        26 26.8415  929.83
## 39  654.825 3.75        27 27.7292  925.42
## 40  991.829 4.15        27 21.5699  954.11
## 41 1895.942 5.60        24 19.6531  720.72
## 42 1346.880 5.35        27 20.3295  782.09
## 43 1482.793 5.50        26 19.5880  773.30
## 44 1145.643 5.50        28 20.1328  829.26
## 45 1137.193 5.40        28 19.2420  856.96
#Correlación bivariados

require(ggplot2)

ggplot(Salinidad,aes(x=pH,y=Biomasa))+geom_point()+theme_bw()

ggplot(Salinidad,aes(x=Salinidad,y=Biomasa))+geom_point()+theme_bw()

ggplot(Salinidad,aes(x=Zinc,y=Biomasa))+geom_point()+theme_bw()

ggplot(Salinidad,aes(x=Potasio,y=Biomasa))+geom_point()+theme_bw()

attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
## The following objects are masked from Salinidad (pos = 3):
## 
##     Biomasa, pH, Potasio, Salinidad, Zinc
## The following objects are masked from datos:
## 
##     Biomasa, pH, Potasio, Salinidad, Zinc
cor(Biomasa,pH)
## [1] 0.9281023
cor(Biomasa,Salinidad)
##      Biomasa        pH   Salinidad       Zinc     Potasio
## [1,]       1 0.9281023 -0.06657756 -0.7814625 -0.07319518
cor(Biomasa,Zinc)
## [1] -0.7814625
cor(Biomasa,Potasio)
## [1] -0.07319518
#Ajuste del modelo

lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Coefficients:
## (Intercept)           pH    Salinidad         Zinc      Potasio  
##    1492.808      262.883      -33.500      -28.973       -0.115
mod=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Tenemos que las variables pH, Salinidad y Zinc influyen sobre la variable respuesta. El pH inluye mucho sobre la biomasa en la planta estudiada. Con una relación en la que por cada cambio en los niveles de pH se obtienen 262.8829 gramos de biomasa.Con el zinc por cada aumento en los niveles de salinidad la biomasa se reduce 33.4997 gramos y algo similar ocurre con el zinc pues por cada aumento en estos niveles hay la biomasa se reduce 28.9727 gramos.

data("Salinidad")
## Warning in data("Salinidad"): data set 'Salinidad' not found
Salinidad
##     Biomasa   pH Salinidad    Zinc Potasio
## 1   765.280 5.00        33 16.4524 1441.67
## 2   954.017 4.70        35 13.9852 1299.19
## 3   827.686 4.20        32 15.3276 1154.27
## 4   755.072 4.40        30 17.3128 1045.15
## 5   896.176 5.55        33 22.3312  521.62
## 6  1422.836 5.50        33 12.2778 1273.02
## 7   821.069 4.25        36 17.8225 1346.35
## 8  1008.804 4.45        30 14.3516 1253.88
## 9  1306.494 4.75        38 13.6826 1242.65
## 10 1039.637 4.60        30 11.7566 1282.95
## 11 1193.223 4.10        30  9.8820  553.69
## 12  777.474 3.45        37 16.6752  494.74
## 13  818.127 3.45        33 12.3730  526.97
## 14 1203.568 4.10        36  9.4058  571.14
## 15  977.515 3.50        30 14.9302  408.64
## 16  369.823 3.25        30 31.2865  646.65
## 17  509.872 3.25        27 30.1652  514.03
## 18  448.315 3.20        29 28.5901  350.73
## 19  615.091 3.35        34 17.8795  496.29
## 20  545.538 3.30        36 18.5056  580.92
## 21  436.552 3.25        30 22.1344  535.82
## 22  465.907 3.25        28 28.6101  490.34
## 23  664.601 3.20        31 23.1908  552.39
## 24  502.466 3.20        31 24.6917  661.32
## 25  496.797 3.35        35 22.6758  672.12
## 26 2270.294 7.10        29  0.3729  525.65
## 27 2332.220 7.35        35  0.2703  563.13
## 28 2162.531 7.45        35  0.3205  497.96
## 29 2222.588 7.45        30  0.2648  458.38
## 30 2337.326 7.40        30  0.2105  498.25
## 31 1349.192 4.85        26 18.9875  936.26
## 32 1058.976 4.60        29 20.9687  894.79
## 33 1408.206 5.20        25 23.9841  941.36
## 34 1491.276 4.75        26 19.9727 1038.79
## 35 1254.872 5.20        26 21.3864  898.05
## 36 1152.341 4.55        25 23.7063  989.87
## 37  568.455 3.95        26 30.5589  951.28
## 38  612.447 3.70        26 26.8415  929.83
## 39  654.825 3.75        27 27.7292  925.42
## 40  991.829 4.15        27 21.5699  954.11
## 41 1895.942 5.60        24 19.6531  720.72
## 42 1346.880 5.35        27 20.3295  782.09
## 43 1482.793 5.50        26 19.5880  773.30
## 44 1145.643 5.50        28 20.1328  829.26
## 45 1137.193 5.40        28 19.2420  856.96
##y=pH
##x=Biomasa

###

table(Salinidad$pH)
## 
##  3.2 3.25  3.3 3.35 3.45  3.5  3.7 3.75 3.95  4.1 4.15  4.2 4.25  4.4 4.45 4.55 
##    3    4    1    2    2    1    1    1    1    2    1    1    1    1    1    1 
##  4.6  4.7 4.75 4.85    5  5.2 5.35  5.4  5.5 5.55  5.6  7.1 7.35  7.4 7.45 
##    2    1    2    1    1    2    1    1    3    1    1    1    1    1    2
Salinidad$pH_=as.factor(Salinidad$pH)

Salinidad$pH_
##  [1] 5    4.7  4.2  4.4  5.55 5.5  4.25 4.45 4.75 4.6  4.1  3.45 3.45 4.1  3.5 
## [16] 3.25 3.25 3.2  3.35 3.3  3.25 3.25 3.2  3.2  3.35 7.1  7.35 7.45 7.45 7.4 
## [31] 4.85 4.6  5.2  4.75 5.2  4.55 3.95 3.7  3.75 4.15 5.6  5.35 5.5  5.5  5.4 
## 31 Levels: 3.2 3.25 3.3 3.35 3.45 3.5 3.7 3.75 3.95 4.1 4.15 4.2 4.25 ... 7.45
##Datos 

data("Salinidad")
## Warning in data("Salinidad"): data set 'Salinidad' not found
Salinidad
##     Biomasa   pH Salinidad    Zinc Potasio  pH_
## 1   765.280 5.00        33 16.4524 1441.67    5
## 2   954.017 4.70        35 13.9852 1299.19  4.7
## 3   827.686 4.20        32 15.3276 1154.27  4.2
## 4   755.072 4.40        30 17.3128 1045.15  4.4
## 5   896.176 5.55        33 22.3312  521.62 5.55
## 6  1422.836 5.50        33 12.2778 1273.02  5.5
## 7   821.069 4.25        36 17.8225 1346.35 4.25
## 8  1008.804 4.45        30 14.3516 1253.88 4.45
## 9  1306.494 4.75        38 13.6826 1242.65 4.75
## 10 1039.637 4.60        30 11.7566 1282.95  4.6
## 11 1193.223 4.10        30  9.8820  553.69  4.1
## 12  777.474 3.45        37 16.6752  494.74 3.45
## 13  818.127 3.45        33 12.3730  526.97 3.45
## 14 1203.568 4.10        36  9.4058  571.14  4.1
## 15  977.515 3.50        30 14.9302  408.64  3.5
## 16  369.823 3.25        30 31.2865  646.65 3.25
## 17  509.872 3.25        27 30.1652  514.03 3.25
## 18  448.315 3.20        29 28.5901  350.73  3.2
## 19  615.091 3.35        34 17.8795  496.29 3.35
## 20  545.538 3.30        36 18.5056  580.92  3.3
## 21  436.552 3.25        30 22.1344  535.82 3.25
## 22  465.907 3.25        28 28.6101  490.34 3.25
## 23  664.601 3.20        31 23.1908  552.39  3.2
## 24  502.466 3.20        31 24.6917  661.32  3.2
## 25  496.797 3.35        35 22.6758  672.12 3.35
## 26 2270.294 7.10        29  0.3729  525.65  7.1
## 27 2332.220 7.35        35  0.2703  563.13 7.35
## 28 2162.531 7.45        35  0.3205  497.96 7.45
## 29 2222.588 7.45        30  0.2648  458.38 7.45
## 30 2337.326 7.40        30  0.2105  498.25  7.4
## 31 1349.192 4.85        26 18.9875  936.26 4.85
## 32 1058.976 4.60        29 20.9687  894.79  4.6
## 33 1408.206 5.20        25 23.9841  941.36  5.2
## 34 1491.276 4.75        26 19.9727 1038.79 4.75
## 35 1254.872 5.20        26 21.3864  898.05  5.2
## 36 1152.341 4.55        25 23.7063  989.87 4.55
## 37  568.455 3.95        26 30.5589  951.28 3.95
## 38  612.447 3.70        26 26.8415  929.83  3.7
## 39  654.825 3.75        27 27.7292  925.42 3.75
## 40  991.829 4.15        27 21.5699  954.11 4.15
## 41 1895.942 5.60        24 19.6531  720.72  5.6
## 42 1346.880 5.35        27 20.3295  782.09 5.35
## 43 1482.793 5.50        26 19.5880  773.30  5.5
## 44 1145.643 5.50        28 20.1328  829.26  5.5
## 45 1137.193 5.40        28 19.2420  856.96  5.4
mod_7=lm(Biomasa~pH+Salinidad, data=Salinidad)
summary(mod_7)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -555.68  -92.82  -10.23  153.76  390.53 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -665.709    286.142  -2.326   0.0249 *  
## pH           403.589     24.981  16.156   <2e-16 ***
## Salinidad     -3.708      8.426  -0.440   0.6622    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 207.7 on 42 degrees of freedom
## Multiple R-squared:  0.862,  Adjusted R-squared:  0.8554 
## F-statistic: 131.2 on 2 and 42 DF,  p-value: < 2.2e-16

La variable Biomasa es significativa debido a que su valor p es <0,05. Con esto entonces podemos asumir que los datos obtenidos por la mayoria de las variables independientes de los factores que alteran el desarrollo de las plantas son útiles y correctos aunque no tanto los niveles de potasio pues no hay una relación clara con los datos obtenidos.

Presente un informe con los resultados que den cuenta de los dos puntos y anexando al final el código en R que genera los resultados publicado en Rpubs (usar Rmarkdown).

Enviar el informe al correo hasta el domingo 10 al medio día

Regresión lineal simple

  1. Responda Falso o Verdadero
  1. La variable independiente explica la variable dependiente. ( V) Esto se puede explicar facilmente con los términos en sí. La variable independiente suele corresponder a los valores de una ecuación que son datos obtenidos en la colecta de datos como el ejemplo de la cantidad de agua de mar en el ejercicio de los moluscos, no es un dato obtenido pero este valor no cambia sin el control de quien realiza el experimento. Por su parte la variable dependiente cambia según la independiente como el consumo de oxígeno cambia según el porcentaje de agua de mar.

  2. El coeficiente de determinación explica la variabilidad total explicada por la variable dependiente. (F ) No, el coeficiente de determinación explica la variabilidad total explicada por la regresión.

  3. Un coeficiente de correlación negativo implica que la relación es inversamente proporcional, es decir que cuando una variable aumenta la otra disminuye. ( V) El enunciado lo expone correctamente pues el coeficiente de correlación negativo varia según el valor determinado en “dirección contraria” entre sí. Si una variable aumenta, la otra disminuye.

  4. Una pendiente negativa nos dice que cuando la variable independiente aumenta la variable dependiente también lo hace. (F ) Esto es falso debido a que una pendiente negativa indica una relación inversa como en el punto anterior donde el comportamiento de cada variable es opuesto entre sí.

  1. Escoja la opción falsa.
  1. Cuando existe relación lineal el coeficiente de correlación es diferente de cero.
  1. Cuando no existe correlación lineal la pendiente no es significativa(V)

  2. El coeficiente de determinación es el coeficiente de correlación elevado al cuadrado(V)

  3. Cuando existe relación lineal el coeficiente de correlación es muy cercano de cero (F)Contrastando con el punto B, dado que la correlación lineal existe cuando la pendiente es significativa y dado que un valor significativo debe tener un valor considerable; como el ejemplo postula que es cercano a cero contradiciendo lo establecido la respuesta es falsa.

  1. Escoja la opción correcta.

Suponga un modelo expresado por la edad y el peso de un grupo de adultos con algún tipo de enfermedad Z, se tiene que el modelo es el siguiente Y = 0.5 + 0.8X, donde se quiere predecir el peso de una persona según su edad.

  1. La variable dependiente es el peso y la independiente es la edad, donde la pendiente 0.5 y el intercepto es 0.8.(F)

  2. La variable dependiente es la edad y la variable independiente es el peso, donde la pendiente 0.5 y el intercepto es 0.8(F)

  3. La variable independiente es la edad y la variable dependiente es el peso donde la pendiente es 0.8 y el intercepto es 0.5.(V) El peso es la variable dependiente pues es sugún la edad. Por este mismo motivo la edad es la variable independiente. 0.8 es la pendiente por estar al lado de la variable independiente y el último valor restante que es 0.5 corresponde al intercepto

  1. Estimar la recta de regresión lineal

Se quiere explicar el nivel de agresividad de un grupo de Hombres con una característica X según el nivel de testosterona, los resultados se caracterizaron en una escala donde se establecieron variables latentes para establecer los siguientes puntajes.

Testosterona 4 5 8 14 20 89 6 8 Agresividad 10 15 19 25 40 59 14 19

  1. Del modelo de regresión lineal se puede decir que (tenga en cuenta quien es la variable dependiente y la independiente para su respuesta correcta):
  1. A medida que aumenta la agresividad la testosterona disminuye.(F)

  2. A medida que la agresividad disminuye la testosterona.(F)

  3. Cuando la testosterona aumenta el nivel de agresividad también lo hace.(V) Esto se puede ver facilmente en la tabla con la relación que lleva y priorizando como causante de efecto a los niveles de testosterona por ser la variable independiente que afecta a la agresividad pues es la variable dependioente.

  4. Cuando la testosterona aumenta el nivel de agresividad disminuye.(F)

  1. La ecuación de regresión lineal está dada por:
  1. Testosterona = 58.595 + 0.9845*Agresividad + e(F)

  2. Agresividad = 14.97842 + 0.52710*Testosterona + e(V) Esto debido a que al utilizar la variable testosterona como x y agresividad como y, hallando sus sumas, cuadrados, etc. La ecuación de regresión lineal es Y=0.5270950934(x)+14.97841945 lo que corresponde a esta respuesta

  3. Testosterona = 58.595 – 0.9845*Agresividad + e(F)

  4. Agresividad = 15.58965 + 0.25895*Testosterona + e(F)

  1. El coeficiente de correlación es:
  1. 0.8424(F)

  2. 0.8925(F)

  3. 0.9589(F)

  4. 0.9178(V) #r=sxy/sxsy=379.34375/26.82699215.40647185=0.9178205104

  5. La variable que explica la edad es el peso y la pendiente es 0.5

  1. El coeficiente de determinación es:
  1. 0.9988(F)

  2. 0.8424 (V)El coeficiente de determinación es el coeficiente de correlación al cuadrado y este valor es el que corresponde al cuadrado de la respuesta del punto anterior.

  3. 0.9859(F)

  4. 0.9178(F)

En el siguiente estudio se quiere explicar la resistencia con la variable edad, los resultados se procesan en el software R, y estos fueron los resultados:

  1. De la imagen anterior se puede afirmar que:
  1. La relación no es lineal(F)

  2. Además de que se aprecia una relación lineal se observa que esta es positiva porque para valores altos de la variable edad se espera valores bajos de la resistencia(F)

  3. A medida que la edad disminuye la resistencia también lo hace, es decir que la relación entre estas dos variables es linealmente positiva.(F)

  4. A medida que la edad aumenta la resistencia disminuye, es decir que la relación entre estas dos variables es negativa.(v) Debido a que es una recta decreciente por ello vemos que la relación es inversamente proporcional siendo la edad la variab le independiente haciendo que conforme aumenta la resitencia disminuye

La ecuación de la recta es:

  1. Resistencia = -37.154 + 2627.822*Edad(F)

  2. Edad = 2627.822 -37.154*Resistencia(F)

  3. Resistencia = 2627.822 – 37.154*Edad(V) Debido a que esta ecuación tiene las variables dependiente e independiente dodne corresponde y además al utilizarla los valores de resistecia son acordes con la gráfica.

  4. Edad = -37.154 + 2627.822*Resistencia(F)

El coeficiente de correlación es:

    • 0.9496(V) Hay varias maneras de verificar esta decisión pero la más fácil es ver si hay una relación con el coeficiente de determinación 0.9018. Dado que este valor es aproximadamente su raíz cuadrada, esta es la respuesta.
  1. 0.9018(f)

  2. 2627.822(f)

  3. -37.154(f)

El coeficiente de determinación es:

  1. -37.154(f)

  2. 2627.822(f)

  3. 0.9018(V) Por dos motivos principales: primero este valor está indicado en los datos dados como Multiple R-squared y además su raíz cuadrada corresponde con el coeficiente de correlación -0,9496 aproximadamente en el ejercicio anterior.

  4. 0.9496(f)

Del modelo se puede decir que:

  1. La variable edad no es significativa puesto que su valor-p es muy grande
  1. La variable resistencia es significativa ya que su valor-p es cercano a cero (<0.05).(V)

  2. La variable edad es significativa ya que su valor-p es cercano a cero (<0.05).(f)

  3. El modelo nos dice que no existe relación lineal ya que el valor-p es aproximadamente cero (<0.05)