PONTIFICIA UNIVERSIDAD JAVERIANA CALI FACULTAD DE INGENIERIA Y CIENCIAS DEPARTAMENTO DE CIENCIAS NATURALES Y MATEMATICAS BIOESTADISTICA PARCIAL # 2 NOMBRE: Juan David Betancourth López CODIGO: 8952627
load("C:/Users/Juan David Betancour/Downloads/YDRAY-moluscos (1).RData")
require(faraway)
## Loading required package: faraway
data(BD_moluscos)
## Warning in data(BD_moluscos): data set 'BD_moluscos' not found
BD_moluscos
## c_agua molusco cons_o
## 1 100 A 7.16
## 2 100 A 8.26
## 3 100 A 6.78
## 4 100 A 14.00
## 5 100 A 13.60
## 6 100 A 11.10
## 7 100 A 8.93
## 8 100 A 9.66
## 9 100 B 6.14
## 10 100 B 6.14
## 11 100 B 3.68
## 12 100 B 10.00
## 13 100 B 10.40
## 14 100 B 11.60
## 15 100 B 5.49
## 16 100 B 5.80
## 17 75 A 5.20
## 18 75 A 13.20
## 19 75 A 5.20
## 20 75 A 8.39
## 21 75 A 7.18
## 22 75 A 10.40
## 23 75 A 6.37
## 24 75 A 7.18
## 25 75 B 4.47
## 26 75 B 4.95
## 27 75 B 9.96
## 28 75 B 6.49
## 29 75 B 5.75
## 30 75 B 5.44
## 31 75 B 1.80
## 32 75 B 9.90
## 33 50 A 11.11
## 34 50 A 10.50
## 35 50 A 9.74
## 36 50 A 14.60
## 37 50 A 18.80
## 38 50 A 11.11
## 39 50 A 9.74
## 40 50 A 11.80
## 41 50 B 9.63
## 42 50 B 14.50
## 43 50 B 6.38
## 44 50 B 10.20
## 45 50 B 13.40
## 46 50 B 17.70
## 47 50 B 14.50
## 48 50 B 12.30
#Correlación bivariados
require(ggplot2)
## Loading required package: ggplot2
ggplot(BD_moluscos,aes(x=c_agua,y=cons_o))+geom_point()+theme_bw()
ggplot(BD_moluscos,aes(x=molusco,y=cons_o))+geom_point()+theme_bw()
attach(BD_moluscos)
#Ajuste del modelo
lm(cons_o~c_agua+molusco,data=BD_moluscos)
##
## Call:
## lm(formula = cons_o ~ c_agua + molusco, data = BD_moluscos)
##
## Coefficients:
## (Intercept) c_agua moluscoB
## 15.36948 -0.07159 -1.39125
El procedimiento fue de sumergir poblaciones de las dos especies en tanques con tres diferentex concentrraciones de agua de mar para ver como cambia su consumo de oxígeno.
load("C:/Users/Juan David Betancour/Downloads/YDRAY-moluscos (1).RData")
require(faraway)
require(ggplot2)
data(BD_moluscos)
## Warning in data(BD_moluscos): data set 'BD_moluscos' not found
ggplot(data=BD_moluscos,aes(y=cons_o,x=molusco,colour=molusco))+geom_boxplot()+theme_bw()+xlab("Especie de molusco")+ylab("Consumo de oxígeno")
ggplot(data=BD_moluscos,aes(y=cons_o,x=molusco,colour=molusco))+geom_boxplot()+theme_bw()+xlab("Especie de molusco")+ylab("Consumo de oxígeno")
ggplot(data=BD_moluscos, aes(y=cons_o,x=c_agua,colour=molusco))+geom_point()+theme_bw()+xlab("Concentración de gua salada")+ylab("Consumo de oxígeno")+geom_smooth()+facet_grid(~molusco)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 3.0071e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 3.0071e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 3.0071e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 3.0071e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1
Con el gráfico anterior podemos ver que existen diferencias entre el consumo de oxígeno de cada especie según la cantidad de agua de mar en la que se encuentran. El molusco A consume más oxígeno que el molusco B sin importar las condiciones. Ambas especies reaccionan de manera similar a los cambios en la cantidad de agua de mar pues conforme esta aumenta los niveles de consumo de oxígeno decrecen para luego aumentar un poco más llegando a lo que parece un nivel ideal donde están en 100% agua de mar. Ambas especies consumen mucho más oxígeno cuando están en 50% agua de mar. A pesar de todo esto las diferencias entre el consumo de oxígeno no son tan grandes.
load("C:/Users/Juan David Betancour/Downloads/YDRAY-moluscos.RData")
sum(BD_moluscos$c_agua)
## [1] 3600
mean(BD_moluscos$c_agua)
## [1] 75
sd(BD_moluscos$c_agua)
## [1] 20.62842
min(BD_moluscos$c_agua)
## [1] 50
median(BD_moluscos$c_agua)
## [1] 75
max(BD_moluscos$c_agua)
## [1] 100
min(BD_moluscos$molusco)
## [1] "A"
max(BD_moluscos$molusco)
## [1] "B"
sum(BD_moluscos$cons_o)
## [1] 446.63
mean(BD_moluscos$cons_o)
## [1] 9.304792
sd(BD_moluscos$cons_o)
## [1] 3.682652
min(BD_moluscos$cons_o)
## [1] 1.8
median(BD_moluscos$cons_o)
## [1] 9.7
max(BD_moluscos$cons_o)
## [1] 18.8
hist(BD_moluscos$cons_o, xlab ="Consumo de oxígeno", ylab="Frecuencia" , xlim=c(1.80, 18.80), ylim=c(0, 15),breaks=15, col="orange", main="Histograma de consumo de oxígeno")
boxplot(BD_moluscos$cons_o, col="green", main="Boxplot de consumo de oxígeno")
hist(BD_moluscos$c_agua, col="yellow", main="Histograma del Consumo de agua", xlab ="Concentración de agua de mar", ylab="Frecuencia" , xlim=c(50, 100), ylim=c(0, 49),breaks=15)
El menor consumo de oxpigeno fue de 1,8 y corresponde a la especie B en 75% de agua de mar. El consumo de oxígeno máximo corresponde a 18.8 y es de la especie A en 50% de agua de mar.
Aún más exploratorio
require(ggplot2)
ggplot(data=BD_moluscos, aes(y=cons_o, x=c_agua))+geom_point()+theme_bw()+xlab("Concentración de agua de mar")+ylab("Consumo de oxígeno")+geom_smooth()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 9.1868e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 9.1868e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1
Una vez más vemos que en términos generales el mayor consumo de oxígeno por ambas especies se da donde la concentración de agua de mar es de 50%
require(ggplot2)
ggplot(BD_moluscos,aes(x=molusco, y=cons_o))+geom_point()+theme_bw()
ggplot(BD_moluscos,aes(x=c_agua, y=cons_o))+geom_point()+theme_bw()
Una última vez visualizamos los datos, de la manera que pude visualizarlos dado que el último método no pude ejecutarlo dado que no cuento con la base de datos en formato hoja de cálculo de Excel
anova
## function (object, ...)
## UseMethod("anova")
## <bytecode: 0x0000000012ac9e10>
## <environment: namespace:stats>
data("BD_moluscos")
## Warning in data("BD_moluscos"): data set 'BD_moluscos' not found
BD_moluscos
## # A tibble: 48 x 3
## c_agua molusco cons_o
## <dbl> <chr> <dbl>
## 1 100 A 7.16
## 2 100 A 8.26
## 3 100 A 6.78
## 4 100 A 14
## 5 100 A 13.6
## 6 100 A 11.1
## 7 100 A 8.93
## 8 100 A 9.66
## 9 100 B 6.14
## 10 100 B 6.14
## # ... with 38 more rows
table(BD_moluscos$cons_o)
##
## 1.8 3.68 4.47 4.95 5.2 5.44 5.49 5.75 5.8 6.14 6.37 6.38 6.49
## 1 1 1 1 2 1 1 1 1 2 1 1 1
## 6.78 7.16 7.18 8.26 8.39 8.93 9.63 9.66 9.74 9.9 9.96 10 10.2
## 1 1 2 1 1 1 1 1 2 1 1 1 1
## 10.4 10.5 11.1 11.11 11.6 11.8 12.3 13.2 13.4 13.6 14 14.5 14.6
## 2 1 1 2 1 1 1 1 1 1 1 2 1
## 17.7 18.8
## 1 1
table(BD_moluscos$c_agua)
##
## 50 75 100
## 16 16 16
table(BD_moluscos$molusco)
##
## A B
## 24 24
BD_moluscos$cons_o_=as.factor(BD_moluscos$cons_o)
BD_moluscos$c_agua_=as.factor(BD_moluscos$c_agua)
BD_moluscos$molusco_=as.factor(BD_moluscos$molusco)
BD_moluscos$cons_o_
## [1] 7.16 8.26 6.78 14 13.6 11.1 8.93 9.66 6.14 6.14 3.68 10
## [13] 10.4 11.6 5.49 5.8 5.2 13.2 5.2 8.39 7.18 10.4 6.37 7.18
## [25] 4.47 4.95 9.96 6.49 5.75 5.44 1.8 9.9 11.11 10.5 9.74 14.6
## [37] 18.8 11.11 9.74 11.8 9.63 14.5 6.38 10.2 13.4 17.7 14.5 12.3
## 41 Levels: 1.8 3.68 4.47 4.95 5.2 5.44 5.49 5.75 5.8 6.14 6.37 6.38 ... 18.8
BD_moluscos$c_agua_
## [1] 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 75 75 75
## [20] 75 75 75 75 75 75 75 75 75 75 75 75 75 50 50 50 50 50 50
## [39] 50 50 50 50 50 50 50 50 50 50
## Levels: 50 75 100
BD_moluscos$molusco_
## [1] A A A A A A A A B B B B B B B B A A A A A A A A B B B B B B B B A A A A A A
## [39] A A B B B B B B B B
## Levels: A B
ggplot(BD_moluscos,aes(x=c_agua, y=cons_o, fill=c_agua))+geom_boxplot()+theme_bw()
## Warning: Continuous x aesthetic -- did you forget aes(group=...)?
require(ggplot2)
ggplot(BD_moluscos, aes(x=molusco,y=cons_o,fill=molusco))+geom_boxplot()+theme_bw()
x=as.numeric(BD_moluscos$molusco=="yes")
y=BD_moluscos$cons_o
require(faraway)
data(BD_moluscos)
## Warning in data(BD_moluscos): data set 'BD_moluscos' not found
BD_moluscos
## # A tibble: 48 x 6
## c_agua molusco cons_o cons_o_ c_agua_ molusco_
## <dbl> <chr> <dbl> <fct> <fct> <fct>
## 1 100 A 7.16 7.16 100 A
## 2 100 A 8.26 8.26 100 A
## 3 100 A 6.78 6.78 100 A
## 4 100 A 14 14 100 A
## 5 100 A 13.6 13.6 100 A
## 6 100 A 11.1 11.1 100 A
## 7 100 A 8.93 8.93 100 A
## 8 100 A 9.66 9.66 100 A
## 9 100 B 6.14 6.14 100 B
## 10 100 B 6.14 6.14 100 B
## # ... with 38 more rows
require(ggplot2)
ggplot(BD_moluscos, aes(x=molusco,y=cons_o,fill=molusco))+geom_boxplot()
x=as.numeric(BD_moluscos$molusco=="yes")
y=BD_moluscos$cons_o
load("C:/Users/Juan David Betancour/Downloads/YDRAY-Salinidad (2).RData")
datos=Salinidad
attach(datos)
## The following object is masked _by_ .GlobalEnv:
##
## Salinidad
cor(Biomasa, pH)
## [1] 0.9281023
cor(Biomasa, datos$Salinidad)
## [1] -0.06657756
cor(Biomasa, Zinc)
## [1] -0.7814625
cor(Biomasa, Potasio)
## [1] -0.07319518
mod3=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=datos)
summary(mod3)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
##Predecir con el modelo
predict(mod3, list(pH=7, Salinidad=30, Zinc=8, Potasio=1500), interval="confidence")
## fit lwr upr
## 1 1923.707 1771.311 2076.103
Con estos datos tenemos que el coeficiente de correlación corresponde a 0,9607809324. Según la biomasa de las plantas en diferentes condiciones ambientales
require(faraway)
data(Salinidad)
## Warning in data(Salinidad): data set 'Salinidad' not found
Salinidad
## Biomasa pH Salinidad Zinc Potasio
## 1 765.280 5.00 33 16.4524 1441.67
## 2 954.017 4.70 35 13.9852 1299.19
## 3 827.686 4.20 32 15.3276 1154.27
## 4 755.072 4.40 30 17.3128 1045.15
## 5 896.176 5.55 33 22.3312 521.62
## 6 1422.836 5.50 33 12.2778 1273.02
## 7 821.069 4.25 36 17.8225 1346.35
## 8 1008.804 4.45 30 14.3516 1253.88
## 9 1306.494 4.75 38 13.6826 1242.65
## 10 1039.637 4.60 30 11.7566 1282.95
## 11 1193.223 4.10 30 9.8820 553.69
## 12 777.474 3.45 37 16.6752 494.74
## 13 818.127 3.45 33 12.3730 526.97
## 14 1203.568 4.10 36 9.4058 571.14
## 15 977.515 3.50 30 14.9302 408.64
## 16 369.823 3.25 30 31.2865 646.65
## 17 509.872 3.25 27 30.1652 514.03
## 18 448.315 3.20 29 28.5901 350.73
## 19 615.091 3.35 34 17.8795 496.29
## 20 545.538 3.30 36 18.5056 580.92
## 21 436.552 3.25 30 22.1344 535.82
## 22 465.907 3.25 28 28.6101 490.34
## 23 664.601 3.20 31 23.1908 552.39
## 24 502.466 3.20 31 24.6917 661.32
## 25 496.797 3.35 35 22.6758 672.12
## 26 2270.294 7.10 29 0.3729 525.65
## 27 2332.220 7.35 35 0.2703 563.13
## 28 2162.531 7.45 35 0.3205 497.96
## 29 2222.588 7.45 30 0.2648 458.38
## 30 2337.326 7.40 30 0.2105 498.25
## 31 1349.192 4.85 26 18.9875 936.26
## 32 1058.976 4.60 29 20.9687 894.79
## 33 1408.206 5.20 25 23.9841 941.36
## 34 1491.276 4.75 26 19.9727 1038.79
## 35 1254.872 5.20 26 21.3864 898.05
## 36 1152.341 4.55 25 23.7063 989.87
## 37 568.455 3.95 26 30.5589 951.28
## 38 612.447 3.70 26 26.8415 929.83
## 39 654.825 3.75 27 27.7292 925.42
## 40 991.829 4.15 27 21.5699 954.11
## 41 1895.942 5.60 24 19.6531 720.72
## 42 1346.880 5.35 27 20.3295 782.09
## 43 1482.793 5.50 26 19.5880 773.30
## 44 1145.643 5.50 28 20.1328 829.26
## 45 1137.193 5.40 28 19.2420 856.96
#Correlación bivariados
require(ggplot2)
ggplot(Salinidad,aes(x=pH,y=Biomasa))+geom_point()+theme_bw()
ggplot(Salinidad,aes(x=Salinidad,y=Biomasa))+geom_point()+theme_bw()
ggplot(Salinidad,aes(x=Zinc,y=Biomasa))+geom_point()+theme_bw()
ggplot(Salinidad,aes(x=Potasio,y=Biomasa))+geom_point()+theme_bw()
attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
##
## Salinidad
## The following objects are masked from datos:
##
## Biomasa, pH, Potasio, Salinidad, Zinc
cor(Biomasa,pH)
## [1] 0.9281023
cor(Biomasa,Salinidad)
## Biomasa pH Salinidad Zinc Potasio
## [1,] 1 0.9281023 -0.06657756 -0.7814625 -0.07319518
cor(Biomasa,Zinc)
## [1] -0.7814625
cor(Biomasa,Potasio)
## [1] -0.07319518
#Ajuste del modelo
lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
##
## Coefficients:
## (Intercept) pH Salinidad Zinc Potasio
## 1492.808 262.883 -33.500 -28.973 -0.115
mod=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
Según las gráficas y datos numéricos las plantas incrementan su biomasa conforme el pH aumenta de ácido a neutro mientras que por su parte nutrientes como el Zinc o niveles de salinidad impiden un aumento de biomasa. El potasio parece causar un decrecimiento pero estos datos no presentan un patrón tan significativo.
require(faraway)
data(Salinidad)
## Warning in data(Salinidad): data set 'Salinidad' not found
Salinidad
## Biomasa pH Salinidad Zinc Potasio
## 1 765.280 5.00 33 16.4524 1441.67
## 2 954.017 4.70 35 13.9852 1299.19
## 3 827.686 4.20 32 15.3276 1154.27
## 4 755.072 4.40 30 17.3128 1045.15
## 5 896.176 5.55 33 22.3312 521.62
## 6 1422.836 5.50 33 12.2778 1273.02
## 7 821.069 4.25 36 17.8225 1346.35
## 8 1008.804 4.45 30 14.3516 1253.88
## 9 1306.494 4.75 38 13.6826 1242.65
## 10 1039.637 4.60 30 11.7566 1282.95
## 11 1193.223 4.10 30 9.8820 553.69
## 12 777.474 3.45 37 16.6752 494.74
## 13 818.127 3.45 33 12.3730 526.97
## 14 1203.568 4.10 36 9.4058 571.14
## 15 977.515 3.50 30 14.9302 408.64
## 16 369.823 3.25 30 31.2865 646.65
## 17 509.872 3.25 27 30.1652 514.03
## 18 448.315 3.20 29 28.5901 350.73
## 19 615.091 3.35 34 17.8795 496.29
## 20 545.538 3.30 36 18.5056 580.92
## 21 436.552 3.25 30 22.1344 535.82
## 22 465.907 3.25 28 28.6101 490.34
## 23 664.601 3.20 31 23.1908 552.39
## 24 502.466 3.20 31 24.6917 661.32
## 25 496.797 3.35 35 22.6758 672.12
## 26 2270.294 7.10 29 0.3729 525.65
## 27 2332.220 7.35 35 0.2703 563.13
## 28 2162.531 7.45 35 0.3205 497.96
## 29 2222.588 7.45 30 0.2648 458.38
## 30 2337.326 7.40 30 0.2105 498.25
## 31 1349.192 4.85 26 18.9875 936.26
## 32 1058.976 4.60 29 20.9687 894.79
## 33 1408.206 5.20 25 23.9841 941.36
## 34 1491.276 4.75 26 19.9727 1038.79
## 35 1254.872 5.20 26 21.3864 898.05
## 36 1152.341 4.55 25 23.7063 989.87
## 37 568.455 3.95 26 30.5589 951.28
## 38 612.447 3.70 26 26.8415 929.83
## 39 654.825 3.75 27 27.7292 925.42
## 40 991.829 4.15 27 21.5699 954.11
## 41 1895.942 5.60 24 19.6531 720.72
## 42 1346.880 5.35 27 20.3295 782.09
## 43 1482.793 5.50 26 19.5880 773.30
## 44 1145.643 5.50 28 20.1328 829.26
## 45 1137.193 5.40 28 19.2420 856.96
#Correlación bivariados
require(ggplot2)
ggplot(Salinidad,aes(x=pH,y=Biomasa))+geom_point()+theme_bw()
ggplot(Salinidad,aes(x=Salinidad,y=Biomasa))+geom_point()+theme_bw()
ggplot(Salinidad,aes(x=Zinc,y=Biomasa))+geom_point()+theme_bw()
ggplot(Salinidad,aes(x=Potasio,y=Biomasa))+geom_point()+theme_bw()
attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
##
## Salinidad
## The following objects are masked from Salinidad (pos = 3):
##
## Biomasa, pH, Potasio, Salinidad, Zinc
## The following objects are masked from datos:
##
## Biomasa, pH, Potasio, Salinidad, Zinc
cor(Biomasa,pH)
## [1] 0.9281023
cor(Biomasa,Salinidad)
## Biomasa pH Salinidad Zinc Potasio
## [1,] 1 0.9281023 -0.06657756 -0.7814625 -0.07319518
cor(Biomasa,Zinc)
## [1] -0.7814625
cor(Biomasa,Potasio)
## [1] -0.07319518
#Ajuste del modelo
lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
##
## Coefficients:
## (Intercept) pH Salinidad Zinc Potasio
## 1492.808 262.883 -33.500 -28.973 -0.115
mod=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
Tenemos que las variables pH, Salinidad y Zinc influyen sobre la variable respuesta. El pH inluye mucho sobre la biomasa en la planta estudiada. Con una relación en la que por cada cambio en los niveles de pH se obtienen 262.8829 gramos de biomasa.Con el zinc por cada aumento en los niveles de salinidad la biomasa se reduce 33.4997 gramos y algo similar ocurre con el zinc pues por cada aumento en estos niveles hay la biomasa se reduce 28.9727 gramos.
data("Salinidad")
## Warning in data("Salinidad"): data set 'Salinidad' not found
Salinidad
## Biomasa pH Salinidad Zinc Potasio
## 1 765.280 5.00 33 16.4524 1441.67
## 2 954.017 4.70 35 13.9852 1299.19
## 3 827.686 4.20 32 15.3276 1154.27
## 4 755.072 4.40 30 17.3128 1045.15
## 5 896.176 5.55 33 22.3312 521.62
## 6 1422.836 5.50 33 12.2778 1273.02
## 7 821.069 4.25 36 17.8225 1346.35
## 8 1008.804 4.45 30 14.3516 1253.88
## 9 1306.494 4.75 38 13.6826 1242.65
## 10 1039.637 4.60 30 11.7566 1282.95
## 11 1193.223 4.10 30 9.8820 553.69
## 12 777.474 3.45 37 16.6752 494.74
## 13 818.127 3.45 33 12.3730 526.97
## 14 1203.568 4.10 36 9.4058 571.14
## 15 977.515 3.50 30 14.9302 408.64
## 16 369.823 3.25 30 31.2865 646.65
## 17 509.872 3.25 27 30.1652 514.03
## 18 448.315 3.20 29 28.5901 350.73
## 19 615.091 3.35 34 17.8795 496.29
## 20 545.538 3.30 36 18.5056 580.92
## 21 436.552 3.25 30 22.1344 535.82
## 22 465.907 3.25 28 28.6101 490.34
## 23 664.601 3.20 31 23.1908 552.39
## 24 502.466 3.20 31 24.6917 661.32
## 25 496.797 3.35 35 22.6758 672.12
## 26 2270.294 7.10 29 0.3729 525.65
## 27 2332.220 7.35 35 0.2703 563.13
## 28 2162.531 7.45 35 0.3205 497.96
## 29 2222.588 7.45 30 0.2648 458.38
## 30 2337.326 7.40 30 0.2105 498.25
## 31 1349.192 4.85 26 18.9875 936.26
## 32 1058.976 4.60 29 20.9687 894.79
## 33 1408.206 5.20 25 23.9841 941.36
## 34 1491.276 4.75 26 19.9727 1038.79
## 35 1254.872 5.20 26 21.3864 898.05
## 36 1152.341 4.55 25 23.7063 989.87
## 37 568.455 3.95 26 30.5589 951.28
## 38 612.447 3.70 26 26.8415 929.83
## 39 654.825 3.75 27 27.7292 925.42
## 40 991.829 4.15 27 21.5699 954.11
## 41 1895.942 5.60 24 19.6531 720.72
## 42 1346.880 5.35 27 20.3295 782.09
## 43 1482.793 5.50 26 19.5880 773.30
## 44 1145.643 5.50 28 20.1328 829.26
## 45 1137.193 5.40 28 19.2420 856.96
##y=pH
##x=Biomasa
###
table(Salinidad$pH)
##
## 3.2 3.25 3.3 3.35 3.45 3.5 3.7 3.75 3.95 4.1 4.15 4.2 4.25 4.4 4.45 4.55
## 3 4 1 2 2 1 1 1 1 2 1 1 1 1 1 1
## 4.6 4.7 4.75 4.85 5 5.2 5.35 5.4 5.5 5.55 5.6 7.1 7.35 7.4 7.45
## 2 1 2 1 1 2 1 1 3 1 1 1 1 1 2
Salinidad$pH_=as.factor(Salinidad$pH)
Salinidad$pH_
## [1] 5 4.7 4.2 4.4 5.55 5.5 4.25 4.45 4.75 4.6 4.1 3.45 3.45 4.1 3.5
## [16] 3.25 3.25 3.2 3.35 3.3 3.25 3.25 3.2 3.2 3.35 7.1 7.35 7.45 7.45 7.4
## [31] 4.85 4.6 5.2 4.75 5.2 4.55 3.95 3.7 3.75 4.15 5.6 5.35 5.5 5.5 5.4
## 31 Levels: 3.2 3.25 3.3 3.35 3.45 3.5 3.7 3.75 3.95 4.1 4.15 4.2 4.25 ... 7.45
##Datos
data("Salinidad")
## Warning in data("Salinidad"): data set 'Salinidad' not found
Salinidad
## Biomasa pH Salinidad Zinc Potasio pH_
## 1 765.280 5.00 33 16.4524 1441.67 5
## 2 954.017 4.70 35 13.9852 1299.19 4.7
## 3 827.686 4.20 32 15.3276 1154.27 4.2
## 4 755.072 4.40 30 17.3128 1045.15 4.4
## 5 896.176 5.55 33 22.3312 521.62 5.55
## 6 1422.836 5.50 33 12.2778 1273.02 5.5
## 7 821.069 4.25 36 17.8225 1346.35 4.25
## 8 1008.804 4.45 30 14.3516 1253.88 4.45
## 9 1306.494 4.75 38 13.6826 1242.65 4.75
## 10 1039.637 4.60 30 11.7566 1282.95 4.6
## 11 1193.223 4.10 30 9.8820 553.69 4.1
## 12 777.474 3.45 37 16.6752 494.74 3.45
## 13 818.127 3.45 33 12.3730 526.97 3.45
## 14 1203.568 4.10 36 9.4058 571.14 4.1
## 15 977.515 3.50 30 14.9302 408.64 3.5
## 16 369.823 3.25 30 31.2865 646.65 3.25
## 17 509.872 3.25 27 30.1652 514.03 3.25
## 18 448.315 3.20 29 28.5901 350.73 3.2
## 19 615.091 3.35 34 17.8795 496.29 3.35
## 20 545.538 3.30 36 18.5056 580.92 3.3
## 21 436.552 3.25 30 22.1344 535.82 3.25
## 22 465.907 3.25 28 28.6101 490.34 3.25
## 23 664.601 3.20 31 23.1908 552.39 3.2
## 24 502.466 3.20 31 24.6917 661.32 3.2
## 25 496.797 3.35 35 22.6758 672.12 3.35
## 26 2270.294 7.10 29 0.3729 525.65 7.1
## 27 2332.220 7.35 35 0.2703 563.13 7.35
## 28 2162.531 7.45 35 0.3205 497.96 7.45
## 29 2222.588 7.45 30 0.2648 458.38 7.45
## 30 2337.326 7.40 30 0.2105 498.25 7.4
## 31 1349.192 4.85 26 18.9875 936.26 4.85
## 32 1058.976 4.60 29 20.9687 894.79 4.6
## 33 1408.206 5.20 25 23.9841 941.36 5.2
## 34 1491.276 4.75 26 19.9727 1038.79 4.75
## 35 1254.872 5.20 26 21.3864 898.05 5.2
## 36 1152.341 4.55 25 23.7063 989.87 4.55
## 37 568.455 3.95 26 30.5589 951.28 3.95
## 38 612.447 3.70 26 26.8415 929.83 3.7
## 39 654.825 3.75 27 27.7292 925.42 3.75
## 40 991.829 4.15 27 21.5699 954.11 4.15
## 41 1895.942 5.60 24 19.6531 720.72 5.6
## 42 1346.880 5.35 27 20.3295 782.09 5.35
## 43 1482.793 5.50 26 19.5880 773.30 5.5
## 44 1145.643 5.50 28 20.1328 829.26 5.5
## 45 1137.193 5.40 28 19.2420 856.96 5.4
mod_7=lm(Biomasa~pH+Salinidad, data=Salinidad)
summary(mod_7)
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -555.68 -92.82 -10.23 153.76 390.53
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -665.709 286.142 -2.326 0.0249 *
## pH 403.589 24.981 16.156 <2e-16 ***
## Salinidad -3.708 8.426 -0.440 0.6622
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 207.7 on 42 degrees of freedom
## Multiple R-squared: 0.862, Adjusted R-squared: 0.8554
## F-statistic: 131.2 on 2 and 42 DF, p-value: < 2.2e-16
La variable Biomasa es significativa debido a que su valor p es <0,05. Con esto entonces podemos asumir que los datos obtenidos por la mayoria de las variables independientes de los factores que alteran el desarrollo de las plantas son útiles y correctos aunque no tanto los niveles de potasio pues no hay una relación clara con los datos obtenidos.
Presente un informe con los resultados que den cuenta de los dos puntos y anexando al final el código en R que genera los resultados publicado en Rpubs (usar Rmarkdown).
Enviar el informe al correo david.arango@javerianacali.edu.co hasta el domingo 10 al medio día
Regresión lineal simple
La variable independiente explica la variable dependiente. ( V) Esto se puede explicar facilmente con los términos en sí. La variable independiente suele corresponder a los valores de una ecuación que son datos obtenidos en la colecta de datos como el ejemplo de la cantidad de agua de mar en el ejercicio de los moluscos, no es un dato obtenido pero este valor no cambia sin el control de quien realiza el experimento. Por su parte la variable dependiente cambia según la independiente como el consumo de oxígeno cambia según el porcentaje de agua de mar.
El coeficiente de determinación explica la variabilidad total explicada por la variable dependiente. (F ) No, el coeficiente de determinación explica la variabilidad total explicada por la regresión.
Un coeficiente de correlación negativo implica que la relación es inversamente proporcional, es decir que cuando una variable aumenta la otra disminuye. ( V) El enunciado lo expone correctamente pues el coeficiente de correlación negativo varia según el valor determinado en “dirección contraria” entre sí. Si una variable aumenta, la otra disminuye.
Una pendiente negativa nos dice que cuando la variable independiente aumenta la variable dependiente también lo hace. (F ) Esto es falso debido a que una pendiente negativa indica una relación inversa como en el punto anterior donde el comportamiento de cada variable es opuesto entre sí.
Cuando no existe correlación lineal la pendiente no es significativa(V)
El coeficiente de determinación es el coeficiente de correlación elevado al cuadrado(V)
Cuando existe relación lineal el coeficiente de correlación es muy cercano de cero (F)Contrastando con el punto B, dado que la correlación lineal existe cuando la pendiente es significativa y dado que un valor significativo debe tener un valor considerable; como el ejemplo postula que es cercano a cero contradiciendo lo establecido la respuesta es falsa.
Suponga un modelo expresado por la edad y el peso de un grupo de adultos con algún tipo de enfermedad Z, se tiene que el modelo es el siguiente Y = 0.5 + 0.8X, donde se quiere predecir el peso de una persona según su edad.
La variable dependiente es el peso y la independiente es la edad, donde la pendiente 0.5 y el intercepto es 0.8.(F)
La variable dependiente es la edad y la variable independiente es el peso, donde la pendiente 0.5 y el intercepto es 0.8(F)
La variable independiente es la edad y la variable dependiente es el peso donde la pendiente es 0.8 y el intercepto es 0.5.(V) El peso es la variable dependiente pues es sugún la edad. Por este mismo motivo la edad es la variable independiente. 0.8 es la pendiente por estar al lado de la variable independiente y el último valor restante que es 0.5 corresponde al intercepto
Se quiere explicar el nivel de agresividad de un grupo de Hombres con una característica X según el nivel de testosterona, los resultados se caracterizaron en una escala donde se establecieron variables latentes para establecer los siguientes puntajes.
Testosterona 4 5 8 14 20 89 6 8 Agresividad 10 15 19 25 40 59 14 19
A medida que aumenta la agresividad la testosterona disminuye.(F)
A medida que la agresividad disminuye la testosterona.(F)
Cuando la testosterona aumenta el nivel de agresividad también lo hace.(V) Esto se puede ver facilmente en la tabla con la relación que lleva y priorizando como causante de efecto a los niveles de testosterona por ser la variable independiente que afecta a la agresividad pues es la variable dependioente.
Cuando la testosterona aumenta el nivel de agresividad disminuye.(F)
Testosterona = 58.595 + 0.9845*Agresividad + e(F)
Agresividad = 14.97842 + 0.52710*Testosterona + e(V) Esto debido a que al utilizar la variable testosterona como x y agresividad como y, hallando sus sumas, cuadrados, etc. La ecuación de regresión lineal es Y=0.5270950934(x)+14.97841945 lo que corresponde a esta respuesta
Testosterona = 58.595 – 0.9845*Agresividad + e(F)
Agresividad = 15.58965 + 0.25895*Testosterona + e(F)
0.8424(F)
0.8925(F)
0.9589(F)
0.9178(V) #r=sxy/sxsy=379.34375/26.82699215.40647185=0.9178205104
La variable que explica la edad es el peso y la pendiente es 0.5
0.9988(F)
0.8424 (V)El coeficiente de determinación es el coeficiente de correlación al cuadrado y este valor es el que corresponde al cuadrado de la respuesta del punto anterior.
0.9859(F)
0.9178(F)
En el siguiente estudio se quiere explicar la resistencia con la variable edad, los resultados se procesan en el software R, y estos fueron los resultados:
La relación no es lineal(F)
Además de que se aprecia una relación lineal se observa que esta es positiva porque para valores altos de la variable edad se espera valores bajos de la resistencia(F)
A medida que la edad disminuye la resistencia también lo hace, es decir que la relación entre estas dos variables es linealmente positiva.(F)
A medida que la edad aumenta la resistencia disminuye, es decir que la relación entre estas dos variables es negativa.(v) Debido a que es una recta decreciente por ello vemos que la relación es inversamente proporcional siendo la edad la variab le independiente haciendo que conforme aumenta la resitencia disminuye
La ecuación de la recta es:
Resistencia = -37.154 + 2627.822*Edad(F)
Edad = 2627.822 -37.154*Resistencia(F)
Resistencia = 2627.822 – 37.154*Edad(V) Debido a que esta ecuación tiene las variables dependiente e independiente dodne corresponde y además al utilizarla los valores de resistecia son acordes con la gráfica.
Edad = -37.154 + 2627.822*Resistencia(F)
El coeficiente de correlación es:
0.9018(f)
2627.822(f)
-37.154(f)
El coeficiente de determinación es:
-37.154(f)
2627.822(f)
0.9018(V) Por dos motivos principales: primero este valor está indicado en los datos dados como Multiple R-squared y además su raíz cuadrada corresponde con el coeficiente de correlación -0,9496 aproximadamente en el ejercicio anterior.
0.9496(f)
Del modelo se puede decir que:
La variable resistencia es significativa ya que su valor-p es cercano a cero (<0.05).(V)
La variable edad es significativa ya que su valor-p es cercano a cero (<0.05).(f)
El modelo nos dice que no existe relación lineal ya que el valor-p es aproximadamente cero (<0.05)