#1)Ajuste un modelo para la variable y=biomasa en función de x=pH

load("C:/Users/sebas/Desktop/Angie Herrera/2021-1/Bioestadistica/Parcial 1/salinidad.RData")
attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
model1= lm(Biomasa~pH) #lm(Y-X)
summary(model1)
## 
## Call:
## lm(formula = Biomasa ~ pH)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -566.28  -89.26  -19.42  142.42  413.28 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -780.18     117.99  -6.612  4.7e-08 ***
## pH            404.08      24.72  16.346  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 205.7 on 43 degrees of freedom
## Multiple R-squared:  0.8614, Adjusted R-squared:  0.8582 
## F-statistic: 267.2 on 1 and 43 DF,  p-value: < 2.2e-16

Según los datos presentados anteriormente, se dice que y=-780.18 +(404.08*pH) B0=-780.18 B1= 404.08 #2)Interpretar b1. Se puede interpretar b0?

Graf<- plot(pH,Biomasa,main = "Gráfica de dispersión. Biomasa vs pH", xlab ="pH", ylab = "Biomasa")

No se puede interpretar B0 porque en la gráfica se puede evidenciar un rango desde 4 hasta 7 y no muestra valores cercanos a cero para tomarlos y así mismo, poder analizarlos.

#3) Construir un intervalo de confianza para b1 al 95% interpretarlo y concluirsi x es significativa en el modelo

X= pH
Y= Biomasa
B1= 404.08
SXX=sum((X-mean(X))^2)
SIGMA=sum((Y-model1$fitted.values)^2)/43
T=qt(p=0.975,df=43) #para 95% de confianza
EE=T*sqrt(SIGMA/SXX)
LI= B1-EE
LS=B1+EE
c(LI,LS)
## [1] 354.2262 453.9338

Como el 0 no está incluído en el intervalo, significa que x es significativa en el modelo (El pH influye directamente en la cantidad de biomasa que pueda tener un árbol)

#1)Ajuste un modelo para la variable y=biomasa en función de x=zinc

attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
## The following objects are masked from Salinidad (pos = 3):
## 
##     Biomasa, pH, Potasio, Salinidad, Zinc
model2= lm(Biomasa~Zinc)
summary(model2)
## 
## Call:
## lm(formula = Biomasa ~ Zinc)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -545.6 -313.3   10.3  234.1  907.8 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2002.147    123.247  16.245  < 2e-16 ***
## Zinc         -51.595      6.282  -8.213 2.37e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 344.8 on 43 degrees of freedom
## Multiple R-squared:  0.6107, Adjusted R-squared:  0.6016 
## F-statistic: 67.45 on 1 and 43 DF,  p-value: 2.373e-10

y= 2002.147-(-51.595*Zinc) b0= 2002.147 b1= -51.595

#2)Interpretar b1. Se puede interpretar b0?

plot(Zinc, Biomasa, main = "Gráfica de dispersión. Biomasa vs Zinc", ylab = "Biomasa", xlab = "Zinc")

Se puede interpretar b0 ya que la gráfica presenta datos cercanos a cero dentro del rango de distribución de los datos.

#Construir un intervalo de confianza para b1 al 95% interpretarlo y concluirsi x es significativa en el modelo

x=Zinc
y=Biomasa
b1=-51.595
Sxx=sum((x-mean(x))^2)
sigma=sum((y-model2$fitted.values)^2)/43
t=qt(p=0.975,df=43) #para 95% de confianza
ee=t*sqrt(sigma/Sxx)
Li= B1-ee
Ls=B1+ee
c(Li,Ls)
## [1] 391.4107 416.7493

El cero no es incluído en el rango por lo que se infiere que la x es significativa, la biomasa también depende del Zinc.