De acuerdo al set de datos, primero se deben cargar al espacio de trabajo:

load("C:/Users/ASUS/Desktop/5 SEMESTRE/Bioestadistica/Moluscos.RData")#Cargo los datos
load("C:/Users/ASUS/Desktop/5 SEMESTRE/Bioestadistica/Salinidad.RData")

Análisis Exploratorio Univariado (Planta forrajera)

Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

Descripción Variable Biomasa

Observando por ejemplo la variable principal de respuesta de Biomasa, es importante observar la distribución de esta con un diagrama de densidad:

boxplot(Salinidad$Biomasa, horizontal=T, col = "lightgreen", main = "Distribución de Biomasa", xlab= "Gramos",border = "black")

Cuando se observa esa asimetría en la parte derecha del diagrama, se infiere que hay un posible sesgo o tendencia bimodal en la distribución de la variable de respuesta, para comprobarlo, se contrasta un resumen de la variable con una gráfica de densidad:

summary(Salinidad$Biomasa)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   369.8   654.8   991.8  1082.2  1346.9  2337.3
d1=density(Salinidad$Biomasa)
plot(d1, main="Distribución de Biomasa",ylab="Densidad",xlab="Producción en gramos")

Incluso al resumir, hay notoriedad en que la media y la mediana no se acercan demasiado al punto de equilibrio o principal tendencia. Según la forma en que se observan los datos de variable de respuesta Y (Biomasa), es posible afirmar que hay dos tendencias en los datos, lo cual sirve para no utilizar la media como medida de tendencia central; puesto que:

mean(Salinidad$Biomasa)#Media
## [1] 1082.173
sd(Salinidad$Biomasa)#Desviación Estándar
## [1] 546.2874

Al ser la media una medida centrada en 1082.1 gramos con una desviación estándar tan alta de 546.3 gramos, es posible decir que su coeficiente de variación corresponde con un grupo de datos NO homogéneos:

Coeficiente_de_Variacion= sd(Salinidad$Biomasa)/mean(Salinidad$Biomasa)*100 #Se multiplica por 100 para obtener un porcentaje
  Coeficiente_de_Variacion#El resultado corresponde a un porcentaje
## [1] 50.48062

Se observa que el Coeficiente de Variación es del 50.5% lo cual indica alta dispersión y heterogeneidad en la variable de Biomasa.

Por último, para añadir rigidez a los argumentos de la distribución de esta variable de respuesta, es necesario agregar un intervalo de confianza para la media muestral, definiendo los siguientes inputs:

n <- 45             # El tamaño válido de la muestra

media <- 1082.173 # la media 

desv <- 546.2874  # La desviación estándar 

nivel_de_confianza = 0.95 #Suponiendo un error máximo del 5%

error.est <- desv/sqrt(n) # Calculamos el error estándar
margen.error <- 1.9599 * error.est # nivel de confianza de 95% 
lim.inf <- media - margen.error # Límite inferior del intervalo
lim.inf
## [1] 922.5671
lim.sup <- media + margen.error # Límite superior del intervalo
lim.sup
## [1] 1241.779

#Con una confianza del 95% se afirmaque la media poblacional estará entre los valores 922.5 y 1241.7 gramos, cualquier valor dentro de ese rango estará enmarcado bajo el acierto estadístico de representatividad.

Descripción Variable pH

En cuanto al potencial de Hidrógeno (pH) medido en el experimento, lo primero es definir una escala estándar de medición que en este caso corresponde a la regla:

pH < 7 : Medio Ácido

pH > 7: Medio Alcalino

Así definido, se resume la covariable pH:

summary(Salinidad$pH)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.200   3.450   4.450   4.609   5.350   7.450
sd(Salinidad$pH)
## [1] 1.254731

en cuenta que el pH es una escala logarítmica y cualquier unidad significa un gran cambio en el potencial de Hidrógeno en el suelo, una desviación estándar tan alta puede significar una cabida a errores en las mediciones tomadas; sin embargo, es una covariable centrada unimodal en la media de 4.45 pH, medida que corresponde a un suelo fuertemente ácido.

Descripción Variable Salinidad

Si se analiza, hay poca dispersión en la variable de Salinidad y ha evidencia de simetría homogénea en la distribución de los datos según el resumen:

summary(Salinidad$Salinidad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   24.00   27.00   30.00   30.27   33.00   38.00
sd(Salinidad$Salinidad)
## [1] 3.719726

Estos mismos resultados pueden ser corroborados al graficar un histograma:

hist(Salinidad$Salinidad, freq=FALSE)
curve(dnorm(x, 
            mean=mean(Salinidad$Salinidad),
            sd=sd(Salinidad$Salinidad)), 
      add=TRUE, col="green")

Si se compara con la curva de distribución Normal, se observa un leve disparidad en la curtosis de esta variable, pero una homogeneidad de hasta 12.3%, además de una media de 30.27:

Coeficiente_de_Variacion_Salinidad= sd(Salinidad$Salinidad)/mean(Salinidad$Salinidad)*100
Coeficiente_de_Variacion_Salinidad
## [1] 12.28984

El cual es un porcentaje indicativo de poca dispersión.

Descripción Variable Zinc

Para comenzar, es evidente la existencia de un dato atípico en la muestra, el cual es corroborado hallando el valor mínimo de esta variable:

Coeficiente_de_Variacion_Zinc=sd(Salinidad$Zinc)/mean(Salinidad$Zinc)*100 
Coeficiente_de_Variacion_Zinc #Se expresa en porcentaje
## [1] 46.40381
min(Salinidad$Zinc,na.rm=TRUE)#Dato atípico
## [1] 0.2105
boxplot(Salinidad$Zinc, horizontal=T, col = "#56B4E9", main = "Concentración de Zinc",border = "black")

Detenidamente hay relación de esta variable al dato atípico con la alta heterogeneidad de sus datos, además de poseer bastante dispersión.

Descripción Variable Potasio

En cuanto a la covariable de concentración de Potasio en el suelo, hay que añadir que su comportamiento posee un posible sesgo debido a una tendencia hacia valores grandes:

boxplot(Salinidad$Potasio, horizontal=T, col = "#D55E00", main = "Concentración de Potasio",border = "black")

Al constrastar la gráfica con los valores de tendencia central:

sd(Salinidad$Potasio)#Desviación Estándar de la covariable
## [1] 297.576
mean(Salinidad$Potasio)#Promedio de la covariable
## [1] 797.3778
min(Salinidad$Potasio)#Valor mínimo de los datos
## [1] 350.73
max(Salinidad$Potasio)#Valor máximo de los datos
## [1] 1441.67

Se señala que hay una gran desviación de los datos al punto de equilibrio y el valor medio no corresponde con la mediana de esta variable.

Ahora bien, resumiendo todo el análisis descriptivo de las variables anteriores del experimento:

summary(Salinidad)
##     Biomasa             pH          Salinidad          Zinc        
##  Min.   : 369.8   Min.   :3.200   Min.   :24.00   Min.   : 0.2105  
##  1st Qu.: 654.8   1st Qu.:3.450   1st Qu.:27.00   1st Qu.:13.9852  
##  Median : 991.8   Median :4.450   Median :30.00   Median :19.2420  
##  Mean   :1082.2   Mean   :4.609   Mean   :30.27   Mean   :17.8308  
##  3rd Qu.:1346.9   3rd Qu.:5.350   3rd Qu.:33.00   3rd Qu.:22.6758  
##  Max.   :2337.3   Max.   :7.450   Max.   :38.00   Max.   :31.2865  
##     Potasio      
##  Min.   : 350.7  
##  1st Qu.: 527.0  
##  Median : 773.3  
##  Mean   : 797.4  
##  3rd Qu.: 954.1  
##  Max.   :1441.7

Análisis Exploratorio Bivariado (Planta forrajera)

Al tratar de conocer las relaciones entre las covariables a la variable de respuesta Y, se debe hacer un modelo de regresión lineal entre estas y concluir cuál se relaciona más estrechamente con la producción de biomasa de la planta forrajera.

Relación Biomasa ~ pH del suelo

Si se realiza una gráfica de dispersión relacionando la biomasa producida según el pH del suelo, se observa una gran relación entre las dos variables.

REG1=lm(formula = Biomasa ~ pH, data = Salinidad)
summary(REG1) #Resumen de la regresión
## 
## Call:
## lm(formula = Biomasa ~ pH, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -566.28  -89.26  -19.42  142.42  413.28 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -780.18     117.99  -6.612  4.7e-08 ***
## pH            404.08      24.72  16.346  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 205.7 on 43 degrees of freedom
## Multiple R-squared:  0.8614, Adjusted R-squared:  0.8582 
## F-statistic: 267.2 on 1 and 43 DF,  p-value: < 2.2e-16

Estos puntos se pueden contrastar con un modelo de regresión lineal simple, para concluir que ambas variables poseen relación directa entre sí. El resultado de dicha relación directa, quiere decir que a medida que el suelo es más ácido, la planta forrejera produce mayor cantidad de biomasa en su entorno, sólo en algunos casos los suelos neutros y/o alcalinos (pH > 7) permiten mayor producción de biomasa en las plantas.

plot(Biomasa~pH, data=Salinidad, col = "darkgreen", type ="p",lwd=2,pch=19)+grid()+title("Biomasa en función del pH") + abline(REG1)

## integer(0)

Cuando se analiza la gráfica y a la vez el modelo ajustado, es esencial recalcar el coeficiente de correlación de Pearson de R = 0.8582, que al representarse en un porcentaje, viene de siginificar que la covariable pH explica en un 85.8% el comportamiento de la variable de respuesta de Biomasa de la planta. Además, un p-value de 2.2e-16 indica fuerte relación de ambas variables en el modelo.

Relación Biomasa ~ Zinc

Contrario a lo que se espera, el nivel de Zinc influye de manera indirecta o inversa sobre la producción de biomasa medida, se sostiene esta conclución con el modelo:

REG2=lm(formula = Biomasa ~ Zinc, data = Salinidad)
summary(REG2)
## 
## Call:
## lm(formula = Biomasa ~ Zinc, data = Salinidad)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -545.6 -313.3   10.3  234.1  907.8 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2002.147    123.247  16.245  < 2e-16 ***
## Zinc         -51.595      6.282  -8.213 2.37e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 344.8 on 43 degrees of freedom
## Multiple R-squared:  0.6107, Adjusted R-squared:  0.6016 
## F-statistic: 67.45 on 1 and 43 DF,  p-value: 2.373e-10
plot(Biomasa~Zinc, data=Salinidad, col = "#2297E6", type ="p",lwd=2,pch=19)+grid()+title("Biomasa en función del Zinc") + abline(REG2)

## integer(0)

Si por ejemplo el modelo permite simular, esta regresión dice que cuando no hay solutos de Zinc en el suelo, la cantidad de biomasa será de 2002.2 gramos, al graficar, hay existencia de una relación lineal inversa negativa con un coeficiente de correlación moderadamente bajo R = 0.6016.

Relación Biomasa ~ Cantidad de sal

Lo primero que se debe hacer es un ejecutar un modelo de regresión que permita conocer si ambas vairables de relacionan:

Sal = Salinidad$Salinidad
REG3=lm(formula = Biomasa ~ Sal, data = Salinidad)
summary(REG3)
## 
## Call:
## lm(formula = Biomasa ~ Sal, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -714.96 -430.58  -81.87  232.77 1296.33 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 1378.112    681.333   2.023   0.0494 *
## Sal           -9.778     22.347  -0.438   0.6639  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 551.4 on 43 degrees of freedom
## Multiple R-squared:  0.004433,   Adjusted R-squared:  -0.01872 
## F-statistic: 0.1914 on 1 and 43 DF,  p-value: 0.6639

Todo lo anterior es más concluyente al incurrir a un gráfico de las dos variables en la misma vecindad para evaluar como la recta de regresión es débilmente correlacionada.

plot(Biomasa~Sal, data=Salinidad, col = "#F0E442", type ="p",lwd=2,pch=19)+grid()+title("Biomasa en relación a salinidad") + abline(REG3)

## integer(0)

Al existir un valor de relación tan bajo de R = -0.0187, hay que concluir con que esta covariable no es adecuada para predecir ni explicar la variable de respuesta principal del experimento. Como conclusión, comparando los coeficientes de correlación de Pearson, se concluye que la variable que mejor se ajusta al modelo es el pH y en segundo lugar el nivel de Zinc en el suelo moderadamente; aunque parezca intuitivo, la aciddez de los suelos y/o alcalinidad se relaciona como mayormente con el crecimiento másico de las plantas ya que es el factor decisivo en su absorción de nutrientes.

Análisis Exploratorio Univariado (Moluscos)

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

summary(BD_moluscos)#Resumen general de los datos
##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800

Hay que aclarar que de las 48 observaciones, 24 moluscos de tipop A y tipo B se sometieron a las mismas concentraciones de agua marina, por lo que la diferencia de medias se verá influenciada en gran parte por estas concentraciones. Lo primero que hay que delimitar, es la codificación de la variable de control a la que se somete el experimento; es decir, para que Rstudio identifique el tipo de molusco A y B, se reemplazará cada letra por un número:

A —> 0

B —> 1

Así las cosas, primero se identifica el tipo de distribución de la proporción de oxígeno por unidad de peso seco de la totalidad de los moluscos:

summary(BD_moluscos$cons_o)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.800   6.312   9.700   9.305  11.232  18.800
  d2=density(BD_moluscos$cons_o)
plot(d2, main="Consumo de Oxígeno",ylab="Densidad",xlab="Proporción por unidad de peso seco", type ="l",lwd=2,pch=19)+grid()

## integer(0)

Evidenciando una leve tendencia bimodal en la distribución de la variable de respuesta, ya que ambos indicadores de tendencia central no se agrupan sobre el mismo eje.Este acierto se sostiene con el alto coeficiente de variación existente en esta variable de respuesta:

CoefVarOxi=sd(BD_moluscos$cons_o)/mean(BD_moluscos$cons_o)*100 
CoefVarOxi #Se expresa en porcentaje
## [1] 39.57801

Análisis Exploratorio Bivariado (Moluscos)

Al tratar de conocer las relaciones entre las covariables a la variable de respuesta Y, se debe hacer un modelo de regresión lineal entre estas y concluir cuál se relaciona más estrechamente con el consumo de oxígeno promedio de los moluscos A y B.

Relación Consumo O2 ~ Tipo de Molusco

Haciendo un modelo lineal de regresión, se tiene que ambas variables poseen una relación lineal muy débil.

REG4=lm(formula = cons_o ~ molusco, family = gaussian(identity), 
    data = BD_moluscos)
## Warning: In lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) :
##  extra argument 'family' will be disregarded
summary(REG4)
## 
## Call:
## lm(formula = cons_o ~ molusco, data = BD_moluscos, family = gaussian(identity))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.8254 -0.2604  1.7930  9.0908 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  10.0004     0.7459  13.408   <2e-16 ***
## moluscoB     -1.3913     1.0548  -1.319    0.194    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.654 on 46 degrees of freedom
## Multiple R-squared:  0.03644,    Adjusted R-squared:  0.01549 
## F-statistic:  1.74 on 1 and 46 DF,  p-value: 0.1937
boxplot(cons_o~molusco, data=BD_moluscos, id=list(method="none"),xlab="Tipo de Molusco", ylab="Consumo de O2", main="Relación entre consumo de O2 según el tipo de molusco")

Se sugiere que hay una clara diferencia de medias respecto al consumo promedio de oxígeno según el tipo de molusco sometido al agua de mar en diferentes concentraciones. Para contrastar la gráfica, se resumen los promedios de consumos de oxígeno según el tipo de molusco en la siguiente función:

Tipomolusco = BD_moluscos$molusco
t.test(cons_o~Tipomolusco, alternative='two.sided', conf.level=.95, var.equal=FALSE, 
  data=BD_moluscos)#Prueba de t-student para dos muestras independientes
## 
##  Welch Two Sample t-test
## 
## data:  cons_o by Tipomolusco
## t = 1.3189, df = 44.234, p-value = 0.194
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.7342879  3.5167879
## sample estimates:
## mean in group A mean in group B 
##       10.000417        8.609167

La cual somete a prueba las medias de ambas muestras según el consumo promedio de Oxígeno, lo cual indica que ambas medias no son iguales según su valor-p. Por lo que respecta, ambos tipos de moluscos no poseen la misma tolerancia al agua de mar y por ende el molusco A es quien consume mayor cantidad de oxígeno al estar expuesto a altas concentraciones de agua de mar.

Toda la información anterior se puede resumir con esta última función que no compiló con el Rmarkdown pero si funciona con la consola, ésta explica las medias de consumo de oxígeno según el tipo de molusco y sus desviaciones estándar:

numSummary(BD_moluscos[,“cons_o”, drop=FALSE], groups=BD_moluscos$molusco, statistics=c(“mean”, “sd”, “IQR”, “quantiles”), quantiles=c(0,.25,.5,.75,1))

Y esta gráfica que tampoco quiso compilar explica a la perfección una comparativa del ejercicio anterior:

xyplot(cons_o ~ c_agua | molusco, groups=molusco, type=“p”, pch=16, auto.key=list(border=TRUE), par.settings=simpleTheme(pch=16), scales=list(x=list(relation=‘same’), y=list(relation=‘same’)), data=BD_moluscos)

:,(