Módulo 5 - Trabajo Práctico N.º 1

#Introducción

El presente trabajo práctico tuvo como objetivo aplicar herramientas estadísticas del módulo 5 de la Diplomatura en Bioestadística, orientadas al análisis inferencial paramétrico y no paramétrico. Utilizando un conjunto de datos correspondiente a un ensayo con plantas de soja, se abordan diversas situaciones de interés agronómico que permiten caracterizar la respuesta de diferentes genotipos bajo condiciones de estrés hídrico y tratamientos con ácido salicílico. Se utilizarán herramientas como intervalos de confianza, pruebas de proporciones y comparación de medias, integrando procedimientos vistos en módulos anteriores. Todo el análisis se realizará utilizando el entorno de R y librerías tratadas en clase.

Comenzamos por cargar las librerias recomendadas en clase:

Carga de la base de datos

Luego cargamos la base de datos desde el archivo en formato *.xlsx a R, usando readxl, y usamos “glimpse” para ver la estructura de los datos.

datos <- read_excel("SoybeanDataset.xlsx")
glimpse(datos)

## Rows: 55,450
## Columns: 15
## $ Genotipo                            <chr> "G1", "G1", "G1", "G1", "G1", "G1"…
## $ Estrés_Hidrico                      <chr> "ALTO", "ALTO", "ALTO", "ALTO", "A…
## $ Acido_Salicilico                    <chr> "Control", "Dosis Baja", "Dosis Ba…
## $ Altura_de_la_planta                 <dbl> 458, 513, 500, 568, 474, 520, 531,…
## $ Numero_de_Vainas                    <dbl> 151, 136, 137, 150, 151, 136, 152,…
## $ Peso_biologico                      <dbl> 870, 660, 650, 886, 840, 630, 897,…
## $ Azúcares                            <dbl> 323, 882, 861, 445, 331, 832, 344,…
## $ Contenido_relativo_de_agua_en_hojas <dbl> 0.717, 0.662, 0.674, 0.626, 0.739,…
## $ Clorofila_A663                      <dbl> 19, 17, 18, 15, 10, 14, 14, 15, 17…
## $ Clorofila_B649                      <dbl> 25, 30, 32, 22, 29, 31, 21, 22, 23…
## $ Porcentaje_de_proteina              <dbl> 0.376, 0.344, 0.330, 0.329, 0.321,…
## $ Peso_de_300_semillas                <dbl> 375, 353, 371, 354, 397, 376, 332,…
## $ Indice_de_área_foliar               <dbl> 3, 4, 3, 9, 3, 5, 9, 9, 1, 9, 9, 9…
## $ Numero_de_semillas_por_vaina        <dbl> 22, 208, 22, 19, 205, 19, 16, 19, …
## $ Contenido_de_proteina               <dbl> 73, 6, 48, 95, 78, 6, 8, 92, 7, 8,…

Situación 1

Objetivo

El propósito de esta sección es identificar, mediante el uso de intervalos de confianza del 95%, qué genotipos presentan un mejor rendimiento en términos de número de vainas por planta, número de semillas por vaina y número total de semillas por planta.

Justificación

Estas variables agronómicas son indicadores clave de productividad y, por lo tanto, resultan fundamentales al momento de seleccionar líneas prometedoras en programas de mejoramiento.

a) IC del 95% para determinar qué genotipo tiene mayor número promedio de vainas

vainas_por_genotipo <- datos %>%
  group_by(Genotipo) %>%
  summarise(media = mean(Numero_de_Vainas, na.rm = TRUE),
            li = media - qt(0.975, df = n() - 1) * sd(Numero_de_Vainas, na.rm = TRUE) / sqrt(n()),
            ls = media + qt(0.975, df = n() - 1) * sd(Numero_de_Vainas, na.rm = TRUE) / sqrt(n()),
            sd = sd(Numero_de_Vainas, na.rm = TRUE),
            n = n(),
            ee = sd / sqrt(n)) %>%
  select(Genotipo, media, li, ls, sd, n, ee)

vainas_por_genotipo

ggplot(vainas_por_genotipo, aes(x = Genotipo, y = media)) +
  geom_point() +
  geom_errorbar(aes(ymin = li, ymax = ls), width = 0.2) +
  labs(title = "IC del 95% para el número de vainas por genotipo",
       y = "Media de vainas", x = "Genotipo") +
  theme_minimal()

El genotipo G4 presenta el mayor número promedio de vainas por planta, con una media de 156,11 vainas y un intervalo de confianza del 95% entre 155,72 y 156,50. Esto indica que, con alta probabilidad, el verdadero valor poblacional para este genotipo se encuentra en ese rango.

Además, la diferencia entre G4 y el segundo más alto (G3, con 146,83 vainas) es estadísticamente significativa, ya que no se superponen los intervalos de confianza.G4 también tiene una desviación estándar razonablemente baja en relación con su media, lo que sugiere buena estabilidad en el rendimiento

b) Crear variable semillas por vaina promedio y calcular IC del 95%

Las situaciones b y c de este punto presentaron algunas dificultades. El problema es que el número de semillas por vaina de una planta de soja oscila entre 0 y 5, y en muchas variedades comerciales, se acepta que cada vaina produce de 2 a 4 semillas, pero la columna “Numero_de_semillas_por_vaina” de la tabla original tiene valores entre 10 y 230 aproximadamente, por lo que consideré que esta columna representa “semillas por planta” y que lo que había que calcular en el punto c es realmente esta columna original.

Primero cambiamos el nombre de la columna:

datos <- datos %>%
  rename(Semillas_por_planta = Numero_de_semillas_por_vaina) %>%
  mutate(Semillas_por_vaina_promedio = Semillas_por_planta / Numero_de_Vainas)

semillas_vaina_ic <- datos %>%
  group_by(Genotipo) %>%
  summarise(media = mean(Semillas_por_vaina_promedio, na.rm = TRUE),
            li = media - qt(0.975, df = n() - 1) * sd(Semillas_por_vaina_promedio, na.rm = TRUE) / sqrt(n()),
            ls = media + qt(0.975, df = n() - 1) * sd(Semillas_por_vaina_promedio, na.rm = TRUE) / sqrt(n()),
            sd = sd(Semillas_por_vaina_promedio, na.rm = TRUE),
            n = n(),
            ee = sd / sqrt(n)) %>%
  select(Genotipo, media, li, ls, sd, n, ee)

semillas_vaina_ic

ggplot(semillas_vaina_ic, aes(x = Genotipo, y = media)) +
  geom_point(color = "darkgreen") +
  geom_errorbar(aes(ymin = li, ymax = ls), width = 0.2) +
  labs(title = "IC del 95% para semillas por vaina promedio",
       y = "Semillas por vaina", x = "Genotipo") +
  theme_minimal()

El genotipo G5 exhibe el mayor promedio de semillas por vaina, con una media de 0.864 semillas por vaina y un intervalo de confianza del 95% entre 0.851 y 0.877.

Le sigue de cerca el genotipo G4, con una media de 0.840, pero sus intervalos de confianza no se superponen, lo que sugiere que la diferencia es estadísticamente significativa.

Los valores de los genotipos G6 y G3 son los más bajos, con promedios por debajo de 0.60, indicando menor eficiencia reproductiva relativa por vaina.

c) Genotipo con mayor número promedio de semillas por planta

Con la columna renombrada, el análisis es más sencillo.

semillas_totales <- datos %>%
  group_by(Genotipo) %>%
  summarise(media = mean(Semillas_por_planta, na.rm = TRUE),
            li = media - qt(0.975, df = n() - 1) * sd(Semillas_por_planta, na.rm = TRUE) / sqrt(n()),
            ls = media + qt(0.975, df = n() - 1) * sd(Semillas_por_planta, na.rm = TRUE) / sqrt(n()),
            sd = sd(Semillas_por_planta, na.rm = TRUE),
            n = n(),
            ee = sd / sqrt(n)) %>%
  arrange(desc(media)) %>%
  select(Genotipo, media, li, ls, sd, n, ee)

semillas_totales

ggplot(semillas_totales, aes(x = reorder(Genotipo, -media), y = media)) +
  geom_col(fill = "steelblue") +
  labs(title = "Promedio de semillas por planta por genotipo",
       y = "Promedio de semillas", x = "Genotipo") +
  theme_minimal()

El genotipo G4 presenta el mayor número promedio de semillas por planta, con una media de 129.96 semillas y un intervalo de confianza del 95% que va de 128.13 a 131.78.

El siguiente mejor rendimiento lo tiene G5, con 119.83 semillas por planta (IC95%: 118.05–121.61).

Los genotipos G1, G2, G3 y G6 muestran valores promedio inferiores a 95 semillas por planta, con diferencias claras y no solapadas con el intervalo superior de G4.

Situación 2

Objetivo

Analizar si, dentro del genotipo más productivo (en términos de semillas por planta), la proporción de plantas expuestas a estrés hídrico alto es inferior al 45%.

Justificación

Este análisis permite evaluar si el ambiente en que se desarrollaron las plantas de mayor rendimiento se caracterizó por mejores condiciones hídricas, lo cual podría haber influido en los resultados. El uso de una prueba de proporciones posibilita inferencias sobre la población a partir de la muestra observada.

Proporción de estrés hídrico alto en el genotipo con más semillas por planta

genotipo_top <- semillas_totales$Genotipo[1]

datos_genotipo_top <- datos %>%
  filter(Genotipo == genotipo_top)

prop.test(x = sum(datos_genotipo_top$Estrés_Hidrico == "ALTO"),
          n = nrow(datos_genotipo_top),
          p = 0.45,
          alternative = "less",
          conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(datos_genotipo_top$Estrés_Hidrico == "ALTO") out of nrow(datos_genotipo_top), null probability 0.45
## X-squared = 11.672, df = 1, p-value = 0.0003172
## alternative hypothesis: true p is less than 0.45
## 95 percent confidence interval:
##  0.0000000 0.4408146
## sample estimates:
##         p 
## 0.4322657

Según los resultados del análisis, la proporción de plantas expuestas a estrés hídrico alto en el genotipo más productivo es de aproximadamente 0.432 (43.23%).

El valor p (0.0003172) es significativo, lo que sugiere que hay evidencia suficiente para rechazar la hipótesis nula de que la proporción es igual a 0.45. Además, el intervalo de confianza del 95% para la proporción es de 0.0000000 a 0.4408146, lo que confirma que la proporción es menor que el 45%.

En resumen, la proporción de plantas expuestas a estrés hídrico alto en este genotipo es inferior al 45%.

Situación 3

Objetivo

Explorar dos aspectos relevantes:

Si la aplicación de ácido salicílico en dosis bajas y altas tiene un efecto significativo sobre la altura promedio de las plantas, comparado con el control.
Si existe una diferencia significativa en la proporción de plantas con estrés hídrico alto vs. bajo.

Justificación

El ácido salicílico se ha investigado como un posible bioestimulante frente al estrés abiótico. Evaluar sus efectos sobre la altura de las plantas permite valorar su impacto morfológico. Por otro lado, analizar la distribución del estrés hídrico complementa los hallazgos sobre el ambiente y la fisiología de los genotipos seleccionados.

Diferencia de medias de altura con ácido salicílico

t.test(Altura_de_la_planta ~ Acido_Salicilico,
       data = datos_genotipo_top %>%
         filter(Acido_Salicilico %in% c("Dosis Alta", "Control")))

## 
##  Welch Two Sample t-test
## 
## data:  Altura_de_la_planta by Acido_Salicilico
## t = -158.83, df = 4297.5, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Control and group Dosis Alta is not equal to 0
## 95 percent confidence interval:
##  -112.0176 -109.2859
## sample estimates:
##    mean in group Control mean in group Dosis Alta 
##                 429.9942                 540.6459

t.test(Altura_de_la_planta ~ Acido_Salicilico,
       data = datos_genotipo_top %>%
         filter(Acido_Salicilico %in% c("Dosis Baja", "Control")))

## 
##  Welch Two Sample t-test
## 
## data:  Altura_de_la_planta by Acido_Salicilico
## t = -176.94, df = 6097.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Control and group Dosis Baja is not equal to 0
## 95 percent confidence interval:
##  -69.44145 -67.91959
## sample estimates:
##    mean in group Control mean in group Dosis Baja 
##                 429.9942                 498.6747

datos_genotipo_top %>%
  filter(Acido_Salicilico %in% c("Dosis Alta", "Dosis Baja", "Control")) %>%
  ggplot(aes(x = Acido_Salicilico, y = Altura_de_la_planta, fill = Acido_Salicilico)) +
  geom_boxplot() +
  labs(title = "Comparación de alturas según tratamiento con ácido salicílico",
       y = "Altura (cm)", x = "Tratamiento") +
  theme_minimal()

Según los resultados de los análisis, en ambos casos (dosis altas y bajas de ácido salicílico), se observa un efecto significativo sobre la altura promedio de las plantas en comparación con el control.

Para la dosis alta:

La diferencia en la altura promedio entre el grupo control y el grupo con dosis alta es significativa, con un valor de t de -158.83 y un valor p < 2.2e-16 (muy pequeño, indicando alta significancia estadística).

El intervalo de confianza del 95% para la diferencia de medias está entre -112.02 y -109.29, lo que indica que la altura de las plantas con dosis alta es significativamente mayor que la del control.

Promedio control: 429.99, Promedio dosis alta: 540.65.

Para la dosis baja:

La diferencia en la altura promedio entre el grupo control y el grupo con dosis baja también es significativa, con un valor de t de -176.94 y un valor p < 2.2e-16.

El intervalo de confianza del 95% para la diferencia de medias está entre -69.44 y -67.92, lo que indica que la altura de las plantas con dosis baja es significativamente mayor que la del control.

Promedio control: 429.99, Promedio dosis baja: 498.67.

En resumen, tanto para las dosis altas como bajas de ácido salicílico, la aplicación tiene un efecto significativo sobre la altura promedio de las plantas en comparación con el control, con un aumento en la altura de las plantas tratadas.

Comparación de proporciones de estrés hídrico en ese genotipo

tabla_estrés <- table(datos_genotipo_top$Estrés_Hidrico)
prop.test(tabla_estrés)

## 
##  1-sample proportions test with continuity correction
## 
## data:  tabla_estrés, null probability 0.5
## X-squared = 169.34, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4221422 0.4424459
## sample estimates:
##         p 
## 0.4322657

Según los resultados del análisis, se observa que la proporción de plantas con estrés hídrico alto es significativamente diferente de la proporción de plantas con estrés hídrico bajo.

El valor p es < 2.2e-16, lo que indica una diferencia estadísticamente significativa.

El intervalo de confianza del 95% para la proporción está entre 0.422 y 0.442, lo que sugiere que la proporción de plantas con estrés hídrico alto es significativa, y no es igual al 50% (que sería la hipótesis nula).

La estimación de la proporción de plantas con estrés hídrico alto es 0.432, lo que indica que alrededor del 43.2% de las plantas están expuestas a estrés hídrico alto.

En resumen, sí existe una diferencia significativa en la proporción de plantas con estrés hídrico alto frente a bajo. La proporción observada es significativamente diferente de 0.5.

Conclusión final

En este trabajo se aplicaron herramientas de estadística inferencial para la comparación de medias y proporciones en plantas de soja, analizando efectos de genotipos y tratamientos sobre distintas variables agronómicas. Se integraron conocimientos de los Módulos 2 (preparación y selección de variables) y 5 (estadística paramétrica y no paramétrica), demostrando la aplicabilidad de los conceptos a un problema real de investigación. Las diferencias observadas podrían confirmarse en trabajos posteriores mediante pruebas de hipótesis más robustas como ANOVA o modelos mixtos.

Módulo 5 - Trabajo Práctico N.º 1

Diplomatura en Bioestadística

Hipólito Fernando Pajot

r Sys.Date()

Carga de la base de datos

Situación 1

a) IC del 95% para determinar qué genotipo tiene mayor número promedio de vainas

b) Crear variable semillas por vaina promedio y calcular IC del 95%

c) Genotipo con mayor número promedio de semillas por planta

Situación 2

Proporción de estrés hídrico alto en el genotipo con más semillas por planta

Situación 3

Diferencia de medias de altura con ácido salicílico

Comparación de proporciones de estrés hídrico en ese genotipo

Conclusión final