#Introducción
El presente trabajo práctico tuvo como objetivo aplicar herramientas estadísticas del módulo 5 de la Diplomatura en Bioestadística, orientadas al análisis inferencial paramétrico y no paramétrico. Utilizando un conjunto de datos correspondiente a un ensayo con plantas de soja, se abordan diversas situaciones de interés agronómico que permiten caracterizar la respuesta de diferentes genotipos bajo condiciones de estrés hídrico y tratamientos con ácido salicílico. Se utilizarán herramientas como intervalos de confianza, pruebas de proporciones y comparación de medias, integrando procedimientos vistos en módulos anteriores. Todo el análisis se realizará utilizando el entorno de R y librerías tratadas en clase.
Comenzamos por cargar las librerias recomendadas en clase:
Luego cargamos la base de datos desde el archivo en formato *.xlsx a R, usando readxl, y usamos “glimpse” para ver la estructura de los datos.
datos <- read_excel("SoybeanDataset.xlsx")
glimpse(datos)
## Rows: 55,450
## Columns: 15
## $ Genotipo <chr> "G1", "G1", "G1", "G1", "G1", "G1"…
## $ Estrés_Hidrico <chr> "ALTO", "ALTO", "ALTO", "ALTO", "A…
## $ Acido_Salicilico <chr> "Control", "Dosis Baja", "Dosis Ba…
## $ Altura_de_la_planta <dbl> 458, 513, 500, 568, 474, 520, 531,…
## $ Numero_de_Vainas <dbl> 151, 136, 137, 150, 151, 136, 152,…
## $ Peso_biologico <dbl> 870, 660, 650, 886, 840, 630, 897,…
## $ Azúcares <dbl> 323, 882, 861, 445, 331, 832, 344,…
## $ Contenido_relativo_de_agua_en_hojas <dbl> 0.717, 0.662, 0.674, 0.626, 0.739,…
## $ Clorofila_A663 <dbl> 19, 17, 18, 15, 10, 14, 14, 15, 17…
## $ Clorofila_B649 <dbl> 25, 30, 32, 22, 29, 31, 21, 22, 23…
## $ Porcentaje_de_proteina <dbl> 0.376, 0.344, 0.330, 0.329, 0.321,…
## $ Peso_de_300_semillas <dbl> 375, 353, 371, 354, 397, 376, 332,…
## $ Indice_de_área_foliar <dbl> 3, 4, 3, 9, 3, 5, 9, 9, 1, 9, 9, 9…
## $ Numero_de_semillas_por_vaina <dbl> 22, 208, 22, 19, 205, 19, 16, 19, …
## $ Contenido_de_proteina <dbl> 73, 6, 48, 95, 78, 6, 8, 92, 7, 8,…
Objetivo
El propósito de esta sección es identificar, mediante el uso de intervalos de confianza del 95%, qué genotipos presentan un mejor rendimiento en términos de número de vainas por planta, número de semillas por vaina y número total de semillas por planta.
Justificación
Estas variables agronómicas son indicadores clave de productividad y, por lo tanto, resultan fundamentales al momento de seleccionar líneas prometedoras en programas de mejoramiento.
vainas_por_genotipo <- datos %>%
group_by(Genotipo) %>%
summarise(media = mean(Numero_de_Vainas, na.rm = TRUE),
li = media - qt(0.975, df = n() - 1) * sd(Numero_de_Vainas, na.rm = TRUE) / sqrt(n()),
ls = media + qt(0.975, df = n() - 1) * sd(Numero_de_Vainas, na.rm = TRUE) / sqrt(n()),
sd = sd(Numero_de_Vainas, na.rm = TRUE),
n = n(),
ee = sd / sqrt(n)) %>%
select(Genotipo, media, li, ls, sd, n, ee)
vainas_por_genotipo
ggplot(vainas_por_genotipo, aes(x = Genotipo, y = media)) +
geom_point() +
geom_errorbar(aes(ymin = li, ymax = ls), width = 0.2) +
labs(title = "IC del 95% para el número de vainas por genotipo",
y = "Media de vainas", x = "Genotipo") +
theme_minimal()
El genotipo G4 presenta el mayor número promedio de vainas por planta,
con una media de 156,11 vainas y un intervalo de confianza del 95% entre
155,72 y 156,50. Esto indica que, con alta probabilidad, el verdadero
valor poblacional para este genotipo se encuentra en ese rango.
Además, la diferencia entre G4 y el segundo más alto (G3, con 146,83 vainas) es estadísticamente significativa, ya que no se superponen los intervalos de confianza.G4 también tiene una desviación estándar razonablemente baja en relación con su media, lo que sugiere buena estabilidad en el rendimiento
Las situaciones b y c de este punto presentaron algunas dificultades. El problema es que el número de semillas por vaina de una planta de soja oscila entre 0 y 5, y en muchas variedades comerciales, se acepta que cada vaina produce de 2 a 4 semillas, pero la columna “Numero_de_semillas_por_vaina” de la tabla original tiene valores entre 10 y 230 aproximadamente, por lo que consideré que esta columna representa “semillas por planta” y que lo que había que calcular en el punto c es realmente esta columna original.
Primero cambiamos el nombre de la columna:
datos <- datos %>%
rename(Semillas_por_planta = Numero_de_semillas_por_vaina) %>%
mutate(Semillas_por_vaina_promedio = Semillas_por_planta / Numero_de_Vainas)
semillas_vaina_ic <- datos %>%
group_by(Genotipo) %>%
summarise(media = mean(Semillas_por_vaina_promedio, na.rm = TRUE),
li = media - qt(0.975, df = n() - 1) * sd(Semillas_por_vaina_promedio, na.rm = TRUE) / sqrt(n()),
ls = media + qt(0.975, df = n() - 1) * sd(Semillas_por_vaina_promedio, na.rm = TRUE) / sqrt(n()),
sd = sd(Semillas_por_vaina_promedio, na.rm = TRUE),
n = n(),
ee = sd / sqrt(n)) %>%
select(Genotipo, media, li, ls, sd, n, ee)
semillas_vaina_ic
ggplot(semillas_vaina_ic, aes(x = Genotipo, y = media)) +
geom_point(color = "darkgreen") +
geom_errorbar(aes(ymin = li, ymax = ls), width = 0.2) +
labs(title = "IC del 95% para semillas por vaina promedio",
y = "Semillas por vaina", x = "Genotipo") +
theme_minimal()
El genotipo G5 exhibe el mayor promedio de semillas por vaina, con una
media de 0.864 semillas por vaina y un intervalo de confianza del 95%
entre 0.851 y 0.877.
Le sigue de cerca el genotipo G4, con una media de 0.840, pero sus intervalos de confianza no se superponen, lo que sugiere que la diferencia es estadísticamente significativa.
Los valores de los genotipos G6 y G3 son los más bajos, con promedios por debajo de 0.60, indicando menor eficiencia reproductiva relativa por vaina.
Con la columna renombrada, el análisis es más sencillo.
semillas_totales <- datos %>%
group_by(Genotipo) %>%
summarise(media = mean(Semillas_por_planta, na.rm = TRUE),
li = media - qt(0.975, df = n() - 1) * sd(Semillas_por_planta, na.rm = TRUE) / sqrt(n()),
ls = media + qt(0.975, df = n() - 1) * sd(Semillas_por_planta, na.rm = TRUE) / sqrt(n()),
sd = sd(Semillas_por_planta, na.rm = TRUE),
n = n(),
ee = sd / sqrt(n)) %>%
arrange(desc(media)) %>%
select(Genotipo, media, li, ls, sd, n, ee)
semillas_totales
ggplot(semillas_totales, aes(x = reorder(Genotipo, -media), y = media)) +
geom_col(fill = "steelblue") +
labs(title = "Promedio de semillas por planta por genotipo",
y = "Promedio de semillas", x = "Genotipo") +
theme_minimal()
El genotipo G4 presenta el mayor número promedio de semillas por planta,
con una media de 129.96 semillas y un intervalo de confianza del 95% que
va de 128.13 a 131.78.
El siguiente mejor rendimiento lo tiene G5, con 119.83 semillas por planta (IC95%: 118.05–121.61).
Los genotipos G1, G2, G3 y G6 muestran valores promedio inferiores a 95 semillas por planta, con diferencias claras y no solapadas con el intervalo superior de G4.
Objetivo
Analizar si, dentro del genotipo más productivo (en términos de semillas por planta), la proporción de plantas expuestas a estrés hídrico alto es inferior al 45%.
Justificación
Este análisis permite evaluar si el ambiente en que se desarrollaron las plantas de mayor rendimiento se caracterizó por mejores condiciones hídricas, lo cual podría haber influido en los resultados. El uso de una prueba de proporciones posibilita inferencias sobre la población a partir de la muestra observada.
genotipo_top <- semillas_totales$Genotipo[1]
datos_genotipo_top <- datos %>%
filter(Genotipo == genotipo_top)
prop.test(x = sum(datos_genotipo_top$Estrés_Hidrico == "ALTO"),
n = nrow(datos_genotipo_top),
p = 0.45,
alternative = "less",
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(datos_genotipo_top$Estrés_Hidrico == "ALTO") out of nrow(datos_genotipo_top), null probability 0.45
## X-squared = 11.672, df = 1, p-value = 0.0003172
## alternative hypothesis: true p is less than 0.45
## 95 percent confidence interval:
## 0.0000000 0.4408146
## sample estimates:
## p
## 0.4322657
Según los resultados del análisis, la proporción de plantas expuestas a estrés hídrico alto en el genotipo más productivo es de aproximadamente 0.432 (43.23%).
El valor p (0.0003172) es significativo, lo que sugiere que hay evidencia suficiente para rechazar la hipótesis nula de que la proporción es igual a 0.45. Además, el intervalo de confianza del 95% para la proporción es de 0.0000000 a 0.4408146, lo que confirma que la proporción es menor que el 45%.
En resumen, la proporción de plantas expuestas a estrés hídrico alto en este genotipo es inferior al 45%.
Objetivo
Explorar dos aspectos relevantes:
Justificación
El ácido salicílico se ha investigado como un posible bioestimulante frente al estrés abiótico. Evaluar sus efectos sobre la altura de las plantas permite valorar su impacto morfológico. Por otro lado, analizar la distribución del estrés hídrico complementa los hallazgos sobre el ambiente y la fisiología de los genotipos seleccionados.
t.test(Altura_de_la_planta ~ Acido_Salicilico,
data = datos_genotipo_top %>%
filter(Acido_Salicilico %in% c("Dosis Alta", "Control")))
##
## Welch Two Sample t-test
##
## data: Altura_de_la_planta by Acido_Salicilico
## t = -158.83, df = 4297.5, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Control and group Dosis Alta is not equal to 0
## 95 percent confidence interval:
## -112.0176 -109.2859
## sample estimates:
## mean in group Control mean in group Dosis Alta
## 429.9942 540.6459
t.test(Altura_de_la_planta ~ Acido_Salicilico,
data = datos_genotipo_top %>%
filter(Acido_Salicilico %in% c("Dosis Baja", "Control")))
##
## Welch Two Sample t-test
##
## data: Altura_de_la_planta by Acido_Salicilico
## t = -176.94, df = 6097.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Control and group Dosis Baja is not equal to 0
## 95 percent confidence interval:
## -69.44145 -67.91959
## sample estimates:
## mean in group Control mean in group Dosis Baja
## 429.9942 498.6747
datos_genotipo_top %>%
filter(Acido_Salicilico %in% c("Dosis Alta", "Dosis Baja", "Control")) %>%
ggplot(aes(x = Acido_Salicilico, y = Altura_de_la_planta, fill = Acido_Salicilico)) +
geom_boxplot() +
labs(title = "Comparación de alturas según tratamiento con ácido salicílico",
y = "Altura (cm)", x = "Tratamiento") +
theme_minimal()
Según los resultados de los análisis, en ambos casos (dosis altas y
bajas de ácido salicílico), se observa un efecto significativo sobre la
altura promedio de las plantas en comparación con el control.
Para la dosis alta:
La diferencia en la altura promedio entre el grupo control y el grupo con dosis alta es significativa, con un valor de t de -158.83 y un valor p < 2.2e-16 (muy pequeño, indicando alta significancia estadística).
El intervalo de confianza del 95% para la diferencia de medias está entre -112.02 y -109.29, lo que indica que la altura de las plantas con dosis alta es significativamente mayor que la del control.
Promedio control: 429.99, Promedio dosis alta: 540.65.
Para la dosis baja:
La diferencia en la altura promedio entre el grupo control y el grupo con dosis baja también es significativa, con un valor de t de -176.94 y un valor p < 2.2e-16.
El intervalo de confianza del 95% para la diferencia de medias está entre -69.44 y -67.92, lo que indica que la altura de las plantas con dosis baja es significativamente mayor que la del control.
Promedio control: 429.99, Promedio dosis baja: 498.67.
En resumen, tanto para las dosis altas como bajas de ácido salicílico, la aplicación tiene un efecto significativo sobre la altura promedio de las plantas en comparación con el control, con un aumento en la altura de las plantas tratadas.
tabla_estrés <- table(datos_genotipo_top$Estrés_Hidrico)
prop.test(tabla_estrés)
##
## 1-sample proportions test with continuity correction
##
## data: tabla_estrés, null probability 0.5
## X-squared = 169.34, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4221422 0.4424459
## sample estimates:
## p
## 0.4322657
Según los resultados del análisis, se observa que la proporción de plantas con estrés hídrico alto es significativamente diferente de la proporción de plantas con estrés hídrico bajo.
El valor p es < 2.2e-16, lo que indica una diferencia estadísticamente significativa.
El intervalo de confianza del 95% para la proporción está entre 0.422 y 0.442, lo que sugiere que la proporción de plantas con estrés hídrico alto es significativa, y no es igual al 50% (que sería la hipótesis nula).
La estimación de la proporción de plantas con estrés hídrico alto es 0.432, lo que indica que alrededor del 43.2% de las plantas están expuestas a estrés hídrico alto.
En resumen, sí existe una diferencia significativa en la proporción de plantas con estrés hídrico alto frente a bajo. La proporción observada es significativamente diferente de 0.5.
En este trabajo se aplicaron herramientas de estadística inferencial para la comparación de medias y proporciones en plantas de soja, analizando efectos de genotipos y tratamientos sobre distintas variables agronómicas. Se integraron conocimientos de los Módulos 2 (preparación y selección de variables) y 5 (estadística paramétrica y no paramétrica), demostrando la aplicabilidad de los conceptos a un problema real de investigación. Las diferencias observadas podrían confirmarse en trabajos posteriores mediante pruebas de hipótesis más robustas como ANOVA o modelos mixtos.