Análisis Descriptivo

Responder a las siguientes preguntas utilizando todo lo visto en el módulo:

A. ¿Cuántos casos (o filas) tiene en total la base de datos?

Instalamos paquetes

install.packages("leaflet")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.4'
## (as 'lib' is unspecified)
install.packages("summarytools")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.4'
## (as 'lib' is unspecified)

Cargamos paquetes

library("tidyverse")
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library("readxl")
library("dplyr")
library("leaflet")
library("summarytools") 
## Warning in fun(libname, pkgname): couldn't connect to display ":0"
## system might not have X11 capabilities; in case of errors when using dfSummary(), set st_options(use.x11 = FALSE)
## 
## Attaching package: 'summarytools'
## 
## The following object is masked from 'package:tibble':
## 
##     view

Función read_excel()

TRIGO <- read_excel("TRIGO.xlsx")

Vemos la estructura de la base de datos Trigo.

glimpse(TRIGO)
## Rows: 4,170
## Columns: 5
## $ Año         <dbl> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…
## $ Localidad   <chr> "CHA", "CHA", "CHA", "CHA", "CHA", "CHA", "CHA", "CHA", "C…
## $ Tratamiento <chr> "ConFung", "ConFung", "ConFung", "SinFung", "SinFung", "Si…
## $ Genotipo    <chr> "KleinTauro", "KleinTauro", "KLEINCASTOR", "KleinTauro", "…
## $ Rendimiento <dbl> 5604.40, 4945.05, 6106.75, 4992.15, 5086.34, 6342.23, 5949…

Respuesta La base de datos tiene un total de 4.170 casos (o filas).

B. ¿Cúantos casos (o filas) tiene la base de datos de su localidad?

Filtrar los datos para la locadidad Barrow

Barrow <- TRIGO %>% filter(Localidad == "BAR")
Barrow
## # A tibble: 450 × 5
##      Año Localidad Tratamiento Genotipo   Rendimiento
##    <dbl> <chr>     <chr>       <chr>            <dbl>
##  1  2007 BAR       ConFung     ACA801            3040
##  2  2007 BAR       ConFung     ACA801            3050
##  3  2007 BAR       SinFung     ACA801            3980
##  4  2007 BAR       SinFung     ACA801            3980
##  5  2007 BAR       SinFung     ACA901            3390
##  6  2007 BAR       SinFung     ACA901            3010
##  7  2007 BAR       SinFung     ACA801            3780
##  8  2007 BAR       ConFung     ACA801            3670
##  9  2007 BAR       ConFung     ACA901            3250
## 10  2007 BAR       ConFung     KleinTauro        3130
## # ℹ 440 more rows

Respuesta

La localidad Barrow tiene un total de 450 casos (o filas).

C. ¿Cómo se distribuye el rendimiento de trigo en su localidad? Elabore un gráfico y saque conclusiones.

Histograma

ggplot(Barrow, aes(Rendimiento)) +
  geom_histogram(color = "black", fill = "lightgreen") +
  labs(title = "Rendimiento del trigo en la localidad de Barrow, Buenos Aires",
       x = "Rendimiento (Kg/ha)",
       y = "Frecuencia") +
  theme_classic() +
  theme(
    plot.title = element_text(size = 16, hjust = 0.5),  # Centrar el título
    axis.title.x = element_text(size = 14, color = "black"),  # Título del eje X en negro
    axis.title.y = element_text(size = 16, color = "black"),  # Título del eje Y en negro
    axis.text.x = element_text(size = 12, color = "black"),   # Texto del eje X
    axis.text.y = element_text(size = 12, color = "black"),   # Texto del eje Y
    legend.position = "right"
  ) + 
  scale_x_continuous(
    limits = c(2000, 8000),
    breaks = seq(2000, 8000, by = 500),
    expand = c(0, 0)  # Eliminar márgenes en el eje X
  ) +
  scale_y_continuous(
    limits = c(0, 50),
    breaks = seq(0, 50, by = 5),
    expand = c(0, 0)  # Eliminar márgenes en el eje Y
  )
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).

Respuesta

Observaciones del gráfico

El histograma parece tener una distribución aproximadamente simétrica, aunque con ligeras desviaciones hacia la derecha. Existe un rango amplio de rendimientos, desde 2000 hasta aproximadamente 7500 kg/ha. La mayoría de los rendimientos están concentrados entre 4000 y 6000 kg/ha, donde se encuentran los picos más altos de frecuencia. Se observa rendimientos extremos por debajo de 3000 kg/ha y por encima de 7000 kg/ha, aunque con una frecuencia baja. Basado en la forma del histograma, el promedio del rendimiento parece ubicarse cerca de los 5000 kg/ha, ya que es el intervalo con mayor densidad. La distribución sugiere que los rendimientos en la localidad de Barrow suelen ser buenos, con la mayoría de los datos concentrados en un rango productivo medio-alto (4000–6000 kg/ha). Sin embargo, la presencia de rendimientos bajos y altos sugiere que existen factores (climáticos, de manejo o genéticos) que afectan el rendimiento en ciertos casos.

D. ¿Cómo varía el rendimiento promedio en su localidad para los diferentes tratamientos? ¿Qué tratamiento recomendaría (Con fungicida o Sin fungicida).

Gráfico de cajas

ggplot(TRIGO, aes(Tratamiento, Rendimiento, color = Tratamiento)) +
  geom_boxplot() +
  stat_summary(fun = mean, color = "black", size = 0.8, shape = 4) +
  labs(title = "Distribución del rendimiento por tratamiento",
       x = "Tratamiento",
       y = "Rendimiento (Kg/ha)") +
    theme_classic() +
   theme(plot.title = element_text(size = 20, hjust = 0.5),
        axis.title.x = element_text(size = 14, color = "black"),  # Tamaño de letra del título del eje x
        axis.title.y = element_text(size = 16, color = "black"),  # Tamaño de letra del título del eje y
        axis.text.x = element_text(size = 12, color = "black"),   # Tamaño de letra de las categorías del eje x
        axis.text.y = element_text(size = 12, color = "black"),
        legend.position = ("right"),
        legend.text = element_text(size = 14),  # Tamaño del texto de la leyenda
        legend.title = element_text(size = 16)) +  # Tamaño del título de la leyenda
    scale_y_continuous(limits = c(500, 10000),breaks = seq(500, 10000, by = 1000)) + # Ajusta los límites del eje y
    scale_color_manual(values = c("SinFung" = "green", "ConFung" = "orange"))
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_summary()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).

Respuesta

El boxplot muestra la distribución del rendimiento (kg/ha) de trigo para los tratamientos “Con fungicida” (ConFung) y “Sin fungicida” (SinFung).

Rendimiento promedio: Con fungicida el rendimiento promedio es más alto (aproximadamente 6765 kg/ha). Mientras que sin fungicida el rendimiento promedio es ligeramente menor (aproximadamente 6464 kg/ha). Los rendimientos con fungicida presenta un rango amplio con valores mínimos bajos y valores máximos elevados. Por otra parte, sin fungicida hay una menor dispersión en los rendimientos. Ademas, se puede observar que en caso del tratamiento con fungicidaay hay un valor atípico bajo, que puede representar un rendimiento inferior debido a condiciones específicas (como manejo o clima).

Recomendación

El tratamiento “Con fungicida” presenta un rendimiento promedio superior, lo que sugiere que su aplicación es beneficiosa para maximizar la productividad en la localidad evaluada. Sin embargo, la mayor variabilidad de este tratamiento indica que los rendimientos pueden ser menos predecibles, posiblemente debido a factores adicionales como las condiciones ambientales o de manejo.

E. Agregar una ubicación ficticia de un campo dentro de su localidad usando el paquete leaflet.

Ubicación de los lotes en el campo de la EEA Catamarca

leaflet() %>%
  addProviderTiles(providers$Esri.WorldImagery) %>%
  setView(lng = -65.730904, lat = -28.470501, zoom = 17) %>% 
  addMarkers(lng = -65.730904, lat = -28.470501)

F. Crear una tabla de frecuencias para la variable Rendimiento y analizar los resultados.

Frecuencia de rendimiento

TF_Rendimiento_Barrow <- cut(TRIGO$Rendimiento, 
                             breaks = seq(min(TRIGO$Rendimiento), max(TRIGO$Rendimiento), by = 500), 
                             right = FALSE, 
                             include.lowest = TRUE)


freq(TF_Rendimiento_Barrow, 
     report.nas = FALSE, 
     justify = "center" )
## Frequencies  
## TF_Rendimiento_Barrow  
## Type: Factor  
## 
##                            Freq     %      % Cum. 
## ------------------------- ------ -------- --------
##         [432,932)           9      0.22     0.22  
##      [932,1.43e+03)         58     1.39     1.61  
##    [1.43e+03,1.93e+03)      82     1.97     3.58  
##    [1.93e+03,2.43e+03)     118     2.83     6.41  
##    [2.43e+03,2.93e+03)     177     4.25    10.66  
##    [2.93e+03,3.43e+03)     339     8.14    18.79  
##    [3.43e+03,3.93e+03)     372     8.93    27.72  
##    [3.93e+03,4.43e+03)     501    12.02    39.74  
##    [4.43e+03,4.93e+03)     510    12.24    51.98  
##    [4.93e+03,5.43e+03)     508    12.19    64.17  
##    [5.43e+03,5.93e+03)     533    12.79    76.96  
##    [5.93e+03,6.43e+03)     374     8.98    85.94  
##    [6.43e+03,6.93e+03)     247     5.93    91.86  
##    [6.93e+03,7.43e+03)     182     4.37    96.23  
##    [7.43e+03,7.93e+03)     103     2.47    98.70  
##    [7.93e+03,8.43e+03)      40     0.96    99.66  
##    [8.43e+03,8.93e+03]      14     0.34    100.00 
##           Total            4167   100.00   100.00

Respuesta

Los rendimientos varían entre 432 kg/ha y 8,930 kg/ha, lo que muestra una amplia dispersión en los datos. Los intervalos con mayor frecuencia son [5,430, 5,930) con 533 observaciones (12.79%).[4,430, 4,930) con 510 observaciones (12.24%). [4,930, 5,430) con 508 observaciones (12.19%). Estos intervalos comprenden la mayoría de los datos, lo que sugiere que el rendimiento promedio de los genotipos de trigo se encuentra en este rango. El 76.96% de los datos se encuentra por debajo de los 5,930 kg/ha, lo que indica que la mayoría de los rendimientos no superan esta cifra. El 91.86% de los rendimientos está por debajo de los 6,930 kg/ha, lo que muestra que los valores más altos son poco frecuentes. Los rendimientos más bajos ([432, 932)) y más altos ([8,430, 8,930]) tienen frecuencias muy bajas, representando solo el 0.22% y el 0.34%, respectivamente. Esto indica que son casos atípicos o extremos en el conjunto de datos de rendimiento. La distribución muestra una tendencia central en torno a 4,930-5,930 kg/ha, con una disminución gradual en las frecuencias hacia los extremos (rendimientos muy bajos o muy altos). Los rendimientos más altos (más de 7,430 kg/ha) representan menos del 4% del total, lo que sugiere que son excepcionales y podrían estar influenciados por condiciones óptimas o manejos específicos.

El rendimiento de los cultivos presenta una distribución asimétrica, con una mayor concentración en intervalos medios (4,430-5,930 kg/ha). Los intervalos extremos son poco frecuentes, y esto podría ser relevante para decisiones de manejo o para identificar prácticas o condiciones edafoclimaticas que optimicen el rendimiento.

G. Obtener medidas de resumen para la variable Rendimiento según el tratamiento aplicado.

Cambiamos el nombre de los casos de la variable tratamiento

Nombre de nueva variable: Tratamiento_Barrow (Categorías: Sin Funguicida y Con Funguicida)

TRIGO <- TRIGO %>%
  mutate(Tratamiento_Barrow = case_when(  
    Tratamiento == "SinFung" ~ "Sin Funguicida",  
    Tratamiento == "ConFung" ~ "Con Funguicida"))  
TRIGO
## # A tibble: 4,170 × 6
##      Año Localidad Tratamiento Genotipo    Rendimiento Tratamiento_Barrow
##    <dbl> <chr>     <chr>       <chr>             <dbl> <chr>             
##  1  2007 CHA       ConFung     KleinTauro        5604. Con Funguicida    
##  2  2007 CHA       ConFung     KleinTauro        4945. Con Funguicida    
##  3  2007 CHA       ConFung     KLEINCASTOR       6107. Con Funguicida    
##  4  2007 CHA       SinFung     KleinTauro        4992. Sin Funguicida    
##  5  2007 CHA       SinFung     KleinTauro        5086. Sin Funguicida    
##  6  2007 CHA       SinFung     KleinTauro        6342. Sin Funguicida    
##  7  2007 CHA       ConFung     KleinTauro        5950. Con Funguicida    
##  8  2007 CHA       ConFung     KLEINCASTOR       5447. Con Funguicida    
##  9  2007 CHA       SinFung     BUCKPUELCHE       4898. Sin Funguicida    
## 10  2007 CHA       ConFung     BUCKPUELCHE       5557. Con Funguicida    
## # ℹ 4,160 more rows

Medidas de resumen del rendimiento segun el tratamiento

TRIGO %>% 
  group_by(Tratamiento_Barrow) %>% 
  descr(Rendimiento, 
        headings = FALSE,
        justify = "center")
## 
##                    Con Funguicida   Sin Funguicida 
## ----------------- ---------------- ----------------
##       Mean            5051.55          4641.55     
##      Std.Dev          1545.28          1454.22     
##        Min             832.00           432.00     
##        Q1             4010.00          3635.00     
##      Median           5076.32          4716.50     
##        Q3             6071.00          5692.00     
##        Max            9036.00          8400.00     
##        MAD            1544.13          1517.44     
##        IQR            2060.00          2053.00     
##        CV               0.31             0.31      
##     Skewness           -0.12            -0.17      
##    SE.Skewness          0.06             0.05      
##     Kurtosis           -0.16            -0.40      
##      N.Valid          1754.00          2416.00     
##     Pct.Valid          100.00           100.00

Comentario El rendimiento promedio es 410 kg/ha mayor en los cultivos tratados con fungicida, lo que indica una mejora en la productividad asociada al uso del tratamiento. Por otra parte, ambos grupos presentan una dispersión similar en los rendimientos, lo que sugiere una variabilidad comparable en las condiciones de cultivo, aunque el grupo con fungicida tiene una ligera dispersión mayor.

H. ¿Qué genotipo recomendaría sembrar en la localidad? justifique la respuesta.

Rendimiento por Genotipo y Tratamiento

# Calcular el rendimiento promedio por genotipo y tratamiento

Rendimiento_promedio <- Barrow %>%
  group_by(Genotipo, Tratamiento) %>%
  summarise(Rendimiento_promedio = mean(Rendimiento, na.rm = TRUE)) %>%
  arrange(desc(Rendimiento_promedio))  # Ordenar de mayor a menor rendimiento
## `summarise()` has grouped output by 'Genotipo'. You can override using the
## `.groups` argument.
Rendimiento_promedio
## # A tibble: 66 × 3
## # Groups:   Genotipo [33]
##    Genotipo    Tratamiento Rendimiento_promedio
##    <chr>       <chr>                      <dbl>
##  1 SY300       ConFung                    6765 
##  2 BuckPleno   SinFung                    6464 
##  3 Baguette9   ConFung                    6443.
##  4 Floripan100 SinFung                    6161.
##  5 SY300       SinFung                    6043.
##  6 ACA905      ConFung                    5953.
##  7 ACA907      ConFung                    5803.
##  8 Arex        ConFung                    5741.
##  9 LE2333      ConFung                    5727.
## 10 KleinRayo   ConFung                    5590 
## # ℹ 56 more rows

Seleccionar el genotipo con el mayor rendimiento promedio para cada tratamiento.

Mejor_genotipo <- Rendimiento_promedio %>%
  group_by(Tratamiento) %>%
  slice(1)  # Tomar el genotipo con mayor rendimiento por tratamiento

Mejor_genotipo
## # A tibble: 2 × 3
## # Groups:   Tratamiento [2]
##   Genotipo  Tratamiento Rendimiento_promedio
##   <chr>     <chr>                      <dbl>
## 1 SY300     ConFung                     6765
## 2 BuckPleno SinFung                     6464

Respuesta

*_Para el tratamiento con funguicida, se recomienda sembrar el genotipo SY300 debido a su rendimiento promedio más alto de 6765 kg/ha. _Para el tratamiento sin funguicida, se recomienda sembrar el genotipo BuckPleno debido a su rendimiento promedio más alto de 6464 kg/ha.*