library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(readxl)

#1 La base de datos

MANDARINAS <- read_excel("MANDARINAS_2024.xlsx")
MANDARINAS
## # A tibble: 419 × 8
##        N GRUPO VARIEDAD   N_DE_FRUTO  PESO DIAM_ECUAT NIVEL_DE_DAÑO COLOR
##    <dbl> <dbl> <chr>           <dbl> <dbl>      <dbl>         <dbl> <dbl>
##  1     1     1 Clementina         19   101       64.2             1     4
##  2     2     1 Clementina          9   122       64.2             0     5
##  3     3     1 Clementina         21   127       64.7             3     4
##  4     4     1 Clementina          8   126       64.9             3     1
##  5     5     1 Clementina          4    37       65.9             2     5
##  6     6     1 Clementina         30   139       66.4             2     4
##  7     7     1 Clementina         22   140       67.1             3     4
##  8     8     1 Clementina         23   130       67.5             1     3
##  9     9     1 Clementina         17   138       68.2             2     3
## 10    10     1 Clementina         27   142       68.2             2     4
## # ℹ 409 more rows
DATOS_MANDARINA <- MANDARINAS %>%
  filter(GRUPO==2|GRUPO==6)
DATOS_MANDARINA
## # A tibble: 120 × 8
##        N GRUPO VARIEDAD   N_DE_FRUTO  PESO DIAM_ECUAT NIVEL_DE_DAÑO COLOR
##    <dbl> <dbl> <chr>           <dbl> <dbl>      <dbl>         <dbl> <dbl>
##  1    31     2 Clementina         25   117       64.2             3     3
##  2    32     2 Clementina         28   126       65.2             2     2
##  3    33     2 Clementina          8   115       65.3             1     3
##  4    34     2 Clementina          7   113       65.8             1     3
##  5    35     2 Clementina         24   123       66               1     3
##  6    36     2 Clementina          4   117       66.6             1     3
##  7    37     2 Clementina          6   128       66.6             1     3
##  8    38     2 Clementina         29   132       68.6             3     3
##  9    39     2 Clementina          5   146       68.6             1     3
## 10    40     2 Clementina         11   148       68.6             3     1
## # ℹ 110 more rows

#Análisis comparativo de variedades

Análisis del peso

ggplot(DATOS_MANDARINA, aes(PESO, VARIEDAD, fill= VARIEDAD)) + 
  geom_boxplot() +
  stat_summary(fun = mean, color = "black") +
  theme_light()
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).

Análisis del diámetro

ggplot(DATOS_MANDARINA, aes(DIAM_ECUAT, VARIEDAD, fill= VARIEDAD)) + 
  geom_boxplot() +
  stat_summary(fun = mean, color = "black") + 
  theme_light()
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_segment()`).

Conclusiones

De acuerdo al peso podemos obserservar que los datos de ambas variables tienen una rango, homogeneidad y simetría bastante similares. La variedad clementina posee valores más altos, con un peso promedio que ronda alrededor de los 150 gr. Mientras que la veriedad criolla posee valores menores, con un peso promedio aproximado de 130 gr.

De acuardo al diámetro ecuatorial, la variedad criolla presenta mayor rango que la clementina, pero sus datos se agrupan en valores menores. Ambas presentan una leve distribución asimétrica hacia la izquierda. La variedad clementina presenta diámetros mayores, con una media igual a 71 mm aproximadamente. Mientras que la variedad criolla tiene una media aproximada de 67 mm.

En ambos gráficos se observan valores extremos para las dos variedades, que podrian deberse a errores de medición o muestreo.

#Relación entre Peso y Diámetro por Grupo

ggplot(DATOS_MANDARINA, aes(PESO, DIAM_ECUAT, colour = GRUPO)) +
  geom_point() + facet_grid(.~GRUPO) + theme_grey()

¿Observa alguna diferencia notable en la distribución del peso y el diámetro entre los dos grupos seleccionados?

Se puede observar que en el gráfico del grupo 2 al presentar una mayor homogeneidad de los datos se aprecia de forma notable la relación directa entre las variables peso y diámetro (a mayor peso, mayor diámetro). Mientras que en el grupo 6 al presentar mayor dispersión en sus datos no se logra apreciar con tanta claridad dicha relación.

#Relación entre Peso y Diámetro por Variedad

ggplot(DATOS_MANDARINA, aes(PESO, DIAM_ECUAT, shape = VARIEDAD, colour = VARIEDAD)) +
  geom_point() + facet_grid(.~VARIEDAD)

¿Existen diferencias notables en la distribución del peso y el diámetro entre las variedades “Clementina” y “Criolla”?

Se puede observar que la variedad clementina presenta un mayor diámetro y peso, en comparación a la variedad criolla. En ambas variedades se logra apreciar una relacion directa entre el peso y el diámetro, siendo ésta mas notoria en la variedad clementina.