Base de datos

library(readxl)
citricos <- read_excel("C:/Users/Outlet VL/Downloads/citricos.xlsx")
View(citricos)
datos<-citricos
  1. Análisis Exploratorio Inicial

• Cantidad de Variables: 17

• Cantidad de Observaciones: 750

Tipo de variable

VARIEDAD: Categórica Nominal

PESO_ANTES: Numérica continua

DIAMETRO_ANTES: Numérica continua

PESO_DESPUES: Numérica continua

DIAMETRO_DESPUES: Numérica continua

COLOR_NIVEL: Categórica Ordinal

COLOR_DESC: Categórica Ordinal

MADUREZ: Categórica Ordinal

DANIO_NIVEL: Categórica Ordinal

DANIO_DESC: Categórica Ordinal

FERTILIZANTE: Categórica Nominal

HUMEDAD_SUELO: Numérica continua

INSECTICIDA: Categórica Nominal

PLAGA: Categórica Nominal

ACIDEZ:Numérica continua

CONTENIDO_BRIX: Numérica continua

dim(datos)
## [1] 750  17
#Indica la cantidad de observaciones (unidades de análisis)
#y luego la cantidad de variables intervinientes.

summary(datos[, c("peso_antes", "peso_despues", "diametro_antes", "diametro_despues", "acidez", "contenido_brix")])
##    peso_antes     peso_despues   diametro_antes  diametro_despues
##  Min.   :105.0   Min.   :113.2   Min.   :46.10   Min.   :51.20   
##  1st Qu.:140.7   1st Qu.:143.3   1st Qu.:54.00   1st Qu.:60.60   
##  Median :158.9   Median :156.1   Median :56.30   Median :63.80   
##  Mean   :156.6   Mean   :157.2   Mean   :57.50   Mean   :64.46   
##  3rd Qu.:172.0   3rd Qu.:171.6   3rd Qu.:59.88   3rd Qu.:68.08   
##  Max.   :201.4   Max.   :210.3   Max.   :73.50   Max.   :77.90   
##      acidez       contenido_brix 
##  Min.   :0.6000   Min.   : 8.02  
##  1st Qu.:0.9025   1st Qu.: 9.82  
##  Median :1.0500   Median :10.69  
##  Mean   :1.0362   Mean   :10.61  
##  3rd Qu.:1.1700   3rd Qu.:11.53  
##  Max.   :1.4000   Max.   :13.00
hist(datos$peso_antes, main = "peso antes",xlab= "peso en gramos", col="orange")

hist(datos$peso_despues, main = "peso despues",xlab= "peso en gramos", col="pink")

hist(datos$diametro_antes, main = "diametro antes",xlab= "en centimetros", col="green")

hist(datos$diametro_despues, main = "diametro despues",xlab= "en centimetros", col="violet")

hist(datos$acidez, main = "acidez",xlab= "ph", col="red")

hist(datos$humedad_suelo, main = "humedad",xlab= "humedad", col="yellow")

hist(datos$contenido_brix, main = "brixs", col="gold")

  1. Prueba de Hipótesis para una Media

La empresa estima que el contenido de azúcar (medido en grados Brix) debe superar los 10 grados para garantizar un sabor aceptable.

a.Formule la hipótesis nula y alternativa.

b.¿La media observada del contenido Brix es significativamente mayor a 10?

c.Compruebe la Normalidad de los datos

d.Realice una prueba t o de Wilcoxon para una muestra y justifique el uso de esta prueba.

e.Interprete el valor p y la conclusión.

Respuestas:

  1. Hipótesis:

H0: μBrix ≤ 10

H1: μBrix > 10

  1. ¿La media observada del contenido Brix es significativamente mayor a 10?
boxplot(datos$contenido_brix, main = "Contenido de Brix", ylab = "Grados Brix", col = "skyblue")

  1. Normalidad:
shapiro.test(datos$contenido_brix) # Si p > 0.05, datos normales
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$contenido_brix
## W = 0.98193, p-value = 5.368e-08
  1. Prueba t
t.test(datos$contenido_brix, mu = 10, alternative = "greater")
## 
##  One Sample t-test
## 
## data:  datos$contenido_brix
## t = 14.026, df = 749, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 10
## 95 percent confidence interval:
##  10.5353     Inf
## sample estimates:
## mean of x 
##  10.60652
  1. Interpretación:

Si p < 0.05 , se rechaza H0 La media de Brix es significativamente mayor a 10.

Variedades con Brix < 10:

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
datos %>% 
  group_by(variedad) %>% 
  summarise(media_brix = mean(contenido_brix)) %>% 
  filter(media_brix <= 10)
## # A tibble: 1 × 2
##   variedad media_brix
##   <chr>         <dbl>
## 1 Okitsu         8.96
  1. Comparación de medias entre dos grupos

Se quiere analizar si el uso de insecticida afecta el nivel de acidez del fruto.

  1. Formule las hipótesis correspondientes.

  2. Compare el nivel medio de acidez entre los frutos que recibieron insecticida y los que no.

  3. Realice la prueba t para muestras independientes (o su equivalente no paramétrico si no se cumplen supuestos).

  4. Interprete los resultados.

Respuestas:

  1. Hipótesis:

H0 : μ Acidez (insecticida) = μ Acidez (sin insecticida) H1 : μ Acidez (insecticida) ≠ μ Acidez (sin insecticida)

  1. Compare el nivel medio de acidez entre los frutos que recibieron insecticida y los que no. (suponemos normalidad)
t.test(acidez ~ insecticida, data = datos, var.equal = TRUE)
## 
##  Two Sample t-test
## 
## data:  acidez by insecticida
## t = -0.77661, df = 748, p-value = 0.4376
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
##  -0.03784908  0.01639165
## sample estimates:
## mean in group No mean in group Si 
##         1.029462         1.040191

Interpretación:

Si p < 0.05, el insecticida afecta significativamente la acidez.

  1. Comparación de medias entre más de dos grupos (ANOVA)

Se sospecha que el tipo de fertilizante podría tener efecto en el peso final de los frutos.

  1. Formule las hipótesis nula y alternativa.

  2. Realice un ANOVA para comparar el peso_despues según el tipo de fertilizante. (o su equivalente no paramétrico si no se cumplen supuestos, es decir Kruskal-Wallis).

  3. Si se encuentra diferencia significativa, realice un test post-hoc (Tukey).

  4. Interprete los resultados y sugiera recomendaciones para la finca.

Respuestas:

  1. H0: Todos los fertilizantes tienen el mismo efecto en el peso final. H1: Al menos un fertilizante difiere.

  2. ANOVA

modelo_anova <- aov(peso_despues ~ fertilizante, data = datos)
summary(modelo_anova)
##               Df Sum Sq Mean Sq F value Pr(>F)
## fertilizante   2    134    66.9   0.206  0.814
## Residuals    747 242255   324.3
  1. test post-hoc
TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = peso_despues ~ fertilizante, data = datos)
## 
## $fertilizante
##                          diff       lwr      upr     p adj
## Organico-Mixto   -0.005039614 -3.765622 3.755542 0.9999945
## Quimico-Mixto    -0.903905787 -4.713467 2.905655 0.8427992
## Quimico-Organico -0.898866173 -4.678967 2.881235 0.8421724
  1. Interpretación
"Si un fertilizante muestra mayor peso, sugerir su uso prioritario."
## [1] "Si un fertilizante muestra mayor peso, sugerir su uso prioritario."
  1. Prueba para proporciones

La empresa estima que menos del 30% de los frutos deberían tener plagas para mantener estándares de calidad.

  1. Estime la proporción observada de frutos con plaga.

  2. Formule las hipótesis y realice una prueba de proporciones para contrastar si la proporción observada es menor al 30%.

  3. Indique si hay evidencia para respaldar la afirmación de la empresa.

Respuestas:

  1. Hipótesis:

H0:p plagas ≥ 0.3 H1:p plagas < 0.3

a<-table(as.factor(datos$plaga))

prop.test( a, nrow(datos), p = 0.3, alternative = "less")
## 
##  1-sample proportions test with continuity correction
## 
## data:  a, null probability 0.3
## X-squared = 209.16, df = 1, p-value = 1
## alternative hypothesis: true p is less than 0.3
## 95 percent confidence interval:
##  0.000000 0.573042
## sample estimates:
##         p 
## 0.5426667

Si p < 0.05, hay evidencia de que la proporción es menor al 30%.

  1. Efecto del tratamiento en el fruto (antes vs después)

Analice si hubo un cambio significativo en el diámetro tras los tratamientos aplicados.

  1. Realice una prueba t para muestras relacionadas diametro_antes y diametro_despues (o su equivalente no paramétrico si no se cumplen supuestos).

  2. Comente si los tratamientos fueron efectivos en modificar estas variables.

Respuesta:

  1. Prueba t
t.test(datos$diametro_antes, datos$diametro_despues, paired = TRUE)
## 
##  Paired t-test
## 
## data:  datos$diametro_antes and datos$diametro_despues
## t = -23.979, df = 749, p-value < 2.2e-16
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  -7.532693 -6.392641
## sample estimates:
## mean difference 
##       -6.962667
  1. Comente si los tratamientos fueron efectivos en modificar estas variables.

Si, los resultados muestran evidencia que el tratamiento modificó significativamente el diámetro.

  1. Asociación entre variables categóricas (chi-cuadrado) ¿Existe asociación entre la variedad de las distintas mandarinas y el color de la fruta (color_desc)?
  1. Elabore una tabla de contingencia y realice una prueba de chi-cuadrado.

  2. Interprete el valor p y las conclusiones que puede extraer para la gestión agrícola.

Respuestas:

  1. Tabla
tabla1 <- table(datos$variedad, datos$color_desc)
tabla1
##             
##              Amarillo pálido Naranja claro Naranja intenso Verde amarillento
##   Clemenules              47            40              20                32
##   Criolla                 45            37              29                22
##   Marisol                 44            35              22                34
##   Nova                    43            38              17                37
##   Okitsu                  46            42              24                25
##             
##              Verde completo
##   Clemenules             11
##   Criolla                17
##   Marisol                15
##   Nova                   15
##   Okitsu                 13
plot(tabla1, col= c(1,2,3,4,5,6,7,8,9,10))

chisq.test(tabla1)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 11.339, df = 16, p-value = 0.7881
  1. Si p<0.05, existe asociación entre variedad y color. Esto podría guiar estrategias de cultivo basadas en preferencias de mercado.