Bibliotecas
library(tidyverse)
library(janitor)
library(infer)
library(ggplot2)
library(ggpubr)
library(car)
Punto 1
En una encuesta realizada en Colombia a 128 sistemas de producción de
aguacate, se encontró que 47 de ellos usan fertilización orgánica y el
restante utilizan fertilización química. Construya un intervalo de
confianza del 99% para la proporción del uso de fertilizante orgánico en
este tipo de sistemas de producción. Interprete sus resultados.
- x = proporción que usa fertilizante orgánico
- n = número total de encuestados
- nc = nivel de confianza
- xgorro = porcentaje de proporcion
- se = error estandar
- f = valor establecido para un nc de 99%
- Icprop = vector que contiene los intervalos de confianza
Icprop = function(x,n,nc = 0.99)
{ xgorro = x/n
se = sqrt((xgorro * (1 - xgorro))/n)
f = qnorm((1 + nc)/2)
Icprop = c(xgorro - (f * se), xgorro, xgorro + (f*se))
return(Icprop)
}
x = 47
n = 128
nc = 0.99
Icprop(x,n,nc)
## [1] 0.2574403 0.3671875 0.4769347
Interpretación
Según la encuesta la proporción que usaba fertilizante orgánico era
de un 36.7% osea 47 sistemas, pero en realidad la proporción real se
encuentra dentro de un intervalo de 25.7% a 47.7% del total de
sistemas.
Punto 2
- Ingrediente de interés = Buffel - Cenchrus ciliaris - Hoja,
Tallo
- Departamentos = Antioquia y Cesar
- Variable respuesta de interés = edad de corte
alimentro <- read_csv("Alimentro-Depurada.csv")
alimentro %>% head
Datos punto 2
datosp2 <- alimentro %>%
filter(ingrediente == "Buffel - Cenchrus ciliaris - Hoja, Tallo") %>%
filter(departamento %in% c("Antioquia","Cesar"))
Exploratorio
Promedio
datosp2 %>%
group_by(ingrediente, departamento) %>%
summarise(promedio = mean(edad_corte_d))
Juego de
hipótesis
\[H_0: edad \ corte \ Antioquia = edad \
corte \ Cesar \\
H_1 : edad \ corte \ Antioquia \neq edad\ corte\ Cesar\]
Nivel de
significancia
En este caso usaremos un nivel de significancia del 5% (0.05)
Prueba de shapiro
wilk
shapiro.test(x = datosp2$edad_corte_d)
##
## Shapiro-Wilk normality test
##
## data: datosp2$edad_corte_d
## W = 0.73847, p-value < 2.2e-16
Solución
- Vamos a usar la función var.test() con los siguientes argumentos:
- formula: y ~ x. En este caso “y” es la variable edad de corte y el
“x” es el departamento.
- ratio: es el resultado del cociente de las dos varianzas. En este
caso asumimos en la hipótesis nula el valor de “1”.
- alternative: tipo de prueba. En este es bilateral (“two.sided”)
- conf.level: nivel de confianza. En este caso es 0.95 (1 - 0.5)
var.test(datosp2$edad_corte_d ~ datosp2$departamento,
ratio = 1,
alternative = "two.sided",
conf.level = 0.95)
##
## F test to compare two variances
##
## data: datosp2$edad_corte_d by datosp2$departamento
## F = 9.5607, num df = 189, denom df = 993, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 7.733251 12.019476
## sample estimates:
## ratio of variances
## 9.56071
Conclusión
- Como el valor p (2.2e-16) es menor que el nivel de significancia
(0.05), si existe evidencia para rechazar la hipótesis, es decir, que el
promedio de la edad de corte del departamento de Antioquia es diferente
al promedio de la edad de corte del departamento del Cesar.
- Como el intervalo de confianza (LI: 7.733251, LS: 12.019476) no
contiene el valor de referencia (“1”), si existe evidencia para rechazar
la hipótesis.
Punto 3
Usted fue asignado (a) para probar a través de métodos estadísticos
si en promedio la grasa dorsal (mm) de dos líneas genéticas de porcinos
presentan diferencias estadísticas y ¿cuál sería el rango de valores
esperados para la diferencia de esas dos líneas genéticas? ¿Cuál línea
genética recomendaría?
linea_a <- c(13.94, 15.30, 16.92, 14.89, 17.34, 17.43, 16.83, 15.61,
16.95, 17.69, 15.16, 16.53, 17.22, 15.17, 16.63)
linea_b <-c(15.62, 13.84, 14.25, 12.79, 17.01, 16.92, 11.13, 13.72,
14.26, 14.55, 14.11, 18.04, 12.17, 13.59, 13.81)
Juego de
hipótesis
\[H_0: promedio \ grasa \ dorsal \ linea
\ a = promedio \ grasa \ dorsal \ linea \ b \\
H_1 : promedio \ grasa \ dorsal \ linea \ a \neq promedio \ grasa \
dorsal \ linea \ b \]
Nivel de
significancia
En este caso usaremos un nivel de significancia del 5% (0.05)
Normalidad
Gráfico
ggqqplot(data = diferencia)

- Podemos concluir que si se cumple la normalidad, ya que los datos se
encuentran dentro de la banda de confianza
Igualdad de
varianza
var.test(x = linea_a, y = linea_b,
ratio = 1, alternative = "two.sided")
##
## F test to compare two variances
##
## data: linea_a and linea_b
## F = 0.37318, num df = 14, denom df = 14, p-value = 0.07551
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.125286 1.111535
## sample estimates:
## ratio of variances
## 0.3731753
Prueba t-student
t.test(x = linea_a, y = linea_b,
alternative = "two.sided",
conf.level = 0.95,
paired = TRUE,
var.equal = TRUE)
##
## Paired t-test
##
## data: linea_a and linea_b
## t = 3.5317, df = 14, p-value = 0.003319
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## 0.7278099 2.9788568
## sample estimates:
## mean difference
## 1.853333
Conclusion
- Como el valor p (0.0003319) es menor que el nivel de significancia,
existe evidencia para rechazar la hipótesis nula, es decir, que el
promedio de la “linea a” es diferente al promedio para de la “linea
b”.
- Como el intervalo de confianza no contiene al cero ([0.7278099,
2.9788568]), existe evidencia para rechazar la hipótesis nula. Además,
el promedio de la “linea a” podría estar desde 0.72 hasta 2.97 puntos
por encima dela “linea b”
¿Cuál sería el rango
de valores esperados para la diferencia de esas dos líneas
genéticas?
- El rango de diferencia que podemos esperar esta entre (0.7278099 -
2.9788568)
¿Cuál línea genética
recomendaría?
- Nosotras recomendaríamos la línea genética A, porque está por encima
de la linea b, y es recomendable que los cerdos tengan un mayor
porcentaje de grasa dorsal ya que es un indicador importante para una
buena productividad.
Punto 4
Con la misma base de datos ALIMENTRO del punto 2 y usando la misma
información (ingrediente de interés, departamentos y variable
respuesta), responda lo siguiente:
¿Cuál de los dos
departamentos presenta mayor variabilidad para la variable de
interés?
Densidades
datosp2 %>%
ggplot(aes(x = edad_corte_d, color = departamento)) +
geom_density() +
scale_x_log10()

Respuesta
Presenta mayor variabilidad el departamento del Cesar con respecto a
la edad de corte del pasto Buffel - Cenchrus ciliaris, puesto que al
analizar el grafico de densidad podemos observar que presenta mas
oscilaciones, esto debido a que el departamento del Cesar presenta mas
datos para este pasto
¿Es diferente
estadísticamente la variabilidad de ambos departamentos?
Si la prueba estadística se lo permite, construya un intervalo de
confianza del 95% para complementar sus respuestas.
Normalidad
ggqqplot(data = datosp2$edad_corte_d)

- De este gráfico podemos inferir que la distribucción no es normal,
puestos que los datos de la variedad estan alejados de la diagonal y se
salen de la banda de confianza
Prueba de
Levene
leveneTest(datosp2$edad_corte_d ~ datosp2$departamento)
Respuesta
Como el valor P (< 2.2e-16) es inferior a nuestro nivel de
significancia (0.05) podemos concluir que si existe una diferencia
significativa entre las varianzas de los dos departamentos
comparados.
Punto 5
Se realizaron 30 experimentos independientes en donde se evaluó la
afección de una plaga en hojas de cítricos, en cada uno de ellos se
calculó el promedio del área afectada (en porcentaje) de las hojas bajo
análisis. Utilizando técnicas de Bootstrapping construya un intervalo de
confianza (com ambos métodos: error estándar y percentil) del 95% para
el promedio del área afectada.
area <- c(29.2, 17.0, 28.9, 17.3, 13.8, 5.8, 27.5, 18.2, 27.6, 30.9,
32.8, 22.6, 15.3, 23.3, 12.4, 30.0, 19.5, 17.0, 18.7, 20.4,
18.6, 44.1, 17.9, 17.9, 30.0, 25.1, 24.3, 22.1, 21.8, 21.9)
Promedio muestra
promedio_area <- mean(area)
promedio_area
## [1] 22.39667
Remuestreo
datosp5 <- data.frame(area)
set.seed(2022)
remuestreo_p5 <- datosp5 %>%
specify(response = area) %>%
generate(reps = 1000, type = "bootstrap") %>%
calculate(stat = "mean")
remuestreo_p5
Gráfico de
remuestreo
remuestreo_p5 %>%
visualize()

Intervalo de
confianza con percentiles (95%):
ic_p5_percentil <-
remuestreo_p5 %>%
get_confidence_interval(level = 0.95, type = "percentile")
ic_p5_percentil
Graficamos los
intervalos de confianza con el método de percentiles
remuestreo_p5 %>%
visualize() +
shade_confidence_interval(endpoints = ic_p5_percentil)

Calculamos el
intervalo de confianza por el método de error estándar:
proporcion_muestral <-
prop.table(table(area))
ic_errorestandar <- remuestreo_p5 %>%
get_confidence_interval(level = 0.95,
type = "se",
point_estimate = promedio_area)
ic_errorestandar
Graficamos los
intervalos de confianza con el método de error estándar
remuestreo_p5 %>%
visualize() +
shade_confidence_interval(endpoints = ic_errorestandar)

Gráfico de los dos
intervalos de confianza
remuestreo_p5 %>%
visualize() +
shade_confidence_interval(endpoints = ic_p5_percentil,
color = "forestgreen",
fill = "white") +
shade_confidence_interval(endpoints = ic_errorestandar,
color = "dodgerblue",
fill = "white") +
geom_vline(xintercept = promedio_area, color = "red", lty = 2, size = 1.5) +
geom_vline(xintercept = promedio_remuestreo, color = "black", lty = 2, size = 1.5)

Conclusión
- Podemos concluir que el promedio del remuestreo es casi igual al de
la muestra inicial, lo que quiere decir que si hacemos nuevos
remuestreos obtendremos los mismos intervalos de confianza.
- También podemos concluir que con ambos métodos el intervalo de
confianza va a incluir el valor real del promedio del área afectada
