Librerías.
library("ggplot2")
library("BSDA")
El promedio de la altura de una poblacion de arboles en cierto sector es de 76[um], que se distribuye normalmente con una desviación estándar poblacional de 6.371813. De la población, si se selecciona una muestra de 31 árboles, con un promedio muestral de 73.4[um]. Si el nivel de significancia es de 0.05. ¿A qué conclusión se puede llegar?.
H0: La media muestral es mayor o igual que la media poblacional (u >= 76).
HA: La media muestra es menor que la media poblacional (u < 76).
library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(50, 100)), aes(x)) +
stat_function(fun = dnorm, n = 31, args = list(mean = 76, sd = 6.371813)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Alturas") + ylab("Densidad") + ggtitle("Función de densidad (distribución normal)") + theme_bw() +
geom_vline(xintercept = 73.4,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=80, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 76,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=82, label="mu", y=0.00001), colour ="coral3",size=5)
grafico_densidad
Ahora para probar o rechazar la HA, se realizarán los cálculos de z y z_alfa.
#Datos
mu = 76 # media poblacional
sigma = 6.371813 # sd de la poblacion
x_bar = 73.4 # media muestral
n = 31 # numero de arboles
#Normalización
z = (x_bar-mu)/(sigma/sqrt(n))
#Confianza
alfa = 0.05
confianza = 1-alfa
z_alfa = qnorm(alfa/2)
z
## [1] -2.27191
z_alfa
## [1] -1.959964
Como z < z_alfa, significa que z está fuera del Intervalo de Confianza, lo que implica que se acepta la hipótesis alternativa, es decir se puede afirmar que la media muestral es menor que la media poblacional.
A continuación se observará como el z está fuera del Intervalo de confianza.
dnorm_limit <- function(x) {
y <- dnorm(x)
y[x < z_alfa | x > -z_alfa] <- NA
return(y)
}
# ggplot()
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) +
stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) + stat_function(fun = dnorm) +
xlab("Alturas") + ylab("Densidad") + ggtitle("Función de densidad") +
theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") +
geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)
Acá se puede ver gráficamente como el z está fuera del Intervalo de Confianza, por lo que se acepta la hipótesis alternativa que la media muestral es menor que la media poblacional.
Se dice que la circurferencia de una población de naranjas en cierto sector es de 115.86 [um], para conocer la veracidad de esta afirmación, de toma una muestra aleatoria de 31 de ellas, donde se obtiene que su media es de 120 [um], y una desviación estándar de 53.51602 [um]. Probar que la circurferencia de las naranjas en la muestra es mayor o igual que 115.86.
H0: Las circurferencias de las naranjas en la muestra es menor que 115.86 (u < 115.86).
HA: Las circurferencias de las naranjas en la muestra es mayor o igual que 115.86 (u >= 115.86).
grafico_densidad = ggplot(data = data.frame(x = c(115.86 - 50, 115.86 + 50)), aes(x)) +
stat_function(fun = dt, n = 31, args = list(x =115.86, df = 30)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Circurferencias") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
geom_vline(xintercept = 115.86, cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=120, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 120, cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=125, label="mu", y=0.001), colour ="coral3",size=5)
grafico_densidad
Para aprobar o rechazar la HA, se realizan los cálculos de t.
# Datos
mu = 115.86 # media poblacional
s = 53.51602 # sd muestral
x_bar = 120 # media muestral
n = 31 # tamaño muestra
# Normalización
t = (x_bar - mu)/(s/sqrt(n))
# Confianza
alfa = 0.05
confianza = 1 - alfa
t_alfa = qt(alfa,df = n - 1)
t
## [1] 0.4307223
t_alfa
## [1] -1.697261
Como t > t_alfa, implica que el t está dentro del Intervalo de Confianza, por lo que es posible decir que se acepta la hipótesis nula, es decir no se puede afirmar que la media muestral es mayor que 115.86.
Observemos esto gráficado.
dnorm_limit <- function(x) {
y <- dnorm(x)
y[x < t_alfa | x > -t_alfa] <- NA
return(y)
}
# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) +
stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) + stat_function(fun = dnorm) +
xlab("Circurferencias") + ylab("Densidad") + ggtitle("Función de densidad") +
theme_bw() + geom_vline(xintercept = (x_bar-mu)/(s/sqrt(n)),cex=1.2,colour ="darkred") +
geom_text(aes(x=(x_bar-mu)/(s/sqrt(n))+0.2, label="t", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)
Acá se puede apreciar que el t está dentro del Intervalo de Confianza, por lo que se acepta la H0.
Una empresa importadora de naranjas desea determinar creen que las naranjas tienen una varianza poblacional mayor a 5 [um] en su circurferencia. Se realiza una muestra con 31 naranjas y se obtiene que su varianza muestral es de 7 [um]. Realizar la prueba de hipótesis con alfa = 0.05.
grafico_densidad = ggplot(data = data.frame(x = c(0, 10)), aes(x)) +
stat_function(fun = dchisq, n = 70, args = list(x = 5, df = 30)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Puntaje") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
geom_vline(xintercept = 7,cex=1.2,colour ="darkred") + geom_text(aes(x=21, label="S^2", y=0.0), colour ="darkred",size=5)
grafico_densidad
H0: La varianza de las naranjas muestral es menor o igual que 5 (o2 <= 5).
HA: La varianza de las naranjas muestral es mayor que 5 (o2 > 5).
Para comprobar o rechazar la HA, se realizan los cálculos de chi e chi_alfa.
#Datos
sigma2 = 5 # o2(varianza) poblacional
n = 31 # tamaño muestra
s2 = 7 # o2 muestral
#Normalización
chi = (n - 1)*s2/(sigma2)
#Confianza
alfa = 0.05
confianza = 1 - alfa
chi_alfa = qchisq(alfa,df = n - 1,lower.tail = F) #Lower.tail se relaciona con <= de la hipótesis nula.
chi
## [1] 42
chi_alfa
## [1] 43.77297
Como chi < chi_alfa, implica que el chi está dentro del Intervalo de Confianza, por lo que se acepta la hipótesis nula, osea o2 <= 5.
Se cree que en la naturaleza la proporción de setosa, virginica y versicolor es de 2:2:1, en una muestra obtienen 20 setosa, 25 virginicas y 9 versicolor. Comprobar si existe alguna diferencia entre la proporción establecida con las de la muestra.
H0: La relación etre setosa, virgínicas y versicolor es 2, 2, 1 respectivamente.
HA: La relación etre setosa, virgínicas y versicolor es distinta a 2, 2, 1 respectivamente.
data("iris")
flores = c(20, 25, 9)
sol = chisq.test(flores, p = c(2/5, 2/5, 1/5))
sol
##
## Chi-squared test for given probabilities
##
## data: flores
## X-squared = 0.9537, df = 2, p-value = 0.6207
Como el p value me dio mayor 0.6207 que es mayor que 0.05 se acepta la hipótesis nula, que es que la realación es efectivamente 2, 2, 1.
El goleador del campeonato chileno Zampedri tuvo una efectividad del 0.79%(0.79 goles por partido). Este año marcó 19 goles en 29 partidos disputados. Considerando un nivel de significancia del 0.05 ¿Podemos afirmar que la proporción de goles por partido este año 2022 es menor o igual que el 0.79% del 2021?.
H0: La proporción de goles por partido de Zampedri el 2022 permanece por debajo que el del 2021 (p <= 0.79).
HA: La proporción de goles por partido de Zampedri el 2022 esta sobre o igual que el del 2021 (p > 0.79).
Para responder la pregunta, se realiza el cálculo.
# Datos
X = 18
pbar = 18/29
p0 = 0.79
n = 29
print(prop.test(X, n, p = p0, alt = "greater", correct = FALSE))
##
## 1-sample proportions test without continuity correction
##
## data: X out of n, null probability p0
## X-squared = 5.0109, df = 1, p-value = 0.9874
## alternative hypothesis: true p is greater than 0.79
## 95 percent confidence interval:
## 0.4682765 1.0000000
## sample estimates:
## p
## 0.6206897
Dado que el p obtenido(0.9874) es mayor que 0.05, Se acepta hipótesis nula, es decir Zampedri se mantiene con un porcentaje de efectividad debajo del 0.79.
Se hizo una encuesta a estudiantes de un curso en un colegio. a estos se les realizó la siguiente pregunta. ¿que universidad prefieren para entrar? 25 dijeron la USACH, y 15 la UDEC, comprobar si son iguales en popularidad o no.
H0: Ambas son igual de populares.
HA: No son igual de populares.
Para responder esta pregunta se realiza el cálculo.
binom.test(25, 40)
##
## Exact binomial test
##
## data: 25 and 40
## number of successes = 25, number of trials = 40, p-value = 0.1539
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.4580148 0.7727373
## sample estimates:
## probability of success
## 0.625
Como el p value obtenido(0.1539) es mayor que 0.05, se acepta la hipótesis nula, o sea son igual de populares.
Se dice que en promedio los árboles miden 6.5 metros, y se tiene una muestra de arboles, comprobar si la muiestra tiene la misma media.
H0: Tienen la misma media.
HA: Difieren las alturas.
Para comprobar esto se hacen sus respectivos cálculos
arboles = c("arbol a", "arbol b", "arbol c", "arbol d", "arbol e", "arbol f", "ärbol g")
alturas = c(4, 5, 6, 7, 8, 3, 6)
dataArbolAltura = data.frame(arboles, alturas)
wilcoxon = wilcox.test(alturas, mu = 6.5)
## Warning in wilcox.test.default(alturas, mu = 6.5): cannot compute exact p-value
## with ties
wilcoxon
##
## Wilcoxon signed rank test with continuity correction
##
## data: alturas
## V = 6.5, p-value = 0.2325
## alternative hypothesis: true location is not equal to 6.5
Como el p value calculado es 0.2325, o sea mayor que 0.05, se acepta la hipótesis nula, por lo tanto las medias si son iguales.