Librerías.

library("ggplot2")
library("BSDA")

Actividad 1: Buscar y resolver un ejemplo de uso de la prueba z con una cola.

Enunciado.

El promedio de la altura de una poblacion de arboles en cierto sector es de 76[um], que se distribuye normalmente con una desviación estándar poblacional de 6.371813. De la población, si se selecciona una muestra de 31 árboles, con un promedio muestral de 73.4[um]. Si el nivel de significancia es de 0.05. ¿A qué conclusión se puede llegar?.

Hipótesis.

H0: La media muestral es mayor o igual que la media poblacional (u >= 76).

HA: La media muestra es menor que la media poblacional (u < 76).

Gráfico distribución de probabilidad.

library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(50, 100)), aes(x)) +
  stat_function(fun = dnorm, n = 31, args = list(mean = 76, sd = 6.371813)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Alturas") + ylab("Densidad") + ggtitle("Función de densidad (distribución normal)") + theme_bw() +
  geom_vline(xintercept = 73.4,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=80, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 76,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=82, label="mu", y=0.00001), colour ="coral3",size=5)  

grafico_densidad

Ahora para probar o rechazar la HA, se realizarán los cálculos de z y z_alfa.

Cálculo de z y z_alfa.

#Datos
mu = 76 # media poblacional
sigma = 6.371813 # sd de la poblacion
x_bar = 73.4 # media muestral
n = 31 # numero de arboles

#Normalización
z = (x_bar-mu)/(sigma/sqrt(n))

#Confianza
alfa = 0.05
confianza = 1-alfa

z_alfa = qnorm(alfa/2)
z
## [1] -2.27191
z_alfa
## [1] -1.959964

Como z < z_alfa, significa que z está fuera del Intervalo de Confianza, lo que implica que se acepta la hipótesis alternativa, es decir se puede afirmar que la media muestral es menor que la media poblacional.

A continuación se observará como el z está fuera del Intervalo de confianza.

Gráfico z e IC.

dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < z_alfa  |  x > -z_alfa] <- NA
    return(y)
}

# ggplot()
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Alturas") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)

plot(grafico_densidad)

Acá se puede ver gráficamente como el z está fuera del Intervalo de Confianza, por lo que se acepta la hipótesis alternativa que la media muestral es menor que la media poblacional.

Actividad 2: Buscar y resolver un ejemplo de uso de la prueba t con una cola.

Enunciado.

Se dice que la circurferencia de una población de naranjas en cierto sector es de 115.86 [um], para conocer la veracidad de esta afirmación, de toma una muestra aleatoria de 31 de ellas, donde se obtiene que su media es de 120 [um], y una desviación estándar de 53.51602 [um]. Probar que la circurferencia de las naranjas en la muestra es mayor o igual que 115.86.

Hipótesis.

H0: Las circurferencias de las naranjas en la muestra es menor que 115.86 (u < 115.86).

HA: Las circurferencias de las naranjas en la muestra es mayor o igual que 115.86 (u >= 115.86).

Gráfico de distribución de probabilidad.

grafico_densidad = ggplot(data = data.frame(x = c(115.86 - 50, 115.86 + 50)), aes(x)) +
  stat_function(fun = dt, n = 31, args = list(x =115.86, df = 30)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Circurferencias") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
  geom_vline(xintercept = 115.86, cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=120, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 120, cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=125, label="mu", y=0.001), colour ="coral3",size=5)  

grafico_densidad

Para aprobar o rechazar la HA, se realizan los cálculos de t.

Cálculo de t y t_alfa.

# Datos
mu = 115.86 # media poblacional
s = 53.51602 # sd muestral
x_bar = 120 # media muestral
n = 31 # tamaño muestra

# Normalización
t = (x_bar - mu)/(s/sqrt(n))

# Confianza
alfa = 0.05
confianza = 1 - alfa

t_alfa = qt(alfa,df = n - 1)

t
## [1] 0.4307223
t_alfa
## [1] -1.697261

Como t > t_alfa, implica que el t está dentro del Intervalo de Confianza, por lo que es posible decir que se acepta la hipótesis nula, es decir no se puede afirmar que la media muestral es mayor que 115.86.

Observemos esto gráficado.

Gráfico t e Intervalo de Confianza.

dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < t_alfa  |  x > -t_alfa] <- NA
    return(y)
}

# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Circurferencias") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(s/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(s/sqrt(n))+0.2, label="t", y=0.0), colour ="darkred",size=10)

plot(grafico_densidad)

Acá se puede apreciar que el t está dentro del Intervalo de Confianza, por lo que se acepta la H0.

Actividad 3: Buscar y resolver un ejemplo de uso de la prueba chi para varianza con dos colas.

Una empresa importadora de naranjas desea determinar creen que las naranjas tienen una varianza poblacional mayor a 5 [um] en su circurferencia. Se realiza una muestra con 31 naranjas y se obtiene que su varianza muestral es de 7 [um]. Realizar la prueba de hipótesis con alfa = 0.05.

Gráfico función de distribución y probabilidad.

grafico_densidad = ggplot(data = data.frame(x = c(0, 10)), aes(x)) +
  stat_function(fun = dchisq, n = 70, args = list(x = 5, df = 30)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Puntaje") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
  geom_vline(xintercept = 7,cex=1.2,colour ="darkred") + geom_text(aes(x=21, label="S^2", y=0.0), colour ="darkred",size=5) 

grafico_densidad

Hipótesis.

H0: La varianza de las naranjas muestral es menor o igual que 5 (o2 <= 5).

HA: La varianza de las naranjas muestral es mayor que 5 (o2 > 5).

Para comprobar o rechazar la HA, se realizan los cálculos de chi e chi_alfa.

Cálculos de chi e chi_alfa.

#Datos
sigma2 = 5 # o2(varianza) poblacional
n = 31 # tamaño muestra
s2 = 7 # o2 muestral


#Normalización
chi = (n - 1)*s2/(sigma2)

#Confianza
alfa = 0.05
confianza = 1 - alfa

chi_alfa = qchisq(alfa,df = n - 1,lower.tail = F) #Lower.tail se relaciona con <= de la hipótesis nula.

chi
## [1] 42
chi_alfa
## [1] 43.77297

Como chi < chi_alfa, implica que el chi está dentro del Intervalo de Confianza, por lo que se acepta la hipótesis nula, osea o2 <= 5.

Actividad 4: Buscar/crear y resolver un ejemplo de bondad de ajuste Chi cuadrado, utilice el conjunto de datos Iris disponible en R data(“iris”).

Enunciado.

Se cree que en la naturaleza la proporción de setosa, virginica y versicolor es de 2:2:1, en una muestra obtienen 20 setosa, 25 virginicas y 9 versicolor. Comprobar si existe alguna diferencia entre la proporción establecida con las de la muestra.

Hipótesis.

H0: La relación etre setosa, virgínicas y versicolor es 2, 2, 1 respectivamente.

HA: La relación etre setosa, virgínicas y versicolor es distinta a 2, 2, 1 respectivamente.

data("iris")

flores = c(20, 25, 9)
sol = chisq.test(flores, p = c(2/5, 2/5, 1/5))
sol
## 
##  Chi-squared test for given probabilities
## 
## data:  flores
## X-squared = 0.9537, df = 2, p-value = 0.6207

Como el p value me dio mayor 0.6207 que es mayor que 0.05 se acepta la hipótesis nula, que es que la realación es efectivamente 2, 2, 1.

Actividad 5: Buscar/crear y resolver un ejemplo de prueba de hipótesis en una proporción binomial, de una o dos colas.

Enunciado.

El goleador del campeonato chileno Zampedri tuvo una efectividad del 0.79%(0.79 goles por partido). Este año marcó 19 goles en 29 partidos disputados. Considerando un nivel de significancia del 0.05 ¿Podemos afirmar que la proporción de goles por partido este año 2022 es menor o igual que el 0.79% del 2021?.

Hipótesis.

H0: La proporción de goles por partido de Zampedri el 2022 permanece por debajo que el del 2021 (p <= 0.79).

HA: La proporción de goles por partido de Zampedri el 2022 esta sobre o igual que el del 2021 (p > 0.79).

Para responder la pregunta, se realiza el cálculo.

Cálculo.

# Datos
X = 18
pbar = 18/29
p0 = 0.79
n = 29

print(prop.test(X, n, p = p0, alt = "greater", correct = FALSE))
## 
##  1-sample proportions test without continuity correction
## 
## data:  X out of n, null probability p0
## X-squared = 5.0109, df = 1, p-value = 0.9874
## alternative hypothesis: true p is greater than 0.79
## 95 percent confidence interval:
##  0.4682765 1.0000000
## sample estimates:
##         p 
## 0.6206897

Dado que el p obtenido(0.9874) es mayor que 0.05, Se acepta hipótesis nula, es decir Zampedri se mantiene con un porcentaje de efectividad debajo del 0.79.

Actividad 6: Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba del signo.

Enunciado.

Se hizo una encuesta a estudiantes de un curso en un colegio. a estos se les realizó la siguiente pregunta. ¿que universidad prefieren para entrar? 25 dijeron la USACH, y 15 la UDEC, comprobar si son iguales en popularidad o no.

Hipótesis

H0: Ambas son igual de populares.

HA: No son igual de populares.

Para responder esta pregunta se realiza el cálculo.

Cálculo.

binom.test(25, 40)
## 
##  Exact binomial test
## 
## data:  25 and 40
## number of successes = 25, number of trials = 40, p-value = 0.1539
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.4580148 0.7727373
## sample estimates:
## probability of success 
##                  0.625

Como el p value obtenido(0.1539) es mayor que 0.05, se acepta la hipótesis nula, o sea son igual de populares.

Actividad 7: Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba de Wilcoxon para una muestra.

Enunciado.

Se dice que en promedio los árboles miden 6.5 metros, y se tiene una muestra de arboles, comprobar si la muiestra tiene la misma media.

Hipótesis.

H0: Tienen la misma media.

HA: Difieren las alturas.

Para comprobar esto se hacen sus respectivos cálculos

Cálculo.

arboles = c("arbol a", "arbol b", "arbol c", "arbol d", "arbol e", "arbol f", "ärbol g")
alturas = c(4, 5, 6, 7, 8, 3, 6)

dataArbolAltura = data.frame(arboles, alturas)

wilcoxon = wilcox.test(alturas, mu = 6.5)
## Warning in wilcox.test.default(alturas, mu = 6.5): cannot compute exact p-value
## with ties
wilcoxon
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  alturas
## V = 6.5, p-value = 0.2325
## alternative hypothesis: true location is not equal to 6.5

Como el p value calculado es 0.2325, o sea mayor que 0.05, se acepta la hipótesis nula, por lo tanto las medias si son iguales.