\[ H_0: X \sim Normal \]
\[ H_a: X \not\sim Normal \]
x <- rnorm(40,2,3)
hist(x)
plot(density(x))
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.96454, p-value = 0.2386
No se rechaza la hipótesis nula.
Luego se cumple el supuesto de normalidad
\[ H_0 : \sigma^2 = 9 \] \[ H_a : \sigma^2 \neq 9 \] \[ H_0: \mu =2 \]
\[ H_a: \mu \neq 2 \] \[ \bar{x} - t_{\alpha/2,n-1}\frac{S}{\sqrt{n}} \] \[ \bar{x} + t_{\alpha/2,n-1}\frac{S}{\sqrt{n}} \]
t.test(x,mu=2)
##
## One Sample t-test
##
## data: x
## t = 0.16612, df = 39, p-value = 0.8689
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 1.297349 2.828393
## sample estimates:
## mean of x
## 2.062871
Dos varibles continuas: Regresión.
Dos variables categóricas: Prueba chi cuadrado
Una continua y otra categórica: ANOVA
x<- rnorm(50,2,1)
y<- 2+2*x+rnorm(50)
plot(x,y)
mod<-lm(y~x)
\[ Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \]
El error cumple el supuesto de normalidad, homogeneidad (Homocedasticidad) e independencia.
\[ H_0: \varepsilon_i \sim Normal \] \[ H_a: \varepsilon_i \not\sim Normal \]
library(nortest)
shapiro.test(mod$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod$residuals
## W = 0.99255, p-value = 0.9873
Bajo un nivel de significancia del \(\alpha = 0.01\)
\[ H_0: Var(\varepsilon_i) = \sigma^2, \forall_{i=1(1)m} \] \[ H_a: Var(\varepsilon_i) \neq \sigma^2, i \]
library(lmtest)
## Cargando paquete requerido: zoo
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
bptest(mod)
##
## studentized Breusch-Pagan test
##
## data: mod
## BP = 0.42221, df = 1, p-value = 0.5158
No se rechaza la hipótesis nula, por lo tanto se cumple el supuesto de homogeneidad de varianza.
\[ H_0: \varepsilon_i \sim Ind \] \[ H_a: \varepsilon_i \not\sim Ind \]
dwtest(mod)
##
## Durbin-Watson test
##
## data: mod
## DW = 2.452, p-value = 0.9493
## alternative hypothesis: true autocorrelation is greater than 0
Se cumplen los tres supuestos. Por lo tanto se puede hacer inferencia sobre la pendiente.
\[ H_0: \beta_1 = 0 \] \[ H_a: \beta_1 \neq 0 \]
summary(mod)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.59104 -0.64744 0.09532 0.54404 2.74176
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.1114 0.3900 5.414 1.94e-06 ***
## x 1.9165 0.1654 11.586 1.65e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.029 on 48 degrees of freedom
## Multiple R-squared: 0.7366, Adjusted R-squared: 0.7311
## F-statistic: 134.2 on 1 and 48 DF, p-value: 1.647e-15
Se recha H_0. Hay dependencia de las dos variables.
# Carga de los datos
datos <- data.frame(
variable_dependiente = c(10, 12, 8, 15, 11, 9, 14, 13, 10, 12),
grupo = factor(c("A", "A", "A", "B", "B", "B", "C", "C", "C", "C"))
)
datos
## variable_dependiente grupo
## 1 10 A
## 2 12 A
## 3 8 A
## 4 15 B
## 5 11 B
## 6 9 B
## 7 14 C
## 8 13 C
## 9 10 C
## 10 12 C
library(ggplot2)
ggplot(data=datos,aes(x=grupo,y=variable_dependiente, color=grupo))+geom_boxplot()
\[
H_0 : \mu_A = \mu_B = \mu_C
\]
mod <- aov(datos$variable_dependiente ~ datos$grupo)
summary(mod)
## Df Sum Sq Mean Sq F value Pr(>F)
## datos$grupo 2 8.98 4.492 0.888 0.453
## Residuals 7 35.42 5.060
bptest(mod)
##
## studentized Breusch-Pagan test
##
## data: mod
## BP = 2.6859, df = 2, p-value = 0.2611
lillie.test(mod$residuals)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: mod$residuals
## D = 0.14332, p-value = 0.8111
dwtest(mod)
##
## Durbin-Watson test
##
## data: mod
## DW = 2.8786, p-value = 0.8183
## alternative hypothesis: true autocorrelation is greater than 0