# semente para a geração de números
set.seed(0)
# base de dados
dados = irisSimulação de Intervalos de Confiança
CC0290 Modelos de Regressão I
1 Intervalos de Confiança para \(\beta_{1}\)
A estatística \(T_{0}\) segue uma distribuição t-Student com \((n-2)\) graus de liberdade, e é utilizada para a construção de intervalos de confiança pra o parâmetro \(\beta_{1}\) no modelo de regressão linear simples:
\[ T_0=\frac{\hat{\beta}_1-\beta_1}{\sqrt{\frac{\text { QMRES }}{S x x}}} \sim t(n-2) \]
1.1 Observações
\(T_{0}\) é simétrica em torno da origem, portanto, os \(IC's\) definidos possuem o menor comprimento possível;
Para um tamanho de amostra grande \((n \rightarrow \infty)\), podemos trocar \(t(1-\alpha/2;n-2)\) por \(z(1-\alpha/2)\).
Se a normalidade de \(\hat\beta_{1}\) não se verificar, o IC é válido apenas assintoticamente (TCL).
Supondo que os valores observados sejam normal e independentemente distribuídos (iid), um intervalo de confiança de 100(1 - \(\alpha\) )% para o coeficiente de inclinação \(\beta_{1}\) no modelo de regressão linear simples é:
\[ \left.\operatorname{IC}\left(\beta_1 ; 100(1-\alpha) \%\right)=\hat{\beta}_1 \pm t(1-\alpha/2); n-2\right) \cdot \sqrt{\frac{\text { QMRES }}{S x x}} \]
2 Simulação
# modelo de regressão linear simples
m = lm(iris$Petal.Width ~ iris$Sepal.Length); summary(m)
Call:
lm(formula = iris$Petal.Width ~ iris$Sepal.Length)
Residuals:
Min 1Q Median 3Q Max
-0.96671 -0.35936 -0.01787 0.28388 1.23329
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.20022 0.25689 -12.46 <2e-16 ***
iris$Sepal.Length 0.75292 0.04353 17.30 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.44 on 148 degrees of freedom
Multiple R-squared: 0.669, Adjusted R-squared: 0.6668
F-statistic: 299.2 on 1 and 148 DF, p-value: < 2.2e-16
Calculando o Quadrado Médio Residual:
resp = dados$Petal.Width; exp = dados$Sepal.Length
Qmres = (sum((resp - mean(resp))^2) - sum((exp - mean(exp))*resp)^2/sum((exp - mean(exp))^2))/(length(exp)-2); Qmres[1] 0.1935963
Gerando 100 amostras de tamanho 30:
amostras = c()
for(i in 1:100){
amostras[i] = list(sample(dados$Sepal.Length, 30, replace = T))
}Função para calcular os estimadores de \(\beta_{1}\) e o \(QM_{Res}\) para cada amostra, dado um \(Y_{i}\) normal com os parâmetros anteriores:
calculo = function(x){
x = unlist(x)
xb = mean(x); Sxx = sum((x - xb)^2)
y = rnorm(30, m$coe[1]+m$coe[2]*x, Qmres*(1/length(x) + (x - xb)^2/Sxx))
yb = mean(y); Syy = sum((y -yb)^2); Sxy = sum((x - xb)*y)
QMRes = (Syy - Sxy^2/Sxx)/(length(x)-2)
beta1_est = Sxy/Sxx
erro = sqrt(QMRes/Sxx)
return(c(beta1_est, erro))
}# testando para uma única amostra
calculo(amostras[1])[1] 0.755743331 0.002040678
# t(1-alfa/2, n-2), pois a hipótese considerada é bilateral, com alfa = 5%
t = qt(1-0.05/2,28); t[1] 2.048407
# construindo os intervalos
intervalos = c()
for(i in 1:100){
intervalos[i] = list(round(calculo(amostras[i])[1]+c(-1,1)*t*calculo(amostras[i])[2], 3))
}3 Visualização Gráfica
# plotando os intervalos de confiança:
library(ggplot2)
ic_df <- data.frame(
Amostra = 1:100,
li = unlist(lapply(intervalos, function(x) x[1])),
ls = unlist(lapply(intervalos, function(x) x[2]))
)
ggplot(ic_df, aes(x = Amostra, y = li)) +
geom_point(aes(color = "Intervalo de Confiança"), size = 2) +
geom_errorbar(aes(ymin = li, ymax = ls), width = 0.2) +
labs(x = "Amostra", y = "Intervalo de Confiança") +
theme_minimal() +
theme(legend.position = "none")4 Conclusões
Neste estudo de simulação utilizando a base de dados Iris, foram geradas 100 amostras de tamanho 30, e para cada uma delas, calculamos intervalos de confiança com um nível de significância de 5% para o estimador \(\beta_{1}\) . Ao analisar os resultados, observamos que 75% dos intervalos de confiança incluem o verdadeiro valor do parâmetro estimado. Isso indica que, em média, os intervalos de confiança, capturaram com sucesso o valor verdadeiro de \(\beta_{1}\) em 75% das amostras.
É importante notar que os intervalos que construímos são bilaterais, isso significa que consideramos a possibilidade de que o valor verdadeiro de \(\beta_{1}\) esteja tanto acima quanto abaixo do intervalo observado. No entanto, devido ao tamanho relativamente pequeno das amostras (30 itens), a precisão dos estimadores intervalares pode não ser tão alta quanto a obtida em tamanhos de amostra maiores, como +100 ou +1000.
Portanto, ao interpretar esses resultados, é fundamental reconhecer que a precisão dos intervalos de confiança está relacionada ao tamanho amostral e à natureza bilateral dos intervalos. Essas considerações devem ser levadas em conta ao aplicar esses resultados em diferentes contextos de análise de dados.