class: center, middle, inverse, title-slide .title[ # Estatística Aplicada às Ciências Sociais ] .subtitle[ ## Regressão Linear Simples - Parte 1 ] .author[ ### Manoel Santos-Neto ] .date[ ### Atualização: 16 de julho de 2025 ] --- <style type="text/css"> .remark-code{line-height: 1.2; font-size: 80%} @media print { .has-continuation { display: block; } } .title-slide h1 { color: white} .title-slide h2 { color: white} .title-slide h3 { color: white} </style> <style type="text/css"> pre { max-height: 300px; overflow-y: auto; } pre[class] { max-height: 300px; } </style> <style>body {text-align: justify}</style> ## O que você irá aprender nesta semana? .content-box-purple[ 1. Motivação; 2. Pressupostos do modelo; 3. Estimação dos parâmetros pelo método dos mínimos quadrados; 4. Propriedades dos estimadores. ] --- ## Motivação .content-box-red[ **Regressão Linear Simples:** É um método estatístico que nos permite resumir e estudar as relações entre duas variáveis contínuas (quantitativas): - Uma variável, denotada por `\(x\)`, é considerada como preditora, explicativa ou variável independentes. - A outra variável, denotada por `\(y\)`, é considerada como a resposta, resultado ou variável dependente. ] .content-box-blue[ Usaremos os termos **"preditor"** e **"resposta"** para nos referirmos às variáveis utilizadas neste curso. Os outros termos são mencionados apenas para torná-lo ciente deles caso você os encontre em outros materiais. A regressão linear simples recebe o adjetivo *"simples"*, porque diz respeito ao estudo de apenas uma variável preditora. Em contraste, a .red[regressão linear múltipla], que estudaremos mais adiante neste curso, recebe o adjetivo *"múltipla"*, porque diz respeito ao estudo de duas ou mais variáveis preditoras. ] --- ## Motivação No slide anterior, foi possível observar que se você conhece a temperatura em graus Celsius, pode usar uma equação para determinar exatamente a temperatura em graus Fahrenheit. .content-box-blue[ Agora serão apresentadas outros exemplos de relações determinística. 1. `\(\text{Circuferência} = \pi \times \text{diâmetro}\)`. 2. **Lei de Hooke:** `\(Y = \alpha + \beta X\)`, em que `\(Y\)` é a quantidade de alogamento em uma mola e `\(X\)` é o peso aplicado. 3. **Lei de Ohm:** `\(I = V/r\)`, em que `\(V\)` é a tensão aplicada, `\(r\)` é a resistência elétrica e `\(I\)` é a corrente elétrica. 4. **Lei de Boyle:** Para uma temperatura constate, `\(P = \alpha/V\)`, em que `\(P\)` é a pressão, `\(\alpha\)` é uma constante para cada gás e `\(V\)` é o volume do gás.] Para cada uma dessas relações determinísticas, a equação descreve exatamente a relação entre as duas variáveis. Esta disciplina não examina relacionamentos determinísticos. Em vez disso, estamos interessados em relações estatísticas, nas quais a relação entre as variáveis não é perfeita. --- ## Motivação Primeiro devemos deixar claro quais tipos de relacionamentos não estudaremos neste curso, ou seja, relacionamentos determinísticos (ou funcionais). Abaixo está um exemplo de uma relação determinística. .pull-left[ <img src="data:image/png;base64,#Aulas_da_Semana01_files/figure-html/unnamed-chunk-3-1.png" width="100%" /> ] .pull-right[ ```r library(ggpubr) cels <- seq(0, 50, by = 5) fahr <- (9/5)*cels + 32 data <- data.frame(x = cels, y = fahr) ggscatter(data, x = "x", y = "y", xlab = "Celsius", ylab = "Fahrenheit", add = "reg.line") ``` Observe que os pontos de dados observados caem diretamente em uma linha. Como você deve se lembrar, a relação entre graus Fahrenheit e graus Celsius é conhecida como: `$$\text{Fahrenheit} = (9/5) \times \text{Celsius} + 32.$$` ] --- ## Motivação Agora iremos apresentar um exeplo de relação estatística. A variável resposta `\(Y\)` é a mortalidade por cancêr de pele (por 10 milhões de pessoas) e a variável preditora `\(X\)` é a latitude no centro de cada um dos 48 estados americanos (dados de câncer de pele dos EUA). Os dados foram obtidos na década de 1950, então o Alasca e o Havaí ainda não eram estados. Além disso, Washington, DC está incluído no conjunto de dados, embora não seja tecnicamente um estado.
--- ## Motivação .pull-left[ <img src="data:image/png;base64,#Aulas_da_Semana01_files/figure-html/unnamed-chunk-6-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ .content-box-red[ Note que viver nas latitudes mais altas do norte dos Estados Unidos, diminuiria a exposição aos raios nocivos do sol e, portanto, menos risco teria de morrer devido ao câncer de pele. O gráfico de dispersão suporta tal hipótese. Parece haver uma relação linear negativa entre latitude e mortalidade por câncer de pele, mas a relação não é perfeita. De fato, o enredo exibe alguma "tendência", mas também exibe alguma "dispersão". Portanto, é uma relação estatística, não determinística.] ] --- ## Motivação Alguns outros exemplos de relações estatísticas podem incluir: - Altura e peso – à medida que a altura aumenta, você esperaria que o peso aumentasse, mas não perfeitamente. - Álcool consumido e teor alcoólico no sangue — à medida que o consumo de álcool aumenta, você esperaria que o teor alcoólico no sangue aumentasse, mas não perfeitamente. - Capacidade pulmonar vital e maços-ano de tabagismo — à medida que a quantidade de fumo aumenta (conforme quantificado pelo número de maços-ano de tabagismo), você esperaria que a função pulmonar (conforme quantificada pela capacidade pulmonar vital) diminuísse, mas não perfeitamente. - Velocidade de direção e consumo de combustível — à medida que a velocidade de direção aumenta, você esperaria que o consumo de combustível diminuísse, mas não perfeitamente. Portanto, vamos estudar as relações estatísticas entre uma variável de resposta `\(y\)` e uma variável preditora `\(x\)`! --- ## Pressupostos do modelo .footnotesize[ Dados `\(n\)` pares de valores de duas variáveis, `\(X_i, Y_i (i = 1, \dots, n)\)`, se admitirmos que `\(Y\)` é função linear de `\(X\)`, podemos estabelecer uma regressão linear simples, cujo modelo estatístico é `$$Y_i = \alpha + \beta X_i + u_i,$$` em que `\(\alpha\)` e `\(\beta\)` são parâmetros a serem estimados. .content-box-red[ O coeficiente angular da reta `\((\beta)\)` é também denominado coeficiente de regressão e o coeficiente linear da reta `\((\alpha)\)` é também conhecido como termo constante da equação de regressão. ] Ao estabeler o modelo de regressão linear simples, pressupomos que: .content-box-yellow[ 1. A relação entre `\(X\)` e `\(Y\)` é linear. 2. Os valores de `\(X\)` são fixos, isto é, `\(X\)` não é uma variável aleatória. 3. A média do erro é nula, isto é, `\(E(u_i) = 0\)`. 4. Para um dado valor de `\(X\)`, a variância do erro `\(u\)` é sempre `\(\sigma^2\)`, denominada variância residual, isto é, `\(E(u_i^2) = \sigma^2\)`. 5. O erro de uma observação é não-correlacionado com o erro de outra observação, isto é, `\(E(u_iu_j) = 0\)` para `\(i \neq j\)`. 6. Os erros têm distribuição normal. Combinando as pressupoições 3), 4) e 6), temos que `\(u_i \sim N(0, \sigma^2)\)`. ] ] --- ## Estimativas dos parâmetros .footnotesize[ Para cada par de valores `\(X_i, Y_i\)` podemos estabelecer o desvio `$$e_i = Y_i - \hat{Y}_i = Y_i - (a + b X_i),$$` em que `\(\hat{Y}_i = a + bX_i\)` e `\(\hat{Y}_i, a\)` e `\(b\)` são, respectivamente as estimativas de `\(E(Y_i) = \alpha + \beta X_i, \alpha\)` e `\(\beta\)`. O métodos de mínimos quadrados consiste em adotar como estimativas dos parâmetros os valores que minimizam a soma dos quadrados dos desvios `$$Z = \sum \limits_{i = 1}^{n} e_i^2 = \sum \limits_{i = 1}^{n}\left[Y_i - (a + b X_i)\right]^2.$$` A função `\(Z\)` terá mínimo quando suas derivadas parciais em relação a `\(a\)` e `\(b\)` forem nulas. `$$\frac{\partial Z}{\partial a} = -2\sum \limits_{i = 1}^{n}\left[Y_i - (a + b X_i)\right] = 0 \quad \text{e}\quad \frac{\partial Z}{\partial b} = -2\sum \limits_{i = 1}^{n}\left[Y_i - (a + b X_i)\right]X_i = 0.$$` Simplificando, chegamos ao sistema de equações normais `$$\begin{cases}na + b \sum \limits_{i = 1}^{n}X_i = \sum \limits_{i = 1}^{n}Y_i;\\ a\sum \limits_{i = 1}^{n}X_i + b\sum \limits_{i = 1}^{n}X_i^2 = \sum \limits_{i = 1}^{n}X_iY_i.\end{cases}$$` ] --- ## Estimativas dos parâmetros Resolvendo o sistema, obtemos .content-box-yellow[ `$$a = \bar{Y} - b \bar{X} \quad \text{e} \quad b = \frac{n \sum \limits_{i = 1}^{n}X_iY_i - \left(\sum \limits_{i = 1}^{n}X_i\right)\left(\sum \limits_{i = 1}^{n}Y_i\right)}{n\sum \limits_{i = 1}^{n}X_i^2 - \left(\sum \limits_{i = 1}^{n}X_i\right)^2}.$$` ] Algumas relações bastantes úteis são 1. `\(\sum \limits_{i = 1}^{n} e_i = 0\)`; 2. `\(\sum \limits_{i = 1}^{n} X_i e_i = 0\)`; 3. `\(\sum \limits_{i = 1}^{n} \hat{Y}_ie_i = 0\)`; 4. `\(\bar{Y} = (1/n)\sum \limits_{i = 1}^{n} Y_i = (1/n)\sum \limits_{i = 1}^{n}\hat{Y}_i\)`. --- ## Propriedade dos estimadores Primeiro iremos demonstrar que `\(b\)` é um estimador não-viesado para `\(\beta\)`.