Uma questão relevante a ser analisar a possível relação entre despesa e salários. Para isso vou avaliar se existe alguma relação entre os salários médio anuais dos professores e a despesas médias por aluno. Para essa análise de dados farei uma regressão da entre o salário médio anual dos professores e as despesas média por aluno, para o estudo variável preditora será salário e variável predita despesa, respectivamente.
Y: Despesa média por aluno, em milhares de reais
X: Salário médio anual dos professores, em milhares de reais
library(tidyverse)
library(knitr)
library(kableExtra)
library(readxl)
Q1 <- read_excel("Avaliação Parcial 1_Analise de Regressão.xlsx",
sheet = "Questão 01", range = "B2:C53")/1000
A base de dado utilizada será o “arquivo Avaliação Parcial 1_Analise de Regressão.xlsx” pagina 1. A base de dados possiu 51 observações onde cada observação possui um valor Salário e Despesa
Salário: Representa o salário médio anual, em milhares de reais.
Despesa: Representa a despesa media por aluno, em milhares de reais.
kable(Q1[1:10,]) %>% # Visualização parcial dos dados
kableExtra::kable_styling(full_width = FALSE)
| Salário | Despesa |
|---|---|
| 19.583 | 3.346 |
| 20.263 | 3.114 |
| 20.325 | 3.554 |
| 26.800 | 4.642 |
| 29.470 | 4.669 |
| 26.610 | 4.888 |
| 30.678 | 5.710 |
| 27.170 | 5.536 |
| 25.853 | 4.168 |
| 24.500 | 3.547 |
Os valores dos dados estão distribuídos e permite um visão mais geral dos dados.
Mean: média aritimética
Min.: mínimo
1st qu.: primeiro quantil (< 25%)
Median: mediada (< 50%)
3st qu.: terceiro quantil (< 75%)
Max.: máximo
kable(summary(Q1)) %>%
kableExtra::kable_styling(full_width = FALSE)
| Salário | Despesa | |
|---|---|---|
| Min. :18.09 | Min. :2.297 | |
| 1st Qu.:21.49 | 1st Qu.:2.974 | |
| Median :23.38 | Median :3.554 | |
| Mean :24.40 | Mean :3.697 | |
| 3rd Qu.:26.70 | 3rd Qu.:4.082 | |
| Max. :41.48 | Max. :8.349 |
Na regressão linear simples tem-se uma variável resposta quantitativa ou variável dependente (Despesa) e uma variável preditora quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:
\[Y_i = \beta_0 + \beta_1X_i + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\] e que
\[Y \sim N(\mu_i,\sigma^2I)\] \[\mu_i = \beta_0 + \beta_1 X_i\]
Onde cada \(Y|X = x\) é indepedende entre si, segue um normal e que a variância é homocedastica, ou seja, a mesma para cada valor \(Y_i\). Nesse modelo é definido três parametros desconhecidos, são eles:
Para estimar esses parâmetros o métodos do mínimos quadrados ordinais (MQO) se mostra adequado. Denotados da seguinte forma.
Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]
Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.
Para estimar os parametros irei utilizar a função
lm(y ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(Despesa ~ Salário,Q1) # Ajuste regressão linear simples
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | -1.410 | 0.4896 | -2.88 | 0.0059 |
| Salário | 0.209 | 0.0198 | 10.58 | 0.0000 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = -1.41 com o erro padrão de 0.4896. E \(\hat\beta_1\) = 0.209 com o erro padrão de 0.0198
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| Salário | 1 | 38.69 | 38.692 | 112 | 0 |
| Residuals | 49 | 16.93 | 0.346 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.834 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 0.3456, ou seja \(\hat\sigma\) = 0.587878 e o Coeficiente de Determinação \(R^2\) que é 0.6956 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.6956.
Outra questão relevante a ser analisar a possível relação entre despesa e salários, porém dessa vez se existe um relação exponencial. Para essa análise de dados farei uma regressão da entre o salário médio anual dos professores e as despesas média por aluno, para o estudo variável preditora será salário e variável predita despesa, respectivamente.
Y: Despesa média por aluno, em milhares de reais
X: Salário médio anual dos professores, em milhares de reais
Na regressão exponencial tem-se uma resposta quantitativa ou variável dependente (Despesa) e um preditor quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:
\[Y_i = \beta_0\times e^{\beta_1X_i} + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\]
Devido a complexidade analítica, irei usar o \(log(Y)\) a alternativa ao modelo orignal.
\[log(Y) = log(\beta_0) + \beta_1X_i\] \[Y_{ajustado} = log(Y),\ \beta_{\ 0,ajustado} = log(\beta_0)\]
Para estimar esses parâmetros iremos usar o métodos do mínimos quadrados ordinais (MQO). Denotados da seguinte forma.
Para estimar os parametros irei utilizar a função
lm(log(y) ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(log(Despesa) ~ Salário,Q1) # Ajuste regressão linear simples (ajustado)
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 0.097 | 0.1253 | 0.77 | 0.4436 |
| Salário | 0.048 | 0.0051 | 9.53 | 0.0000 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = 0.097 com o erro padrão de 0.1253. E \(\hat\beta_1\) = 0.048 com o erro padrão de 0.0051
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| Salário | 1 | 2.06 | 2.057 | 90.8 | 0 |
| Residuals | 49 | 1.11 | 0.023 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.8059 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 0.0226, ou seja \(\hat\sigma\) = 0.150333 e o Coeficiente de Determinação \(R^2\) que é 0.6496 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.6496.
Ambos os modelos se mostraram adequados, tanto o modelo linear simples e quanto o exponencial (Linearizado) tiver uma boa aderência (p - value < 0,001) ao conjunto de dados. Se fosse escolher um modelo para esse conjunto de dados eu escolheria o Linear simples, sob critério de maior \(R^2\).
Na teoria do risco um questão relevante e avaliar a relação de sinistros e custo. A medida que a natureza dos custo dos sinistros é aleatória e que é de vital importância para as seguradora que posso ter uma boa estimativa de custo. Para isso Será analisado um base de dados como número de sinitros em um determindado mês e custo somados dos mesmos para o estudo variável preditora será número sinistros e variável predita custo, respectivamente.
Y: Custo total dos sinistros por mês, em milhares
X: Números total de sinitros por mês, em milhares de reais
library(readxl)
Q1 <- read_excel("Avaliação Parcial 1_Analise de Regressão.xlsx",
sheet = "Questão 02", range = "A2:C38")
Q1[,2:3] = Q1[,2:3]/1000
A base de dado utilizada será o “arquivo Avaliação Parcial 1_Analise de Regressão.xlsx” pagina 2. A base de dados possiu 36 observações onde cada observação possui mês, o número de sinistros e custo total em cada mês.
Sinistros: Representa o número total sinistros por mês, em milhares.
Despesa: Representa o número total de sinitros por mês, em milhares de reais.
kable(Q1[1:10,]) %>% # Visualização parcial dos dados
kableExtra::kable_styling(full_width = FALSE)
| Mês | Sinistros | Custo |
|---|---|---|
| 1 | 41.976 | 467.1207 |
| 2 | 31.637 | 354.5721 |
| 3 | 49.678 | 707.5365 |
| 4 | 43.499 | 531.4837 |
| 5 | 46.222 | 613.4686 |
| 6 | 44.738 | 580.0111 |
| 7 | 47.971 | 648.6140 |
| 8 | 50.536 | 620.2080 |
| 9 | 46.353 | 611.6122 |
| 10 | 46.922 | 627.9468 |
Os valores dos dados estão distribuídos e permite um visão mais geral dos dados.
Mean: média aritimética
Min.: mínimo
1st qu.: primeiro quantil (< 25%)
Median: mediada (< 50%)
3st qu.: terceiro quantil (< 75%)
Max.: máximo
kable(summary(Q1[,2:3])) %>%
kableExtra::kable_styling(full_width = FALSE)
| Sinistros | Custo | |
|---|---|---|
| Min. :31.64 | Min. :354.6 | |
| 1st Qu.:46.51 | 1st Qu.:626.0 | |
| Median :48.46 | Median :693.1 | |
| Mean :47.88 | Mean :683.8 | |
| 3rd Qu.:50.57 | 3rd Qu.:764.6 | |
| Max. :53.01 | Max. :845.3 |
Na regressão linear simples tem-se uma resposta quantitativa ou variável dependente (Despesa) e um preditor quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:
\[Y_i = \beta_0 + \beta_1X_i + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\] e que
\[Y \sim N(\mu_i,\sigma^2I)\] \[\mu_i = \beta_0 + \beta_1 X_i\]
Onde cada \(Y|X = x\) é indepedende entre si, segue um normal e que a variância é homocedastica, ou seja, a mesma para cada \(Y_i\). No modelo é definido três parametros desconhecidos, são eles:
Para estimar esses parâmetros iremos usar o métodos do mínimos quadrados ordinais (MQO). Denotados da seguinte forma.
Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]
Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta da normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.
Para estimar os parametros irei utilizar a função
lm(y ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(Custo ~ Sinistros,Q1) # Ajuste regressão linear simples
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | -469.872 | 72.1397 | -6.51 | 0 |
| Sinistros | 24.098 | 1.5010 | 16.05 | 0 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = -469.872 com o erro padrão de 72.1397. E \(\hat\beta_1\) = 24.098 com o erro padrão de 1.501
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| Sinistros | 1 | 369639.33 | 369639.330 | 257.7 | 0 |
| Residuals | 34 | 48761.68 | 1434.167 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.9399 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 1434.17, ou seja \(\hat\sigma\) = 37.8704 e o Coeficiente de Determinação \(R^2\) que é 0.8835 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.8835.
Outra questão relevante a ser analisar a possível relação entre sinitros e custo, porém dessa vez se existe um relação exponencial. Para essa análise de dados farei uma regressão da entre o custo e sinistros, para o estudo variável preditora será Sinistros e variável predita Custo, respectivamente.
Y: Custo total dos sinistros por mês, em milhares de reais
X: Números total de sinitros por mês, em milhares de reais
Na regressão exponencial tem-se uma resposta quantitativa ou variável dependente (Despesa) e um preditor quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:
\[Y_i = \beta_0\times e^{\beta_1X_i} + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\]
Devido a complexidade analítica, irei usar o \(log(Y)\) a alternativa ao modelo orignal.
\[log(Y) = log(\beta_0) + \beta_1X_i\] \[Y_{ajustado} = log(Y),\ \beta_{\ 0,ajustado} = log(\beta_0)\]
Para estimar esses parâmetros iremos usar o métodos do mínimos quadrados ordinais (MQO). Denotados da seguinte forma.
Para estimar os parametros irei utilizar a função
lm(log(y) ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(log(Custo) ~ Sinistros,Q1) # Ajuste regressão linear simples (ajustado)
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 4.58 | 0.0972 | 47.12 | 0 |
| Sinistros | 0.04 | 0.0020 | 19.97 | 0 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = 4.58 com o erro padrão de 0.0972. E \(\hat\beta_1\) = 0.04 com o erro padrão de 0.002
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| Sinistros | 1 | 1.04 | 1.038 | 398.8 | 0 |
| Residuals | 34 | 0.09 | 0.003 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.9599 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 0.0026, ou seja \(\hat\sigma\) = 0.05099 e o Coeficiente de Determinação \(R^2\) que é 0.9214 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.9214.
Ambos os modelos se mostraram adequados, tanto o modelo linear simples e quanto o exponencial (Linearizado) tiver uma boa aderência (p - value < 0,001) ao conjunto de dados. Se fosse escolher um modelo para esse conjunto de dados eu escolheria o Exponencial (ajustado), sob critério de maior \(R^2\).
Em uma venda de um imovél diversas questões podem influenciar na precificação dentre elas o localização, condições sanitárias, tamanho e etc. com isso em mente uma imobiliaria coletou dados de diversos fatores que considerou relevante para o trabalho de precificar o imóvel.
A base de dado utilizada será o “arquivo Avaliação Parcial 1_Analise de Regressão.xlsx” pagina 3. A base de dados possiu 31 observações onde cada observação possui um valor Salário e Despesa
kable(Q1[1:10,2:7]) %>% # Visualização parcial dos dados
kableExtra::kable_styling(full_width = FALSE)
| preco | logPreço | tamanho | elevacao | esgoto | distancia |
|---|---|---|---|---|---|
| 4.5 | 0.65 | 138.4 | 10 | 3000 | 0.3 |
| 10.6 | 1.03 | 52.0 | 4 | 0 | 2.5 |
| 1.7 | 0.23 | 16.1 | 0 | 2640 | 10.3 |
| 5.0 | 0.70 | 1695.2 | 1 | 3500 | 14.0 |
| 5.0 | 0.70 | 845.0 | 1 | 1000 | 14.0 |
| 3.3 | 0.52 | 6.9 | 2 | 10000 | 0.0 |
| 5.7 | 0.76 | 105.9 | 4 | 0 | 0.0 |
| 6.2 | 0.79 | 56.6 | 4 | 0 | 0.0 |
| 19.4 | 1.29 | 51.4 | 20 | 1300 | 1.2 |
| 3.2 | 0.51 | 22.1 | 0 | 6000 | 0.0 |
Os valores dos dados estão distribuídos e permite um visão mais geral dos dados.
Mean: média aritimética
Min.: mínimo
1st qu.: primeiro quantil (< 25%)
Median: mediada (< 50%)
3st qu.: terceiro quantil (< 75%)
Max.: máximo
kable(summary(Q1[,2:7])) %>%
kableExtra::kable_styling(full_width = FALSE)
| preco | logPreço | tamanho | elevacao | esgoto | distancia | |
|---|---|---|---|---|---|---|
| Min. : 1.70 | Min. :0.2300 | Min. : 6.90 | Min. : 0.000 | Min. : 0 | Min. : 0.000 | |
| 1st Qu.: 5.35 | 1st Qu.:0.7300 | 1st Qu.: 20.35 | 1st Qu.: 2.000 | 1st Qu.: 0 | 1st Qu.: 0.850 | |
| Median :11.70 | Median :1.0700 | Median : 51.40 | Median : 4.000 | Median : 900 | Median : 4.900 | |
| Mean :11.95 | Mean :0.9816 | Mean : 139.97 | Mean : 4.645 | Mean : 1981 | Mean : 5.132 | |
| 3rd Qu.:16.05 | 3rd Qu.:1.2050 | 3rd Qu.: 104.10 | 3rd Qu.: 7.000 | 3rd Qu.: 3450 | 3rd Qu.: 5.500 | |
| Max. :37.20 | Max. :1.5700 | Max. :1695.20 | Max. :20.000 | Max. :10000 | Max. :16.500 |
Ao avaliar o conjunto de dados se viu necessário definir qual variável faz uma regressão melhor com o valor do imovél a fim de verificar a possivel relação entre as variáveis. Para isso, analisarei cada caso dois-a-dois e verificar se existe algum que se adequa melhor.
Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]
Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.
Para estimar os parametros irei utilizar a função
lm(y ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(preco ~ tamanho,Q1) # Ajuste regressão linear simples
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 12.743 | 1.4920 | 8.54 | 0.000 |
| tamanho | -0.006 | 0.0043 | -1.33 | 0.194 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = 12.743 com o erro padrão de 1.492. E \(\hat\beta_1\) = -0.006 com o erro padrão de 0.0043
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| tamanho | 1 | 102.62 | 102.616 | 1.8 | 0.19396 |
| Residuals | 29 | 1682.88 | 58.030 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.2397 que da indícios da possível relação entre Tamanho em acre e Preço é é fraca. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 58.0304, ou seja \(\hat\sigma\) = 7.617769 e o Coeficiente de Determinação \(R^2\) que é 0.0575 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value > 0.19 sendo assim o modelo de regressão não se mostra adequado para essa base de dados, ou seja, a variável Tamanho do acre e variável preço do imovel não mostraram relação direta, o que se pode visualisar no gráfico.
Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]
Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.
Para estimar os parametros irei utilizar a função
lm(y ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(preco ~ elevacao,Q1) # Ajuste regressão linear simples
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 9.057 | 1.9457 | 4.65 | 0.0001 |
| elevacao | 0.623 | 0.3079 | 2.02 | 0.0523 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = 9.057 com o erro padrão de 1.9457. E \(\hat\beta_1\) = 0.623 com o erro padrão de 0.3079
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| elevacao | 1 | 221.03 | 221.033 | 4.1 | 0.05225 |
| Residuals | 29 | 1564.46 | 53.947 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.3518 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 53.947, ou seja \(\hat\sigma\) = 7.344862 e o Coeficiente de Determinação \(R^2\) que é 0.1238 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value > 0.05 sendo assim o modelo não se mostra adequado, a nível de significancia de \(\alpha = 0.1\). Ou seja, a variável Elevação em relação ao nível do lago e variável preço do imovel não mostraram relação direta, o que se pode visualisar no gráfico.
Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]
Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.
Para estimar os parametros irei utilizar a função
lm(y ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(preco ~ esgoto,Q1) # Ajuste regressão linear simples
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 14.362 | 1.6704 | 8.60 | 0.0000 |
| esgoto | -0.001 | 0.0005 | -2.29 | 0.0295 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = 14.362 com o erro padrão de 1.6704. E \(\hat\beta_1\) = -0.001 com o erro padrão de 5^{-4}
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| esgoto | 1 | 273.26 | 273.265 | 5.2 | 0.02954 |
| Residuals | 29 | 1512.23 | 52.146 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.3912 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 52.146, ou seja \(\hat\sigma\) = 7.221219 e o Coeficiente de Determinação \(R^2\) que é 0.153 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.05 sendo assim o modelo se mostra adequado para essa base de dados, a nível de significancia de \(\alpha = 0.05\), apesar do \(R^2\) = 0.153. Ou seja, a variável Capacidade de esgoto e variável Preço do imóvel mostraram uma relação direta, o que se pode visualisar no gráfico
Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]
Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.
Para estimar os parametros irei utilizar a função
lm(y ~ x) onde y é variável resposta e
x a variável regressora.
reg = lm(preco ~ distancia,Q1) # Ajuste regressão linear simples
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 11.137 | 2.1384 | 5.21 | 0.0000 |
| distancia | 0.159 | 0.3144 | 0.50 | 0.6176 |
Onde o (Intercept) se refere ao \(\hat\beta_0\) = 11.137 com o erro padrão de 2.1384. E \(\hat\beta_1\) = 0.159 com o erro padrão de 0.3144
Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| distancia | 1 | 15.55 | 15.546 | 0.3 | 0.61758 |
| Residuals | 29 | 1769.95 | 61.033 | NA | NA |
Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.0933 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 61.0328, ou seja \(\hat\sigma\) = 7.812349 e o Coeficiente de Determinação \(R^2\) que é 0.0087 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.
Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value > 0.5 sendo assim o modelo não se mostra adequado. Ou seja, a variável Distancia do lago e variável preço do imovel não mostraram relação direta, o que pode ser visualisado no gráfico.
Após avaliar cada par, e verificar os Coeficientes de correlação e
Coeficientes de ajustamentos do modelos Pr(>F). A melhor escolha de
variável preditora é a capacidade de esgoto, ressalto que é
uma escolha melhor apenas em nivel de significância de \(\alpha = 0.05\).