Questão 1:

Item a)

Uma questão relevante a ser analisar a possível relação entre despesa e salários. Para isso vou avaliar se existe alguma relação entre os salários médio anuais dos professores e a despesas médias por aluno. Para essa análise de dados farei uma regressão da entre o salário médio anual dos professores e as despesas média por aluno, para o estudo variável preditora será salário e variável predita despesa, respectivamente.

Y: Despesa média por aluno, em milhares de reais
X: Salário médio anual dos professores, em milhares de reais

Carregandos pacotes ultilizados na análise.

library(tidyverse)
library(knitr)
library(kableExtra)  

Leitura dos dados.

library(readxl)
Q1 <- read_excel("Avaliação Parcial 1_Analise de Regressão.xlsx",
                 sheet = "Questão 01", range = "B2:C53")/1000

A base de dado utilizada será o “arquivo Avaliação Parcial 1_Analise de Regressão.xlsx” pagina 1. A base de dados possiu 51 observações onde cada observação possui um valor Salário e Despesa

Salário: Representa o salário médio anual, em milhares de reais.
Despesa: Representa a despesa media por aluno, em milhares de reais.
kable(Q1[1:10,]) %>%  # Visualização parcial dos dados
  kableExtra::kable_styling(full_width = FALSE)
Salário Despesa
19.583 3.346
20.263 3.114
20.325 3.554
26.800 4.642
29.470 4.669
26.610 4.888
30.678 5.710
27.170 5.536
25.853 4.168
24.500 3.547

Descrição dos dados

Os valores dos dados estão distribuídos e permite um visão mais geral dos dados.

Mean: média aritimética
Min.: mínimo      
1st qu.: primeiro quantil (< 25%)
Median: mediada (< 50%)
3st qu.: terceiro quantil  (< 75%)
Max.: máximo
kable(summary(Q1)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Salário Despesa
Min. :18.09 Min. :2.297
1st Qu.:21.49 1st Qu.:2.974
Median :23.38 Median :3.554
Mean :24.40 Mean :3.697
3rd Qu.:26.70 3rd Qu.:4.082
Max. :41.48 Max. :8.349

Ajuste do Modelo: Regressão Linear simples

Na regressão linear simples tem-se uma variável resposta quantitativa ou variável dependente (Despesa) e uma variável preditora quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:

\[Y_i = \beta_0 + \beta_1X_i + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\] e que

\[Y \sim N(\mu_i,\sigma^2I)\] \[\mu_i = \beta_0 + \beta_1 X_i\]

Onde cada \(Y|X = x\) é indepedende entre si, segue um normal e que a variância é homocedastica, ou seja, a mesma para cada valor \(Y_i\). Nesse modelo é definido três parametros desconhecidos, são eles:

  1. Intercepto \(\beta_0\)
  2. Coeficiente de inclinação \(\beta_1\)
  3. Variância \(\sigma^2\)

Para estimar esses parâmetros o métodos do mínimos quadrados ordinais (MQO) se mostra adequado. Denotados da seguinte forma.

  1. Estimador do intercepto \(\hat\beta_0\)
  2. Estimador do coeficiente de inclinação \(\hat\beta_1\)
  3. Estimador da Variância \(\hat\sigma^2\)
  4. Estimador da \(E[Y|X=x_h]\)

Analisando algumas premissas

Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]

Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(y ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(Despesa ~ Salário,Q1)  # Ajuste regressão linear simples
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.410 0.4896 -2.88 0.0059
Salário 0.209 0.0198 10.58 0.0000

Onde o (Intercept) se refere ao \(\hat\beta_0\) = -1.41 com o erro padrão de 0.4896. E \(\hat\beta_1\) = 0.209 com o erro padrão de 0.0198

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
Salário 1 38.69 38.692 112 0
Residuals 49 16.93 0.346 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.834 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 0.3456, ou seja \(\hat\sigma\) = 0.587878 e o Coeficiente de Determinação \(R^2\) que é 0.6956 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Visualização dos dados com a Regressão.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.6956.

Item b)

Outra questão relevante a ser analisar a possível relação entre despesa e salários, porém dessa vez se existe um relação exponencial. Para essa análise de dados farei uma regressão da entre o salário médio anual dos professores e as despesas média por aluno, para o estudo variável preditora será salário e variável predita despesa, respectivamente.

Y: Despesa média por aluno, em milhares de reais
X: Salário médio anual dos professores, em milhares de reais

Ajuste do Modelo: Linearização do modelo exponencial

Na regressão exponencial tem-se uma resposta quantitativa ou variável dependente (Despesa) e um preditor quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:

\[Y_i = \beta_0\times e^{\beta_1X_i} + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\]

Devido a complexidade analítica, irei usar o \(log(Y)\) a alternativa ao modelo orignal.

\[log(Y) = log(\beta_0) + \beta_1X_i\] \[Y_{ajustado} = log(Y),\ \beta_{\ 0,ajustado} = log(\beta_0)\]

  1. Intercepto \(log(\beta_0)\)
  2. Coeficiente de inclinação \(\beta_1\)
  3. Variância \(\sigma^2\)

Para estimar esses parâmetros iremos usar o métodos do mínimos quadrados ordinais (MQO). Denotados da seguinte forma.

  1. Estimador do intercepto \(\hat\beta_{\ 0, \ ajustado}\)
  2. Estimador do coeficiente de inclinação \(\hat\beta_{\ 1}\)
  3. Estimador da Variância \(\hat\sigma^2\)
  4. Estimador da \(E[Y|X=x_h]\)

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(log(y) ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(log(Despesa) ~ Salário,Q1)  # Ajuste regressão linear simples (ajustado)
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.097 0.1253 0.77 0.4436
Salário 0.048 0.0051 9.53 0.0000

Onde o (Intercept) se refere ao \(\hat\beta_0\) = 0.097 com o erro padrão de 0.1253. E \(\hat\beta_1\) = 0.048 com o erro padrão de 0.0051

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
Salário 1 2.06 2.057 90.8 0
Residuals 49 1.11 0.023 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.8059 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 0.0226, ou seja \(\hat\sigma\) = 0.150333 e o Coeficiente de Determinação \(R^2\) que é 0.6496 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.6496.

Visualização dos dados com a Regressão.

Item c)

Ambos os modelos se mostraram adequados, tanto o modelo linear simples e quanto o exponencial (Linearizado) tiver uma boa aderência (p - value < 0,001) ao conjunto de dados. Se fosse escolher um modelo para esse conjunto de dados eu escolheria o Linear simples, sob critério de maior \(R^2\).

Questão 2:

Item a)

Na teoria do risco um questão relevante e avaliar a relação de sinistros e custo. A medida que a natureza dos custo dos sinistros é aleatória e que é de vital importância para as seguradora que posso ter uma boa estimativa de custo. Para isso Será analisado um base de dados como número de sinitros em um determindado mês e custo somados dos mesmos para o estudo variável preditora será número sinistros e variável predita custo, respectivamente.

Y: Custo total dos sinistros por mês, em milhares
X: Números total de sinitros por mês, em milhares de reais

Leitura dos dados.

library(readxl)
Q1 <- read_excel("Avaliação Parcial 1_Analise de Regressão.xlsx",
                 sheet = "Questão 02", range = "A2:C38")
Q1[,2:3] = Q1[,2:3]/1000

A base de dado utilizada será o “arquivo Avaliação Parcial 1_Analise de Regressão.xlsx” pagina 2. A base de dados possiu 36 observações onde cada observação possui mês, o número de sinistros e custo total em cada mês.

Sinistros: Representa o número total sinistros por mês, em milhares.
Despesa: Representa o número total de sinitros por mês, em milhares de reais.
kable(Q1[1:10,]) %>%  # Visualização parcial dos dados
  kableExtra::kable_styling(full_width = FALSE)
Mês Sinistros Custo
1 41.976 467.1207
2 31.637 354.5721
3 49.678 707.5365
4 43.499 531.4837
5 46.222 613.4686
6 44.738 580.0111
7 47.971 648.6140
8 50.536 620.2080
9 46.353 611.6122
10 46.922 627.9468

Descrição dos dados

Os valores dos dados estão distribuídos e permite um visão mais geral dos dados.

Mean: média aritimética
Min.: mínimo      
1st qu.: primeiro quantil (< 25%)
Median: mediada (< 50%)
3st qu.: terceiro quantil  (< 75%)
Max.: máximo
kable(summary(Q1[,2:3])) %>%
  kableExtra::kable_styling(full_width = FALSE)
Sinistros Custo
Min. :31.64 Min. :354.6
1st Qu.:46.51 1st Qu.:626.0
Median :48.46 Median :693.1
Mean :47.88 Mean :683.8
3rd Qu.:50.57 3rd Qu.:764.6
Max. :53.01 Max. :845.3

Ajuste do Modelo: Regressão Linear simples

Na regressão linear simples tem-se uma resposta quantitativa ou variável dependente (Despesa) e um preditor quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:

\[Y_i = \beta_0 + \beta_1X_i + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\] e que

\[Y \sim N(\mu_i,\sigma^2I)\] \[\mu_i = \beta_0 + \beta_1 X_i\]

Onde cada \(Y|X = x\) é indepedende entre si, segue um normal e que a variância é homocedastica, ou seja, a mesma para cada \(Y_i\). No modelo é definido três parametros desconhecidos, são eles:

  1. Intercepto \(\beta_0\)
  2. Coeficiente de inclinação \(\beta_1\)
  3. Variância \(\sigma^2\)

Para estimar esses parâmetros iremos usar o métodos do mínimos quadrados ordinais (MQO). Denotados da seguinte forma.

  1. Estimador do intercepto \(\hat\beta_0\)
  2. Estimador do coeficiente de inclinação \(\hat\beta_1\)
  3. Estimador da Variância \(\hat\sigma^2\)
  4. Estimador da \(E[Y|X=x_h]\)

Analisando algumas premissas

Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]

Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta da normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(y ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(Custo ~ Sinistros,Q1)  # Ajuste regressão linear simples
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) -469.872 72.1397 -6.51 0
Sinistros 24.098 1.5010 16.05 0

Onde o (Intercept) se refere ao \(\hat\beta_0\) = -469.872 com o erro padrão de 72.1397. E \(\hat\beta_1\) = 24.098 com o erro padrão de 1.501

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
Sinistros 1 369639.33 369639.330 257.7 0
Residuals 34 48761.68 1434.167 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.9399 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 1434.17, ou seja \(\hat\sigma\) = 37.8704 e o Coeficiente de Determinação \(R^2\) que é 0.8835 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.8835.

Visualização dos dados com a Regressão.

Item b)

Outra questão relevante a ser analisar a possível relação entre sinitros e custo, porém dessa vez se existe um relação exponencial. Para essa análise de dados farei uma regressão da entre o custo e sinistros, para o estudo variável preditora será Sinistros e variável predita Custo, respectivamente.

Y: Custo total dos sinistros por mês, em milhares de reais
X: Números total de sinitros por mês, em milhares de reais

Ajuste do Modelo: Linearização do modelo exponencial

Na regressão exponencial tem-se uma resposta quantitativa ou variável dependente (Despesa) e um preditor quantitativo ou variável independente (Salário). Este modelo pode ser definido da seguinte forma:

\[Y_i = \beta_0\times e^{\beta_1X_i} + \epsilon_i \] \[\epsilon \sim N(0, \sigma^2I)\]

Devido a complexidade analítica, irei usar o \(log(Y)\) a alternativa ao modelo orignal.

\[log(Y) = log(\beta_0) + \beta_1X_i\] \[Y_{ajustado} = log(Y),\ \beta_{\ 0,ajustado} = log(\beta_0)\]

  1. Intercepto \(log(\beta_0)\)
  2. Coeficiente de inclinação \(\beta_1\)
  3. Variância \(\sigma^2\)

Para estimar esses parâmetros iremos usar o métodos do mínimos quadrados ordinais (MQO). Denotados da seguinte forma.

  1. Estimador do intercepto \(\hat\beta_{\ 0, \ ajustado}\)
  2. Estimador do coeficiente de inclinação \(\hat\beta_{\ 1}\)
  3. Estimador da Variância \(\hat\sigma^2\)
  4. Estimador da \(E[Y|X=x_h]\)

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(log(y) ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(log(Custo) ~ Sinistros,Q1)  # Ajuste regressão linear simples (ajustado)
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.58 0.0972 47.12 0
Sinistros 0.04 0.0020 19.97 0

Onde o (Intercept) se refere ao \(\hat\beta_0\) = 4.58 com o erro padrão de 0.0972. E \(\hat\beta_1\) = 0.04 com o erro padrão de 0.002

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
Sinistros 1 1.04 1.038 398.8 0
Residuals 34 0.09 0.003 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.9599 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 0.0026, ou seja \(\hat\sigma\) = 0.05099 e o Coeficiente de Determinação \(R^2\) que é 0.9214 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.0001 sendo assim o modelo se mostra adequado para essa base de dados, apesar do \(R^2\) = 0.9214.

Visualização dos dados com a Regressão.

Item c)

Ambos os modelos se mostraram adequados, tanto o modelo linear simples e quanto o exponencial (Linearizado) tiver uma boa aderência (p - value < 0,001) ao conjunto de dados. Se fosse escolher um modelo para esse conjunto de dados eu escolheria o Exponencial (ajustado), sob critério de maior \(R^2\).

Questão 3:

Item a)

Em uma venda de um imovél diversas questões podem influenciar na precificação dentre elas o localização, condições sanitárias, tamanho e etc. com isso em mente uma imobiliaria coletou dados de diversos fatores que considerou relevante para o trabalho de precificar o imóvel.

  • \(Y\): Valor Justo do Imóvel a ser cobrado pela imobiliária
  • \(X_1\): Tamanho em acre
  • \(X_2\): Elevação em relação ao nível do lago
  • \(X_3\): Capacidade do esgoto
  • \(X_4\): Distância do lago

A base de dado utilizada será o “arquivo Avaliação Parcial 1_Analise de Regressão.xlsx” pagina 3. A base de dados possiu 31 observações onde cada observação possui um valor Salário e Despesa

  • preco: Valor a ser cobrado do Imóvel, pela imobiliária
  • tamanho: Tamanho em acre
  • elevacao: Elevação em relação ao nível do lago
  • esgoto: Capacidade do esgoto
  • distancia: Distância do lago
kable(Q1[1:10,2:7]) %>%  # Visualização parcial dos dados
  kableExtra::kable_styling(full_width = FALSE)
preco logPreço tamanho elevacao esgoto distancia
4.5 0.65 138.4 10 3000 0.3
10.6 1.03 52.0 4 0 2.5
1.7 0.23 16.1 0 2640 10.3
5.0 0.70 1695.2 1 3500 14.0
5.0 0.70 845.0 1 1000 14.0
3.3 0.52 6.9 2 10000 0.0
5.7 0.76 105.9 4 0 0.0
6.2 0.79 56.6 4 0 0.0
19.4 1.29 51.4 20 1300 1.2
3.2 0.51 22.1 0 6000 0.0

Descrição dos dados

Os valores dos dados estão distribuídos e permite um visão mais geral dos dados.

Mean: média aritimética
Min.: mínimo      
1st qu.: primeiro quantil (< 25%)
Median: mediada (< 50%)
3st qu.: terceiro quantil  (< 75%)
Max.: máximo
kable(summary(Q1[,2:7])) %>%
  kableExtra::kable_styling(full_width = FALSE)
preco logPreço tamanho elevacao esgoto distancia
Min. : 1.70 Min. :0.2300 Min. : 6.90 Min. : 0.000 Min. : 0 Min. : 0.000
1st Qu.: 5.35 1st Qu.:0.7300 1st Qu.: 20.35 1st Qu.: 2.000 1st Qu.: 0 1st Qu.: 0.850
Median :11.70 Median :1.0700 Median : 51.40 Median : 4.000 Median : 900 Median : 4.900
Mean :11.95 Mean :0.9816 Mean : 139.97 Mean : 4.645 Mean : 1981 Mean : 5.132
3rd Qu.:16.05 3rd Qu.:1.2050 3rd Qu.: 104.10 3rd Qu.: 7.000 3rd Qu.: 3450 3rd Qu.: 5.500
Max. :37.20 Max. :1.5700 Max. :1695.20 Max. :20.000 Max. :10000 Max. :16.500

Analisando a relação entre preditores e resposta.

Ao avaliar o conjunto de dados se viu necessário definir qual variável faz uma regressão melhor com o valor do imovél a fim de verificar a possivel relação entre as variáveis. Para isso, analisarei cada caso dois-a-dois e verificar se existe algum que se adequa melhor.

Analisando a relação do Valor cobrado (Y) como o tamanho em acre.

Analisando algumas premissas

Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]

Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(y ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(preco ~ tamanho,Q1)  # Ajuste regressão linear simples
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.743 1.4920 8.54 0.000
tamanho -0.006 0.0043 -1.33 0.194

Onde o (Intercept) se refere ao \(\hat\beta_0\) = 12.743 com o erro padrão de 1.492. E \(\hat\beta_1\) = -0.006 com o erro padrão de 0.0043

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
tamanho 1 102.62 102.616 1.8 0.19396
Residuals 29 1682.88 58.030 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.2397 que da indícios da possível relação entre Tamanho em acre e Preço é é fraca. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 58.0304, ou seja \(\hat\sigma\) = 7.617769 e o Coeficiente de Determinação \(R^2\) que é 0.0575 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Visualização dos dados com a Regressão.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value > 0.19 sendo assim o modelo de regressão não se mostra adequado para essa base de dados, ou seja, a variável Tamanho do acre e variável preço do imovel não mostraram relação direta, o que se pode visualisar no gráfico.

Analisando a relação do Valor cobrado (Y) como o elevacao em relação ao nível do lago.

Analisando algumas premissas

Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]

Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(y ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(preco ~ elevacao,Q1)  # Ajuste regressão linear simples
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.057 1.9457 4.65 0.0001
elevacao 0.623 0.3079 2.02 0.0523

Onde o (Intercept) se refere ao \(\hat\beta_0\) = 9.057 com o erro padrão de 1.9457. E \(\hat\beta_1\) = 0.623 com o erro padrão de 0.3079

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
elevacao 1 221.03 221.033 4.1 0.05225
Residuals 29 1564.46 53.947 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.3518 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 53.947, ou seja \(\hat\sigma\) = 7.344862 e o Coeficiente de Determinação \(R^2\) que é 0.1238 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Visualização dos dados com a Regressão.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value > 0.05 sendo assim o modelo não se mostra adequado, a nível de significancia de \(\alpha = 0.1\). Ou seja, a variável Elevação em relação ao nível do lago e variável preço do imovel não mostraram relação direta, o que se pode visualisar no gráfico.

Analisando a relação do Valor cobrado (Y) como o Capacidade do esgoto.

Analisando algumas premissas

Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]

Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(y ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(preco ~ esgoto,Q1)  # Ajuste regressão linear simples
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.362 1.6704 8.60 0.0000
esgoto -0.001 0.0005 -2.29 0.0295

Onde o (Intercept) se refere ao \(\hat\beta_0\) = 14.362 com o erro padrão de 1.6704. E \(\hat\beta_1\) = -0.001 com o erro padrão de 5^{-4}

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
esgoto 1 273.26 273.265 5.2 0.02954
Residuals 29 1512.23 52.146 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.3912 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 52.146, ou seja \(\hat\sigma\) = 7.221219 e o Coeficiente de Determinação \(R^2\) que é 0.153 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Visualização dos dados com a Regressão.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value < 0.05 sendo assim o modelo se mostra adequado para essa base de dados, a nível de significancia de \(\alpha = 0.05\), apesar do \(R^2\) = 0.153. Ou seja, a variável Capacidade de esgoto e variável Preço do imóvel mostraram uma relação direta, o que se pode visualisar no gráfico

Analisando a relação do Valor cobrado (Y) como o distancia do lago.

Analisando algumas premissas

Uma premissa importante é normalidade dos resíduos, onde para se verificar isso devemos analisar a dispersão dos resíduos. \[\hat\epsilon = Y_i - \hat Y\]

Apartir do gráfico de densidade dos erros podemos verificar indícios sobre a falta normalidade dos erros, porém outras analises devem ser feita para confirma isso que no momento não será abordado neste trabalho.

Estimando os parâmetros.

Para estimar os parametros irei utilizar a função lm(y ~ x) onde y é variável resposta e x a variável regressora.

reg = lm(preco ~ distancia,Q1)  # Ajuste regressão linear simples
Estimativas e intervalos de confiança dos estimadores
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.137 2.1384 5.21 0.0000
distancia 0.159 0.3144 0.50 0.6176

Onde o (Intercept) se refere ao \(\hat\beta_0\) = 11.137 com o erro padrão de 2.1384. E \(\hat\beta_1\) = 0.159 com o erro padrão de 0.3144

Analisando o modelo: ANOVA

Após encontramos os valores estimados devemos analisar se o modelo se mostra adequado para o conjunto de dados para isso o quadro de analise variância se mostra adequado, ANOVA (Analysis Of Variance).

Quadro de análise de variância: Regressão linear simples
Df Sum Sq Mean Sq F value Pr(>F)
distancia 1 15.55 15.546 0.3 0.61758
Residuals 29 1769.95 61.033 NA NA

Quadro nos dá diversas informações relevantes para a analise, como o Coeficiente de correlação \(R\) igual a 0.0933 que da indícios da possível relação entre Despesas e Salários. Coeficiente de ajustamento do erro padrão que se obtem apartir da estimativa da variância, \(\hat\sigma^2\) = 61.0328, ou seja \(\hat\sigma\) = 7.812349 e o Coeficiente de Determinação \(R^2\) que é 0.0087 e indica o percentual que o modelo explica a variabilidade dos dados, em outras palavras nos mostra a aderência do modelo ao conjunto de dados.

Visualização dos dados com a Regressão.

Além disso temos a avaliação do modelo em si, em que a estatística \(Pr(>F)\) nos permite avaliar se o modelo faz um regressão dos dados. E como visto o p-value > 0.5 sendo assim o modelo não se mostra adequado. Ou seja, a variável Distancia do lago e variável preço do imovel não mostraram relação direta, o que pode ser visualisado no gráfico.

Conclusão

Após avaliar cada par, e verificar os Coeficientes de correlação e Coeficientes de ajustamentos do modelos Pr(>F). A melhor escolha de variável preditora é a capacidade de esgoto, ressalto que é uma escolha melhor apenas em nivel de significância de \(\alpha = 0.05\).