Regressão Linear Múltipla

EST212 - Bioestatística

Helgem de Souza

Introdução

Antes de iniciar nossa aula:

  1. Abra o RStudio.

  2. Crie um novo script.

  3. Crie uma pasta na área de trabalho com seu nome.

  4. Salve o script criado na pasta com o nome "aula8_est212.R"

  5. Baixe do Moodle os arquivos gordura_corporal.csv e Bacalhau.csv e salve na pasta criada.

  6. Defina a pasta como diretório de trabalho

  7. Leia o arquivo gordura_corporal.csv para o objeto gordura.

  8. Leia o arquivo Bacalhau.csv para o objeto bacalhau.

Introdução

Em nossa última aula, abordamos com mais detalhes o modelo de regressão linear:

  • Aprendemos a interpretar seus resultados.

  • Definimos um teste de hipóteses para seus coeficientes.

  • Estudamos o coeficiente de determinação e como ele avalia a capacidade da variável explicativa descrever o comportamento da variável resposta.

Na aula de hoje, estenderemos nosso conceito de regressão para mais de uma variável explicativa

Quando uma variável não é suficiente

Vamos revisitar nosso exemplo em que tentamos explicar o peso por meio da variável altura:

#Modelo de regressão: Peso explicado pela altura
modelo1 <- lm(peso ~ altura, data = gordura)

#Impressão do modelo
summary(modelo1)

Call:
lm(formula = peso ~ altura, data = gordura)

Residuals:
    Min      1Q  Median      3Q     Max 
-21.491  -7.272  -0.664   6.267  42.137 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -88.2174    17.9727  -4.908 1.67e-06 ***
altura        0.9464     0.1006   9.409  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 10.55 on 248 degrees of freedom
Multiple R-squared:  0.2631,    Adjusted R-squared:  0.2601 
F-statistic: 88.54 on 1 and 248 DF,  p-value: < 2.2e-16

Quando uma variável não é suficiente

Conforme vimos, o \(R^2\) ajustado para o modelo é de 0,2601.

Ou seja, a altura é capaz de explicar aproximadamente 26% da variação do peso.

Se quisermos explicar melhor o peso de uma pessoa, provavelmente precisaremos de mais variáveis.

Em casos desse tipo, utilizamos a regressão linear múltipla.

Regressão Linear Múltipla

  • Em linhas gerais, o modelo de regressão múltipla apresenta as mesmas bases do modelo de regressão linear simples.

  • A diferença é que, diferente do modelo simples, podemos ter mais de uma variável explicativa.

  • O modelo teórico de regressão linear múltipla é dado por:

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_nX_n + \varepsilon \]

Em que:

  • \(Y\) é a variável resposta.

  • \(X_1, X_2, \dots X_n\) são variáveis explicativas (preditores).

  • \(\beta_0, \beta_1, \dots \beta_n\) são os coeficientes associados às variáveis.

  • \(\varepsilon\) é o componente de erro aleatório.

Regressão Linear Múltipla

O conceito geométrico da regressão linear múltipla é o mesmo da regressão linear simples. Entretanto, deixamos de buscar por uma reta que minimiza os erros para buscar um plano.

Como os conceitos são bastante similares, aproveitaremos praticamente todo o conhecimento dos modelos simples nos modelos múltiplos.

Estimação dos Coeficientes

  • Assim como na RLS, é necessário estimar os coeficientes \(\hat{\beta_0}, \hat{\beta_1}, \dots \hat{\beta_n}\) associados ao modelo de regressão múltipla.

  • Entretanto, apesar de similar aos cálculos da RLS, trata-se de um cálculo matricial avançado, que não abordaremos nesse curso. Na forma matricial, a matriz de coeficientes é estimada pela expressão a seguir:

\[ \hat{\mathbf{\beta}} = (X'X)^{-1}X'Y \]

Em que

  • X - matriz de variáveis explicativas

  • Y - Vetor da variável resposta

Modelo Ajustado

Após a estimação dos coeficientes, assim como na RLS, obtemos um modelo ajustado, dado por:

\[ \hat{Y} = \hat{\beta_0} + \hat{\beta_1}X_1 + \hat{\beta_2}X_2 + \dots + \hat{\beta_n}X_n \]

Para as observações individuais, o modelo pode ser escrito como

\[ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{1i} + \hat{\beta_2}x_{2i} + \dots + \hat{\beta_n}x_{ni} \]

E novamente podemos definir os erros como

\[ \varepsilon_i = y_i - \hat{y_i} \]

Para uma melhor compreensão, vamos efetuar o ajuste de um modelo de regressão linear múltipla.

Exemplo - Modelagem do Peso

Vamos novamente tentar modelar o peso com base em algumas caracerísticas. Como vimos, a altura explica apenas 27% da variação do peso. Além da altura, vamos agregar novas variáveis ao modelo:

  • idade

  • peitoral

  • abdomen

Podemos verificar a relação entre o peso e essas variáveis da mesma forma que fizemos com a altura, usando o diagrama de dispersão e o coeficiente de correlação.

Exemplo - Modelagem do Peso

#Peso e altura  
plot(x = gordura$altura, y = gordura$peso, main = "Peso x Altura")
cor(x = gordura$peso, y = gordura$altura)
[1] 0.512913

Exemplo - Modelagem do Peso

#Peso e idade
plot(x = gordura$idade, y = gordura$peso, main = "Peso x Idade")
cor(x = gordura$idade, y = gordura$peso)
[1] -0.01605487

Exemplo - Modelagem do Peso

#Peso e Peitoral
plot(x = gordura$peitoral, y = gordura$peso, main = "Peso x Peitoral")
cor(x = gordura$peitoral, y = gordura$peso)
[1] 0.8912862

Exemplo - Modelagem do Peso

#Peso e Abdomen
plot(x = gordura$abdomen, y = gordura$peso, main = "Peso x Abdomen")
cor(x = gordura$abdomen, y = gordura$peso)
[1] 0.8737351

Exemplo - Modelagem do Peso

Os gráficos e coeficientes de correlação indicam que:

  • Peso e altura possuem relação linear, correlação moderada e positiva.

  • Peso e idade apresentam uma relação linear, mas apresentam correlação fraca e negativa.

  • Peso e peitoral possuem relação linear, correlação forte e positiva.

  • Peso e abdomen possuem relação linear, correlação forte e positiva.

Apesar da idade não apresentar correlação, para fins didáticos, vamos incluí-la em nosso modelo. Observe que nesse caso, não há sentido prático em incluir tal variável no modelo, pois a correlação entre elas é praticamente nula.

Ajuste do modelo de Regressão Linear Múltipla no R

  • O ajuste de um modelo de Regressão Linear Múltipla acontece da mesma forma que na Regressão Linear Simples, por meio da função lm().

  • A diferença está apenas na fórmula. Devemos somar as variáveis explicativas após o sinal de til (~).

  • Suponha que queiramos ajustar o seguinte modelo:

\[ \hat{Y} = \hat{\beta_0} + \hat{\beta_1X_1} + \hat{\beta_2X_2} + \hat{\beta_3X_3} \]

  • A variável resposta seria \(Y\), e as explicativas seriam \(X_1, X_2\) e \(X_3\).

  • A fórmula dentro da função lm seria a seguinte: y ~ X1 + X2 + X3

  • Vejamos como ajustar nosso modelo.

Ajuste do modelo de Regressão Linear Múltipla no R

  • Nossa variável resposta é o peso

  • Nossas variáveis explicativas são: altura, idade, peitoral e abdomen.

#Ajuste do modelo de regressão linear múltiplo
lm(peso ~ altura + idade + peitoral + abdomen, data = gordura)

Call:
lm(formula = peso ~ altura + idade + peitoral + abdomen, data = gordura)

Coefficients:
(Intercept)       altura        idade     peitoral      abdomen  
  -128.0529       0.5504      -0.1280       0.6562       0.5443  

Logo, nosso modelo de regressão é dado por:

\[ peso = -128,05 + 0,55 \cdot altura -0,13\cdot idade + 0,66 \cdot peitoral + 0,54 \cdot abdomen \]

Interpretação do modelo de Regressão Linear Múltipla

  • Agora que obtivemos nosso modelo, podemos interpretar os coeficientes. Na regressão linear múltipla, existem pequenas diferenças na interpretação:

  • O coeficiente \(\beta_0\) geralmente não é interpretado, pois ele seria válido quando os valores de todas as variáveis fossem nulos, o que raramente ocorre.

  • Os demais coeficientes são interpretados da mesma forma, mas com uma ressalva: fixados os valores das demais variáveis.

  • Por exemplo, ao análisar o coeficiente da altura, consideramos que não há variação nas demais variáveis.

  • Esse procedimento permite avaliar a influência da variável de forma isolada.

  • Vamos agora interpretar nosso modelo.

Interpretação do modelo de Regressão Linear Múltipla

Obtivemos o seguinte modelo:

\[ peso = -128,05 + 0,55 \cdot altura -0,13\cdot idade + 0,66 \cdot peitoral + 0,54 \cdot abdomen \]

  • O acréscimo de 1cm na altura, fixadas as demais variáveis, aumenta em média 0,55kg de peso.

  • O acréscimo de 1 ano na idade, fixadas as demais variáveis, reduz em média 0,13kg de peso. Um efeito bastante discreto, dada a escala da idade.

  • O acréscimo de 1cm no peitoral, fixadas as demais variáveis, aumenta em média 0,66kg de peso.

  • O acréscimo de 1cm no abdomen, fixadas as demais variáveis, aumenta em média 0,54kg de peso.

Interpretação do modelo de Regressão Linear Múltipla

Vamos estimar o peso de um adulto dessa população com as seguintes medidas:

  • Altura: 170cm

  • Idade: 28 anos

  • Peitoral: 98cm

  • Abdomen: 88cm

#Estimativa de peso
-128.0529 + 0.5504*170 - 0.1280*28 + 0.6562*98 + 0.5443*88
[1] 74.1371

Um adulto dessa população, com tais características, pesaria, em média, 74,13kg.

Requisitos do Modelo de Regressão Linear

Com a inclusão de mais variáveis, um novo requisito é adicionado na análise da adequação do modelo:

  • A relação entre as variáveis explicativas e a resposta deve ser linear.

  • Os resíduos devem ser independentes.

  • Os resíduos devem seguir distribuição normal com média zero e variância constante.

  • As variáveis respostas não podem apresentar relação linear entre si.

Esse novo requisito é chamado de ausência de multicolinearidade. Para verificá-lo, basta avaliar as correlações entre as variáveis explicativas, 2 a 2.

Adequação do Modelo

Assim como na RLS, dado que os pressupostos apresentados foram atendidos, podemos verificar a adequação do modelo de duas formas:

  1. Teste de Hipóteses para os coeficientes

  2. Análise do Coeficiente de Determinação (\(R^2\)).

O teste de hipóteses garante que os coeficientes \(\beta_0\) e \(\beta_1\) estimados são significativos, enquanto o coeficiente de determinação serve como métrica para verificar o quando da variabilidade dos dados é explicada pelo modelo.

Vamos verificar nosso modelo. Utilizaremos novamente a função summary

Adequação do Modelo

Vamos atribuir nosso modelo a um objeto e imprimir em tela seu resumo:

#Ajuste e atribuição do modelo de regressão linear múltiplo
modelo2 <- lm(peso ~ altura + idade + peitoral + abdomen, data = gordura)

#Resumo do modelo
summary(modelo2)

Call:
lm(formula = peso ~ altura + idade + peitoral + abdomen, data = gordura)

Residuals:
    Min      1Q  Median      3Q     Max 
-9.2082 -1.6940 -0.0701  1.7902  9.8063 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -128.05286    5.71894 -22.391  < 2e-16 ***
altura         0.55044    0.03109  17.703  < 2e-16 ***
idade         -0.12795    0.01647  -7.767  2.2e-13 ***
peitoral       0.65618    0.05747  11.417  < 2e-16 ***
abdomen        0.54427    0.04627  11.762  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.033 on 245 degrees of freedom
Multiple R-squared:  0.9398,    Adjusted R-squared:  0.9388 
F-statistic: 956.7 on 4 and 245 DF,  p-value: < 2.2e-16

Adequação do Modelo

No slide anterior verificamos que:

  1. Todos os coeficientes são significativos ao nível de 1% (p-valor < 0,01)

  2. O coeficiente de determinação(undefined) foi calculado em 0,9388.

O modelo é significativo e as variáveis explicam conjuntamente 93,88% da variação dos dados.

Esse modelo é bastante explicativo, ou seja, as variáveis idade, peitoral e abdomen, conjuntamente são capazes de explicar quase que totalmente o comportamento da variável peso.

Adequação do Modelo

Entretanto, ainda existe um ponto de melhoria neste modelo. Conforme dito, a variável idade apresenta uma relação bastante fraca com o peso. Vejamos como o modelo se comporta sem ela.

#Ajuste e atribuição do modelo de regressão linear múltiplo sem a idade
modelo3 <- lm(peso ~ altura + peitoral + abdomen, data = gordura)

#Resumo do modelo
summary(modelo3)

Call:
lm(formula = peso ~ altura + peitoral + abdomen, data = gordura)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2076  -2.0926  -0.0806   2.1274  11.9619 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -143.13928    5.99250 -23.886   <2e-16 ***
altura         0.62209    0.03308  18.806   <2e-16 ***
peitoral       0.68315    0.06391  10.689   <2e-16 ***
abdomen        0.47744    0.05065   9.426   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.378 on 246 degrees of freedom
Multiple R-squared:  0.925, Adjusted R-squared:  0.9241 
F-statistic:  1012 on 3 and 246 DF,  p-value: < 2.2e-16

Adequação do modelo

  • A retirada da variável idade praticamente não afetou a qualidade do modelo.

  • O \(R^2\) caiu de 0,9388 para 0,9241.

  • Entretanto o modelo ficou bem mais simples, pois 25% das variáveis foram removidas.

  • Por esse motivo, variáveis que não apresentam correlação com a variável resposta não devem ser incluídas, pois seu efeito é reduzido e aumenta a complexidade do modelo.

Buscamos sempre por um modelo capaz de dar boas respostas, porém parcimonioso.

Adequação do modelo

O modelo final fica dado por:

\[ peso = -143,139 + 0,622 \cdot altura + 0,683 \cdot peitoral + 0,477 \cdot abdomen \]

  • O acréscimo de 1cm na altura, fixadas as demais variáveis, aumenta em média 0,622kg de peso.

  • O acréscimo de 1cm no peitoral, fixadas as demais variáveis, aumenta em média 0,683kg de peso.

  • O acréscimo de 1cm no abdomen, fixadas as demais variáveis, aumenta em média 0,477kg de peso.

Variáveis Qualitativas em Modelos de Regressão

  • Nos modelos apresentados, tanto a variável resposta quanto as explicativas eram numéricas.

  • Entretanto, em muitos casos variáveis qualitativas são importantes na explicação de fenômenos, por exemplo:

    • Sexo na variação de altura e peso.

    • Hábito de fumar (sim ou não) na incidência de câncer de pulmão.

    • Incidência direta ou indireta de sol no tamanho de determinada espécie de planta.

    • Uso ou não uso de máscara na proporção de casos de COVID, dentre outros.

  • Mas como esses valores não numéricos são inseridos na regressão linear?

Variáveis Qualitativas no R

  • Antes de explicar a utilização das variáveis qualitativas, precisamos apresentar um novo tipo de variável presente no R, os fatores (factor no R).

  • A variáveis qualitativas no R geralmente são atribuídas como fator.

  • O fator é uma classe de valores qualitativos em que existem níveis definidos.

  • Ou seja, todos os valores se resumem àqueles níveis pré-estabelecidos. Exemplos:

    • Variável sexo - níveis: feminino e masculino.

    • Variável diabetes - níveis: sim e não.

    • Variável resultado - níveis: aprovado, reprovado, exame especial

Variáveis Qualitativas no R

Para ilustrar, vamos utilizar novamente o conjunto de dados bacalhau. Vejamos novamente suas variáveis:

#Visualização das variáveis
str(bacalhau)
'data.frame':   54 obs. of  8 variables:
 $ Bacalhau    : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Area        : chr  "Mageroya" "Soroya" "Soroya" "Varangerfjord" ...
 $ Idade       : int  6 4 5 4 6 5 8 1 7 6 ...
 $ Sexo        : chr  "Fêmea" "Fêmea" "Macho" "Fêmea" ...
 $ Peso        : int  1548 1382 4336 986 4292 1746 6934 130 2900 3948 ...
 $ Compr       : int  59 51 76 48 77 56 93 26 75 72 ...
 $ Estagio     : chr  "Imaturo" "Imaturo" "Maduro" "Imaturo" ...
 $ Tripanosomas: int  1 0 3 0 0 0 0 0 0 0 ...

Note que as variáveis Area, Sexo e Estágio não são numéricas, e sim caracteres. Porém elas apresentam níveis. Por exemplo, a variável Sexo tem os níveis Fêmea e Macho.

#Vamos verificar as frequências da variável Sexo
table(bacalhau$Sexo)

Fêmea Macho 
   26    28 

Variáveis Qualitativas no R

Nesse caso, podemos converter a variável de caractere para fator. Para tal existem duas funções:

  • as.factor - Converte a variável para qualitativa nominal, em que a ordem dos fatores não é relevante.

  • ordered -Converte a variável para qualitativa ordinal, em que a ordem dos fatores é relevante. Nesse caso, deve-se informar o ordenamento por meio do parâmetro levels.

Vamos converter a variável Sexo para qualitativa nominal e a variável Estagio para qualitativa ordinal

Variáveis Qualitativas no R

Primeiramente, converteremos a variável Sexo em fator:

#Conversão da variável sexo para qualitativa 
bacalhau$Sexo <- as.factor(bacalhau$Sexo)
bacalhau$Sexo
 [1] Fêmea Fêmea Macho Fêmea Macho Fêmea Fêmea Fêmea Macho Fêmea Macho Macho
[13] Macho Macho Fêmea Fêmea Macho Fêmea Fêmea Macho Macho Fêmea Macho Macho
[25] Fêmea Macho Macho Macho Macho Macho Macho Fêmea Macho Macho Macho Macho
[37] Fêmea Fêmea Macho Macho Fêmea Macho Fêmea Macho Fêmea Macho Fêmea Macho
[49] Fêmea Fêmea Fêmea Fêmea Fêmea Fêmea
Levels: Fêmea Macho

Perceba que na variável Sexo os níveis foram ordenados por ordem alfabética.

Variáveis Qualitativas no R

Para converter a variável Estagio, devemos definir o ordenamento. Vamos utilizar a ordem Imaturo - Intermediário - Maduro. Esse ordenamento é definido no parâmetro levels, no qual deve ser informado o vetor com os parâmetros ordenados.

#Conversão da variável sexo para qualitativa 
bacalhau$Estagio <- ordered(bacalhau$Estagio, levels = c("Imaturo", "Intermediário", "Maduro"))
bacalhau$Estagio
 [1] Imaturo       Imaturo       Maduro        Imaturo       Imaturo      
 [6] Imaturo       Maduro        Imaturo       Maduro        Maduro       
[11] Maduro        Maduro        Imaturo       Intermediário Imaturo      
[16] Maduro        Imaturo       Imaturo       Intermediário Imaturo      
[21] Intermediário Maduro        Imaturo       Imaturo       Imaturo      
[26] Imaturo       Intermediário Imaturo       Imaturo       Imaturo      
[31] Maduro        Imaturo       Imaturo       Imaturo       Imaturo      
[36] Imaturo       Imaturo       Maduro        Maduro        Imaturo      
[41] Maduro        Imaturo       Imaturo       Imaturo       Intermediário
[46] Imaturo       Imaturo       Imaturo       Imaturo       Intermediário
[51] Maduro        Intermediário Intermediário Imaturo      
Levels: Imaturo < Intermediário < Maduro

Note o ordenamento dos níveis: Imaturo<Intermediário<Maduro.

Variáveis Qualitativas no R

Podemos também converter os caracteres em fatores já na leitura do arquivo. Basta utilizar o parâmetro stringsAsFactors = T na função read.csv. Nesse caso, os fatores são convertidos como variáveis qualitativas nominais, ou seja, sem ordenamento.

Vamos reler nosso conjunto de dados bacalhau já convertendo os caracteres em fatores:

#Leitura dos dados com conversão de fatores
bacalhau <- read.csv2("Bacalhau.csv", h = T, stringsAsFactors = T)
str(bacalhau)
'data.frame':   54 obs. of  8 variables:
 $ Bacalhau    : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Area        : Factor w/ 4 levels "Mageroya","Soroya",..: 1 2 2 4 1 1 2 4 3 2 ...
 $ Idade       : int  6 4 5 4 6 5 8 1 7 6 ...
 $ Sexo        : Factor w/ 2 levels "Fêmea","Macho": 1 1 2 1 2 1 1 1 2 1 ...
 $ Peso        : int  1548 1382 4336 986 4292 1746 6934 130 2900 3948 ...
 $ Compr       : int  59 51 76 48 77 56 93 26 75 72 ...
 $ Estagio     : Factor w/ 3 levels "Imaturo","Intermediário",..: 1 1 3 1 1 1 3 1 3 3 ...
 $ Tripanosomas: int  1 0 3 0 0 0 0 0 0 0 ...

Agora que sabemos como trabalhar com fatores, vamos retornar à regressão linear.

Variáveis Qualitativas em Modelos de Regressão

  • A interpretação de variáveis qualitativas nos modelos de regressão é bastante simples.

  • Considere os níveis da variável qualitativa:

    • Um dos níveis é definido como padrão, chamamos de linha de base (ou baseline). Será a categoria de referência.

    • Cada nível diferente da linha de base entra no modelo como uma variável.

    • Caso a característica seja observada no indivíduo, ele recebe valor 1. Caso contrário recebe valor 0.

  • Para entender melhor, vejamos alguns exemplos.

Variáveis Qualitativas com dois níveis

Vamos ajustar um modelo para o peso do bacalhau com base no sexo.

#Modelo de peso por sexo
modelo4 <- lm(Peso ~ Sexo, data = bacalhau)
summary(modelo4)

Call:
lm(formula = Peso ~ Sexo, data = bacalhau)

Residuals:
    Min      1Q  Median      3Q     Max 
-2177.8 -1282.0  -585.1  1031.0  6295.6 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2307.8      344.2   6.705 1.46e-08 ***
SexoMacho     -177.4      478.0  -0.371    0.712    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1755 on 52 degrees of freedom
Multiple R-squared:  0.002642,  Adjusted R-squared:  -0.01654 
F-statistic: 0.1378 on 1 and 52 DF,  p-value: 0.712

Note que o Sexo não é significativo, mas vamos focar na interpretação.

Variáveis Qualitativas com dois níveis

Nosso modelo é dado por:

\[ Peso = 2307,8 - 177,4 \cdot SexoMacho \]

Nesse caso, a categoria de referência é o sexo Feminino.

A variável SexoMacho receberá os seguintes valores:

  • 0 se o peixe for Fêmea

  • 1 se o peixe for Macho.

Variáveis Qualitativas com dois níveis

Ou seja, o peso médio dos bacalhaus fêmea é 2307,8, pois nesse caso, \(SexoMacho = 0\). Logo

\[ Peso = 2307,8 - 177,4 \cdot 0 = 2307,8 \]

Já para os bacalhaus machos temos \(SexoMacho = 1\), logo, o peso esperado é dado por:

\[ Peso = 2307,8 - 177,4 \cdot 0 = 2130,4 \]

Portanto, espera-se que bacalhaus machos sejam, em média, 177,4g mais leves que as fêmeas.

Variáveis Qualitativas com mais de dois níveis

O mesmo ocorre com variáveis com mais de dois níveis. Vamos ajustar um modelo para explicar o Peso por Idade e Area:

#Modelagem do peso por idade e região
modelo5 <- lm(Peso ~ Idade + Area, data = bacalhau)
summary(modelo5)

Call:
lm(formula = Peso ~ Idade + Area, data = bacalhau)

Residuals:
    Min      1Q  Median      3Q     Max 
-1946.0  -600.5  -130.1   425.9  2429.4 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)       -1659.49     480.45  -3.454  0.00115 ** 
Idade               743.30      83.59   8.892 8.55e-12 ***
AreaSoroya          217.68     430.73   0.505  0.61556    
AreaTanafjord       267.62     395.64   0.676  0.50194    
AreaVarangerfjord   334.39     490.73   0.681  0.49882    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1092 on 49 degrees of freedom
Multiple R-squared:  0.6361,    Adjusted R-squared:  0.6064 
F-statistic: 21.42 on 4 and 49 DF,  p-value: 2.904e-10

Variáveis Qualitativas com mais de dois níveis

Assim como o Sexo, a variável Area não foi significativa. Mas vejamos como interpretaríamos:

\[ Peso = 743,3 \cdot Idade + 217,7\cdot AreaSoroya + \\ 267,6\cdot AreaTanajford+ 334,4\cdot AreaTanajford \]

  • A área Mageroya foi definida como categoria de referência.

  • O intercepto não apresenta interpretação prática, pois não se pode observar um bacalhau de idade 0.

  • A cada Ano espera-se um aumento de 743g de peso nos bacalhaus.

  • Para bacalhaus de Soroya, espera-se um peso 217,68g maior que os de Mageroya.

  • Para bacalhaus de Tanafjord, espera-se um peso 267,62g maior que os de Mageroya.

  • Para bacalhaus de Varangerfjord, espera-se um peso 267,62g maior que os de Mageroya.

Conclusão

  • A análise de regressão é uma técnica bastante popular e útil em pesquisa científica.

  • Nessas aulas, discutimos aspectos básicos para sua aplicação e interpretação prática.

  • Alguns conceitos serão revisitados após nosso estudo de novas técnicas.

  • É importante leitura e prática para compreender todo o processo e se tornar fluente na técnica.

  • Para encerrar, um passo a passo para o ajuste de um modelo de regressão linear.

Passo a Passo: Regressão Linear

  1. Identificar a variável resposta (Y) e as variáveis explicativas (X).

  2. Avaliar a relação entre as variáveis explicativas e a variável resposta, por meio das funções plot(x, y) e cor(x, y).

  3. Ajustar o modelo de regressão linear por meio da função lm(y ~ x1 + x2 + ..., data = dados)(substituir y, x1, x2,... pelas variáveis em estudo e dados pelo banco de dados em estudo.

  4. Verifique se os coeficientes são significativos com o teste de hipóteses (função summary). Caso alguma variável não seja significativa, ela deve ser retirada do modelo e um novo ajuste deve ser realizado.

  5. Verifique se as variáveis explicativas explicam bem a variável resposta por meio do \(R^2\) (função summary).

  6. Escreva o modelo ajustado e interprete seu resultado.

Exercício Prático

Utilize o passo a passo do slide anterior para resolver os seguintes exercícios:

  1. Refaça o exemplo da modelagem de peso, mas inclua as seguintes variáveis: idade, altura, pescoço, peitoral, abdomen, quadril e coxa.

  2. Com a base de dados bacalhau, ajuste um modelo que explique o peso do bacalhau com base nas variáveis Idade, Sexo, Compr, Estágio e Tripanosomas.

Inclua as interpretações do modelo no script usando comentários.