03/02/2022

Introdução

Os dados de palmerpenguins contém medidas de tamanho para três espécies de pinguins observadas em três ilhas no Arquipélago Palmer, na Antártida. Esses dados foram coletados de 2007 a 2009 pela Dra. Kristen Gorman com o Palmer Station Long Term Ecological Research Program[1], parte da US Long Term Ecological Research Network[2].

[1] Palmer Station, Antarctica LTER. Página web. http://https://pal.lternet.edu. Acessado: 01-02-2022.

[2] US Long Term Ecological Research Network. Página web. http://https://https://lternet.edu/ Acessado: 01-02-2022

Introdução

Introdução

O presente trabalho se propõe a investigar quais variáveis podem melhor explicar o comprimento do bico de pinguins da espécie Gentoo no arquipélago Palmer.

Ao decorrer do processo foi preciso ajustar diversos modelos de regressão linear múltipla até escolher o modelo mais adequado aos dados e que respeita as suposições de normalidade, homocedasticidade e independência dos erros, além de linearidade entre as variáveis.

Revisão Bibliográfica

Segundo os principais estudos sobre os pinguins da ilha Palmer, a variável sexo possui forte relação com o tamanho do comprimento do bico de todos os pinguins da ilha palmer, mas a espécia Gentoo em especial possui o coeficiente mais influente para essa variável em alguns dos modelos propostos[3] e por conta disso supomos razoável incluir a variável no ajuste final.

[3] GORMAN, Kristen B.; WILLIAMS, Tony D.; FRASER, William R. Ecological sexual dimorphism and environmental variability within a community of Antarctic penguins (genus Pygoscelis). PloS one, v. 9, n. 3, p. e90081, 2014.

Revisão Bibliográfica

Como a maioria dos modelos dos artigos de referência são modelos lineares generalizados[4], nossa técnica de encontrar o melhor modelo foi falha.

[4] GORMAN, Kristen; LTER, Palmer Station Antarctica. Structural size measurements and isotopic signatures of foraging among adult male and female Gentoo penguins (Pygoscelis papua) nesting along the Palmer Archipelago near Palmer Station, 2007-2009. 2014.

Dataset - Variáveis explicativas

  • sex: Sexo do Pinguim. (variável binária)
  • year: Ano de coleta do dado. (variável qualitativa)
  • island: Ilha de origem do pinguim. (variável qualitativa)
  • species: Espécie do pinguim.(variável qualitativa)
  • bill_depth_mm: Profundidade do bico do pinguim em milímetros.(variável quantitativa contínua)
  • flipper_length_mm: Comprimento da nadadeira do Pinguim em milímetros. (variável quantitativa contínua)
  • body_mass_g: Massa corporal em gramas do pinguim.

Dataset - Variáveis resposta

  • bill_length_mm: Comprimento do bico do pinguim em milímetros. (variável quantitativa contínua)

Dataset

Dataset

species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g sex year
Adelie Torgersen 39.1 18.7 181 3750 male 2007
Adelie Torgersen 39.5 17.4 186 3800 female 2007
Adelie Torgersen 40.3 18.0 195 3250 female 2007
Adelie Torgersen NA NA NA NA NA 2007
Adelie Torgersen 36.7 19.3 193 3450 female 2007
Adelie Torgersen 39.3 20.6 190 3650 male 2007

Limpando o dataset

Existem 11 linhas com valores faltantes no dataset. Para não prejudicar o experimento, retiramos todas as linhas em que pelo menos uma coluna não tenha um dado. Também filtramos os dados para apenas selecionar a espécie Gentoo.

Em seguida verificamos se havia algum valor discrepante na amostra para as variáveis numéricas por meio de box plots.

Distribuição da massa corporal em gramas

Distribuição da profundidade do bico em milímetros

Distribuição do comprimento da nadadeira em milímetros

Distribuição do comprimento do bico em milímetros

Detecção do outlier

Testamos um novo modelo retirando o valor discrepante usando o teste de Grubbs para identificá-lo(\(Ho\): O valor mais alto do dataset não é discrepante).

Transformando a variável sexo em numérica

Para poder realizar operações com a variável sexo, escolhemos “feminino” como categoria de referência e transformamos a coluna em numérica.

One-hot encoding das variáveis categóricas

Criamos 3 variáveis indicadoras para a variável categórica ilha.

bill_length_mm species_Adelie species_Chinstrap species_Gentoo island_Biscoe island_Dream island_Torgersen bill_depth_mm flipper_length_mm body_mass_g sex
46.1 0 0 1 1 0 0 13.2 211 4500 1
50.0 0 0 1 1 0 0 16.3 230 5700 0
48.7 0 0 1 1 0 0 14.1 210 4450 1
50.0 0 0 1 1 0 0 15.2 218 5700 0
47.6 0 0 1 1 0 0 14.5 215 5400 0
46.5 0 0 1 1 0 0 13.5 210 4550 1

Seleção do modelo

Usamos inicialmente o método de “todos os modelos possíveis” para escolher o melhor modelo. Avaliamos as métricas \(R^2\), \(R^2\) ajustado, estatística PRESS e informação de Akaike(AIC).

Escolhemos os seguintes critérios para tornar automática a comparação entre modelos:

  • Diferença entre o \(R^2\) do modelo mais simples e do mais completo menor que 0.05,

  • \(R^2\) do modelo mais recente for maior que o modelo antigo em 0.09.

  • AIC do modelo antigo maior que do modelo novo.

  • Estatística PRESS do modelo antigo maior que do modelo novo.

Se TODOS os critérios acima são respeitados, o modelo novo é escolhido.

Resultado

Observations 118
Dependent variable bill_length_mm
Type OLS linear regression
F(2,115) 55.66
0.49
Adj. R² 0.48
Est. S.E. t val. p
(Intercept) -7.71 6.82 -1.13 0.26
bill_depth_mm 1.07 0.28 3.84 0.00
flipper_length_mm 0.18 0.04 4.32 0.00
Standard errors: OLS

Modelo escolhido

Como os modelos dos artigos de referência são modelos lineares generalizados, nossa técnica de encontrar o melhor modelo linear foi falha. Usamos o método de todos os modelos possíveis, mas chegamos à conclusão de que o modelo não reforçava o que diz a literatura e não respeitava as suposições de um modelo linear.

Modelo escolhido

Optamos por modelos baseados nas variáveis mais presentes na literatura e manualmente testar a violação de suposições através da análise de resíduos e realizar a comparação entre modelos reduzidos com o modelo completo por meio do teste F-parcial. Também analisamos valores influentes por meio das DFBETAS, que não ultrapassaram o limiar \(\frac{2}{\sqrt{118}}\) para nenhuma variável do modelo. Logo não foi preciso se preocupar com valores influentes alterando o ajuste do modelo. É seguro também afirmar que não houve problemas de colinearidade no modelo, pois calculamos os fatores de inflação de variância para cada variável e todos foram baixos. No fim foi necessária uma transformação da variável resposta para que o ajuste fosse ideal.

Modelo escolhido

Descobrimos que o modelo que inclui as variaveis massa corporal em grama, sexo e comprimento da nadadeira, é o que melhor se ajusta aos dados com um \(R^2\) = 0,4919, que é razoavelmente bom para sugerir uma boa qualidade do ajuste do modelo que tem como variável resposta o logaritmo natural do comprimento do bico do penguim.

\[log(Y) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \epsilon\] Onde Y corresponde ao comprimento do bico em milímetros, \(X_1\) massa corporal em gramas, \(X_2\) sexo, \(X_3\) tamanho da nadadeira em milímetros e \(\epsilon\) os resíduos.

Modelo escolhido

## 
## Call:
## lm(formula = log(dados$bill_length_mm) ~ dados$body_mass_g + 
##     dados$sex + dados$flipper_length_mm)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.109955 -0.027128  0.000716  0.025198  0.103189 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              3.069e+00  1.825e-01  16.819  < 2e-16 ***
## dados$body_mass_g        3.020e-05  1.455e-05   2.076  0.04016 *  
## dados$sex               -2.871e-02  1.380e-02  -2.081  0.03966 *  
## dados$flipper_length_mm  2.992e-03  8.849e-04   3.381  0.00099 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04296 on 114 degrees of freedom
## Multiple R-squared:  0.5195, Adjusted R-squared:  0.5069 
## F-statistic: 41.09 on 3 and 114 DF,  p-value: < 2.2e-16

Considerando as hipóteses das variáveis explicativas serem ou não significativas, de acordo com os p-valores, ao nível de significância de 5%, temos evidências para rejeitar que as variáveis explicativas e o intercepto são não significativos.

Pela a hipótese da significância do modelo, o p-valor calculado a partir da estatística F mostra que ao nível de significância de 5%, temos evidências para rejeitar que o modelo é não significativo.

O \(R^2\) mostra que conseguimos explicar por volta de 47% dos erros do modelo, o que para este presente trabalho é satisfatório para contribuir na sustentação de nossa hipótese inicial de que há uma relação linear entre as variáveis explicativas e a variável resposta.

Interpretação dos coeficientes do modelo

  • Intercepto: Em média, o logaritmo do comprimento do bico é de 3.069 mm.

  • Massa corporal em gramas: a cada grama, o logaritmo do comprimento do bico do Gentoo aumenta a uma taxa de 0,00003 mm.

  • Sexo: Como fêmeas compoem a referência da variável, o coeficiente indica que o logaritmo do bico das fêmeas é menor em comprimento em -0,02871 mm.

  • Comprimento da nadadeira: A cada milímetro da nadadeira o logaritmo do bico do pinguim Gentoo aumenta em 0,002992 mm.

Análise dos resíduos

Com o modelo ajustado, prosseguimos para verificar as suposições do modelo com gráficos e testes.

Homecedasticidade

Observando o gráfico dos resíduos, é possível notar que os resíduos não aparentam seguir um padrão.

Normalidade

Observando o histograma, podemos ver que os resíduos aparentam seguir uma distribuição normal.

Linearidade

Usamos o teste de falta de ajuste para verificar a linearidade entre as variáveis resposta e explicativas. A conclusão foi que não há evidências ao nível de 5% de significância para rejeitar a hipótese nula de que o modelo mais simples é adequado aos dados.

## Analysis of Variance Table
## 
## Model 1: log(dados$bill_length_mm) ~ dados$body_mass_g + dados$sex + dados$flipper_length_mm
## Model 2: log(dados$bill_length_mm) ~ species_Adelie + species_Chinstrap + 
##     species_Gentoo + island_Biscoe + island_Dream + island_Torgersen + 
##     bill_depth_mm + flipper_length_mm + body_mass_g + sex
##   Res.Df     RSS Df Sum of Sq      F  Pr(>F)  
## 1    114 0.21040                              
## 2    113 0.20539  1 0.0050066 2.7544 0.09976 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Independência

Temos informações sobre a sequência de coleta dos dados, portanto usaremos o teste de Durbin-Watson para verificar independência entre os erros, onde a hipótese nula é de que os erros não são autocorrelacionados entre si. Como o p-valor da estatística de teste é maior que 0.05, ao nível de significância de 5% não há evidências para rejeitar a hipótese nula, e assim, o modelo respeita mais uma suposição.

##  lag Autocorrelation D-W Statistic p-value
##    1       0.0722902      1.845033   0.422
##  Alternative hypothesis: rho != 0

Detectando valores influentes

Observando a tabela com os DFBETAS é possível perceber que não há nenhum valor que ultrapasse o limiar \(\frac{2}{\sqrt{118}}\), logo não há de se preocupar com valores influentes alterando o ajuste do modelo.

intercept body_mass_g sex flipper_length_mm
0.0034944 -4.0e-07 0.0000481 -6.30e-06
0.0124209 -1.0e-07 -0.0002362 -5.58e-05
0.0194705 -1.6e-06 -0.0002598 -4.73e-05
0.0052599 7.0e-07 -0.0001298 -3.86e-05
-0.0069393 -1.0e-07 0.0004224 3.29e-05
0.0076339 -3.0e-07 0.0001303 -2.78e-05

Multicolinearidade

Como os fatores de aumento de variância não são muito altos é seguro afirmar que não temos problemas graves de multicolinearidade seguindo essse modelo.

##       dados$body_mass_g               dados$sex dados$flipper_length_mm 
##                  3.2975                  3.0416                  2.1016

Conclusão

O modelo final apresentou com \(R^2\) = 0,4919 um ajuste satisfatório e nos indica uma relação logarítmica entre o comprimento do bico do pinguim Gentoo em milímetros e as variaveis sexo, comprimento da nadadeira em milímetros e massa corporal em gramas. Porém, com base nas referências acreditamos ser possível ajustar um modelo linear generalizado com performance significativamente superior ao proposto nesse presente trabalho.

Obrigado!!!