Universidade Estadual da Paraíba Centro de Ciências e Tecnologia Departamento de Estatística Disciplina:Modelos Lineares Generalizados

Relatório: Pesca / Espinhel de fundo

A pesca com espinhel de fundo é uma técnica passiva amplamente utilizada em todo o mundo, tanto em operações artesanais quanto em pescarias modernas e mecanizadas. Esse método envolve o uso de uma linha principal de onde se estendem linhas secundárias com anzóis que permanecem no fundo do mar, capturando peixes que se alimentam próximos ao substrato marinho.

Esta técnica é vital para muitas comunidades costeiras, proporcionando uma fonte importante de alimento e renda. Em escala global, a pesca com espinhel contribui significativamente para o fornecimento de peixes de alta qualidade ao mercado internacional.

Objetivo

Para garantir que essa prática continue viável a longo prazo, é essencial otimizar as operações de pesca, utilizando os dados obtidos para aprimorar as técnicas e estratégias de pesca, aumentando a eficiência e a produtividade das frotas pesqueiras.

O objetivo é explicar a variável CPUE (captura por unidade de esforço) a partir das demais variáveis. Entender quais fatores influenciam a eficiência da pesca pode ajudar a otimizar operações e promover práticas mais sustentáveis.

Promover práticas sustentáveis, desenvolver e implementar recomendações que minimizem os impactos ambientais e garantam a sustentabilidade dos recursos pesqueiros. Conservar os ecossistemas marinhos, propondo medidas de gestão que contribuam para a preservação dos habitats marinhos e a biodiversidade associada. Apoiar a subsistência das comunidades pesqueiras , garantindo que as comunidades costeiras continuem a ter acesso a recursos pesqueiros de maneira sustentável, mantendo suas fontes de alimento e renda.

Banco de Dados

O estudo foca na atividade das frotas pesqueiras de espinhel de fundo baseadas nas cidades de Santos e Ubatuba, no litoral do estado de São Paulo, Brasil. A amostra analisada compreende 156 embarcações, das quais 39 pertencem à frota de Ubatuba e 117 à frota de Santos. O período de análise vai de 1995 a 1999, permitindo uma visão abrangente sobre as operações pesqueiras durante esses anos. A espécie de peixe em destaque é o peixe-batata (Lopholatilus villarii), reconhecido por sua importância comercial e ampla distribuição geográfica.

Logo, podemos observar uma prévia dos dados abaixo:

Descrições das Variáveis

O banco de dados é composto por 7 variáveis, cada uma com um papel específico na análise e no processamento dos dados, as descrições detalhadas de cada variável são apresentadas a seguir:

1.Frota: Indica se a embarcação pertence à frota de Santos ou Ubatuba.

2.Ano: Período de atividade, variando de 1995 a 1999.

3.Trimestre: Divisão do ano em quatro períodos (1 ao 4).

4.Latitude e Longitude: Coordenadas geográficas das áreas de pesca.

5.Dias de Pesca: Número de dias em que a pesca foi realizada.

6.Captura: Quantidade de peixe-batata capturado, em quilogramas.

7.CPUE (Captura por Unidade de Esforço): Medida de eficiência, calculada como a quantidade de peixe capturada por dia de pesca (kg/dias de pesca).

Análise Descritiva

Quando se trabalha com um banco de dados, é comum encontrar variáveis armazenadas como caracteres, mesmo que elas representem valores numéricos, como coordenadas geográficas ou datas. Para realizar operações matemáticas ou análises estatísticas, é necessário converter essas variáveis de caracteres para numéricas. Portanto, esse procedimento foi realizado para as variáveis latitude, longitude e dia.

Essa abordagem visa fornecer uma visão geral e resumida dos dados, utilizando medidas descritivas para facilitar a compreensão da distribuição e das principais características dos dados. Ela envolve o cálculo de estatísticas como médias , medianas entre , máximos , entre outros. Permitindo uma visão clara dos padrões e tendências presentes no conjunto de dados.

Logo abaixo podemos observavar a seguinte tabela :

1.Tabela da distribuição da variável frota

Frota	Quantidade
São Paulo	117
Ubatuba	39

O gráfico abaixo ajuda a entender a distribuição temporal das capturas registradas em anos específicos. Podemos observar que o ano de 1999 apresenta a maior frequência, seguido por 1998, 1997, 1995 e, por fim, 1996, que possui a menor frequência.

O ano é dividido em quatro trimestres, cada um contendo três meses consecutivos:

1º Trimestre: Janeiro, Fevereiro, Março ;

2º Trimestre: Abril, Maio, Junho ;

3º Trimestre: Julho, Agosto, Setembro ;

4º Trimestre: Outubro, Novembro, Dezembro ;

Temos o seguinte gráfico abaixo:

O trimestre com o valor mais alto é o 3º Trimestre (Julho, Agosto, Setembro), indicando o período de maior produtividade. As condições são provavelmente ideais para a pesca batata, seja devido ao clima, à disponibilidade de peixes ou à implementação de melhores técnicas de pesca.

DIA :

A distribuição da captura esta relacionada à quantidade de peixe capturado em uma determinada unidade de tempo , logo temos abaixo:

Estatística	Valor
Min.	500000
Median	12000000
Mean	16232756
Max.	65000000

A CPUE permite entender a eficiência das operações de pesca, logo temos a seguinte tabela abaixo:

Estatística	Valor
Min.	4375000
Median	16641026
Mean	19554557
Max.	60000000

O histograma pode mostrar uma distribuição com um pico em torno da média de 19554557 kg/dias de pesca, indicando que a maioria das operações de pesca tem uma eficiência próxima a essa média.

Correlação

A correlação de Spearman é uma medida de dinâmica não paramétrica que avalia a relação monotônica entre variável, sendo adequada para variáveis ordinais ou não normalmente distribuídas.

A variável cpue não atende aos requisitos da correlação de Pearson. Portanto, para analisar a relação entre idade, renda e saúde nos seus dados, irems utilizar a correlação de Spearman.

Multicolinearidade

A multicolinearidade ocorre quando duas ou mais variáveis independentes de um modelo de regressão estão altamente correlacionadas entre si. Podemos verificar se no nosso banco de dados tem a presença de multicolinearidade pela correlação, onde o recomendável seja que a correlação entre as variáveis seja menor que 0.90.

E de acordo com as correlações, todas são menores que 0.9, ou seja, podemos concluir que não existe multicolinearidade entre as variáveis independentes.

Teste de Normalidade

O teste de normalidade de Shapiro-Wilk é utilizado para verificar se uma amostra de dados segue uma distribuição normal. Formalmente, as hipóteses deste teste são:

- Hipótese nula (H₀): A amostra provém de uma população com distribuição normal.

- Hipótese alternativa (H₁): A amostra não provém de uma população com distribuição normal.

Vamos aplicá-lo à variável resposta “cpue” para avaliar sua normalidade.

## 
##  Shapiro-Wilk normality test
## 
## data:  dados$cpue
## W = 0.90468, p-value = 1.492e-08

Neste caso, como o p-value = (1.492e-08) é menor que 0,05, há evidências estatísticas significativas para rejeitar a hipótese nula de que os dados seguem uma distribuição normal. Em outras palavras, os dados da variável “cpue” não se distribuem normalmente. Portanto, será necessário aplicar modelos lineares generalizados (MLG).

O gráfico a seguir compara os quantis teóricos de uma distribuição normal com os quantis observados dos dados que desejamos analisar. Quando os pontos no gráfico se aproximam de uma linha diagonal, isso sugere que os dados podem seguir uma distribuição normal. Caso contrário, se os pontos se afastam significativamente dessa linha, indica que os dados podem não seguir uma distribuição normal.

Aplicando Modelos Lineares Generalizados

Modelagem para a Distribuição Normal

Um modelo inicial é ajustado usando a função glm, onde cpue é a variável resposta e ano, trim, latit, long, dia e captura são preditores. O modelo assume uma distribuição gaussiana dos erros e uma relação linear entre as variáveis preditoras e a resposta.

attach(dados)
modelo1=glm(cpue~ano+trim+latit+long+dia+captura,family=gaussian(link="identity"))
summary(modelo1)

## 
## Call:
## glm(formula = cpue ~ ano + trim + latit + long + dia + captura, 
##     family = gaussian(link = "identity"))
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.163e+07  5.628e+08   0.127    0.899    
## ano         -2.076e+04  2.821e+05  -0.074    0.941    
## trim        -1.868e+05  4.120e+05  -0.453    0.651    
## latit        6.081e+05  5.724e+05   1.062    0.290    
## long        -5.512e+05  6.308e+05  -0.874    0.384    
## dia         -2.092e+06  1.365e+05 -15.324   <2e-16 ***
## captura      1.049e+00  4.251e-02  24.686   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 2.586026e+13)
## 
##     Null deviance: 2.2717e+16  on 155  degrees of freedom
## Residual deviance: 3.8532e+15  on 149  degrees of freedom
## AIC: 5269.4
## 
## Number of Fisher Scoring iterations: 2

Este resumo o modelo mostra os coeficientes estimados para cada variável preditora no modelo de regressão, onde:

Intercept: Não significativo (p = 0.899), com um valor muito alto.

Ano, Trim, Latit, Long: Não significativos (p > 0.05), não contribuem significativamente para explicar a variação em cpue.

Dia e Captura: Altamente significativos (p < 0.001), têm um efeito altamente significativo em cpue.

Seleção de Covariáveis:

Aplicando o método de Akaike - AIC

O critério de Akaike estende a máxima verossimilhança para comparar modelos com diferentes números de parâmetros. Ele ajuda a decidir quando parar de ajustar modelos, com um AIC menor indicando um ajuste melhor. Para calcular o AIC, adicionamos uma função de penalidade à função log-verossimilhança, corrigindo viés ao comparar modelos com diferentes números de parâmetros. A fórmula do AIC é dada por:

\[ AIC = -2 \sum_{i=1}^{n} l(\hat{\mu}_i, y_i) + 2p \]

Onde \(l(\hat{\mu}_i, y_i)\) representa a função de verossimilhança, \(p\) é o número de parâmetros do modelo e \(n\) é o tamanho da amostra, essa formulação nos permite fazer comparações justas entre modelos de diferentes complexidades.

stepAIC(modelo1)

## Start:  AIC=5269.41
## cpue ~ ano + trim + latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - ano      1 3.8533e+15 5267.4
## - trim     1 3.8585e+15 5267.6
## - long     1 3.8729e+15 5268.2
## - latit    1 3.8824e+15 5268.6
## <none>       3.8532e+15 5269.4
## - dia      1 9.9256e+15 5415.0
## - captura  1 1.9612e+16 5521.3
## 
## Step:  AIC=5267.41
## cpue ~ trim + latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - trim     1 3.8585e+15 5265.6
## - long     1 3.8734e+15 5266.2
## - latit    1 3.8829e+15 5266.6
## <none>       3.8533e+15 5267.4
## - dia      1 9.9324e+15 5413.1
## - captura  1 1.9618e+16 5519.3
## 
## Step:  AIC=5265.63
## cpue ~ latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - long     1 3.8804e+15 5264.5
## - latit    1 3.8851e+15 5264.7
## <none>       3.8585e+15 5265.6
## - dia      1 9.9444e+15 5411.3
## - captura  1 1.9895e+16 5519.5
## 
## Step:  AIC=5264.51
## cpue ~ latit + dia + captura
## 
##           Df   Deviance    AIC
## - latit    1 3.8861e+15 5262.7
## <none>       3.8804e+15 5264.5
## - dia      1 1.0073e+16 5411.3
## - captura  1 2.0650e+16 5523.3
## 
## Step:  AIC=5262.73
## cpue ~ dia + captura
## 
##           Df   Deviance    AIC
## <none>       3.8861e+15 5262.7
## - dia      1 1.0201e+16 5411.3
## - captura  1 2.2673e+16 5535.9

## 
## Call:  glm(formula = cpue ~ dia + captura, family = gaussian(link = "identity"))
## 
## Coefficients:
## (Intercept)          dia      captura  
##   1.995e+07   -2.105e+06    1.065e+00  
## 
## Degrees of Freedom: 155 Total (i.e. Null);  153 Residual
## Null Deviance:       2.272e+16 
## Residual Deviance: 3.886e+15     AIC: 5263

O modelo selecionado é cpue ~ dia + captura, com um AIC de 5263.

Aplicando o Critério de Informação Bayesiano - BIC

O BIC permite comparar diferentes modelos e escolher aquele que melhor se ajusta aos dados. Quanto menor o valor do BIC, melhor é o modelo em termos de ajuste aos dados e complexidade.

O Critério de Informação Bayesiano (BIC) é dado por

\[ BIC = -2 \sum_{i=1}^{n} l(\hat{\mu}_i, y_i) + p \log(n)\]

stepAIC(modelo1, k = log(156))

## Start:  AIC=5290.76
## cpue ~ ano + trim + latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - ano      1 3.8533e+15 5285.7
## - trim     1 3.8585e+15 5285.9
## - long     1 3.8729e+15 5286.5
## - latit    1 3.8824e+15 5286.9
## <none>       3.8532e+15 5290.8
## - dia      1 9.9256e+15 5433.3
## - captura  1 1.9612e+16 5539.6
## 
## Step:  AIC=5285.71
## cpue ~ trim + latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - trim     1 3.8585e+15 5280.9
## - long     1 3.8734e+15 5281.5
## - latit    1 3.8829e+15 5281.9
## <none>       3.8533e+15 5285.7
## - dia      1 9.9324e+15 5428.4
## - captura  1 1.9618e+16 5534.6
## 
## Step:  AIC=5280.87
## cpue ~ latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - long     1 3.8804e+15 5276.7
## - latit    1 3.8851e+15 5276.9
## <none>       3.8585e+15 5280.9
## - dia      1 9.9444e+15 5423.5
## - captura  1 1.9895e+16 5531.7
## 
## Step:  AIC=5276.71
## cpue ~ latit + dia + captura
## 
##           Df   Deviance    AIC
## - latit    1 3.8861e+15 5271.9
## <none>       3.8804e+15 5276.7
## - dia      1 1.0073e+16 5420.5
## - captura  1 2.0650e+16 5532.5
## 
## Step:  AIC=5271.88
## cpue ~ dia + captura
## 
##           Df   Deviance    AIC
## <none>       3.8861e+15 5271.9
## - dia      1 1.0201e+16 5417.4
## - captura  1 2.2673e+16 5542.0

## 
## Call:  glm(formula = cpue ~ dia + captura, family = gaussian(link = "identity"))
## 
## Coefficients:
## (Intercept)          dia      captura  
##   1.995e+07   -2.105e+06    1.065e+00  
## 
## Degrees of Freedom: 155 Total (i.e. Null);  153 Residual
## Null Deviance:       2.272e+16 
## Residual Deviance: 3.886e+15     AIC: 5263

O modelo selecionado é cpue ~ dia + captura, com um AIC de 5263.

Seleção Stepwise

A seleção stepwise é um método automático de escolha de variáveis em modelos de regressão, adicionando ou removendo variáveis com base em critérios estatísticos como o valor-p, para melhorar o ajuste do modelo.

# Seleção Stepwise: mostra o que acontece com AIC do modelo caso 
#uma variável seja retirada ou adiconada
step(modelo1, direction ="both")

## Start:  AIC=5269.41
## cpue ~ ano + trim + latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - ano      1 3.8533e+15 5267.4
## - trim     1 3.8585e+15 5267.6
## - long     1 3.8729e+15 5268.2
## - latit    1 3.8824e+15 5268.6
## <none>       3.8532e+15 5269.4
## - dia      1 9.9256e+15 5415.0
## - captura  1 1.9612e+16 5521.3
## 
## Step:  AIC=5267.41
## cpue ~ trim + latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - trim     1 3.8585e+15 5265.6
## - long     1 3.8734e+15 5266.2
## - latit    1 3.8829e+15 5266.6
## <none>       3.8533e+15 5267.4
## + ano      1 3.8532e+15 5269.4
## - dia      1 9.9324e+15 5413.1
## - captura  1 1.9618e+16 5519.3
## 
## Step:  AIC=5265.63
## cpue ~ latit + long + dia + captura
## 
##           Df   Deviance    AIC
## - long     1 3.8804e+15 5264.5
## - latit    1 3.8851e+15 5264.7
## <none>       3.8585e+15 5265.6
## + trim     1 3.8533e+15 5267.4
## + ano      1 3.8585e+15 5267.6
## - dia      1 9.9444e+15 5411.3
## - captura  1 1.9895e+16 5519.5
## 
## Step:  AIC=5264.51
## cpue ~ latit + dia + captura
## 
##           Df   Deviance    AIC
## - latit    1 3.8861e+15 5262.7
## <none>       3.8804e+15 5264.5
## + long     1 3.8585e+15 5265.6
## + trim     1 3.8734e+15 5266.2
## + ano      1 3.8801e+15 5266.5
## - dia      1 1.0073e+16 5411.3
## - captura  1 2.0650e+16 5523.3
## 
## Step:  AIC=5262.73
## cpue ~ dia + captura
## 
##           Df   Deviance    AIC
## <none>       3.8861e+15 5262.7
## + latit    1 3.8804e+15 5264.5
## + trim     1 3.8831e+15 5264.6
## + long     1 3.8851e+15 5264.7
## + ano      1 3.8857e+15 5264.7
## - dia      1 1.0201e+16 5411.3
## - captura  1 2.2673e+16 5535.9

## 
## Call:  glm(formula = cpue ~ dia + captura, family = gaussian(link = "identity"))
## 
## Coefficients:
## (Intercept)          dia      captura  
##   1.995e+07   -2.105e+06    1.065e+00  
## 
## Degrees of Freedom: 155 Total (i.e. Null);  153 Residual
## Null Deviance:       2.272e+16 
## Residual Deviance: 3.886e+15     AIC: 5263

## 
## Call:
## glm(formula = cpue ~ dia + captura, family = gaussian)
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.995e+07  1.027e+06   19.42   <2e-16 ***
## dia         -2.105e+06  1.335e+05  -15.77   <2e-16 ***
## captura      1.065e+00  3.914e-02   27.20   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 2.539917e+13)
## 
##     Null deviance: 2.2717e+16  on 155  degrees of freedom
## Residual deviance: 3.8861e+15  on 153  degrees of freedom
## AIC: 5262.7
## 
## Number of Fisher Scoring iterations: 2

O modelo final selecionado é cpue ~ dia + captura, com um AIC de 5263.

Portanto, o modelo cpue ~ dia + captura foi escolhido com base nos critérios de AIC, mostrando que essas variáveis são as mais importantes para explicar a variabilidade na variável resposta cpue.

Gráfico de envelope

## Gaussian model (glm object)

## Gaussian model (glm object)

De acordo com o gráfico temos que, dos 156 pontos possíveis, 137 foram alcançados. Com 87,82% dos pontos totais obtidos, o desempenho pode ser considerado alto, próximo de 88%, o que sugere um resultado “muito bom”.

Adequabilidade do Modelo

Função Desvio

O desvio residual indica o ajuste do modelo aos dados observados, e o valor qui-quadrado crítico é usado para avaliar a significância estatística desse ajuste.

## [1] 3.886072e+15

## [1] 179.5806

Estatística de Pearson Generalizada (caso aproximado)

y=cpue
muhat=modelo_final$fitted.values
func_var=1

est_pearson=sum((y-modelo_final$fitted.values)^2/func_var)
est_pearson # note que coincide com o Desvio (pelo caso normal)

## [1] 3.886072e+15

qchisq(0.95,156-6)

## [1] 179.5806

Critério R^2

Cada um dos pseudosR² (McFadden, McFadden ajustado, Cox-Snell e Nagelkerke) possui características diferentes:

McFadden: É amplamente utilizado e fornece uma medida simples de ajuste do modelo em relação ao modelo nulo. É fácil de interpretar, mas pode subestimar a qualidade do ajuste em modelos complexos.

McFadden ajustado: Leva em consideração o número de parâmetros no modelo, corrigindo potencialmente a subestimação do pseudosR² de McFadden em modelos com muitas variáveis.

Cox-Snell: Oferece uma medida alternativa de ajuste do modelo que pode ser mais robusta em certos contextos, especialmente quando o número de observações é pequeno.

Nagelkerke: É uma versão ajustada do pseudosR² de Cox-Snell, proporcionando uma medida mais próxima da variação explicada pelo modelo em relação ao modelo nulo.

Temos a seguinte tabela :

PseudoR2	Valor
McFadden	0.04980879
McFaddenAdj	0.04872384
CoxSnell	0.828936
Nagelkerke	0.828936

O PseudoR2 de CoxSnell e Nagelkerke explicam 82.89% da variável resposta cpue, ou seja , seria o mais adequado.

Teste de Hipóteses

Razão de verossimilhança

Hipótese Nula (H0): O modelo nulo é adequado;

Hipótese Alternativa (H1): O modelo nulo não é adequado.

fit0<-glm(cpue ~1, family=gaussian)
lr.test(fit0,modelo_final)

## $LR
## [1] 275.4519
## 
## $pvalue
## [1] 1.535949e-60
## 
## attr(,"class")
## [1] "lrt.test"

Rejeitamos a hipotese nula , ou seja o modelo final é mais adequado para os dados.

Teste de Wald

O teste de Wald neste contexto visa verificar se há evidências estatísticas suficientes para concluir que pelo menos um dos coeficientes das variáveis associadas aos termos 2 a 3 é diferente de zero.

Hipótese Nula (H0): Não há efeito significativo de pelo menos uma das variáveis nos termos 2 a 3 do modelo. Em termos simples, isso significa que os coeficientes dessas variáveis são iguais a zero.

Hipótese Alternativa (H1): Pelo menos uma das variáveis nos termos 2 a 3 tem um efeito significativo. Ou seja, pelo menos um dos coeficientes dessas variáveis é diferente de zero.

## $W
## [1] 755.9393
## 
## $pvalue
## [1] 7.077371e-165
## 
## attr(,"class")
## [1] "wald.test"

Portanto, rejeitamos a hipótese nula (H0) e aceitamos a hipótese alternativa (H1). Em outras palavras, pelo menos um dos coeficientes das variáveis associadas aos termos 2 a 3 é diferente de zero.

Teste Score e Score Modificado (Ferrari, Cordeiro, 2022)

Hipótese Nula (H0): Todos os coeficientes de regressão de interesse são iguais a zero.

Hipótese Alternativa (H1):Pelo menos um dos coeficientes de regressão é diferente de zero.

X <- model.matrix(modelo_final)
summary(mdscore(fit0, X1=X[, 2:3], phi=NULL))

Rejeita-se a hipotése nula de igualdade.

Posteriormente, uma nova distribuição foi aplicada aos dados. Essa abordagem permitiu uma análise mais precisa e ajustada, levando em consideração variações específicas que a distribuição inicial não capturava.

Modelagem para a Distribuição Gamma

Ajunstando um modelo inicial para os dados ,

modelo3=glm(cpue~ano+trim+latit+long+dia+captura,family=Gamma(link="log"))
summary(modelo3)

## 
## Call:
## glm(formula = cpue ~ ano + trim + latit + long + dia + captura, 
##     family = Gamma(link = "log"))
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -5.799e+01  3.132e+01  -1.852   0.0660 .  
## ano          3.802e-02  1.570e-02   2.422   0.0166 *  
## trim         2.449e-02  2.293e-02   1.068   0.2871    
## latit        5.323e-02  3.185e-02   1.671   0.0968 .  
## long        -5.941e-02  3.510e-02  -1.693   0.0926 .  
## dia         -1.049e-01  7.597e-03 -13.810   <2e-16 ***
## captura      5.310e-08  2.366e-09  22.445   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.08006605)
## 
##     Null deviance: 59.362  on 155  degrees of freedom
## Residual deviance: 14.104  on 149  degrees of freedom
## AIC: 5264.9
## 
## Number of Fisher Scoring iterations: 5

No modelo, são exibidos os coeficientes estimados para cada variável preditora na regressão, onde:

Intercepto: significativo (p = 0.0660), com um valor estimado consideravelmente negativo.

Ano: Significativo (p = 0.0166), indicando um aumento de cpue com o aumento de “ano”.

Trim: Não significativo (p = 0.2871), sem contribuição significativa para cpue.

Latit: significativo (p = 0.0968), sugerindo uma possível associação positiva com cpue.

Long: significativo (p = 0.0926), indicando uma possível associação negativa com cpue.

Dia: Altamente significativo (p < 2e-16), com uma diminuição significativa na cpue com o aumento de “dia”.

Captura: Altamente significativo (p < 2e-16), indicando um aumento significativo de cpue com maior “captura”.

O modelo apresenta um bom ajuste aos dados, conforme indicado pelo valor do AIC (5264.9) e pela comparação entre a deviance nula e residual.

Seleção de Covariáveis:

Aplicando o método de Akaike - AIC

stepAIC(modelo3)

## Start:  AIC=5264.85
## cpue ~ ano + trim + latit + long + dia + captura
## 
##           Df Deviance    AIC
## - trim     1   14.197 5264.0
## <none>         14.104 5264.9
## - latit    1   14.332 5265.7
## - long     1   14.345 5265.9
## - ano      1   14.565 5268.6
## - dia      1   29.930 5460.5
## - captura  1   51.284 5727.2
## 
## Step:  AIC=5263.88
## cpue ~ ano + latit + long + dia + captura
## 
##           Df Deviance    AIC
## <none>         14.197 5263.9
## - long     1   14.415 5264.6
## - latit    1   14.476 5265.4
## - ano      1   14.626 5267.3
## - dia      1   30.117 5461.7
## - captura  1   52.009 5736.3

## 
## Call:  glm(formula = cpue ~ ano + latit + long + dia + captura, family = Gamma(link = "log"))
## 
## Coefficients:
## (Intercept)          ano        latit         long          dia      captura  
##  -5.536e+01    3.660e-02    5.831e-02   -5.634e-02   -1.054e-01    5.266e-08  
## 
## Degrees of Freedom: 155 Total (i.e. Null);  150 Residual
## Null Deviance:       59.36 
## Residual Deviance: 14.2  AIC: 5264

O modelo selecionado é cpue ~ ano + latit + long + dia + captura, com um AIC de 5264.

stepAIC(modelo3, k = log(156))

## Start:  AIC=5286.2
## cpue ~ ano + trim + latit + long + dia + captura
## 
##           Df Deviance    AIC
## - trim     1   14.197 5282.3
## - latit    1   14.332 5284.0
## - long     1   14.345 5284.2
## <none>         14.104 5286.2
## - ano      1   14.565 5286.9
## - dia      1   29.930 5478.8
## - captura  1   51.284 5745.5
## 
## Step:  AIC=5282.18
## cpue ~ ano + latit + long + dia + captura
## 
##           Df Deviance    AIC
## - long     1   14.415 5279.9
## - latit    1   14.476 5280.6
## <none>         14.197 5282.2
## - ano      1   14.626 5282.5
## - dia      1   30.117 5476.9
## - captura  1   52.009 5751.6
## 
## Step:  AIC=5279.55
## cpue ~ ano + latit + dia + captura
## 
##           Df Deviance    AIC
## - latit    1   14.482 5275.3
## - ano      1   14.803 5279.3
## <none>         14.415 5279.5
## - dia      1   30.955 5480.8
## - captura  1   54.211 5770.8
## 
## Step:  AIC=5275.24
## cpue ~ ano + dia + captura
## 
##           Df Deviance    AIC
## - ano      1   14.854 5274.8
## <none>         14.482 5275.2
## - dia      1   31.528 5483.7
## - captura  1   59.247 5830.9
## 
## Step:  AIC=5274.2
## cpue ~ dia + captura
## 
##           Df Deviance    AIC
## <none>         14.854 5274.2
## - dia      1   31.906 5483.7
## - captura  1   59.248 5827.7

## 
## Call:  glm(formula = cpue ~ dia + captura, family = Gamma(link = "log"))
## 
## Coefficients:
## (Intercept)          dia      captura  
##   1.668e+01   -1.079e-01    5.387e-08  
## 
## Degrees of Freedom: 155 Total (i.e. Null);  153 Residual
## Null Deviance:       59.36 
## Residual Deviance: 14.85     AIC: 5265

Seleção Stepwise

A seleção stepwise ajusta automaticamente modelos de regressão, adicionando ou removendo variáveis com base em critérios como o valor-p para melhorar o ajuste.

step(modelo3, direction ="both")

## Start:  AIC=5264.85
## cpue ~ ano + trim + latit + long + dia + captura
## 
##           Df Deviance    AIC
## - trim     1   14.197 5264.0
## <none>         14.104 5264.9
## - latit    1   14.332 5265.7
## - long     1   14.345 5265.9
## - ano      1   14.565 5268.6
## - dia      1   29.930 5460.5
## - captura  1   51.284 5727.2
## 
## Step:  AIC=5263.88
## cpue ~ ano + latit + long + dia + captura
## 
##           Df Deviance    AIC
## <none>         14.197 5263.9
## - long     1   14.415 5264.6
## + trim     1   14.104 5264.7
## - latit    1   14.476 5265.4
## - ano      1   14.626 5267.3
## - dia      1   30.117 5461.7
## - captura  1   52.009 5736.3

## 
## Call:  glm(formula = cpue ~ ano + latit + long + dia + captura, family = Gamma(link = "log"))
## 
## Coefficients:
## (Intercept)          ano        latit         long          dia      captura  
##  -5.536e+01    3.660e-02    5.831e-02   -5.634e-02   -1.054e-01    5.266e-08  
## 
## Degrees of Freedom: 155 Total (i.e. Null);  150 Residual
## Null Deviance:       59.36 
## Residual Deviance: 14.2  AIC: 5264

## 
## Call:
## glm(formula = cpue ~ ano + latit + long + dia + captura, family = Gamma(link = "log"))
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -5.536e+01  3.118e+01  -1.775   0.0779 .  
## ano          3.660e-02  1.562e-02   2.343   0.0204 *  
## latit        5.831e-02  3.143e-02   1.856   0.0655 .  
## long        -5.634e-02  3.490e-02  -1.615   0.1085    
## dia         -1.054e-01  7.557e-03 -13.953   <2e-16 ***
## captura      5.266e-08  2.345e-09  22.454   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.07969423)
## 
##     Null deviance: 59.362  on 155  degrees of freedom
## Residual deviance: 14.197  on 150  degrees of freedom
## AIC: 5263.9
## 
## Number of Fisher Scoring iterations: 5

O modelo final selecionado é cpue ~ ano + latit + long + dia + captura , com um AIC de 5264.

Assim, o modelo cpue ~ ano + latit + long + dia + captura foi selecionado com base no critério de AIC, indicando que essas variáveis são as mais relevantes para explicar a variação na variável resposta cpue.

Gráfico de envelope

## Gamma model

## Gamma model

Indica que, dos 156 pontos possíveis, 99 foram alcançados. Com 63,46% dos pontos totais obtidos, o desempenho pode ser considerado mediano, próximo de 63%, sugerindo um resultado “satisfatório”.

Adequabilidade do Modelo

Função desvio

O residual deviance reflete o quão bem o modelo se ajusta aos dados observados, enquanto o valor crítico qui-quadrado é utilizado para determinar a significância estatística desse ajuste.

modelo_final3$deviance

## [1] 14.19664

qchisq(0.95,156-6)

## [1] 179.5806

Temos um bom ajuste do modelo para os dados.

Estatística de Pearson Generalizada (caso aproximado)

y=cpue
muhat=modelo_final3$fitted.values
func_var=1

est_pearson=sum((y-modelo_final3$fitted.values)^2/func_var)
est_pearson # note que coincide com o Desvio (pelo caso normal)

## [1] 1.812648e+16

## [1] 3.886072e+15

qchisq(0.95,156-6)

## [1] 179.5806

## [1] 179.5806

Critério R^2

Temos a seguinte tabela para cada um dos pseudosR²:

PseudoR2	Valor
McFadden	0.04208752
McFaddenAdj	0.03989795
CoxSnell	0.7720449
Nagelkerke	0.7720449

O PseudoR2 de CoxSnell e Nagelkerke explicam 77.20% da variável resposta cpue, ou seja , seria o mais adequado.

Teste de Hipóteses

Razão de verossimelhança

Hipótese Nula (H0): O modelo nulo é adequado;

Hipótese Alternativa (H1): O modelo nulo não é adequado.

fit3<-glm(cpue ~1, family=Gamma(link="log"))
lr.test(fit3,modelo_final3)

## $LR
## [1] 230.6626
## 
## $pvalue
## [1] 7.712112e-48
## 
## attr(,"class")
## [1] "lrt.test"

Rejeitamos a hipotese nula , ou seja o modelo final é mais adequado para os dados.

Teste Wald

Hipótese Nula (H0): Não há efeito significativo de pelo menos uma das variáveis nos termos 2 a 5 do modelo. Em termos simples, isso significa que os coeficientes dessas variáveis são iguais a zero.

Hipótese Alternativa (H1): Pelo menos uma das variáveis nos termos 2 a 5 tem um efeito significativo. Ou seja, pelo menos um dos coeficientes dessas variáveis é diferente de zero.

wald.test(modelo_final3, terms = 2:5)

## $W
## [1] 191.8328
## 
## $pvalue
## [1] 2.140049e-40
## 
## attr(,"class")
## [1] "wald.test"

Portanto, rejeitamos a hipótese nula (H0) e aceitamos a hipótese alternativa (H1). Em outras palavras, pelo menos um dos coeficientes das variáveis associadas aos termos 2 a 5 é diferente de zero.

Teste Score e Score Modificado (Ferrari, Cordeiro, 2022)

Hipótese Nula (H0): Todos os coeficientes de regressão de interesse são iguais a zero.

Hipótese Alternativa (H1):Pelo menos um dos coeficientes de regressão é diferente de zero.

Rejeita-se a hipotése nula de igualdade.

X <- model.matrix(modelo_final3)
summary(mdscore(fit3, X1=X[, 2:5], phi=NULL))

Conlusão

A utilização do modelo Gamma revelou-se mais adequada para os dados analisados, proporcionando um ajuste mais preciso e eficiente ao descrever a relação entre os preditores estudados e a variável resposta. Isso ressalta a importância de escolher modelos estatísticos adequados que melhor capturem a complexidade dos dados observados.

Referências

MATOS, Larissa Avila. ME720 - Modelos Lineares Generalizados. Disponível em: https://larissamatos.github.io/Disciplinas/ME_720_2s2019/Parte1.pdf. Acesso em: 22 Junho 2023.

BORDIGNON, Amanda; LIMA, Brendha; LAZZARIN,Giovanna.Trabalho de modelos lineares generalizados. Disponível em: https://docplayer.com.br/129771006-Trabalho-de-modelos-lineares-generalizados.html. Acesso em: 22 Junho 2023.

ROSS, Steven Dutt.COMO INTERPRETAR A RAZÃO DE CHANCES NA REGRESSÃO LOGÍSTICA. Disponível em: https://rpubs.com/StevenDuttRoss/razao_de_chances. Acesso em: 22 Junho 2023.

VALTER, Leandro.Uma Aplicação do MLG nas Medições de Qualidade do Ar New York. Disponível em: https://larissamatos.github.io/Disciplinas/ME_720_2s2019/Parte1.pdf. Acesso em: 22 Junho 2023.

ROCHA, Tiago Costa. Apresentation MLG. Disponível em: https://www.rpubs.com/TiagoCosta/502155 21/06. Acesso em: 22 Junho 2023.

OLINDA, Ricardo Alves de. Introducción a los Modelos Lineales Generalizados: Modelo de Regresión Logistico. Disponível em: https://rpubs.com/ricardo_olinda/USAC_Log. Acesso em: 22 Junho 2023.

VALTER, Leandro. Modelos Lineares Generalizados. Disponível em: https://rpubs.com/ValterL/MLG4 21/06. Acesso em: 22 Junho 2023.

EXISTE R² PARA MODELOS LINEARES GENERALIZADOS (GLMS)?. Disponível em: https://betaanalitica.com.br/existe-r%C2%B2-para-modelos-lineares-generalizados-glms/. Acesso em: 22 Junho 2023.

VALTER, Leandro. MLG. Disponível em: https://rpubs.com/ValterL/mlgfe. Acesso em: 22 Junho 2023.

https://www.icmbio.gov.br/cepsul/images/stories/artes_de_pesca/industrial/espinhel/e

Universidade Estadual da Paraíba Centro de Ciências e Tecnologia Departamento de Estatística Disciplina:Modelos Lineares Generalizados

Professora: Fernanda Clotilde da Silva. Aluna: Vitoria Soares de souza.

2024-05-19

Relatório: Pesca / Espinhel de fundo

Esta técnica é vital para muitas comunidades costeiras, proporcionando uma fonte importante de alimento e renda. Em escala global, a pesca com espinhel contribui significativamente para o fornecimento de peixes de alta qualidade ao mercado internacional.

Objetivo

Para garantir que essa prática continue viável a longo prazo, é essencial otimizar as operações de pesca, utilizando os dados obtidos para aprimorar as técnicas e estratégias de pesca, aumentando a eficiência e a produtividade das frotas pesqueiras.

O objetivo é explicar a variável CPUE (captura por unidade de esforço) a partir das demais variáveis. Entender quais fatores influenciam a eficiência da pesca pode ajudar a otimizar operações e promover práticas mais sustentáveis.

Banco de Dados

Logo, podemos observar uma prévia dos dados abaixo:

Descrições das Variáveis

O banco de dados é composto por 7 variáveis, cada uma com um papel específico na análise e no processamento dos dados, as descrições detalhadas de cada variável são apresentadas a seguir:

1.Frota: Indica se a embarcação pertence à frota de Santos ou Ubatuba.

2.Ano: Período de atividade, variando de 1995 a 1999.

3.Trimestre: Divisão do ano em quatro períodos (1 ao 4).

4.Latitude e Longitude: Coordenadas geográficas das áreas de pesca.

5.Dias de Pesca: Número de dias em que a pesca foi realizada.

6.Captura: Quantidade de peixe-batata capturado, em quilogramas.

7.CPUE (Captura por Unidade de Esforço): Medida de eficiência, calculada como a quantidade de peixe capturada por dia de pesca (kg/dias de pesca).

Análise Descritiva

Logo abaixo podemos observavar a seguinte tabela :

O gráfico abaixo ajuda a entender a distribuição temporal das capturas registradas em anos específicos. Podemos observar que o ano de 1999 apresenta a maior frequência, seguido por 1998, 1997, 1995 e, por fim, 1996, que possui a menor frequência.

O ano é dividido em quatro trimestres, cada um contendo três meses consecutivos:

1º Trimestre: Janeiro, Fevereiro, Março ;

2º Trimestre: Abril, Maio, Junho ;

3º Trimestre: Julho, Agosto, Setembro ;

4º Trimestre: Outubro, Novembro, Dezembro ;

Temos o seguinte gráfico abaixo:

O trimestre com o valor mais alto é o 3º Trimestre (Julho, Agosto, Setembro), indicando o período de maior produtividade. As condições são provavelmente ideais para a pesca batata, seja devido ao clima, à disponibilidade de peixes ou à implementação de melhores técnicas de pesca.

A distribuição da captura esta relacionada à quantidade de peixe capturado em uma determinada unidade de tempo , logo temos abaixo:

A CPUE permite entender a eficiência das operações de pesca, logo temos a seguinte tabela abaixo:

O histograma pode mostrar uma distribuição com um pico em torno da média de 19554557 kg/dias de pesca, indicando que a maioria das operações de pesca tem uma eficiência próxima a essa média.

Correlação

A correlação de Spearman é uma medida de dinâmica não paramétrica que avalia a relação monotônica entre variável, sendo adequada para variáveis ordinais ou não normalmente distribuídas.

A variável cpue não atende aos requisitos da correlação de Pearson. Portanto, para analisar a relação entre idade, renda e saúde nos seus dados, irems utilizar a correlação de Spearman.

Multicolinearidade

E de acordo com as correlações, todas são menores que 0.9, ou seja, podemos concluir que não existe multicolinearidade entre as variáveis independentes.

Teste de Normalidade

O teste de normalidade de Shapiro-Wilk é utilizado para verificar se uma amostra de dados segue uma distribuição normal. Formalmente, as hipóteses deste teste são:

- Hipótese nula (H₀): A amostra provém de uma população com distribuição normal.

- Hipótese alternativa (H₁): A amostra não provém de uma população com distribuição normal.

Vamos aplicá-lo à variável resposta “cpue” para avaliar sua normalidade.

Aplicando Modelos Lineares Generalizados

Modelagem para a Distribuição Normal

Um modelo inicial é ajustado usando a função glm, onde cpue é a variável resposta e ano, trim, latit, long, dia e captura são preditores. O modelo assume uma distribuição gaussiana dos erros e uma relação linear entre as variáveis preditoras e a resposta.

Este resumo o modelo mostra os coeficientes estimados para cada variável preditora no modelo de regressão, onde:

Intercept: Não significativo (p = 0.899), com um valor muito alto.

Ano, Trim, Latit, Long: Não significativos (p > 0.05), não contribuem significativamente para explicar a variação em cpue.

Dia e Captura: Altamente significativos (p < 0.001), têm um efeito altamente significativo em cpue.

Seleção de Covariáveis:

Aplicando o método de Akaike - AIC

Onde \(l(\hat{\mu}_i, y_i)\) representa a função de verossimilhança, \(p\) é o número de parâmetros do modelo e \(n\) é o tamanho da amostra, essa formulação nos permite fazer comparações justas entre modelos de diferentes complexidades.

O modelo selecionado é cpue ~ dia + captura, com um AIC de 5263.

Aplicando o Critério de Informação Bayesiano - BIC

O BIC permite comparar diferentes modelos e escolher aquele que melhor se ajusta aos dados. Quanto menor o valor do BIC, melhor é o modelo em termos de ajuste aos dados e complexidade.

O Critério de Informação Bayesiano (BIC) é dado por

O modelo selecionado é cpue ~ dia + captura, com um AIC de 5263.

Seleção Stepwise

A seleção stepwise é um método automático de escolha de variáveis em modelos de regressão, adicionando ou removendo variáveis com base em critérios estatísticos como o valor-p, para melhorar o ajuste do modelo.

O modelo final selecionado é cpue ~ dia + captura, com um AIC de 5263.

Portanto, o modelo cpue ~ dia + captura foi escolhido com base nos critérios de AIC, mostrando que essas variáveis são as mais importantes para explicar a variabilidade na variável resposta cpue.

Gráfico de envelope

De acordo com o gráfico temos que, dos 156 pontos possíveis, 137 foram alcançados. Com 87,82% dos pontos totais obtidos, o desempenho pode ser considerado alto, próximo de 88%, o que sugere um resultado “muito bom”.

Adequabilidade do Modelo

Função Desvio

O desvio residual indica o ajuste do modelo aos dados observados, e o valor qui-quadrado crítico é usado para avaliar a significância estatística desse ajuste.

Estatística de Pearson Generalizada (caso aproximado)

Critério R^2

Cada um dos pseudosR² (McFadden, McFadden ajustado, Cox-Snell e Nagelkerke) possui características diferentes:

McFadden: É amplamente utilizado e fornece uma medida simples de ajuste do modelo em relação ao modelo nulo. É fácil de interpretar, mas pode subestimar a qualidade do ajuste em modelos complexos.

McFadden ajustado: Leva em consideração o número de parâmetros no modelo, corrigindo potencialmente a subestimação do pseudosR² de McFadden em modelos com muitas variáveis.

Cox-Snell: Oferece uma medida alternativa de ajuste do modelo que pode ser mais robusta em certos contextos, especialmente quando o número de observações é pequeno.

Nagelkerke: É uma versão ajustada do pseudosR² de Cox-Snell, proporcionando uma medida mais próxima da variação explicada pelo modelo em relação ao modelo nulo.

Temos a seguinte tabela :

O PseudoR2 de CoxSnell e Nagelkerke explicam 82.89% da variável resposta cpue, ou seja , seria o mais adequado.

Teste de Hipóteses

Razão de verossimilhança

Hipótese Nula (H0): O modelo nulo é adequado;

Hipótese Alternativa (H1): O modelo nulo não é adequado.

Rejeitamos a hipotese nula , ou seja o modelo final é mais adequado para os dados.

Universidade Estadual da Paraíba
Centro de Ciências e Tecnologia
Departamento de Estatística
Disciplina:Modelos Lineares Generalizados

Professora: Fernanda Clotilde da Silva.
Aluna: Vitoria Soares de souza.