Extensão aos Modelos Lineares

Três bases de dados foram selecionadas para o ajuste de modelos lineares generalizados. Procure identificar a distribuição da variável resposta e ajustar o(s) modelo(s) pertinentes, realizando a seleção das variáveis.

  1. “Swedish_mortality.xls” : Deseja-se modelar a mortalidade de homens (male) e mulheres (female) a partir das variáveis Year (ano) e Age (idade). A população esperada (estimada) é definida em Female_Exp (mulheres) e Male_Exp (homens). A mortalidade para os homens encontra-se definida em Male_death e para as mulheres em Female_death. Faça um modelo para cada um dos sexos: homens e mulheres;

  2. “bac.xls” : Este base de dados contém os dados referentes ao número de acidentes de carros ocorridos em 2004 em New South Wales, Austrália, envolvendo motoristas bêbados. Deseja-se estimar o número de acidentes a partir das variáveis: “agecat” (faixa etária), “bac” (concentração de álcool no sangue), “sex” (sexo) e “degree” (grau de colisão);

  3. “adult.data” : Utilize esta base para estimar um modelo que faça a previsão do salário ser maior ou menor que $50,000/year a partir de variáveis do Census (US).

Procure ser breve em suas análise. Inicie com uma análise exploratória e faça considerações sobre a distribuição da variável resposta. Faça a seleção das variáveis, ajuste a função de ligação e faça a análise dos resíduos (inclua o envelope de probabilidade quando conveniente). Descreva sucintamente o processo de seleção das variáveis focando unicamente o modelo final obtido. Inclua a interpretação do histograma dos resíduos e envelope de probabilidade.

Análise para o banco de dados “Swedish_mortality”

O banco de dados “Swedish_mortality”, fornece dados de mortalidade para países através de perídos de tempo. São registrados o número de nascidos vivos, óbitos e população em risco classificados de acordo com a idade e o sexo. Destas, são calculadas quantidades tais como taxas de mortalidade e expectativas de vida. Estes dados são provenientes da Suécia com data inicial em 1951 até o ano de 2005.

Apresentação dos dados:

O primeiro passo para a análise do conjunto de dados é fixar a pasta de trabalho desejada com o comando \(setwd\). Em seguida trabalhou-se com o banco de dados com a extensão \(csv\).

Abaixo é apresentado as 10 primeiras observações do banco de dados (Swedish_mortality).

setwd("D:/augustofilho/Doutorado/Lista Pratica")
dados=read.csv2("Swedish_mortality.csv")
head(dados)
##   Year Age Female_Exp Male_Exp q_female   q_male Female_death Male_death
## 1 1951   0   53684.67 57059.14 0.018497 0.024273    993.00534 1384.99651
## 2 1951   1   56056.20 59379.55 0.001944 0.002021    108.97325  120.00607
## 3 1951   2   59026.83 61855.13 0.001186 0.001455     70.00582   89.99921
## 4 1951   3   60794.23 63620.28 0.000888 0.000959     53.98528   61.01185
## 5 1951   4   61980.55 65167.32 0.000484 0.001013     29.99859   66.01450
## 6 1951   5   63026.37 66518.15 0.000413 0.000917     26.02989   60.99714
##   L_female_exp L_male_exp
## 1     10.89088   10.95184
## 2     10.93411   10.99171
## 3     10.98575   11.03255
## 4     11.01525   11.06069
## 5     11.03458   11.08471
## 6     11.05131   11.10523

A descrição das variáveis do banco de dados é apresentada a seguir:

Descrição dos dados

Descrição dos dados

Análise exploratória dos dados:

rnorm(100,0,1)