Três bases de dados foram selecionadas para o ajuste de modelos lineares generalizados. Procure identificar a distribuição da variável resposta e ajustar o(s) modelo(s) pertinentes, realizando a seleção das variáveis.
“Swedish_mortality.xls” : Deseja-se modelar a mortalidade de homens (male) e mulheres (female) a partir das variáveis Year (ano) e Age (idade). A população esperada (estimada) é definida em Female_Exp (mulheres) e Male_Exp (homens). A mortalidade para os homens encontra-se definida em Male_death e para as mulheres em Female_death. Faça um modelo para cada um dos sexos: homens e mulheres;
“bac.xls” : Este base de dados contém os dados referentes ao número de acidentes de carros ocorridos em 2004 em New South Wales, Austrália, envolvendo motoristas bêbados. Deseja-se estimar o número de acidentes a partir das variáveis: “agecat” (faixa etária), “bac” (concentração de álcool no sangue), “sex” (sexo) e “degree” (grau de colisão);
“adult.data” : Utilize esta base para estimar um modelo que faça a previsão do salário ser maior ou menor que $50,000/year a partir de variáveis do Census (US).
Procure ser breve em suas análise. Inicie com uma análise exploratória e faça considerações sobre a distribuição da variável resposta. Faça a seleção das variáveis, ajuste a função de ligação e faça a análise dos resíduos (inclua o envelope de probabilidade quando conveniente). Descreva sucintamente o processo de seleção das variáveis focando unicamente o modelo final obtido. Inclua a interpretação do histograma dos resíduos e envelope de probabilidade.
O banco de dados “Swedish_mortality”, fornece dados de mortalidade para países através de perídos de tempo. São registrados o número de nascidos vivos, óbitos e população em risco classificados de acordo com a idade e o sexo. Destas, são calculadas quantidades tais como taxas de mortalidade e expectativas de vida. Estes dados são provenientes da Suécia com data inicial em 1951 até o ano de 2005.
O primeiro passo para a análise do conjunto de dados é fixar a pasta de trabalho desejada com o comando \(setwd\). Em seguida trabalhou-se com o banco de dados com a extensão \(csv\).
Abaixo é apresentado as 10 primeiras observações do banco de dados (Swedish_mortality).
setwd("D:/augustofilho/Doutorado/Lista Pratica")
dados=read.csv2("Swedish_mortality.csv")
head(dados)
## Year Age Female_Exp Male_Exp q_female q_male Female_death Male_death
## 1 1951 0 53684.67 57059.14 0.018497 0.024273 993.00534 1384.99651
## 2 1951 1 56056.20 59379.55 0.001944 0.002021 108.97325 120.00607
## 3 1951 2 59026.83 61855.13 0.001186 0.001455 70.00582 89.99921
## 4 1951 3 60794.23 63620.28 0.000888 0.000959 53.98528 61.01185
## 5 1951 4 61980.55 65167.32 0.000484 0.001013 29.99859 66.01450
## 6 1951 5 63026.37 66518.15 0.000413 0.000917 26.02989 60.99714
## L_female_exp L_male_exp
## 1 10.89088 10.95184
## 2 10.93411 10.99171
## 3 10.98575 11.03255
## 4 11.01525 11.06069
## 5 11.03458 11.08471
## 6 11.05131 11.10523
A descrição das variáveis do banco de dados é apresentada a seguir:
Descrição dos dados
rnorm(100,0,1)