1º - Importando Base de dados

library(readxl)
Bussab = read_excel("G:/Meu Drive/MESTRADO/ESTATISTICA/Base_de_dados-master/Bussab.xlsx")
View(Bussab)

2º - Tratamento de Dados

Traduziremos as númerações de acordo com as legendas

Bussab$Instr=ifelse(Bussab$Instr==0,"Fundament.",ifelse(Bussab$Instr==1,"Médio", "Superior"))
Bussab$Casado=ifelse(Bussab$Casado==0,"Solteiras","Casadas")

Agora vamos retirar os N/A’s de nossa Base de Dados

na.omit(Bussab$Instr)
##  [1] "Fundament." "Fundament." "Fundament." "Médio"      "Fundament."
##  [6] "Fundament." "Fundament." "Fundament." "Médio"      "Médio"     
## [11] "Médio"      "Fundament." "Médio"      "Fundament." "Médio"     
## [16] "Médio"      "Médio"      "Fundament." "Superior"   "Médio"     
## [21] "Médio"      "Médio"      "Fundament." "Superior"   "Médio"     
## [26] "Fundament." "Médio"      "Médio"      "Médio"      "Médio"     
## [31] "Superior"   "Médio"      "Superior"   "Superior"   "Médio"     
## [36] "Superior"
na.omit(Bussab$Casado)
##  [1] "Solteiras" "Casadas"   "Casadas"   "Solteiras" "Solteiras" "Casadas"  
##  [7] "Solteiras" "Solteiras" "Casadas"   "Solteiras" "Casadas"   "Solteiras"
## [13] "Solteiras" "Casadas"   "Casadas"   "Solteiras" "Casadas"   "Casadas"  
## [19] "Solteiras" "Solteiras" "Casadas"   "Solteiras" "Solteiras" "Casadas"  
## [25] "Casadas"   "Casadas"   "Solteiras" "Casadas"   "Casadas"   "Casadas"  
## [31] "Solteiras" "Casadas"   "Casadas"   "Solteiras" "Casadas"   "Casadas"

3º - Criando as Tabelas para as Variáveis Qualitativas.

Sem Flextable

Esta tabela apresenta em percentual o grau de instrução dos entrevistados:

round(prop.table(table(Bussab$Instr))*100,2)
## 
## Fundament.      Médio   Superior 
##      33.33      50.00      16.67

Esta tabela apresenta em percentual entrevistados casados:

round(prop.table(table(Bussab$Casado))*100,2)
## 
##   Casadas Solteiras 
##     55.56     44.44

Com Flextable

Hipótese: “Pessoas mais bens Instruidas são casadas!”

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(flextable)
tabela1= Bussab %>% select(Instr,Casado) %>%
  table() %>% prop.table(1)*100/3
tabela1 %>% data.frame() %>% flextable()

Instr

Casado

Freq

Fundament.

Casadas

16.66667

Médio

Casadas

20.37037

Superior

Casadas

16.66667

Fundament.

Solteiras

16.66667

Médio

Solteiras

12.96296

Superior

Solteiras

16.66667

Observe os Gráficos em Barra:

barplot(tabela1, beside= TRUE,legend.text = row.names(tabela1),args.legend = list(x="topleft"),ylim=c(0,30))

Análise da comparação das váriaveis

Apesar de existir um número maior de pessoas casadas estudando que o contrário, a hipótese não se confirma necessáriamente, já que o número de pessoas com o ensino superior casadas é igual ao números de pessoas com o ensino superior solteiras.

Nota-se tabém que a distribuição é bem igualitária para os diferentes graus de instrução.

4º - Um resumo numérico (média e desvio padrão) para uma qualitativa e uma quantitativa.

Hipotese: Pessoas instruidas tem menos filhos!

Segue a Tabela abaixo para ilustrar a comapração:

library(dplyr)
library(flextable)
tabela2= Bussab %>% select(Instr,Filhos) %>%
  table() %>% prop.table(1)*100/3

tabela2 %>% data.frame() %>% flextable()

Instr

Filhos

Freq

Fundament.

0

5.555556

Médio

0

6.060606

Superior

0

11.111111

Fundament.

1

5.555556

Médio

1

12.121212

Superior

1

0.000000

Fundament.

2

16.666667

Médio

2

12.121212

Superior

2

0.000000

Fundament.

3

5.555556

Médio

3

0.000000

Superior

3

22.222222

Fundament.

5

0.000000

Médio

5

3.030303

Superior

5

0.000000

Bussab <- Bussab[complete.cases(Bussab),]
Bussab %>% select(Instr,Filhos) %>%
  group_by(Instr) %>%
  summarise(média=paste0(round(mean(Filhos),1), " filhos"), 
            desvio_padrao =  sd(Filhos)) %>% flextable()

Instr

média

desvio_padrao

Fundament.

1.7 filhos

1.032796

Médio

1.5 filhos

1.368476

Superior

2 filhos

1.732051

Observe o gráfico de barras:

barplot(tabela2, beside= TRUE,legend.text = row.names(tabela1),args.legend = list(x="topleft"),ylim=c(0,25))

Análise da comparação das váriaveis

Novamente, a hipótese se comprovou errada, não há relação entre ao maior grau de instrução e o número de filhos. A média de filhos é até maior para entrevistados com o nível superior.

Observa-se também que a dispersão dos dados para o nível superior maior ou seja existe a maior probabilidade de haver outlier’s.