library(readxl)
Bussab = read_excel("G:/Meu Drive/MESTRADO/ESTATISTICA/Base_de_dados-master/Bussab.xlsx")
View(Bussab)
Traduziremos as númerações de acordo com as legendas
Bussab$Instr=ifelse(Bussab$Instr==0,"Fundament.",ifelse(Bussab$Instr==1,"Médio", "Superior"))
Bussab$Casado=ifelse(Bussab$Casado==0,"Solteiras","Casadas")
Agora vamos retirar os N/A’s de nossa Base de Dados
na.omit(Bussab$Instr)
## [1] "Fundament." "Fundament." "Fundament." "Médio" "Fundament."
## [6] "Fundament." "Fundament." "Fundament." "Médio" "Médio"
## [11] "Médio" "Fundament." "Médio" "Fundament." "Médio"
## [16] "Médio" "Médio" "Fundament." "Superior" "Médio"
## [21] "Médio" "Médio" "Fundament." "Superior" "Médio"
## [26] "Fundament." "Médio" "Médio" "Médio" "Médio"
## [31] "Superior" "Médio" "Superior" "Superior" "Médio"
## [36] "Superior"
na.omit(Bussab$Casado)
## [1] "Solteiras" "Casadas" "Casadas" "Solteiras" "Solteiras" "Casadas"
## [7] "Solteiras" "Solteiras" "Casadas" "Solteiras" "Casadas" "Solteiras"
## [13] "Solteiras" "Casadas" "Casadas" "Solteiras" "Casadas" "Casadas"
## [19] "Solteiras" "Solteiras" "Casadas" "Solteiras" "Solteiras" "Casadas"
## [25] "Casadas" "Casadas" "Solteiras" "Casadas" "Casadas" "Casadas"
## [31] "Solteiras" "Casadas" "Casadas" "Solteiras" "Casadas" "Casadas"
Esta tabela apresenta em percentual o grau de instrução dos entrevistados:
round(prop.table(table(Bussab$Instr))*100,2)
##
## Fundament. Médio Superior
## 33.33 50.00 16.67
Esta tabela apresenta em percentual entrevistados casados:
round(prop.table(table(Bussab$Casado))*100,2)
##
## Casadas Solteiras
## 55.56 44.44
Hipótese: “Pessoas mais bens Instruidas são casadas!”
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
tabela1= Bussab %>% select(Instr,Casado) %>%
table() %>% prop.table(1)*100/3
tabela1 %>% data.frame() %>% flextable()
Instr | Casado | Freq |
|---|---|---|
Fundament. | Casadas | 16.66667 |
Médio | Casadas | 20.37037 |
Superior | Casadas | 16.66667 |
Fundament. | Solteiras | 16.66667 |
Médio | Solteiras | 12.96296 |
Superior | Solteiras | 16.66667 |
Observe os Gráficos em Barra:
barplot(tabela1, beside= TRUE,legend.text = row.names(tabela1),args.legend = list(x="topleft"),ylim=c(0,30))
Apesar de existir um número maior de pessoas casadas estudando que o contrário, a hipótese não se confirma necessáriamente, já que o número de pessoas com o ensino superior casadas é igual ao números de pessoas com o ensino superior solteiras.
Nota-se tabém que a distribuição é bem igualitária para os diferentes graus de instrução.
Hipotese: Pessoas instruidas tem menos filhos!
Segue a Tabela abaixo para ilustrar a comapração:
library(dplyr)
library(flextable)
tabela2= Bussab %>% select(Instr,Filhos) %>%
table() %>% prop.table(1)*100/3
tabela2 %>% data.frame() %>% flextable()
Instr | Filhos | Freq |
|---|---|---|
Fundament. | 0 | 5.555556 |
Médio | 0 | 6.060606 |
Superior | 0 | 11.111111 |
Fundament. | 1 | 5.555556 |
Médio | 1 | 12.121212 |
Superior | 1 | 0.000000 |
Fundament. | 2 | 16.666667 |
Médio | 2 | 12.121212 |
Superior | 2 | 0.000000 |
Fundament. | 3 | 5.555556 |
Médio | 3 | 0.000000 |
Superior | 3 | 22.222222 |
Fundament. | 5 | 0.000000 |
Médio | 5 | 3.030303 |
Superior | 5 | 0.000000 |
Bussab <- Bussab[complete.cases(Bussab),]
Bussab %>% select(Instr,Filhos) %>%
group_by(Instr) %>%
summarise(média=paste0(round(mean(Filhos),1), " filhos"),
desvio_padrao = sd(Filhos)) %>% flextable()
Instr | média | desvio_padrao |
|---|---|---|
Fundament. | 1.7 filhos | 1.032796 |
Médio | 1.5 filhos | 1.368476 |
Superior | 2 filhos | 1.732051 |
Observe o gráfico de barras:
barplot(tabela2, beside= TRUE,legend.text = row.names(tabela1),args.legend = list(x="topleft"),ylim=c(0,25))
Novamente, a hipótese se comprovou errada, não há relação entre ao maior grau de instrução e o número de filhos. A média de filhos é até maior para entrevistados com o nível superior.
Observa-se também que a dispersão dos dados para o nível superior maior ou seja existe a maior probabilidade de haver outlier’s.