library(readr)
Familias2 = read_delim("C:/Users/berna_y/Documents/#Mestrado UFF/1º Período/Estatística Aplicada à Engenharia/Base_de_dados-master/Familias2.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)
## Rows: 120 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (4): local, p.a.p, instr, renda
## dbl (2): familia, tam
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
str(Familias2)
## spec_tbl_df [120 × 6] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ familia: num [1:120] 1 2 3 4 5 6 7 8 9 10 ...
## $ local : chr [1:120] "Monte Verde" "Monte Verde" "Monte Verde" "Monte Verde" ...
## $ p.a.p : chr [1:120] "N\xe3o usa" "N\xe3o usa" "Usa" "N\xe3o usa" ...
## $ instr : chr [1:120] "Ensino m\xe9dio" "Ensino m\xe9dio" "Ensino fundamental" "Ensino fundamental" ...
## $ tam : num [1:120] 4 4 4 5 4 1 2 3 6 4 ...
## $ renda : chr [1:120] "10,3" "15,4" "9,6" "5,5" ...
## - attr(*, "spec")=
## .. cols(
## .. familia = col_double(),
## .. local = col_character(),
## .. p.a.p = col_character(),
## .. instr = col_character(),
## .. tam = col_double(),
## .. renda = col_character()
## .. )
## - attr(*, "problems")=<externalptr>
head(Familias2)
## # A tibble: 6 × 6
## familia local p.a.p instr tam renda
## <dbl> <chr> <chr> <chr> <dbl> <chr>
## 1 1 Monte Verde "N\xe3o usa" "Ensino m\xe9dio" 4 10,3
## 2 2 Monte Verde "N\xe3o usa" "Ensino m\xe9dio" 4 15,4
## 3 3 Monte Verde "Usa" "Ensino fundamental" 4 9,6
## 4 4 Monte Verde "N\xe3o usa" "Ensino fundamental" 5 5,5
## 5 5 Monte Verde "Usa" "Ensino m\xe9dio" 4 9
## 6 6 Monte Verde "Usa" "Sem Instru\xe7\xe3o" 1 2,4
Familias2$p.a.p = ifelse(Familias2$p.a.p=="Usa","Usa","Não usa")
head(Familias2)
## # A tibble: 6 × 6
## familia local p.a.p instr tam renda
## <dbl> <chr> <chr> <chr> <dbl> <chr>
## 1 1 Monte Verde Não usa "Ensino m\xe9dio" 4 10,3
## 2 2 Monte Verde Não usa "Ensino m\xe9dio" 4 15,4
## 3 3 Monte Verde Usa "Ensino fundamental" 4 9,6
## 4 4 Monte Verde Não usa "Ensino fundamental" 5 5,5
## 5 5 Monte Verde Usa "Ensino m\xe9dio" 4 9
## 6 6 Monte Verde Usa "Sem Instru\xe7\xe3o" 1 2,4
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
Familias2 %>% select(tam,p.a.p) %>%
group_by(p.a.p) %>% summarise(mínimo=min(tam),
média=mean(tam),
desvio_padrão=sd(tam),
máximo=max(tam)) %>%
flextable() %>% theme_vader()
p.a.p | mínimo | média | desvio_padrão | máximo |
Não usa | 1 | 4.309524 | 1.674604 | 8 |
Usa | 1 | 4.589744 | 1.445422 | 9 |
boxplot(tam ~ p.a.p, data=Familias2,
col=c("red","blue","yellow"),
main="Gráfico 1 - Uso do P.A.P de acordo com o Tamanho da Família",
xlab="Uso do P.A.P",
ylab="Número de moradores")
A partir do carregamento da base de dados observou-se que esta se tratava de uma pesquisa de dados de familías de acordo com as variáveis local, grau de instrução, tamanho, renda familiar e se utiliza ou não o programa de alimentação popular. Na sequência, escolheu-se analisar a dependência da variável “tamanho da família” na utilização do Programa de Alimentação Popular. Desse modo, a variável resposta corresponde ao número de moradores de cada casa e a variável explicativa (preditor linear) a adesão ao programa.
A partir da análise dos dados, foi elaborada uma tabela de quantidades indicando a média e o desvio padrão dos dados, onde verificou-se que a média de moradores das famílias que utilizam o programa (4.59) é muito próxima da média dos que não utilizam (4.31). Além disso, o desvio padrão para os 2 casos indica que os dados são homogêneos.
Na sequência, foi feito um gráfico do tipo “boxplot”, onde foi possível observar que a mediana do número de moradores dos que utilizam o P.A.P é de 5 moradores e dos que não utilizam é de 4 moradores. Dentro dos que utilizam o programa, a densidade dos dados entre o 1º quartil e a mediana é maior do que entre a mediana e o 3º quartil, e possuem outliers entre os dados. Já dentro dos que não utilizam o programa, há maior simetria entre os quartis, além de possuir valores máximos e mínimos mais espaçados, o que não acusa existência de outliers.
Dessa forma, conclui-se que, como a média do número de moradores é bem próxima entre os que utilizam e os que não utilizam o P.A.P, não há influência do tamanho das famílias na adesão ao programa.
R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.