Carregamento da Base de Dados

library(readr)
Familias2 = read_delim("C:/Users/berna_y/Documents/#Mestrado UFF/1º Período/Estatística Aplicada à Engenharia/Base_de_dados-master/Familias2.csv", 
                       delim = ";", escape_double = FALSE, trim_ws = TRUE)

## Rows: 120 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (4): local, p.a.p, instr, renda
## dbl (2): familia, tam
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Verificação da Base de Dados

str(Familias2)

## spec_tbl_df [120 × 6] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ familia: num [1:120] 1 2 3 4 5 6 7 8 9 10 ...
##  $ local  : chr [1:120] "Monte Verde" "Monte Verde" "Monte Verde" "Monte Verde" ...
##  $ p.a.p  : chr [1:120] "N\xe3o usa" "N\xe3o usa" "Usa" "N\xe3o usa" ...
##  $ instr  : chr [1:120] "Ensino m\xe9dio" "Ensino m\xe9dio" "Ensino fundamental" "Ensino fundamental" ...
##  $ tam    : num [1:120] 4 4 4 5 4 1 2 3 6 4 ...
##  $ renda  : chr [1:120] "10,3" "15,4" "9,6" "5,5" ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   familia = col_double(),
##   ..   local = col_character(),
##   ..   p.a.p = col_character(),
##   ..   instr = col_character(),
##   ..   tam = col_double(),
##   ..   renda = col_character()
##   .. )
##  - attr(*, "problems")=<externalptr>

head(Familias2)

## # A tibble: 6 × 6
##   familia local       p.a.p        instr                   tam renda
##     <dbl> <chr>       <chr>        <chr>                 <dbl> <chr>
## 1       1 Monte Verde "N\xe3o usa" "Ensino m\xe9dio"         4 10,3 
## 2       2 Monte Verde "N\xe3o usa" "Ensino m\xe9dio"         4 15,4 
## 3       3 Monte Verde "Usa"        "Ensino fundamental"      4 9,6  
## 4       4 Monte Verde "N\xe3o usa" "Ensino fundamental"      5 5,5  
## 5       5 Monte Verde "Usa"        "Ensino m\xe9dio"         4 9    
## 6       6 Monte Verde "Usa"        "Sem Instru\xe7\xe3o"     1 2,4

Transformação dos Dados

Familias2$p.a.p = ifelse(Familias2$p.a.p=="Usa","Usa","Não usa")
head(Familias2)

## # A tibble: 6 × 6
##   familia local       p.a.p   instr                   tam renda
##     <dbl> <chr>       <chr>   <chr>                 <dbl> <chr>
## 1       1 Monte Verde Não usa "Ensino m\xe9dio"         4 10,3 
## 2       2 Monte Verde Não usa "Ensino m\xe9dio"         4 15,4 
## 3       3 Monte Verde Usa     "Ensino fundamental"      4 9,6  
## 4       4 Monte Verde Não usa "Ensino fundamental"      5 5,5  
## 5       5 Monte Verde Usa     "Ensino m\xe9dio"         4 9    
## 6       6 Monte Verde Usa     "Sem Instru\xe7\xe3o"     1 2,4

Análise dos Dados

Tabela de P.A.P x Tamanho da Família

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(flextable)
Familias2 %>% select(tam,p.a.p) %>% 
  group_by(p.a.p) %>% summarise(mínimo=min(tam),
                                média=mean(tam),
                                desvio_padrão=sd(tam),
                                máximo=max(tam)) %>% 
  flextable() %>% theme_vader()

p.a.p	mínimo	média	desvio_padrão	máximo
Não usa	1	4.309524	1.674604	8
Usa	1	4.589744	1.445422	9

Gráfico de P.A.P x Tamanho da Família

boxplot(tam ~ p.a.p, data=Familias2,
        col=c("red","blue","yellow"),
        main="Gráfico 1 - Uso do P.A.P de acordo com o Tamanho da Família",
        xlab="Uso do P.A.P",
        ylab="Número de moradores")

Conclusão

A partir do carregamento da base de dados observou-se que esta se tratava de uma pesquisa de dados de familías de acordo com as variáveis local, grau de instrução, tamanho, renda familiar e se utiliza ou não o programa de alimentação popular. Na sequência, escolheu-se analisar a dependência da variável “tamanho da família” na utilização do Programa de Alimentação Popular. Desse modo, a variável resposta corresponde ao número de moradores de cada casa e a variável explicativa (preditor linear) a adesão ao programa.

A partir da análise dos dados, foi elaborada uma tabela de quantidades indicando a média e o desvio padrão dos dados, onde verificou-se que a média de moradores das famílias que utilizam o programa (4.59) é muito próxima da média dos que não utilizam (4.31). Além disso, o desvio padrão para os 2 casos indica que os dados são homogêneos.

Na sequência, foi feito um gráfico do tipo “boxplot”, onde foi possível observar que a mediana do número de moradores dos que utilizam o P.A.P é de 5 moradores e dos que não utilizam é de 4 moradores. Dentro dos que utilizam o programa, a densidade dos dados entre o 1º quartil e a mediana é maior do que entre a mediana e o 3º quartil, e possuem outliers entre os dados. Já dentro dos que não utilizam o programa, há maior simetria entre os quartis, além de possuir valores máximos e mínimos mais espaçados, o que não acusa existência de outliers.

Dessa forma, conclui-se que, como a média do número de moradores é bem próxima entre os que utilizam e os que não utilizam o P.A.P, não há influência do tamanho das famílias na adesão ao programa.

Bibliografia

R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

Atividade 05 - Análise de Variável Qualitativa por Quantitativa

Bernardo Quinet Barra

2022-10-06