Atividades no R Markdown

Atividade 1 - Gráfico e/ou estatística que incomoda

Explicação: O gráfico aponta alguns problemas. Primeiramente, trata-se de uma pesquisa realizada através de uma enquete no Facebook onde não se sabe como se dispõe o espaço amostral. De fato, não temos como afirmar que o resultado obtido reflete a população, e nem que tal instituto possui competência para realizar tal levantamento. Por fim, o mais tenebroso fato é de que o somatório dos votos não contabilizam 100%, mas sim um número superior.

Atividade 2 - Gráfico de Pizza com o banco de dados pokémon

Passo 1 - Carregar o banco de dados

## Trata-se de um arquivo .csv, logo podemos carregá-lo através da library (readr)

library(readr)
BancoPokemon <- read_csv("C:/Users/Humberto.Guedes/Downloads/Base_de_dados-master/Base_de_dados-master/pokRdex_mod.csv")

Passo 2 - Gerar um gráfico de pizza

## O comando para gerar um gráfico de pizza é "pie(Banco$variável)"

## Em um gráfico de pizza, geralmente utilizamos variáveis qualitativas

## Este banco veio indicando que todas as variáveis são quantitativas, mas na realidade não são. Para mudar uma variável para a classe de fator vamos utilizar o comando "as.factor"

BancoPokemon$egg_group_2<- as.factor(BancoPokemon$egg_group_2)

## vamos ver como está organizado esta variável, em forma de tabela

table(BancoPokemon$egg_group_2)
## 
##           bug        dragon         fairy        flying        ground 
##             2            42            16             4            34 
##    humanshape indeterminate       mineral         plant        water1 
##            17            11             9            36            16 
##        water2        water3 
##             8            15
## Agora vamos fazer um gráfico de pizza bem caprichado

pie(table(BancoPokemon$egg_group_2), main = "Gráfico de Pizza Egg-Group", col = c("Green","Yellow","Purple","Black","royalblue","Gold", "Whitesmoke","Tomato3","Grey","hotpink","khaki","paleturquoise2") )

Conclusão: O gráfico de pizza é mais indicado quando se tem poucas variáveis qualitativas, neste caso só pudemos ver uma parte reduzida do subgrupo.

Atividade 3 - Histograma/Boxplot no R Markdown com a Base de Dados “BaseEstados”

Passo 1 - Importar o Banco de dados

## Note que o documento está em formato de Excel, portanto devemos utilizara library (readxl)

library(readxl)
BasesEstados <- read_excel("C:/Users/Humberto.Guedes/Downloads/Base_de_dados-master/Base_de_dados-master/BasesEstados.xlsx")

Passo 2 - Esoolher uma variável e gerar um histograma

hist(BasesEstados$Taxa_analfabetismo, main = "Histograma Taxa de Analfabetismo por Quantidade de Estados", xlab = "Taxa de Analfabetismo em %", ylab = "Quantidade de Estados", col = c("Gold", "Royalblue", "Tomato3", "Hotpink","Black", "Green", "Grey"))

Conclusão: Vemos que a maioria dos Estados possuem uma taxa de analfabetismo entre 5% e 15%.

Atividade 4 - Formular uma Tabela Cruzada no Banco de Dados Titanic

Passo 1 - Carrregar o Banco de dados

load("C:/Users/Humberto.Guedes/Downloads/Base_de_dados-master/Base_de_dados-master/Titanic.RData")

Passo 2 - Tabela Cruzada de Duas Variáveis

## Aqui vamos utilizar a library "knitr" para gerar tabelas mais caprichadas

library(knitr)

summary(Titanic$Sexo)
##  Feminino Masculino 
##       470      1730
summary(Titanic$Classe)
## Tripulação   Primeira    Segunda   Terceira 
##        885        324        285        706
kable(table(Titanic$Sexo, Titanic$Classe))
Tripulação Primeira Segunda Terceira
Feminino 23 145 106 196
Masculino 862 179 179 510
Conclusão: Vemos que temos uma quantidade muito elevada de homens concentrados na terceira classe, enquanto que as mulheres já se monstram melhor distribuídas entre as classes. Além disso, nota-se que existia apenas uma quantidade ínfima de mulheres na tripulação.

Atividade 5 - Boxplot variável qualitativa por quantitativa

Passo 1 - Importar o Banco de dados

library(readxl)
Base_Estresse <- read_excel("C:/Users/Humberto.Guedes/Downloads/Base_de_dados-master/Base_de_dados-master/Questionario_Estresse.xls")

Passo 2 - Apresentar as variáveis e criar um boxplot

summary(Base_Estresse)
##      Aluno          Turma         Mora_pais           RJ       
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000  
##                                                                
##   Namorado(a)       Trabalha       Desempenho       Estresse    
##  Min.   :1.000   Min.   :1.000   Min.   :5.820   Min.   :12.00  
##  1st Qu.:1.000   1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50  
##  Median :2.000   Median :2.000   Median :8.700   Median :27.00  
##  Mean   :1.505   Mean   :1.621   Mean   :8.594   Mean   :27.82  
##  3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00  
##  Max.   :2.000   Max.   :2.000   Max.   :9.700   Max.   :44.00  
##                                                                 
##     Créditos      Horas_estudo  
##  Min.   :15.00   Min.   :19.00  
##  1st Qu.:23.00   1st Qu.:25.00  
##  Median :24.00   Median :30.00  
##  Mean   :24.95   Mean   :30.73  
##  3rd Qu.:27.00   3rd Qu.:35.00  
##  Max.   :49.00   Max.   :60.00  
##  NA's   :1
## Escolherei as variáveis de turma (quali) por desempenho (quanti)

kable(head(table(Base_Estresse$Desempenho, Base_Estresse$Turma)))
1 2 3
5.82 0 0 1
5.9 0 1 0
6 0 0 1
6.5 0 0 1
6.6 0 0 1
7 0 0 2
boxplot(Base_Estresse$Desempenho, Base_Estresse$Turma, horizontal = TRUE, names = c("Turma 1", "Turma 2"), main = "Boxplot Desempenho por turmas", col = c("Gold", "red"), xlab = "Índice de Desempenho", ylab = "Turmas")

Conclusão: A Turma 1 teve um desempenho melhor que a Turma 2

Atividade 6 - Análise e Gráfico de variável quantitativa por quantitativa

Passo 1 - Importar banco de dados

library(readxl)
BancoEnsinoMedio <- read_excel("C:/Users/Humberto.Guedes/Downloads/Base_de_dados-master/Base_de_dados-master/turma_ensino_medio.xls")

Passo 2 - Gerar uma análise descritiva e um gráfico com o ggplot2

## Para isso, vamos carregar 2 libraries: "Psych" e "gg2plot"

## com a Psych, usamos o comando DescribeBy; com a ggplot2 conseguimos desenvolver gráficos

library(psych)

describeBy(BancoEnsinoMedio$Nota_Mat)
##    vars  n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 27 5.47 2.25    4.7    5.39 1.63 1.9 9.6   7.7  0.5    -1.12 0.43
describe.by(BancoEnsinoMedio$Nota_Port)
##    vars  n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 27 6.12 1.98    5.5    6.06 1.63 3.2  10   6.8 0.49    -1.11 0.38
summary(table(BancoEnsinoMedio$Nota_Port, BancoEnsinoMedio$Nota_Mat))
## Number of cases in table: 27 
## Number of factors: 2 
## Test for independence of all factors:
##  Chisq = 526.5, df = 504, p-value = 0.236
##  Chi-squared approximation may be incorrect
cor(BancoEnsinoMedio$Nota_Port, BancoEnsinoMedio$Nota_Mat)
## [1] 0.8175323
library(ggplot2)

ggplot(BancoEnsinoMedio) +
 aes(x = Nota_Port, y = Nota_Mat) +
 geom_line(size = 1.22, colour = "#e41a1c") +
 labs(x = "Nota Português", y = "Nota Matemática", title = "Gráfico de Linha", subtitle = "Nota em Português por Nota em Matemática") 

Conclusão: Com a análise do gráfico de dos dados coleetados podemos ver que existe uma forte relação entre alunos que tiraram notas baixam em português também tirarem notas baixas em matemática. E o mesmo vale para notas altas.

Atividade 7 - Um gráfico Inédito!

library(readxl)
BancoRestaurante <- read_excel("C:/Users/Humberto.Guedes/Downloads/Base_de_dados-master/Base_de_dados-master/restaurante.xlsx")

summary(BancoRestaurante)
##      Nome              Bairro              Zona          
##  Length:104         Length:104         Length:104        
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
##                                                          
##      Tipo             Avaliador     Pontuacao restaurante
##  Length:104         Min.   :1.000   Min.   :1.800        
##  Class :character   1st Qu.:1.000   1st Qu.:5.500        
##  Mode  :character   Median :2.000   Median :6.800        
##                     Mean   :1.827   Mean   :6.661        
##                     3rd Qu.:2.000   3rd Qu.:8.125        
##                     Max.   :3.000   Max.   :9.800        
##  Pontuacao serviço Pontuacao ambiente     Preco      
##  Min.   :3.000     Min.   :3.000      Min.   : 10.0  
##  1st Qu.:7.500     1st Qu.:7.500      1st Qu.: 25.0  
##  Median :8.000     Median :8.000      Median : 45.0  
##  Mean   :7.865     Mean   :7.865      Mean   : 46.3  
##  3rd Qu.:8.625     3rd Qu.:8.625      3rd Qu.: 60.0  
##  Max.   :9.500     Max.   :9.500      Max.   :130.0
ggplot(BancoRestaurante) +
 aes(x = Zona, y = Tipo) +
 geom_tile(size = 3L) +
 labs(x = "Zona", y = "Tipo de Comida", title = "Gráfico de Ladrilhos", subtitle = "Zona do Restaurante por Tipo de Comida") +
 theme_linedraw()

Conclusão: Vemos que na Zona Norte encontramos todas as opções de comidas averiguadas por esta pesquisa. O centro da cidade, em contra partida, pouco tem a oferecer em opções alimentíceas, dentre os restaurantes pesquisados.