Prya.e.Bruna.Bioestatística.2023.2

Author

Prya e Bruna

Aula 1

Na aula do dia 25/08/2023, vimos como carregar um pacote, ler um banco de dados e excluir conlunas.

OBS: Um asterisco antes e depois de um trecho faz com que ele fique em itálico. Já dois asteriscos, antes e depois de um trecho, faz com que ele fique em negrito.

# Lendo o pacote:
library(titanic)

Warning: package 'titanic' was built under R version 4.2.3

# atribuindo titanic_train para o objeto dados
dados <- titanic_train

# excluindo colunas
dados$PassengerId <- NULL
dados$Ticket <- NULL
dados$Cabin <- NULL
dados$Name <- NULL

Aula 2

Na aula do dia 01/09/2023, aprendemos a ler um banco de dados externo.

library(readxl)

Warning: package 'readxl' was built under R version 4.2.3

dados_titanic <- read_excel("C:/Users/18304197731/Downloads/dados_titanic.xlsx")
dados_titanic$Nome<-NULL

Corrigindo algumas variáveis:

# Vendo a estrutura dos dados
str(dados_titanic)

tibble [891 × 8] (S3: tbl_df/tbl/data.frame)
 $ Sobreviveu       : num [1:891] 0 1 1 1 0 0 0 0 1 1 ...
 $ Classe           : num [1:891] 3 1 3 1 3 3 1 3 3 2 ...
 $ Sexo             : chr [1:891] "male" "female" "female" "female" ...
 $ Idade            : num [1:891] 22 38 26 35 35 NA 54 2 27 14 ...
 $ N_irmaos_conjuges: num [1:891] 1 1 0 1 0 0 0 3 0 1 ...
 $ N_pais_filhos    : num [1:891] 0 0 0 0 0 0 0 1 2 0 ...
 $ Tarifa           : num [1:891] 7.25 71.28 7.92 53.1 8.05 ...
 $ Porto            : chr [1:891] "S" "C" "S" "S" ...

# Transformando para fator
dados_titanic$Sobreviveu<- as.factor(dados_titanic$Sobreviveu)
dados_titanic$Classe<-as.factor(dados_titanic$Classe)
dados_titanic$Porto<-as.factor(dados_titanic$Porto)
dados_titanic$Sexo<-as.factor(dados_titanic$Sexo)

Vamos mudar agora os nomes das categorias das variáveis qualitativas

levels(dados_titanic$Sobreviveu)

[1] "0" "1"

levels(dados_titanic$Sobreviveu) <- c("Não", "Sim")

levels(dados_titanic$Classe)

[1] "1" "2" "3"

levels(dados_titanic$Classe)<- c("Primeira", "Segunda", "Terceira")

levels(dados_titanic$Sexo)

[1] "female" "male"

levels(dados_titanic$Sexo)<- c("Feminino", "Masculino")

Mudando o nome de uma variável:

colnames(dados_titanic)

[1] "Sobreviveu"        "Classe"            "Sexo"             
[4] "Idade"             "N_irmaos_conjuges" "N_pais_filhos"    
[7] "Tarifa"            "Porto"

colnames(dados_titanic)[8] <- "Porto_de_Embarque"

Criando uma variável qualitativa a partir de uma quantitativa: Criando a faixa etária

# substiruir {r} por {r, output=F} faz com que a saída do código não apareça no relatório, pois é muito grande.
dados_titanic$Faixa_Etaria<-cut(dados_titanic$Idade,c(0,18,65,200))
dados_titanic$Faixa_Etaria

dados_titanic$Faixa_Etaria
levels(dados_titanic$Faixa_Etaria)<-c("Até 18 anos", "Maior que 18 anos e até 65 anos", "Maior que 65 anos")

Fazendo uma análise descritiva univariada

Qualitativa

Vamos trabalhar com a variável classe econômica. Vamos construir uma tabela de distribuição de frequências. Conclui-se que a maioria dos passageiros pertencia à terceira classe (55,1%) e a minoria à segunda classe (20,7%). Ver figura 1.

library(summarytools) #chamando o pacote

Warning: package 'summarytools' was built under R version 4.2.3

freq(dados_titanic$Classe) #como queremos fazer uma tabela de distribuição de frequência, usamos a função "freq"

Frequencies  
dados_titanic$Classe  
Type: Factor  

                 Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
-------------- ------ --------- -------------- --------- --------------
      Primeira    216     24.24          24.24     24.24          24.24
       Segunda    184     20.65          44.89     20.65          44.89
      Terceira    491     55.11         100.00     55.11         100.00
          <NA>      0                               0.00         100.00
         Total    891    100.00         100.00    100.00         100.00

# % Valid= frequência relativa (porcentagem)
# % Valis cum.= frequencia relativa acumulada (soma das porcenagens)
# diferença entre % Valid e % Total: a % valid considera apenas as pessoas que tem informação; a % total considera os passageiros que não possuem informação (os N/A). Ou seja, só haverá diferença quando houver presença de N/A.

Fazendo um Gráfico de barras para a variável classe economica:

# importante deixar o cursor dentro desse chuck e clicar em addins, clicar em ggplot2 builder, se pedir pra instalar algo instale

library(ggplot2)

Warning: package 'ggplot2' was built under R version 4.2.3

ggplot(dados_titanic) +
 aes(x = Classe) + 
 geom_bar(fill = "#ED73E3") +
 labs(x = "Classe Econômica", 
 y = "Frequência", title = "Figura 1", caption = "Fonte: Autora") +
 theme_minimal() +
 theme(plot.title = element_text(face = "bold.italic", hjust = 0.5))

# CTRL + SHIFT + C= Torna toda a área selecionada como comentário


#Para mudar a ordem das categorias de classe econômica:

# dados_titanic$Classe<-factor(dados_titanic$Classe, levels=c("Terceira", "Segunda", "Primeira"))
# factor(dados_titanic)

#eu não preciso fazer todo o caminho através do Addins para mudar algo do grafico. eu posso alterar apenas ali dentro do codigo que gerou o grafico.

# para mudar a cor, vou no console e escrevo colors(), aparecerá uma lista de cores.
# para saber como é cada cor (pois n da pra saber pelo nome), copie todas as opçoes de cores que apareceu e cole em um arquivo novo, irá aparecer todas os nomes das cores coloridos