Na aula do dia 25/08/2023, vimos como carregar um pacote, ler um banco de dados e excluir conlunas.
OBS: Um asterisco antes e depois de um trecho faz com que ele fique em itálico. Já dois asteriscos, antes e depois de um trecho, faz com que ele fique em negrito.
# Lendo o pacote:library(titanic)
Warning: package 'titanic' was built under R version 4.2.3
# atribuindo titanic_train para o objeto dadosdados <- titanic_train# excluindo colunasdados$PassengerId <-NULLdados$Ticket <-NULLdados$Cabin <-NULLdados$Name <-NULL
Aula 2
Na aula do dia 01/09/2023, aprendemos a ler um banco de dados externo.
library(readxl)
Warning: package 'readxl' was built under R version 4.2.3
# Transformando para fatordados_titanic$Sobreviveu<-as.factor(dados_titanic$Sobreviveu)dados_titanic$Classe<-as.factor(dados_titanic$Classe)dados_titanic$Porto<-as.factor(dados_titanic$Porto)dados_titanic$Sexo<-as.factor(dados_titanic$Sexo)
Vamos mudar agora os nomes das categorias das variáveis qualitativas
Criando uma variável qualitativa a partir de uma quantitativa: Criando a faixa etária
# substiruir {r} por {r, output=F} faz com que a saída do código não apareça no relatório, pois é muito grande.dados_titanic$Faixa_Etaria<-cut(dados_titanic$Idade,c(0,18,65,200))dados_titanic$Faixa_Etariadados_titanic$Faixa_Etarialevels(dados_titanic$Faixa_Etaria)<-c("Até 18 anos", "Maior que 18 anos e até 65 anos", "Maior que 65 anos")
Fazendo uma análise descritiva univariada
Qualitativa
Vamos trabalhar com a variável classe econômica. Vamos construir uma tabela de distribuição de frequências. Conclui-se que a maioria dos passageiros pertencia à terceira classe (55,1%) e a minoria à segunda classe (20,7%). Ver figura 1.
library(summarytools) #chamando o pacote
Warning: package 'summarytools' was built under R version 4.2.3
freq(dados_titanic$Classe) #como queremos fazer uma tabela de distribuição de frequência, usamos a função "freq"
Frequencies
dados_titanic$Classe
Type: Factor
Freq % Valid % Valid Cum. % Total % Total Cum.
-------------- ------ --------- -------------- --------- --------------
Primeira 216 24.24 24.24 24.24 24.24
Segunda 184 20.65 44.89 20.65 44.89
Terceira 491 55.11 100.00 55.11 100.00
<NA> 0 0.00 100.00
Total 891 100.00 100.00 100.00 100.00
# % Valid= frequência relativa (porcentagem)# % Valis cum.= frequencia relativa acumulada (soma das porcenagens)# diferença entre % Valid e % Total: a % valid considera apenas as pessoas que tem informação; a % total considera os passageiros que não possuem informação (os N/A). Ou seja, só haverá diferença quando houver presença de N/A.
Fazendo um Gráfico de barras para a variável classe economica:
# importante deixar o cursor dentro desse chuck e clicar em addins, clicar em ggplot2 builder, se pedir pra instalar algo instalelibrary(ggplot2)
Warning: package 'ggplot2' was built under R version 4.2.3
# CTRL + SHIFT + C= Torna toda a área selecionada como comentário#Para mudar a ordem das categorias de classe econômica:# dados_titanic$Classe<-factor(dados_titanic$Classe, levels=c("Terceira", "Segunda", "Primeira"))# factor(dados_titanic)#eu não preciso fazer todo o caminho através do Addins para mudar algo do grafico. eu posso alterar apenas ali dentro do codigo que gerou o grafico.# para mudar a cor, vou no console e escrevo colors(), aparecerá uma lista de cores.# para saber como é cada cor (pois n da pra saber pelo nome), copie todas as opçoes de cores que apareceu e cole em um arquivo novo, irá aparecer todas os nomes das cores coloridos