Desvio padrão em uma base de dados

#Rua azul
azul <- c(70,65,55,70,75)
media_azul <- mean(azul)
variancia_azul <- var(azul)
variancia_azul
## [1] 57.5
dp_azul <- sd(azul)
sqrt(variancia_azul)
## [1] 7.582875
#Rua vermelha
vermelho <- c(40,95,55,80,65)
media_vermelho <- mean(vermelho)
variancia_vermelho <- var(vermelho)
variancia_vermelho
## [1] 457.5
dp_vermelho <- sd(vermelho)
sqrt(variancia_vermelho)
## [1] 21.38925
library(readr)
FifaData <- read_csv("C:/Users/Windows 10/Documents/MESTRADO - UFF/Estatistica aplicada a engenharia/Base_de_dados-master/FifaData.csv")


dp_velocidade <- sd(FifaData$Speed)
dp_velocidade
## [1] 14.10061

Cruzamento de duas variáveis

  • Quali x Quali
  • Quanti x Quanti
  • Quali x Quanti
# ---------------------------------------------------------------------------------------------------
# Fase 1 - Carregar um banco de dados

load("C:/Users/Windows 10/Documents/MESTRADO - UFF/Estatistica aplicada a engenharia/Base_de_dados-master/Titanic.RData")
View(Titanic)

Perguntas

Mulheres e crianças primeiro, isso aconteceu de fato? Teve desigualdade da sobrevivência?

Variável de interesse: Sobrevivência preditores lineares: sexo, idade e classe

tabela_sexo <- table(Titanic$Sexo,Titanic$Sobreviveu)
#tabela_sexo

library(dplyr)
library(flextable)

prop.table(tabela_sexo,1)
##            
##             Não sobreviveu Sobreviveu
##   Feminino       0.2680851  0.7319149
##   Masculino      0.7884393  0.2115607
prop.table(tabela_sexo,2)
##            
##             Não sobreviveu Sobreviveu
##   Feminino      0.08456376 0.48450704
##   Masculino     0.91543624 0.51549296
 tabela_sexo %>% 
    prop.table(1) %>% 
    round(digits = 2) %>% 
    data.frame()  %>% 
    flextable() %>%
    set_header_labels(Var1="sexo",Var2="sobrevivencia",Freq="percentual") %>%
    #bg(bg = "#EFEF99")
    theme_tron()

Teve uma diferença entre homens e mulheres:

Analise por idade

tabela_idade <- table(Titanic$Idade,Titanic$Sobreviveu)

prop.table(tabela_idade) %>%
  data.frame() %>%
  flextable() %>%
  set_header_labels(Var1="idade",Var2="sobrevivencia",Freq="percentual")

Teve uma difenrença entre adultos e crianças no que tange a sobrevivência.

Hipótese confirmada.

Análise por classe

abaixo, temos duas tabelas simples de proporção

tabela_classe <- table(Titanic$Classe, Titanic$Sobreviveu)

  
  prop.table(tabela_classe,1)
##             
##              Não sobreviveu Sobreviveu
##   Tripulação      0.7604520  0.2395480
##   Primeira        0.3765432  0.6234568
##   Segunda         0.5859649  0.4140351
##   Terceira        0.7478754  0.2521246
  prop.table(tabela_classe,2)
##             
##              Não sobreviveu Sobreviveu
##   Tripulação     0.45167785 0.29859155
##   Primeira       0.08187919 0.28450704
##   Segunda        0.11208054 0.16619718
##   Terceira       0.35436242 0.25070423

abaixo temos a primeira tentativa do gráfico de barras

barplot(tabela_classe, 
          beside = T,
          main="Desigualdade da sobrevivência",
          col=c("pink","red","blue","skyblue"))

versão final do gráfico de barras

tabela_classe2 <- table(Titanic$Sobreviveu,Titanic$Classe)
  
  barplot(tabela_classe2, 
        beside = T,
        main="Desigualdade da sobrevivência",
        col=c("grey","darkgreen"),
        ylim = c(0,750), legend.text = rownames(tabela_classe2))

Teve uma desigualdade da sobrevivência Hipótese confirmada!