library(esquisse)
library(readxl)
library(flextable)
library(dplyr)
QE = read_excel("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\Questionario_Estresse.xls")
load("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\CARROS.RData")

Teste de hipótese para duas variáveis quantitativas

Pressupostos

Pressuposto de normalidade (curva em formato de sino) Se for normal usamos o procedimeto mais exato (teste de pearson), se não for usamos um sub-ótimo (transformamos os dados ou utilizamos o teste de spearman)

PASSOS

PASSO 1: Formular hipóteses

H0: p = 0

H1: p ≠ 0

PASSO 2: Decidir o α

α = 0,05

PASSO 3: Teste de normalidade/QQ plot/Histograma

Teste de normalidade (Shapiro Wilk)

Hipótese nula do teste de normalidade: os dados são normalmente distribuídos (os dados seguem uma distribuição normal)

Hipótese alternativa do teste de normalidade: os dados não são normalmente distribuídos (os dados não seguem uma distribuição normal)

Exemplos de teste de normalidade:

Vamos avaliar se as variáveis horas de estudo, desempenho e estresse seguem uma distribuição normal

As hipóteses e o α são iguais para todos os exemplo

H0: Seguem distribuição normal

H1: não seguem distribuição normal

α = 0,05

Exemplo 1 - Horas de estudo:
shapiro.test(QE$Horas_estudo)
## 
##  Shapiro-Wilk normality test
## 
## data:  QE$Horas_estudo
## W = 0.90613, p-value = 4.599e-06

O p-value é menor que α, logo rejeitamos a H0, e a distribuição da variável horas de estudo não é normal.

Podemos então descobrir porque não é normal

hist(QE$Horas_estudo, col = c("skyblue"), xlab = "Frequência", ylab = "Horas de estudo", main = "Histograma das horas de estudo")

Vemos que o problema é possivelmente os outliers, logo vamos retira-los, e ver se resolve o problema.

QE_sem_outliers = QE %>% filter(Horas_estudo < 55)

Podemos fazer o teste de normalidade novamente

shapiro.test(QE_sem_outliers$Horas_estudo)
## 
##  Shapiro-Wilk normality test
## 
## data:  QE_sem_outliers$Horas_estudo
## W = 0.96818, p-value = 0.0227

O p-value ainda é menor que α, logo o problema não era os outliers e ainda rejeitamos a H0.

Exemplo 2 - Desempenho:
shapiro.test(QE$Desempenho)
## 
##  Shapiro-Wilk normality test
## 
## data:  QE$Desempenho
## W = 0.83587, p-value = 7.085e-09

O p-value é menor que α, logo rejeitamos a H0, e a distribuição da variável desempenho não é normal.

Podemos então descobrir porque não é normal

hist(QE$Desempenho, main = "Histograma de desempenho", ylab = "Frequência", xlab = "Desempenho", col = c("royalblue"))

Os dados são assimétricos demais

Podemos tentar uma transformação dos dados, mudandos o log

QE$log_nota = log(QE$Desempenho)

Podemos fazer o teste de normalidade novamente

shapiro.test(QE$log_nota)
## 
##  Shapiro-Wilk normality test
## 
## data:  QE$log_nota
## W = 0.78028, p-value = 1.337e-10

A variável continua não tendo distribuição normal

Exemplo 3 - Estresse:
shapiro.test(QE$Estresse)
## 
##  Shapiro-Wilk normality test
## 
## data:  QE$Estresse
## W = 0.98756, p-value = 0.5144

O p-value é maior que o α, logo não rejeitamos a H0, a variável segue uma distribuição normal

quadro = data.frame(Variável = c("Horas de estudo", "Desempenho", "Estresse"), Resultado = c("Não normal", "Não normal", "Normal"))

quadro %>% flextable() %>% theme_tron_legacy()

Variável

Resultado

Horas de estudo

Não normal

Desempenho

Não normal

Estresse

Normal

Teste de normalidade aponta se é normal ou não
QQ plot e histograma mostram não só se é normal, mas porque não é normal

PASSO 4: O teste

Se for normal, utilizamos o teste de pearson, se não for normal podemos ou fazer o teste de spearman, ou fazer uma transformação de dados para atingir a normalidade

RESULTADO:

Se p-value for menor que α rejeitamos a H0

Se p-value for maior que α não rejeitamos a H0

Exemplos de teste de hipótese para duas variáveis quantitativas

Exemplo 1 - Peso e Km/L:

Passo 1:

H0: Não há correlação entre as variáveis peso dos carros e e km/L, ou seja RH0 = 0

H1: Há correlação entre as variáveis peso dos carros e km/L, ou seja RH0 =! 0

Passo 2:

α = 0,05

Passo 3:

shapiro.test(CARROS$Peso)
## 
##  Shapiro-Wilk normality test
## 
## data:  CARROS$Peso
## W = 0.94326, p-value = 0.09265
shapiro.test(CARROS$Kmporlitro)
## 
##  Shapiro-Wilk normality test
## 
## data:  CARROS$Kmporlitro
## W = 0.94756, p-value = 0.1229

Ambos são normais

Passo 4:

Teste de Pearson:

cor.test(CARROS$Kmporlitro, CARROS$Peso, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  CARROS$Kmporlitro and CARROS$Peso
## t = -9.559, df = 30, p-value = 1.294e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9338264 -0.7440872
## sample estimates:
##        cor 
## -0.8676594

Resultado:

O p-value é menor que o α, logo rejeitamos a H0, e podemos dizer que há uma correlação significativa negativa entre as variáveis.

Exemplo 2 - Preço e HP:

Passo 1:

H0: Não há correlação entre as variáveis preço dos carros e o seu HP, ou seja RH0 = 0

H1: Há correlação entre as variáveis preço dos carros e o seu HP, ou seja RH0 =! 0

Passo 2:

α = 0,05

Passo 3:

shapiro.test(CARROS$Preco)
## 
##  Shapiro-Wilk normality test
## 
## data:  CARROS$Preco
## W = 0.92001, p-value = 0.02081
shapiro.test(CARROS$HP)
## 
##  Shapiro-Wilk normality test
## 
## data:  CARROS$HP
## W = 0.93342, p-value = 0.04881

Ambos não são normais

Vamos utilizar o método subótimo que é o de spearman

Passo 4:

cor.test(CARROS$Preco, CARROS$HP, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  CARROS$Preco and CARROS$HP
## S = 812.71, p-value = 6.791e-10
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8510426

O p-value é menor que o α, logo rejeitamos a H0, há correlação significativa positiva entre as variáveis

Exemplo 3 - Km/L e preço:

Passo 1:

H0: Não há correlação entre as variáveis preço dos carros e o seu Km/L, ou seja RH0 = 0

H1: Há correlação entre as variáveis preço dos carros e o seu Km/L, ou seja RH0 =! 0

Passo 2:

α = 0,05

Passo 3:

shapiro.test(CARROS$Kmporlitro)
## 
##  Shapiro-Wilk normality test
## 
## data:  CARROS$Kmporlitro
## W = 0.94756, p-value = 0.1229
shapiro.test(CARROS$Preco)
## 
##  Shapiro-Wilk normality test
## 
## data:  CARROS$Preco
## W = 0.92001, p-value = 0.02081

A variável Km/L é normal, enquanto a variável preço não é normal

Como há uma variável não normal, temos que utilizar o método sub-ótimo do teste de spearman

Passo 4:

cor.test(CARROS$Kmporlitro, CARROS$Preco, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  CARROS$Kmporlitro and CARROS$Preco
## S = 10415, p-value = 6.37e-13
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.9088824

O p-value é menor que o α, logo rejeitamos H0, há uma correlação significativa negativa entre as variáveis


QE$Turma = as.factor(QE$Turma)
QE$Mora_pais = as.factor(QE$Mora_pais)
QE$RJ = as.factor(QE$RJ)
QE$Namorado_a = as.factor(QE$Namorado_a)
QE$Trabalha = as.factor(QE$Trabalha)

Utilizando o Esquisse e o plotly

library(ggplot2)
library(plotly)
library(geobr)
grafico1 = ggplot(QE) +
  aes(x = Horas_estudo, y = Estresse, colour = Trabalha, size = Desempenho) +
  geom_point(shape = "circle") +
  scale_color_manual(values = c(`1` = "#990000", `2` = "#002C8E", `3` = "#00A40D")) +
  labs(x = "Horas de estudo", y = "Estresse", title = "Gráfico ", 
       color = "Trabalha?", size = "Desempenho") +
  ggthemes::theme_fivethirtyeight() +
  theme(legend.position = "bottom") 
ggplotly(grafico1)

Mapa

mapa_estados = geobr::read_state(showProgress = FALSE)
grafico3 = ggplot() + geom_sf(data = mapa_estados, aes(fill = name_state))
ggplotly(grafico3)
mapa_bairros = geobr::read_neighborhood(showProgress = FALSE)
bairros = mapa_bairros %>% filter(name_muni == "Rio De Janeiro")
grafico4 = ggplot() + geom_sf(data = bairros, aes(fill = name_neighborhood))

ggplotly(grafico4)