library(esquisse)
library(readxl)
library(flextable)
library(dplyr)
QE = read_excel("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\Questionario_Estresse.xls")
load("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\CARROS.RData")
Pressuposto de normalidade (curva em formato de sino) Se for normal usamos o procedimeto mais exato (teste de pearson), se não for usamos um sub-ótimo (transformamos os dados ou utilizamos o teste de spearman)
H0: p = 0
H1: p ≠ 0
α = 0,05
Hipótese nula do teste de normalidade: os dados são normalmente distribuídos (os dados seguem uma distribuição normal)
Hipótese alternativa do teste de normalidade: os dados não são normalmente distribuídos (os dados não seguem uma distribuição normal)
Vamos avaliar se as variáveis horas de estudo, desempenho e estresse seguem uma distribuição normal
As hipóteses e o α são iguais para todos os exemplo
H0: Seguem distribuição normal
H1: não seguem distribuição normal
α = 0,05
shapiro.test(QE$Horas_estudo)
##
## Shapiro-Wilk normality test
##
## data: QE$Horas_estudo
## W = 0.90613, p-value = 4.599e-06
O p-value é menor que α, logo rejeitamos a H0, e a distribuição da variável horas de estudo não é normal.
Podemos então descobrir porque não é normal
hist(QE$Horas_estudo, col = c("skyblue"), xlab = "Frequência", ylab = "Horas de estudo", main = "Histograma das horas de estudo")
Vemos que o problema é possivelmente os outliers, logo vamos retira-los, e ver se resolve o problema.
QE_sem_outliers = QE %>% filter(Horas_estudo < 55)
Podemos fazer o teste de normalidade novamente
shapiro.test(QE_sem_outliers$Horas_estudo)
##
## Shapiro-Wilk normality test
##
## data: QE_sem_outliers$Horas_estudo
## W = 0.96818, p-value = 0.0227
O p-value ainda é menor que α, logo o problema não era os outliers e ainda rejeitamos a H0.
shapiro.test(QE$Desempenho)
##
## Shapiro-Wilk normality test
##
## data: QE$Desempenho
## W = 0.83587, p-value = 7.085e-09
O p-value é menor que α, logo rejeitamos a H0, e a distribuição da variável desempenho não é normal.
Podemos então descobrir porque não é normal
hist(QE$Desempenho, main = "Histograma de desempenho", ylab = "Frequência", xlab = "Desempenho", col = c("royalblue"))
Os dados são assimétricos demais
Podemos tentar uma transformação dos dados, mudandos o log
QE$log_nota = log(QE$Desempenho)
Podemos fazer o teste de normalidade novamente
shapiro.test(QE$log_nota)
##
## Shapiro-Wilk normality test
##
## data: QE$log_nota
## W = 0.78028, p-value = 1.337e-10
A variável continua não tendo distribuição normal
shapiro.test(QE$Estresse)
##
## Shapiro-Wilk normality test
##
## data: QE$Estresse
## W = 0.98756, p-value = 0.5144
O p-value é maior que o α, logo não rejeitamos a H0, a variável segue uma distribuição normal
quadro = data.frame(Variável = c("Horas de estudo", "Desempenho", "Estresse"), Resultado = c("Não normal", "Não normal", "Normal"))
quadro %>% flextable() %>% theme_tron_legacy()
Variável | Resultado |
|---|---|
Horas de estudo | Não normal |
Desempenho | Não normal |
Estresse | Normal |
Se for normal, utilizamos o teste de pearson, se não for normal podemos ou fazer o teste de spearman, ou fazer uma transformação de dados para atingir a normalidade
Se p-value for menor que α rejeitamos a H0
Se p-value for maior que α não rejeitamos a H0
Passo 1:
H0: Não há correlação entre as variáveis peso dos carros e e km/L, ou seja RH0 = 0
H1: Há correlação entre as variáveis peso dos carros e km/L, ou seja RH0 =! 0
Passo 2:
α = 0,05
Passo 3:
shapiro.test(CARROS$Peso)
##
## Shapiro-Wilk normality test
##
## data: CARROS$Peso
## W = 0.94326, p-value = 0.09265
shapiro.test(CARROS$Kmporlitro)
##
## Shapiro-Wilk normality test
##
## data: CARROS$Kmporlitro
## W = 0.94756, p-value = 0.1229
Ambos são normais
Passo 4:
Teste de Pearson:
cor.test(CARROS$Kmporlitro, CARROS$Peso, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: CARROS$Kmporlitro and CARROS$Peso
## t = -9.559, df = 30, p-value = 1.294e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9338264 -0.7440872
## sample estimates:
## cor
## -0.8676594
Resultado:
O p-value é menor que o α, logo rejeitamos a H0, e podemos dizer que há uma correlação significativa negativa entre as variáveis.
Passo 1:
H0: Não há correlação entre as variáveis preço dos carros e o seu HP, ou seja RH0 = 0
H1: Há correlação entre as variáveis preço dos carros e o seu HP, ou seja RH0 =! 0
Passo 2:
α = 0,05
Passo 3:
shapiro.test(CARROS$Preco)
##
## Shapiro-Wilk normality test
##
## data: CARROS$Preco
## W = 0.92001, p-value = 0.02081
shapiro.test(CARROS$HP)
##
## Shapiro-Wilk normality test
##
## data: CARROS$HP
## W = 0.93342, p-value = 0.04881
Ambos não são normais
Vamos utilizar o método subótimo que é o de spearman
Passo 4:
cor.test(CARROS$Preco, CARROS$HP, method = "spearman")
##
## Spearman's rank correlation rho
##
## data: CARROS$Preco and CARROS$HP
## S = 812.71, p-value = 6.791e-10
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.8510426
O p-value é menor que o α, logo rejeitamos a H0, há correlação significativa positiva entre as variáveis
Passo 1:
H0: Não há correlação entre as variáveis preço dos carros e o seu Km/L, ou seja RH0 = 0
H1: Há correlação entre as variáveis preço dos carros e o seu Km/L, ou seja RH0 =! 0
Passo 2:
α = 0,05
Passo 3:
shapiro.test(CARROS$Kmporlitro)
##
## Shapiro-Wilk normality test
##
## data: CARROS$Kmporlitro
## W = 0.94756, p-value = 0.1229
shapiro.test(CARROS$Preco)
##
## Shapiro-Wilk normality test
##
## data: CARROS$Preco
## W = 0.92001, p-value = 0.02081
A variável Km/L é normal, enquanto a variável preço não é normal
Como há uma variável não normal, temos que utilizar o método sub-ótimo do teste de spearman
Passo 4:
cor.test(CARROS$Kmporlitro, CARROS$Preco, method = "spearman")
##
## Spearman's rank correlation rho
##
## data: CARROS$Kmporlitro and CARROS$Preco
## S = 10415, p-value = 6.37e-13
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.9088824
O p-value é menor que o α, logo rejeitamos H0, há uma correlação significativa negativa entre as variáveis
QE$Turma = as.factor(QE$Turma)
QE$Mora_pais = as.factor(QE$Mora_pais)
QE$RJ = as.factor(QE$RJ)
QE$Namorado_a = as.factor(QE$Namorado_a)
QE$Trabalha = as.factor(QE$Trabalha)
library(ggplot2)
library(plotly)
library(geobr)
grafico1 = ggplot(QE) +
aes(x = Horas_estudo, y = Estresse, colour = Trabalha, size = Desempenho) +
geom_point(shape = "circle") +
scale_color_manual(values = c(`1` = "#990000", `2` = "#002C8E", `3` = "#00A40D")) +
labs(x = "Horas de estudo", y = "Estresse", title = "Gráfico ",
color = "Trabalha?", size = "Desempenho") +
ggthemes::theme_fivethirtyeight() +
theme(legend.position = "bottom")
ggplotly(grafico1)
mapa_estados = geobr::read_state(showProgress = FALSE)
grafico3 = ggplot() + geom_sf(data = mapa_estados, aes(fill = name_state))
ggplotly(grafico3)
mapa_bairros = geobr::read_neighborhood(showProgress = FALSE)
bairros = mapa_bairros %>% filter(name_muni == "Rio De Janeiro")
grafico4 = ggplot() + geom_sf(data = bairros, aes(fill = name_neighborhood))
ggplotly(grafico4)