library(readxl)
Se jogarmos cara ou coroa e sair cara 541 vezes, a moeda está viciada?
H0 = Não, a moeda é honesta H1 = Sim, a moeda é viciada
NC = 470: 610
plot(NC, dbinom(NC, size = 1000, prob = .541), type = "h")
H0: p = 0,5
H1: p != 0,5
Utilizaremos o teste de proporção
alpha = 0,05
prop.test(541, 1000, conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: 541 out of 1000, null probability 0.5
## X-squared = 6.561, df = 1, p-value = 0.01042
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5095159 0.5721653
## sample estimates:
## p
## 0.541
Rejeitamos a H0, logo, a moeda é viciada. É improvável que uma moeda honesta caia 541 vezes na cara.
N = 10000
p = 5030
Essa moeda é honesta?
prop.test(5030, 10000, conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: 5030 out of 10000, null probability 0.5
## X-squared = 0.3481, df = 1, p-value = 0.5552
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4931511 0.5128466
## sample estimates:
## p
## 0.503
Sim, essa moeda é honesta, não rejeitamos a hipotese nula.
Quanto maior o P-value maior a evidência para não rejeitar a hipotese nula. Se p-value ≤ alpha, rejeitamos a hipotese nula
Se p-value > alpha, não rejeitamos a hipotese nula
Nesse caso, p-value = 0,5552, enquanto alpha = 0,5, logo, p-value > alpha, rejeitamos a hipotese nula.
N = 10
p = 7
Essa moeda é honesta?
prop.test(7, 10, conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: 7 out of 10, null probability 0.5
## X-squared = 0.9, df = 1, p-value = 0.3428
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3536707 0.9190522
## sample estimates:
## p
## 0.7
Sim! Porque o p-value > alpha, logo não rejeitamos a hipotese nula.
load("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\CARROS.RData")
QE <- read_excel("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\Questionario_Estresse.xls")
H0 = Média = 7
H1 = Média != 7
Alpha = 0,05
Se o P-value for ≤ que o alpha, rejeitamos o H0
Se o P-value fro > que o alpha, não rejeitamos o H0
Tpo de teste é o student’s t-test
options(scipen = 999)
t.test(QE$Desempenho, mu = 7, conf.level = 0.95)
##
## One Sample t-test
##
## data: QE$Desempenho
## t = 20.036, df = 94, p-value < 0.00000000000000022
## alternative hypothesis: true mean is not equal to 7
## 95 percent confidence interval:
## 8.435849 8.751730
## sample estimates:
## mean of x
## 8.593789
O P-value é muito menor que o alpha, logo, rejeitamos a H0.
“Presunção de não diferença” - Partimos sempre da hipotese nula, e a evidência deve demonstrar o contrário.
Erros - tipo I e tipo II
Erro tipo I - Quando achamos que a hipotese nula é falsa mas ela é verdadeira
Erro tipo II - Quando achamos que a hipotese nula é verdadeira mas ela é falsa
Nas ciências sociais precisamos usar um erro de 5% pois o erro é menos grave e é díficil colocar números exatos em coisas não exatas avaliadas pelas ciências sociais.
H0 = mu = 30
H1 = mu != 30
α = 0,05
t.test(QE$Estresse, mu = 30, conf.level = 0.95)
##
## One Sample t-test
##
## data: QE$Estresse
## t = -2.8167, df = 94, p-value = 0.005913
## alternative hypothesis: true mean is not equal to 30
## 95 percent confidence interval:
## 26.28509 29.35702
## sample estimates:
## mean of x
## 27.82105
O P-value é menor que o α, logo, rejeitamos a H0.
Em média esses alunos não tem estresse igual a 30.
H0 = mu = 30
H1 = mu != 30
α = 0,01
t.test(QE$Horas_estudo, mu = 30, conf.level = 0.99)
##
## One Sample t-test
##
## data: QE$Horas_estudo
## t = 0.97291, df = 94, p-value = 0.3331
## alternative hypothesis: true mean is not equal to 30
## 99 percent confidence interval:
## 28.76355 32.68908
## sample estimates:
## mean of x
## 30.72632
O P-value é maior que o α, logo, não rejeitamos a H0.
Em média esses alunos estudam 30 horas por semana.
H0 = mu = 18
H1 = mu != 18
α = 0,05
t.test(CARROS$Kmporlitro, mu = 18, conf.level = 0.95)
##
## One Sample t-test
##
## data: CARROS$Kmporlitro
## t = 1.9622, df = 31, p-value = 0.05876
## alternative hypothesis: true mean is not equal to 18
## 95 percent confidence interval:
## 17.91768 22.26357
## sample estimates:
## mean of x
## 20.09062
O P-value(0,05876) é maior que o α, logo, não rejeitamos a hipotese nula.
H0 = mu = 200
H1 = mu != 200
α = 0,05
t.test(CARROS$Preco, mu = 200, conf.level = 0.95)
##
## One Sample t-test
##
## data: CARROS$Preco
## t = 1.4022, df = 31, p-value = 0.1708
## alternative hypothesis: true mean is not equal to 200
## 95 percent confidence interval:
## 186.0372 275.4065
## sample estimates:
## mean of x
## 230.7219
O P-value(0,1708) é maior que o α, logo, não rejeitamos a hipotese nula.
H0 = mu = 150
H1 = mu != 150
α = 0,05
t.test(CARROS$HP, mu = 150, conf.level = 0.95)
##
## One Sample t-test
##
## data: CARROS$HP
## t = -0.2733, df = 31, p-value = 0.7864
## alternative hypothesis: true mean is not equal to 150
## 95 percent confidence interval:
## 121.9679 171.4071
## sample estimates:
## mean of x
## 146.6875
O P-value(0,7864) é maior que o α, logo, não rejeitamos a hipotese nula.
H0 = mu = 3,2
H1 = mu != 3,2
α = 0,05
t.test(CARROS$Amperagem_circ_eletrico, mu = 3.2, conf.level = 0.95)
##
## One Sample t-test
##
## data: CARROS$Amperagem_circ_eletrico
## t = 4.1956, df = 31, p-value = 0.0002115
## alternative hypothesis: true mean is not equal to 3.2
## 95 percent confidence interval:
## 3.403790 3.789335
## sample estimates:
## mean of x
## 3.596563
O P-value(0,0002115) é menor que o α, logo, rejeitamos a hipotese nula.
library(dplyr)
library(speechbr)
library(wordcloud2)
library(wordcloud)
library(tibble)
library(tidytext)
library(stopwords)
library(tm)
discursos = speech_data(keyword = "desigualdade", start_date = "2023-01-01", end_date = "2023-06-07")
stop_words = get_stopwords("pt")
outras_palavras = tibble(word = "é", lexicon = "pedro")
stop_words = stop_words %>% add_row(outras_palavras)
discursos %>% rowid_to_column("id") %>%
select(id, discurso) %>%
unnest_tokens(word, discurso) %>%
anti_join(stop_words) %>%
group_by(word) %>%
count(word, sort = TRUE) %>%
wordcloud2()