library(readxl)

Teste de hipótese

1. Definir hipotese

Se jogarmos cara ou coroa e sair cara 541 vezes, a moeda está viciada?

H0 = Não, a moeda é honesta H1 = Sim, a moeda é viciada

NC = 470: 610
plot(NC, dbinom(NC, size = 1000, prob = .541), type = "h")

H0: p = 0,5

H1: p != 0,5

2. Definir o tipo de teste

Utilizaremos o teste de proporção

3. Escolher o alpha (nível de significância)

alpha = 0,05

4. Calcular o valor/ Realizar o teste

prop.test(541, 1000, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  541 out of 1000, null probability 0.5
## X-squared = 6.561, df = 1, p-value = 0.01042
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.5095159 0.5721653
## sample estimates:
##     p 
## 0.541

Resultado:

Rejeitamos a H0, logo, a moeda é viciada. É improvável que uma moeda honesta caia 541 vezes na cara.


N = 10000

p = 5030

Essa moeda é honesta?

prop.test(5030, 10000, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  5030 out of 10000, null probability 0.5
## X-squared = 0.3481, df = 1, p-value = 0.5552
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4931511 0.5128466
## sample estimates:
##     p 
## 0.503

Sim, essa moeda é honesta, não rejeitamos a hipotese nula.

P-value

Quanto maior o P-value maior a evidência para não rejeitar a hipotese nula. Se p-value ≤ alpha, rejeitamos a hipotese nula

Se p-value > alpha, não rejeitamos a hipotese nula

Nesse caso, p-value = 0,5552, enquanto alpha = 0,5, logo, p-value > alpha, rejeitamos a hipotese nula.


N = 10

p = 7

Essa moeda é honesta?

prop.test(7, 10, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  7 out of 10, null probability 0.5
## X-squared = 0.9, df = 1, p-value = 0.3428
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.3536707 0.9190522
## sample estimates:
##   p 
## 0.7

Sim! Porque o p-value > alpha, logo não rejeitamos a hipotese nula.


Análise de bases de dados

Carregando bases de dados

load("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\CARROS.RData")

QE <- read_excel("C:\\Users\\15781634711\\Desktop\\Base_de_dados-master\\Questionario_Estresse.xls")

Queremos analisar se os alunos são nota 7

H0 = Média = 7

H1 = Média != 7

Alpha = 0,05

Se o P-value for ≤ que o alpha, rejeitamos o H0

Se o P-value fro > que o alpha, não rejeitamos o H0

Tpo de teste é o student’s t-test

options(scipen = 999)
t.test(QE$Desempenho, mu = 7, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  QE$Desempenho
## t = 20.036, df = 94, p-value < 0.00000000000000022
## alternative hypothesis: true mean is not equal to 7
## 95 percent confidence interval:
##  8.435849 8.751730
## sample estimates:
## mean of x 
##  8.593789

O P-value é muito menor que o alpha, logo, rejeitamos a H0.


Alpha (α)

Erros

“Presunção de não diferença” - Partimos sempre da hipotese nula, e a evidência deve demonstrar o contrário.

Erros - tipo I e tipo II

  • Erro tipo I - Quando achamos que a hipotese nula é falsa mas ela é verdadeira

  • Erro tipo II - Quando achamos que a hipotese nula é verdadeira mas ela é falsa

O alpha é a tolerância ao erro tipo I

O padrão de 5%

Nas ciências sociais precisamos usar um erro de 5% pois o erro é menos grave e é díficil colocar números exatos em coisas não exatas avaliadas pelas ciências sociais.


Análise de bases de dados

Queremos analisar se a média de estresse dos alunos é 30

H0 = mu = 30

H1 = mu != 30

α = 0,05

t.test(QE$Estresse, mu = 30, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  QE$Estresse
## t = -2.8167, df = 94, p-value = 0.005913
## alternative hypothesis: true mean is not equal to 30
## 95 percent confidence interval:
##  26.28509 29.35702
## sample estimates:
## mean of x 
##  27.82105

O P-value é menor que o α, logo, rejeitamos a H0.

Em média esses alunos não tem estresse igual a 30.

Queremos analisar se a média de horas de estudo é de 30 horas

H0 = mu = 30

H1 = mu != 30

α = 0,01

t.test(QE$Horas_estudo, mu = 30, conf.level = 0.99)
## 
##  One Sample t-test
## 
## data:  QE$Horas_estudo
## t = 0.97291, df = 94, p-value = 0.3331
## alternative hypothesis: true mean is not equal to 30
## 99 percent confidence interval:
##  28.76355 32.68908
## sample estimates:
## mean of x 
##  30.72632

O P-value é maior que o α, logo, não rejeitamos a H0.

Em média esses alunos estudam 30 horas por semana.

Queremos analisar o km/litro dos carros

H0 = mu = 18

H1 = mu != 18

α = 0,05

t.test(CARROS$Kmporlitro, mu = 18, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  CARROS$Kmporlitro
## t = 1.9622, df = 31, p-value = 0.05876
## alternative hypothesis: true mean is not equal to 18
## 95 percent confidence interval:
##  17.91768 22.26357
## sample estimates:
## mean of x 
##  20.09062

O P-value(0,05876) é maior que o α, logo, não rejeitamos a hipotese nula.

Queremos analisar a média de preço dos carros

H0 = mu = 200

H1 = mu != 200

α = 0,05

t.test(CARROS$Preco, mu = 200, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  CARROS$Preco
## t = 1.4022, df = 31, p-value = 0.1708
## alternative hypothesis: true mean is not equal to 200
## 95 percent confidence interval:
##  186.0372 275.4065
## sample estimates:
## mean of x 
##  230.7219

O P-value(0,1708) é maior que o α, logo, não rejeitamos a hipotese nula.

Queremos analisar a quantidade de cavalos dos carros

H0 = mu = 150

H1 = mu != 150

α = 0,05

t.test(CARROS$HP, mu = 150, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  CARROS$HP
## t = -0.2733, df = 31, p-value = 0.7864
## alternative hypothesis: true mean is not equal to 150
## 95 percent confidence interval:
##  121.9679 171.4071
## sample estimates:
## mean of x 
##  146.6875

O P-value(0,7864) é maior que o α, logo, não rejeitamos a hipotese nula.

Queremos analisar a amperagem dos carros

H0 = mu = 3,2

H1 = mu != 3,2

α = 0,05

t.test(CARROS$Amperagem_circ_eletrico, mu = 3.2, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  CARROS$Amperagem_circ_eletrico
## t = 4.1956, df = 31, p-value = 0.0002115
## alternative hypothesis: true mean is not equal to 3.2
## 95 percent confidence interval:
##  3.403790 3.789335
## sample estimates:
## mean of x 
##  3.596563

O P-value(0,0002115) é menor que o α, logo, rejeitamos a hipotese nula.


Testando o speechbr e o wordcloud

library(dplyr)
library(speechbr)
library(wordcloud2)
library(wordcloud)
library(tibble)
library(tidytext)
library(stopwords)
library(tm)
discursos = speech_data(keyword = "desigualdade", start_date = "2023-01-01", end_date = "2023-06-07")
stop_words = get_stopwords("pt")
outras_palavras = tibble(word = "é", lexicon = "pedro")
stop_words = stop_words %>% add_row(outras_palavras)

discursos %>% rowid_to_column("id") %>% 
  select(id, discurso) %>%
  unnest_tokens(word, discurso) %>%
  anti_join(stop_words) %>%
  group_by(word) %>%
  count(word, sort = TRUE) %>%
  wordcloud2()