análise de variável quantitativa
comando a mais para o sumário:
code_folding: hide
Aqui vamos comparar os desvios de dois conjuntos de dados.
#---------------------
# Criando o conjunto de dados
#---------------------
rua_vermelha = c(40,55,95,80,65)
rua_azul = c(70,55,65,70,75)
#------------------------------
#Calculando a media
#------------------------------
media_vermelha = mean(rua_vermelha)
media_azul = mean(rua_azul)
media_vermelha
## [1] 67
media_azul
## [1] 67
# Calculando a variância
var_vermelha = var(rua_vermelha)
var_azul = var(rua_azul)
var_vermelha
## [1] 457.5
var_azul
## [1] 57.5
# Apesar de ter a mesma média, a variância da rua vermelha é muito maior do que a variância da rua azul
# Desvio padrão
desvio_padrao_vermelho = sd(rua_vermelha)
desvio_padrao_azul = sd(rua_azul)
desvio_padrao_azul
## [1] 7.582875
desvio_padrao_vermelho
## [1] 21.38925
#——————————–
head (Questionario_Estresse)
*Aqui eu deveria mudar com o uso do ifelse, mas fiz isso antes da aula começar. posso olhar isso no discord. Seria o tópico limpeza de dados.
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
Questionario_Estresse <- read_excel("C:/Users/18112914737/Downloads/Questionario_Estresse.xls")
#----------------------------------
#Perguntas de pesquisa
#----------------------------------
# Qual é a nota média desses alunos?
# Quantas horas eles estudam?
# Qual é o nível de estresse deles?
#-----------------------------------------------------
#Nota média vai ser avaliada pela variável desempenho
#Horas?? Ficou um pouco vago, mas para operacionalizar isso, vamos usar
# a variavel o Horas Estudo na semana
#-----------------------------------------------------
mean(Questionario_Estresse$Desempenho)
## [1] 8.593789
#desvio padrao:
sd(Questionario_Estresse$Desempenho)
## [1] 0.775319
#resultado 0,77
A média é 8,6 com o desvio padrão de 0,77 indicando uma nota alta com pouca dispersão.
#-----------------------------------------------------
#O que é a mediana?
#-----------------------------------------------------
#59,13,4,12,99
#4,12,13,59,99 = mediana é o n 13
#se for par pegar os dois numeros do meio e dividir por 2, o resultado
#será a mediana
conjunto1 = c(8,9,10,11,12,13,14)
mean(conjunto1)
## [1] 11
median(conjunto1)
## [1] 11
#Ambos os resultados acima deram 11
conjunto2 = c(8,9,10,11,12,13,140000)
mean(conjunto2)
## [1] 20009
median(conjunto2)
## [1] 11
os resultados foram 20009 e 11, respectivamente
um valr fora da curva.
EX o IBGE usa a mediana no PME
#Ex: entre 25% de um lado e 75% de outro/// 75%/25%
summary(Questionario_Estresse)
## Aluno Turma Mora_pais RJ Namorado_a
## Min. : 1.0 Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:24.5 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000
## Median :48.0 Median :2.000 Median :2.000 Median :2.000 Median :2.000
## Mean :48.0 Mean :2.074 Mean :1.537 Mean :1.653 Mean :1.505
## 3rd Qu.:71.5 3rd Qu.:3.000 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:2.000
## Max. :95.0 Max. :3.000 Max. :2.000 Max. :2.000 Max. :2.000
##
## Trabalha Desempenho Estresse Créditos
## Min. :1.000 Min. :5.820 Min. :12.00 Min. :15.00
## 1st Qu.:1.000 1st Qu.:8.500 1st Qu.:22.50 1st Qu.:23.00
## Median :2.000 Median :8.700 Median :27.00 Median :24.00
## Mean :1.621 Mean :8.594 Mean :27.82 Mean :24.95
## 3rd Qu.:2.000 3rd Qu.:9.050 3rd Qu.:33.00 3rd Qu.:27.00
## Max. :2.000 Max. :9.700 Max. :44.00 Max. :49.00
## NA's :1
## Horas_estudo
## Min. :19.00
## 1st Qu.:25.00
## Median :30.00
## Mean :30.73
## 3rd Qu.:35.00
## Max. :60.00
##
só serve p/variavel quantitativa, preferencialmente continua
boxplot(Questionario_Estresse$Desempenho)
onde começa caixa é o 1o quartil a caixa tem 50% dos dados as bolas são os outliers
boxplot(Questionario_Estresse$Horas_estudo, col="pink", main="Gráfico 1 boxplot das horas de estudo")
se eu colocar uma interrogação antes do comando o R me dá uma colinha.
A ideia é perceber um desses modelos
#-------------------------------------------
# Carregando a base CARROS.RData
#-------------------------------------------
load("C:/Users/18112914737/Downloads/CARROS.RData")
# Histograma
hist(CARROS$Kmporlitro, col="hotpink", main="Meu primeiro histograma")
hist(CARROS$Kmporlitro, col="hotpink", main="Meu primeiro histograma", ylab = "Frequencia", xlab = "Km/L")
hist(CARROS$Preco, col="pink", main="Meu segundo histograma", ylab = "Frequencia", xlab = "Preco do carro")
Histograma bimodal e assimétrico acima no segundo hist geralmente ocorre quando a base de dados não é homogênea no caso acima tem carros populares e carros de luxo dois tipod de carro apesar de ter uma variavel só
no primeiro hist: Carro comum e carro super economico
Segunda conclusão: preço assimétrico e bimodal. Parece que tem carro polular e de luxo na base de dados
hist(CARROS$Peso, col="pink2", main = "Meu terceiro histograma", ylab = "Frequencia", xlab = "Peso do carro")
O peso do carro é assimétrico
tabela = table(Questionario_Estresse$Trabalha)
par(mfrow=c(1,2))
barplot(tabela, col="Pink3")
hist(CARROS$Preco, col="Purple")