análise de variável quantitativa

comando a mais para o sumário:

code_folding: hide

Uma análise básica do desvio padrão

Aqui vamos comparar os desvios de dois conjuntos de dados.

#---------------------
  # Criando o conjunto de dados
#---------------------
  

rua_vermelha = c(40,55,95,80,65)
rua_azul = c(70,55,65,70,75)

#------------------------------
  #Calculando a media
#------------------------------

media_vermelha = mean(rua_vermelha)
media_azul = mean(rua_azul)

media_vermelha
## [1] 67
media_azul
## [1] 67
# Calculando a variância

var_vermelha = var(rua_vermelha)
var_azul = var(rua_azul)
var_vermelha
## [1] 457.5
var_azul
## [1] 57.5
# Apesar de ter a mesma média, a variância da rua vermelha é muito maior do que a variância da rua azul


# Desvio padrão

desvio_padrao_vermelho = sd(rua_vermelha)
desvio_padrao_azul = sd(rua_azul)

desvio_padrao_azul
## [1] 7.582875
desvio_padrao_vermelho
## [1] 21.38925

#——————————–

head (Questionario_Estresse)

*Aqui eu deveria mudar com o uso do ifelse, mas fiz isso antes da aula começar. posso olhar isso no discord. Seria o tópico limpeza de dados.

Pergunta de pesquisa

library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
 Questionario_Estresse <- read_excel("C:/Users/18112914737/Downloads/Questionario_Estresse.xls")
#----------------------------------
#Perguntas de pesquisa
#----------------------------------

# Qual é a nota média desses alunos?
# Quantas horas eles estudam?
# Qual é o nível de estresse deles?

#-----------------------------------------------------
#Nota média vai ser avaliada pela variável desempenho
#Horas?? Ficou um pouco vago, mas para operacionalizar isso, vamos usar
# a variavel o Horas Estudo na semana
#-----------------------------------------------------

mean(Questionario_Estresse$Desempenho)
## [1] 8.593789
#desvio padrao:
  
sd(Questionario_Estresse$Desempenho)
## [1] 0.775319
#resultado 0,77

A média é 8,6 com o desvio padrão de 0,77 indicando uma nota alta com pouca dispersão.

#-----------------------------------------------------

#O que é a mediana?
  
#-----------------------------------------------------

#59,13,4,12,99
#4,12,13,59,99 = mediana é o n 13

#se for par pegar os dois numeros do meio e dividir por 2, o resultado
#será a mediana

conjunto1 = c(8,9,10,11,12,13,14)
mean(conjunto1)
## [1] 11
median(conjunto1)
## [1] 11
#Ambos os resultados acima deram 11


conjunto2 = c(8,9,10,11,12,13,140000)
mean(conjunto2)
## [1] 20009
median(conjunto2)
## [1] 11

os resultados foram 20009 e 11, respectivamente

o 140000 é um outlier (observação atípica ou discrepante),

um valr fora da curva.

A mediana é robusta (não muda com) a outiliers
a média é sensível a presença de outliers

EX o IBGE usa a mediana no PME

A mediana é um ponto onde está entre 50% a esquerda e 50% a esquerda
Percentil é quando se é escoolhido um ponto entre diferentes porcentagens

#Ex: entre 25% de um lado e 75% de outro/// 75%/25%

summary(Questionario_Estresse)
##      Aluno          Turma         Mora_pais           RJ          Namorado_a   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
## 

Hora do gráfico :)

boxplot

só serve p/variavel quantitativa, preferencialmente continua

boxplot(Questionario_Estresse$Desempenho)

onde começa caixa é o 1o quartil a caixa tem 50% dos dados as bolas são os outliers

boxplot(Questionario_Estresse$Horas_estudo, col="pink", main="Gráfico 1 boxplot das horas de estudo")

se eu colocar uma interrogação antes do comando o R me dá uma colinha.

Histograma

A ideia é perceber um desses modelos

#-------------------------------------------
# Carregando a base CARROS.RData
#-------------------------------------------

load("C:/Users/18112914737/Downloads/CARROS.RData")

# Histograma

hist(CARROS$Kmporlitro, col="hotpink", main="Meu primeiro histograma")

hist(CARROS$Kmporlitro, col="hotpink", main="Meu primeiro histograma", ylab = "Frequencia", xlab = "Km/L")

hist(CARROS$Preco, col="pink", main="Meu segundo histograma", ylab = "Frequencia", xlab = "Preco do carro")

Histograma bimodal e assimétrico acima no segundo hist geralmente ocorre quando a base de dados não é homogênea no caso acima tem carros populares e carros de luxo dois tipod de carro apesar de ter uma variavel só

no primeiro hist: Carro comum e carro super economico

Segunda conclusão: preço assimétrico e bimodal. Parece que tem carro polular e de luxo na base de dados

hist(CARROS$Peso, col="pink2", main = "Meu terceiro histograma", ylab = "Frequencia", xlab = "Peso do carro")

O peso do carro é assimétrico

Qual é a diferença entre histograma e gráfico de barras?

tabela = table(Questionario_Estresse$Trabalha)

par(mfrow=c(1,2))
barplot(tabela, col="Pink3")

hist(CARROS$Preco, col="Purple")