O objetivo nessa série de exemplos simples é mostrar como você pode resolver problemas simples de estatística no R. Neste em particular será tratado variáveis qualitativas nominais e como resumir esse tipo de conjunto de dados utilizando o R.
Uma variável é qualitativa ou categórica se não possui valores quantitativos, mas, ao contrário, são definidas por várias categorias e essas categorias não são sobrepostas. As variáveis qualitativas são classificadas em nominal e ordinal. A diferença é que na variável ordinal é possível estabelecer algum tipo de ordem já na nominal não é possível.
Exemplos comuns de dados qualitativos são cor dos olhos(castanho,preto,azul,verde), notas de alunos(A, B, C, D ou F), classificação de fumante (Fumante, Não fumante), resultado de exames em pacientes(doente, não doente) entre outros.
Será usado o seguinte dataset chamado aids2(Australian AIDS Survival Data) da biblioteca “MASS”. Esses dataset contém dados sobre pacientes diagnosticados com AIDS na Austrália antes de 1 de julho de 1991. Para mais informações digite no console do R ?aids2 para ter uma descrição melhor dos dados.
Veja as 5 primeiras linhas desse dataset:
library(MASS)
head(Aids2)
## state sex diag death status T.categ age
## 1 NSW M 10905 11081 D hs 35
## 2 NSW M 11029 11096 D hs 53
## 3 NSW M 9551 9983 D hs 42
## 4 NSW M 9577 9654 D haem 44
## 5 NSW M 10015 10290 D hs 39
## 6 NSW M 9971 10344 D hs 36
Perceba que há 5 colunas. Observe em particular a variável sex.
Essa coluna é uma variável qualitativa nominal, ela estabelece o sexo dos pacientes.
Veja as 5 primeiras linhas dessa coluna:
head(Aids2$sex)
## [1] M M M M M M
## Levels: F M
E as 5 últimas linhas:
tail(Aids2$sex)
## [1] M M F M M M
## Levels: F M
Toda variável qualitativa no R pode ser tratada como string ou factor(fator). Fatores podem ser vistos como vetores de string onde cada string é associada com um número. Por isso que acima, após a exibição das 5 linhas aparece a descrição dos níveis.
A distribuição de frequência de uma variável de dados é um resumo da ocorrência de dados em uma coleção de categorias não sobrepostas. Geralmente uma distribuição de frequência é exibida numa tabela onde cada entrada na tabela contém a frequência ou a contagem de ocorrências de valores dentro de um grupo ou intervalo específico, e deste modo, a tabela resume a distribuição dos valores da amostra.
No conjuntos de dados Aids2, a distribuição de frequência da variável sex é um resumo dessa variável no conjunto de dados.
Para resumir esse conjunto de dados pode ser usado a função table:
sexo <- Aids2$sex
freq_sexo <- table(sexo)
Veja o resultado:
freq_sexo
## sexo
## F M
## 89 2754
Perceba que o conjuto de dados já foi resumido com a frequência de elementos em cada categoria.
Se quiser ver o resultado em colunas pode ser usado **cbind* :
cbind(freq_sexo)
## freq_sexo
## F 89
## M 2754
A variável qualitativa nominal pode ser resumida num gráfico de setores ou de barra. Se quiser um gráfico você pode usar o pacote de plotagem básica no R.
Setores:
pie(freq_sexo, col = c("coral1", "steelblue3"), main ="Distribuição por sexo")
legend("topleft", pch = 1, col = c("coral1", "steelblue3"), legend = c("Feminino","Masculino"))
Barras:
barplot(freq_sexo, col = c("coral1", "steelblue3"), main ="Distribuição por sexo")
legend("topleft", pch = 1, col = c("coral1", "steelblue3"), legend = c("Feminino","Masculino"))
Pode ser usado o ggplot2 para fazer o gráfico de barras:
library(ggplot2)
ggplot(data = Aids2, aes(x=sex,fill=sex))+ geom_bar()+geom_text(aes(label=..count..),stat="count")+
ggtitle('Distribuição por sexo')
Foi mostrado aqui como resumir uma variável qualitativa nominal no R. Espero que tenha aprendido algo novo!
Era isso! Até a próxima!
Keep calm and analysing data!