Introdução

O objetivo nessa série de exemplos simples é mostrar como você pode resolver problemas simples de estatística no R. Neste em particular será tratado variáveis qualitativas nominais e como resumir esse tipo de conjunto de dados utilizando o R.

Variáveis Qualitativas

Uma variável é qualitativa ou categórica se não possui valores quantitativos, mas, ao contrário, são definidas por várias categorias e essas categorias não são sobrepostas. As variáveis qualitativas são classificadas em nominal e ordinal. A diferença é que na variável ordinal é possível estabelecer algum tipo de ordem já na nominal não é possível.

Exemplos comuns de dados qualitativos são cor dos olhos(castanho,preto,azul,verde), notas de alunos(A, B, C, D ou F), classificação de fumante (Fumante, Não fumante), resultado de exames em pacientes(doente, não doente) entre outros.

Dados usados

Será usado o seguinte dataset chamado aids2(Australian AIDS Survival Data) da biblioteca “MASS”. Esses dataset contém dados sobre pacientes diagnosticados com AIDS na Austrália antes de 1 de julho de 1991. Para mais informações digite no console do R ?aids2 para ter uma descrição melhor dos dados.

Veja as 5 primeiras linhas desse dataset:

library(MASS)
head(Aids2)
##   state sex  diag death status T.categ age
## 1   NSW   M 10905 11081      D      hs  35
## 2   NSW   M 11029 11096      D      hs  53
## 3   NSW   M  9551  9983      D      hs  42
## 4   NSW   M  9577  9654      D    haem  44
## 5   NSW   M 10015 10290      D      hs  39
## 6   NSW   M  9971 10344      D      hs  36

Perceba que há 5 colunas. Observe em particular a variável sex.

Essa coluna é uma variável qualitativa nominal, ela estabelece o sexo dos pacientes.

Veja as 5 primeiras linhas dessa coluna:

head(Aids2$sex)
## [1] M M M M M M
## Levels: F M

E as 5 últimas linhas:

tail(Aids2$sex)
## [1] M M F M M M
## Levels: F M

Toda variável qualitativa no R pode ser tratada como string ou factor(fator). Fatores podem ser vistos como vetores de string onde cada string é associada com um número. Por isso que acima, após a exibição das 5 linhas aparece a descrição dos níveis.

Distribuição de Frequências

A distribuição de frequência de uma variável de dados é um resumo da ocorrência de dados em uma coleção de categorias não sobrepostas. Geralmente uma distribuição de frequência é exibida numa tabela onde cada entrada na tabela contém a frequência ou a contagem de ocorrências de valores dentro de um grupo ou intervalo específico, e deste modo, a tabela resume a distribuição dos valores da amostra.

No conjuntos de dados Aids2, a distribuição de frequência da variável sex é um resumo dessa variável no conjunto de dados.

Para resumir esse conjunto de dados pode ser usado a função table:

sexo <- Aids2$sex
freq_sexo <- table(sexo)

Veja o resultado:

freq_sexo
## sexo
##    F    M 
##   89 2754

Perceba que o conjuto de dados já foi resumido com a frequência de elementos em cada categoria.

Se quiser ver o resultado em colunas pode ser usado **cbind* :

cbind(freq_sexo)
##   freq_sexo
## F        89
## M      2754

A variável qualitativa nominal pode ser resumida num gráfico de setores ou de barra. Se quiser um gráfico você pode usar o pacote de plotagem básica no R.

Setores:

pie(freq_sexo, col = c("coral1", "steelblue3"), main ="Distribuição por sexo")
legend("topleft", pch = 1, col = c("coral1", "steelblue3"), legend = c("Feminino","Masculino"))

Barras:

barplot(freq_sexo, col = c("coral1", "steelblue3"), main ="Distribuição por sexo")
legend("topleft", pch = 1, col = c("coral1", "steelblue3"), legend = c("Feminino","Masculino"))

Pode ser usado o ggplot2 para fazer o gráfico de barras:

library(ggplot2)

ggplot(data = Aids2, aes(x=sex,fill=sex))+ geom_bar()+geom_text(aes(label=..count..),stat="count")+
ggtitle('Distribuição por sexo')

Foi mostrado aqui como resumir uma variável qualitativa nominal no R. Espero que tenha aprendido algo novo!

Era isso! Até a próxima!

Keep calm and analysing data!