O que é estatística descritiva

Estatística descritiva como o proprio nome diz, preocupa-se em descrever os dados, é a etapa inicial da análise de dados utilizada para resumir e compreender os dados.

A estatística descritiva é a etapa inicial da análise utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da estatística.

Quando usar a estatística descritiva?

Essa área da estatística é utilizada com frequência em situações em que nos deparamos com uma quantidade grande de informações e precisamos torná-las mais condensadas para que assim se consiga trabalhar com elas.

E isso é feito através da média, mediana, moda, desvio padrão e demais recursos que a estatística descritiva traz para nos auxiliar nesse processo.

Tabela de Frequência

Uma das formas de organizar e resumir a informação contida em dados observados é por meio de tabela de freqüências e gráficos.

Quando estamos analisando um conjunto de dados, começamos por considerar as diferentes categorias ou classes, e para cada uma delas calculamos a sua frequência absoluta obtendo-se a distribuição de frequências do conjunto de dados.

Esta distribuição de frequências é representada na forma de uma tabela, a que se dá o nome de tabela de frequências.

Uma vez que existe alguma especificidade na fase da definição das classes, conforme o tipo dos dados a analisar, fazemos essa distinção a seguir, nas indicações para a construção da tabela de frequências.

Tabela de frequências para dados de tipo quantitativo discreto


Se os dados são de natureza quantitativa discreta, as classes são os diferentes valores que surgem no conjunto dos dados.

Na tabela de frequências para estes dados a informação é organizada, no mínimo, em 3 colunas:

  1. coluna das classes– onde se indicam todos os valores distintos que surgem na amostra, que representamos por X*i;
  2. coluna das frequências absolutas – onde se regista o total de elementos da amostra que pertencem a cada classe (ou número de vezes que cada valor x∗i; surge na amostra) e
  3. coluna das frequências relativas (ou percentagens).

A tabela de frequências pode ainda incluir, mais 2 colunas:

  1. a coluna das frequências absolutas acumuladas – onde, para cada classe, se coloca a soma da frequência absoluta observada nessa classe com as frequências absolutas observadas nas classes anteriores e
  2. a coluna das frequências relativas acumuladas – onde, para cada classe, se coloca a soma da frequência relativa observada nessa classe com as frequências relativas observadas nas classes anteriores. Esta coluna é bastante útil para o cálculo de algumas medidas, como a mediana e os quartis.

Por exemplo, a seguinte amostra que resultou de observar a variável Número de irmãos em 20 alunos de uma turma

numero_de_irmaos
##  [1] 1 2 1 0 1 1 0 2 3 1 1 1 0 2 3 1 0 0 2 2
df_turma = data.frame(numero_de_irmaos)
df = df_turma %>% group_by(numero_de_irmaos) %>% summarise( freq_absoluta = n(), .groups = "drop_last")
df = df %>% mutate(freq_relativa = freq_absoluta / sum(freq_absoluta) * 100)
df = df %>% mutate(freq_abs_acumulada = cumsum(freq_absoluta) )
df = df %>% mutate(freq_abs_acumulada = cumsum(freq_relativa) )
df
## # A tibble: 4 x 4
##   numero_de_irmaos freq_absoluta freq_relativa freq_abs_acumulada
##              <dbl>         <int>         <dbl>              <dbl>
## 1                0             5            25                 25
## 2                1             8            40                 65
## 3                2             5            25                 90
## 4                3             2            10                100

A partir da tabela anterior verifica-se que a mediana dos dados é 1, o quartil inferior é 0,5 e o quartil superior é 2.

Convém salientar que as colunas referentes às frequências acumuladas só fazem sentido em tabelas de frequências onde a variável em estudo se possa ordenar ( no exemplo da tabela de frequências para dados de tipo qualitativo, apresentado anteriormente, não tem sentido considerar as frequências acumuladas).

  • Gráfico de Barras para Tabela de frequências para dados de tipo quantitativo discreto
alunos = c(5, 8, 5, 2)
irmaos = c(0, 1, 2, 3)
barplot(irmaos, names.arg = alunos) +
title("Turma alunos-Gráfico de Barras p/ dados tipo quantitativo discreto",xlab="Quantidade de Alunos",ylab="Quantidade de irmaos")

## numeric(0)

Tabela de frequências para dados de tipo qualitativo discreto

Se os dados são de tipo qualitativo, na tabela de frequências a informação é organizada, de um modo geral, em 3 colunas:

  1. coluna das categorias ou classes – onde se indicam as categorias observadas para a variável em estudo;
  2. coluna das frequências absolutas – onde se regista o total de elementos da amostra que pertencem a cada categoria e
  3. coluna das frequências relativas – onde se coloca, para cada categoria, a sua frequência relativa.

Nesta última coluna, as frequências relativas podem ser substituídas pelas percentagens.

Por exemplo, a seguinte amostra que resultou de observar a variável “Cor dos olhos” em 20 alunos de uma turma

  • Castanhos, Pretos, Castanhos, Azuis, Castanhos, Castanhos, Pretos, Castanhos, Verdes, Castanhos, Pretos, Castanhos, Azuis, Castanhos, Castanhos, Pretos, Pretos, Castanhos, Pretos, Pretos

pode ser resumida na seguinte tabela de frequências:

df = data.frame(cor_olhos)
df = df %>% group_by(cor_olhos) %>% summarise( freq_absoluta = n(), .groups = "drop_last")
df = df %>% mutate(freq_rel = freq_absoluta / sum(freq_absoluta))
df
## # A tibble: 4 x 3
##   cor_olhos freq_absoluta freq_rel
##   <fct>             <int>    <dbl>
## 1 Azuis                 2     0.1 
## 2 Castanhos            10     0.5 
## 3 Pretos                7     0.35
## 4 Verdes                1     0.05
  • Gráfico de Barras para Tabela de frequências para dados de tipo qualitativo discreto
grupo_cor_olhos = c('Azuis', 'Castanhos', 'Pretos', 'Verdes')
qtd_cor_olhos = c(2, 10, 7, 1)
barplot(qtd_cor_olhos, names.arg = grupo_cor_olhos) +
title("Turma alunos-Gráfico de Barras p/ dados tipo qualitativo discreto",xlab="Cor de olhos",ylab="Quantidade de Alunos")

## numeric(0)