Estatística descritiva como o proprio nome diz, preocupa-se em descrever os dados, é a etapa inicial da análise de dados utilizada para resumir e compreender os dados.
A estatística descritiva é a etapa inicial da análise utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da estatística.
Essa área da estatística é utilizada com frequência em situações em que nos deparamos com uma quantidade grande de informações e precisamos torná-las mais condensadas para que assim se consiga trabalhar com elas.
E isso é feito através da média, mediana, moda, desvio padrão e demais recursos que a estatística descritiva traz para nos auxiliar nesse processo.
Uma das formas de organizar e resumir a informação contida em dados observados é por meio de tabela de freqüências e gráficos.
Quando estamos analisando um conjunto de dados, começamos por considerar as diferentes categorias ou classes, e para cada uma delas calculamos a sua frequência absoluta obtendo-se a distribuição de frequências do conjunto de dados.
Esta distribuição de frequências é representada na forma de uma tabela, a que se dá o nome de tabela de frequências.
Uma vez que existe alguma especificidade na fase da definição das classes, conforme o tipo dos dados a analisar, fazemos essa distinção a seguir, nas indicações para a construção da tabela de frequências.
Se os dados são de natureza quantitativa discreta, as classes são os diferentes valores que surgem no conjunto dos dados.
Na tabela de frequências para estes dados a informação é organizada, no mínimo, em 3 colunas:
A tabela de frequências pode ainda incluir, mais 2 colunas:
Por exemplo, a seguinte amostra que resultou de observar a variável Número de irmãos em 20 alunos de uma turma
numero_de_irmaos
## [1] 1 2 1 0 1 1 0 2 3 1 1 1 0 2 3 1 0 0 2 2
df_turma = data.frame(numero_de_irmaos)
df = df_turma %>% group_by(numero_de_irmaos) %>% summarise( freq_absoluta = n(), .groups = "drop_last")
df = df %>% mutate(freq_relativa = freq_absoluta / sum(freq_absoluta) * 100)
df = df %>% mutate(freq_abs_acumulada = cumsum(freq_absoluta) )
df = df %>% mutate(freq_abs_acumulada = cumsum(freq_relativa) )
df
## # A tibble: 4 x 4
## numero_de_irmaos freq_absoluta freq_relativa freq_abs_acumulada
## <dbl> <int> <dbl> <dbl>
## 1 0 5 25 25
## 2 1 8 40 65
## 3 2 5 25 90
## 4 3 2 10 100
A partir da tabela anterior verifica-se que a mediana dos dados é 1, o quartil inferior é 0,5 e o quartil superior é 2.
Convém salientar que as colunas referentes às frequências acumuladas só fazem sentido em tabelas de frequências onde a variável em estudo se possa ordenar ( no exemplo da tabela de frequências para dados de tipo qualitativo, apresentado anteriormente, não tem sentido considerar as frequências acumuladas).
alunos = c(5, 8, 5, 2)
irmaos = c(0, 1, 2, 3)
barplot(irmaos, names.arg = alunos) +
title("Turma alunos-Gráfico de Barras p/ dados tipo quantitativo discreto",xlab="Quantidade de Alunos",ylab="Quantidade de irmaos")
## numeric(0)
Se os dados são de tipo qualitativo, na tabela de frequências a informação é organizada, de um modo geral, em 3 colunas:
Nesta última coluna, as frequências relativas podem ser substituídas pelas percentagens.
Por exemplo, a seguinte amostra que resultou de observar a variável “Cor dos olhos” em 20 alunos de uma turma
pode ser resumida na seguinte tabela de frequências:
df = data.frame(cor_olhos)
df = df %>% group_by(cor_olhos) %>% summarise( freq_absoluta = n(), .groups = "drop_last")
df = df %>% mutate(freq_rel = freq_absoluta / sum(freq_absoluta))
df
## # A tibble: 4 x 3
## cor_olhos freq_absoluta freq_rel
## <fct> <int> <dbl>
## 1 Azuis 2 0.1
## 2 Castanhos 10 0.5
## 3 Pretos 7 0.35
## 4 Verdes 1 0.05
grupo_cor_olhos = c('Azuis', 'Castanhos', 'Pretos', 'Verdes')
qtd_cor_olhos = c(2, 10, 7, 1)
barplot(qtd_cor_olhos, names.arg = grupo_cor_olhos) +
title("Turma alunos-Gráfico de Barras p/ dados tipo qualitativo discreto",xlab="Cor de olhos",ylab="Quantidade de Alunos")
## numeric(0)