Estatística Descritiva Univariada

Gráficos, tabelas e medidas-resumo

Prof. Letícia Raposo

UNIRIO

Estatística descritiva

  • Organizar, resumir e apresentar os dados (tabelas, gráficos e medidas-resumo).
  • Interpretação (não há conclusões nesta etapa).
  • Observar determinados aspectos relevantes e começar a delinear hipóteses.

Questione-se!

Os dados estão me dizendo algo importante?

Vale a pena fazer uma análise?

Preciso coletar mais dados?

Estatística descritiva univariada qualitativa

Tabela de distribuição de frequências

Nível de escolaridade \(F_i\) \(Fr_i(\%)\) \(F_{ac}\) \(F_{ac}(\%)\)
Sem escolaridade 15 25,00 15 25,00
Fundamental incompleto 2 3,33 17 28,33
Fundamental completo 6 10,00 23 38,33
Médio incompleto 1 1,67 24 40,00
Médio completo 1 1,67 25 41,67
Superior incompleto 1 1,67 26 43,33
Superior completo 32 53,33 58 96,67
Pós-graduação 2 3,33 60 100
Total 60 100
  • \(F_i\): frequência absoluta
  • \(Fr_i(\%)\): frequência relativa (em porcentagem)
  • \(F_{ac}\): frequência acumulada
  • \(F_{ac}(\%)\): frequência acumulada relativa (em porcentagem)

Gráficos

Gráfico de barras

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  count(species) %>%
  ggplot(aes(x = reorder(species,-n), y = n)) +
  geom_bar(aes(fill = species), stat = "identity") +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(x = "Espécies",
       y = "Frequência absoluta",
       title = "Espécies de pinguins observadas em três ilhas no Arquipélago de Palmer, Antártida",
       fill = "Espécies") +
  theme(legend.position = "none") + theme_minimal()

Gráfico de barras

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  count(island) %>%
  ggplot(aes(x = reorder(island,-n), y = n)) +
  geom_bar(aes(fill = island), stat = "identity") +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(x = "Ilhas",
       y = "Frequência absoluta",
       title = "Número de pinguins em cada uma das três ilhas do Arquipélago de Palmer, Antártida",
       fill = "Espécies") +
  theme(legend.position = "none") + theme_minimal() +
  coord_flip()

Gráfico de setores

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  count(island) %>%
  mutate(freq = n / sum(n)) %>%
  ggplot(aes(x = "", y = freq, fill = island)) +
  geom_bar(width = 1, stat = "identity") +
  coord_polar("y", start = 0) +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(fill = "Ilhas",
       y = "",
       x = "",
       title = "Distribuição dos pinguins em cada uma das três ilhas do Arquipélago de Palmer, Antártida") +
  geom_text(aes(label = paste0(round(freq * 100), "%")), position = position_stack(vjust = 0.5)) +
  theme_classic() + 
  theme(
    axis.line = element_blank(),
    axis.text = element_blank(),
    axis.ticks = element_blank()
  ) 

Gráficos de barras vs. gráficos de setores

Gráficos de barras:

  • Representam dados categóricos com barras de altura/ comprimento proporcional à frequência.
  • Facilita a comparação direta entre categorias.
  • Melhor para dados com muitas categorias.
  • Pode ser horizontal ou vertical.

Gráficos de setores:

  • Representam dados como porções de um todo, em forma de círculo.
  • Ideal para mostrar proporções relativas de um conjunto de dados.
  • Difícil de comparar valores próximos ou para muitas categorias.
  • Melhor para visualizar percentagens ou partes de um total.

Estatística descritiva univariada quantitativa

Variáveis discretas

  • Tabela de distribuição de frequências:
    • Similares às dos dados categorizados, desde que não haja grande quantidade de diferentes valores observados.
    • No lugar das possíveis categorias devem constar os possíveis valores numéricos.
  • Representação gráfica: similar à das variáveis qualitativas.

Variáveis contínuas

  • Tabela de distribuição de frequências:
    • Precisamos agrupar os resultados em classes pré-estabelecidas.
    • As classes são mutuamente exclusivas.
    • Todo valor observado deve pertencer a uma e apenas uma classe.

Variáveis contínuas

  • Gráficos:
    • Histograma
    • Densidades
    • Linha
    • Boxplot

Histograma

Histograma

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(x = flipper_length_mm)) +
  geom_histogram(
    position = "identity",
    fill = "purple",
    color = "black",
    binwidth = 10
  ) +
  labs(fill = "Ilhas",
       y = "Frequência absoluta",
       x = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros)") +
  theme_minimal() 
  • Retângulos justapostos, feitos sobre as classes da variável em estudo.
  • A altura de cada retângulo é proporcional à frequência (absoluta, relativa ou acumulada) observada da correspondente classe.
  • Permite identificar a distribuição e a frequência dos dados.

Densidades

Densidades

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(x = flipper_length_mm)) +
  geom_density(
    position = "identity",
    fill = "purple",
    color = "black",
  ) +
  labs(fill = "Ilhas",
       y = "Densidade",
       x = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros)") +
  theme_minimal() 
  • Representação da distribuição de uma variável numérica.
  • É uma versão suavizada do histograma e é usada no mesmo conceito.

Linhas

Linhas

  • Representa dados ao longo do tempo ou outra variável contínua.
  • Conecta pontos de dados com linhas, facilitando a visualização de tendências e padrões.
  • Ideal para séries temporais, monitoramento de mudanças ou comparações de variáveis.
  • Utilizado em análises financeiras, científicas e de desempenho.
  • Pode exibir múltiplas séries de dados, permitindo a comparação entre diferentes categorias ou conjuntos de dados.

Boxplot

Boxplot

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(y = flipper_length_mm)) +
  geom_boxplot(
    position = "identity",
    fill = "purple",
    color = "black"
  ) + 
  labs(fill = "Ilhas",
       x = " ",
       y = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros)") +
  theme_minimal() 
  • Representação gráfica de cinco medidas de posição de determinada variável: (i) mínimo, (ii) primeiro quartil, (iii) segundo quartil, (iv) terceiro quartil e (v) máximo.
  • Permite avaliar a simetria, distribuição dos dados e presença de outliers.

Boxplot

Medidas-resumo

Descrever e explorar dados quantitativos por meio de formas alternativas às distribuições de frequências.

Medidas de posição ou localização

  • Tendência central
    • Média
    • Mediana
    • Moda
  • Separatrizes
    • Quartis
    • Decis
    • Percentis

Média


\(\bar{X}=\frac{\sum_{i=1}^{n}X_i}{n}\),
sendo \(X_i\) cada valor observado e \(n\) o total de valores.

Média

  • A média resume o conjunto de dados em termos de uma posição central ou valor típico, mas, em geral, não fornece informação sobre outros aspectos da distribuição.
  • Para melhorar o resumo dos dados, podemos apresentar, ao lado da média , uma medida de dispersão, como a variância ou o desvio padrão.

Média

  • A média é fortemente influenciada por valores discrepantes. O valor discrepante 0 puxa a média para baixo. Apesar de a média aritmética ser 6, o diagrama de pontos sugere que o valor 7 seja um valor mais típico para representar as notas da turma, pois, além de ser o valor mais frequente, ele é o valor do meio, deixando metade das notas abaixo dele e metade acima.

Mediana

  • É uma medida de localização do centro da distribuição de um conjunto de dados ordenados de forma crescente.
  • Seu valor separa a série em duas partes iguais, de modo que 50% dos elementos são menores ou iguais à mediana e os outros 50% são maiores ou iguas à mediana.

Mediana

Moda

  • Corresponde à observação que ocorre com maior frequência.
  • A moda é a única medida de posição que também pode ser utilizada para variáveis qualitativas, já que essas variáveis permitem apenas o cálculo de frequências.

Comprimento das nadadeiras dos pinguins (milímetros)

Código em R
table(penguins$flipper_length_mm)

172 174 176 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 
  1   1   1   4   1   5   7   3   2   7   9   7  16   6   7  22  13   7  15   5 
195 196 197 198 199 200 201 202 203 205 206 207 208 209 210 211 212 213 214 215 
 17  10  10   8   6   4   6   4   5   3   1   2   8   5  14   2   7   6   6  12 
216 217 218 219 220 221 222 223 224 225 226 228 229 230 231 
  8   6   5   5   8   5   6   2   3   4   1   4   2   7   1 

Medidas separatrizes

Fornecem mais informações sobre a dispresão e simetria dos dados quando comparadas às medidas de tendência central, que são afetadas por valores extremos.

Medidas separatrizes

Medidas de dispersão

  • Amplitude
  • Variância
  • Desvio-padrão
  • Coeficiente de variação

Amplitude


\(A=X_{max}-X_{min}\)

Amplitude

  • Medida mais simples, representa a diferença entre o maior e o menor valor do conjunto de observações.
  • Não informa como os valores variam entre as extremidades.

Variância


\(S^2=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}\) (amostra)

Variância

  • Avalia o quanto os dados estão dispersos em relação à média aritmética.
  • Quanto maior a variância, maior a dispersão dos dados.
  • O valor tende a ser muito grande e de difícil interpretação.

Variância

👁️ Fique de olho!

Quando você calcula a variância de uma amostra (ou seja, o quão dispersos os dados estão), usamos \(n-1\) no denominador porque estamos corrigindo o fato de que estamos usando apenas uma parte dos dados (a amostra) para estimar algo sobre todo o conjunto (a população). Esse “menos 1” ajusta a variabilidade para compensar o uso da média amostral, que é uma estimativa.

Desvio-padrão


\(\sqrt{S^2}\) (amostra)

Desvio-padrão

  • Raiz quadrada da variância, fornece o resultado na mesma ordem de grandeza da variável.
  • Quanto menor o desvio-padrão, maior a homogeneidade.

Desvio-padrão

👁️ Fique de olho!

Ao comparar duas variáveis na mesma escala, o desvio padrão é uma boa medida para avaliar a dispersão, desde que as médias sejam semelhantes. Nesse cenário, ele indicará qual conjunto de dados é mais disperso em termos absolutos. No entanto, quando as variáveis têm médias diferentes, o desvio padrão pode ser enganoso. Uma variável com uma média maior tende a ter um desvio padrão maior, mesmo que proporcionalmente a variação seja menor. Nesse caso, o coeficiente de variação é mais apropriado, pois ajusta o desvio padrão em relação à média, permitindo uma comparação proporcional entre as variáveis.

Coeficiente de variação


\(CV=\frac{S}{\bar{X}}\) (amostra)

Coeficiente de variação

  • Medida de dispersão relativa que fornece a variação dos dados em relação à média.
  • Quanto menor for o seu valor, mais homogêneos serão os dados (menor a dispersão em torno da média).
    • CV \(<\) 0,30: dados razoavelmente homogêneos.
    • CV \(\geq\) 0,30: dados pode ser considerado heterogêneo.
  • Vantagem: por ser adimensional, permite a comparação de séries de variáveis com unidades diferentes.

Medidas de forma

  • Assimetria
  • Curtose

Assimetria

  • Referem-se à forma da curva de uma distribuição de frequências.
  • Coeficiente de assimetria:
    • \(=0\): simétrica
    • \(>0\): assimetria positiva
    • \(<0\): assimetria negativa

Curva simétrica

Curva assimétrica positiva

Curva assimétrica negativa

Curtose

Grau de achatamento de uma distribuição de frequências (altura do pico da curva) em relação a uma distribuição teórica que geralmente corresponde à distribuição normal.

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.