Estatística Descritiva Bivariada

Gráficos, tabelas e medidas-resumo

Prof. Letícia Raposo

UNIRIO

Relação entre variáveis qualitativas

Tabela de distribuição conjunta de frequências

  • Tabela de contingência ou de dupla entrada
  • Representação gráfica do cruzamento entre as categorias das variáveis qualitativas.

Tabela de distribuição conjunta de frequências


Perfil linha: o total é calculado por linha.

Tabela de distribuição conjunta de frequências


Perfil coluna: o total é calculado por coluna.

📊 Gráficos

  • Barras múltiplas
  • Barras empilhadas

Barras múltiplas

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)

penguins$body_mass_g_cat <- cut(penguins$body_mass_g, c(0,4050,6300))
levels(penguins$body_mass_g_cat) <- c("(0-4050]", "(4050-6300]")

penguins %>%
  filter(!is.na(sex)) %>%
  ggplot(aes(x = sex, fill = body_mass_g_cat)) +
  geom_bar(position = "dodge") +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(x = "Espécies",
       y = "Frequência absoluta",
       title = "Massa corporal dos pinguins segundo o sexo",
       fill = "Massa corporal (gramas)") +
  theme(legend.position = "none") + theme_minimal()

Barras empilhadas

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)

penguins$body_mass_g_cat <- cut(penguins$body_mass_g, c(0,4050,6300))
levels(penguins$body_mass_g_cat) <- c("(0-4050]", "(4050-6300]")

penguins %>%
  filter(!is.na(sex)) %>%
  ggplot(aes(x = sex, fill = body_mass_g_cat)) +
  geom_bar(position = "fill") +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(x = "Espécies",
       y = "Frequência relativa",
       title = "Massa corporal dos pinguins segundo o sexo",
       fill = "Massa corporal (gramas)") +
  theme(legend.position = "none") + theme_minimal()

Relação entre variáveis quantitativas

Gráfico de dispersão

  • Representa os valores das variáveis X e Y em um plano cartesiano.
  • Permite avaliar:
    • Se existe ou não alguma relação entre as variáveis em estudo;
    • O tipo de relação entre as duas variáveis, isto é, a direção em que a variável Y aumenta ou diminui em função da variável de X;
    • O grau de relação entre as variáveis;
    • A natureza da relação (linear, exponencial, etc).

Gráfico de dispersão

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)

penguins %>%
ggplot() +
  aes(x = bill_length_mm, y = flipper_length_mm) +
  geom_point(shape = "circle", size = 1.5, colour = "darkorange") +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Comprimento da nadadeira (mm)",
       y = "Comprimento do bico (mm)",
       title = "Relação entre comprimento da nadadeira e bico dos pinguins") +
  theme(legend.position = "none") + theme_minimal()

Gráfico de dispersão

Medidas de relacionamento entre duas quantitativas

  • Covariância
  • Correlação

Covariância

\(cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}\)


em que \(X_i\): i-ésimo valor de \(X\); \(Y_i\): i-ésimo valor de \(Y\); \(\bar{X}\): média dos valores de \(X_i\); {Y}: média dos valores de \(Y_i\); \(n\): tamanho da amostra.


Seu valor depende das unidades de medidas das variáveis em questão.

Correlação

  • Pearson
  • Spearman

Correlação

Correlação de Pearson


\(r=\frac{cov(X,Y)}{S_XS_Y}\)


em que \(cov(X,Y)\) é a covariância de \(X\) e \(Y\), \(S_X\) é o desvio-padrão de \(X\) e \(S_Y\) é o desvio-padrão de \(Y\).

Correlação de Pearson

  • Seu valor é independente da unidade de medida.
  • Avalia relações lineares entre as variáveis.

Correlação de Spearman


\(\rho=1-\frac{6\sum_{i=1}^{n}d_i^2}{(n^3-n)}\)


em que \(d_i\) = posto de \(X_i\) dentre os valores de \(X\) – posto de \(Y_i\) dentre os valores de \(Y\).

Correlação de Spearman

  • Seu valor é independente da unidade de medida.
  • Indicado quando:
    • Os dados não formam uma nuvem comportada, com alguns pontos bem distantes dos demais;
    • Parece existir uma relação crescente ou decrescente (monótona) num formato de curva;
    • Existe uma ordenação clara, por exemplo, escores numa escala de 1 a 20.

Relação entre qualitativa e quantitativa

  • Analisar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa.
  • As medidas-resumo e gráficos podem ser obtidos para a variável quantitativa em cada categoria da variável qualitativa.

Histograma

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(x = flipper_length_mm, fill = species)) +
  geom_histogram(
    position = "identity",
    color = "black",
    binwidth = 10
  ) +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(fill = "Espécie",
       y = "Frequência absoluta",
       x = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros) por espécie") +
  theme_minimal() 

Densidades

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(x = flipper_length_mm, fill = species)) +
  geom_density(
    position = "identity",
    color = "black",
  ) +
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(fill = "Espécie",
       y = "Densidade",
       x = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros) por espécie") +
  theme_minimal() 

Boxplot

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(x = "", y = flipper_length_mm, fill = species)) +
  geom_boxplot(
    color = "black"
  ) + 
  scale_fill_manual(values = c("darkorange", "purple", "cyan4")) +
  labs(fill = "Espécie",
       x = " ",
       y = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros) por espécie") +
  theme_minimal() 

Medidas-resumo

Código em R
library(palmerpenguins)
library(summarytools)
with(penguins, stby(flipper_length_mm, species, descr)) 
Descriptive Statistics  
flipper_length_mm by species  
Data Frame: penguins  
N: 152  

                    Adelie   Chinstrap   Gentoo
----------------- -------- ----------- --------
             Mean   189.95      195.82   217.19
          Std.Dev     6.54        7.13     6.48
              Min   172.00      178.00   203.00
               Q1   186.00      191.00   212.00
           Median   190.00      196.00   216.00
               Q3   195.00      201.00   221.00
              Max   210.00      212.00   231.00
              MAD     7.41        7.41     5.93
              IQR     9.00       10.00     9.00
               CV     0.03        0.04     0.03
         Skewness     0.09       -0.01     0.39
      SE.Skewness     0.20        0.29     0.22
         Kurtosis     0.24       -0.13    -0.64
          N.Valid   151.00       68.00   123.00
        Pct.Valid    99.34      100.00    99.19

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.