As estatísticas-resumo se classificam em medidas de posição (média e mediana) e de dispersão (desvio-padrão e intervalo inter-quartílico), que sempre devem ser apresentadas juntas.

Média e Desvio-padrão – são utilizadas para descrever uma variável numérica, e quando estas variáveis NÃO apresentarem outliers ou quando foi aplicado um teste paramétrico.

Mediana e intervalo interquartílico – são utilizadas para descrever uma variável numérica, e quando estas variáveis apresentarem outliers ou quando foi aplicado um teste não-paramétrico.

Para exemplificar estas estatísticas iremos utilizar o banco de dados “base_geral.csv”.

# Carregar pacotes
library (rio)   # importar base de dados
library(dplyr)  # Manipulação de dados
## 
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag
## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union
# Importar  base de dados
dados2 <- import("base_geral.csv")

# Inspecionar a estrutura do banco de dados
glimpse(dados2)
## Rows: 77
## Columns: 14
## $ PROTOCOLO    <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17…
## $ Sexo         <chr> "F", "F", "M", "M", "M", "F", "F", "F", "M", "M", "F", "F…
## $ Idade        <int> 44, 20, 28, 32, 34, 54, 39, 42, 6, 10, 26, 69, 37, 30, 21…
## $ Escolaridade <chr> "Medio", "Medio", "Fundamental", "Medio", "Fundamental", …
## $ Renda        <chr> "1 a 3 sal", "1 a 3 sal", "1 a 3 sal", "1 a 3 sal", "1 a …
## $ IMC          <dbl> 26.370, 26.731, 28.086, 22.119, 31.917, 27.634, 33.556, 0…
## $ Class_IMC    <chr> "Sobrepeso", "Sobrepeso", "Sobrepeso", "Eutrofia", "Sobre…
## $ Glicose      <dbl> 88.7, 94.1, 118.0, 88.2, 101.9, 84.3, 52.9, 76.4, 86.2, 8…
## $ Class_glico  <chr> "Normal", "Alterado", "Alterado", "Normal", "Alterado", "…
## $ TGC          <dbl> 87.84, 84.10, 71.02, 114.00, 162.60, 142.04, 134.50, 93.4…
## $ COL          <int> 235, 186, 196, 172, 192, 243, 103, 143, 188, 154, 168, 16…
## $ HDL          <int> 66, 61, 57, 60, 56, 71, 46, 38, 67, 65, 47, 59, 67, 71, 5…
## $ VLDL         <dbl> 17.568, 16.820, 14.204, 22.800, 32.520, 28.408, 26.900, 1…
## $ LDL          <dbl> 151.432, 108.180, 124.796, 89.200, 103.480, 143.592, 30.1…

Quando inpecionamos o banco de dados observamos que as variáveis categóricas estão como caracter.Para realizar as estatisticas descritivas é necessário que as variáveis categóricas estejam como factor, portanto, Vamos utilizar o pacote dplyr para converter as variáveis em fator.

##  Manipulação dos dados com dplyr
# Convertendo todas as colunas de caracteres para fator usando dplyr
dados2 <- dados2 %>%
  mutate(across(where(is.character), as.factor))
glimpse(dados2)
## Rows: 77
## Columns: 14
## $ PROTOCOLO    <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17…
## $ Sexo         <fct> F, F, M, M, M, F, F, F, M, M, F, F, F, M, F, F, M, M, F, …
## $ Idade        <int> 44, 20, 28, 32, 34, 54, 39, 42, 6, 10, 26, 69, 37, 30, 21…
## $ Escolaridade <fct> Medio, Medio, Fundamental, Medio, Fundamental, Alfabetiza…
## $ Renda        <fct> 1 a 3 sal, 1 a 3 sal, 1 a 3 sal, 1 a 3 sal, 1 a 3 sal, 1 …
## $ IMC          <dbl> 26.370, 26.731, 28.086, 22.119, 31.917, 27.634, 33.556, 0…
## $ Class_IMC    <fct> Sobrepeso, Sobrepeso, Sobrepeso, Eutrofia, Sobrepeso, Sob…
## $ Glicose      <dbl> 88.7, 94.1, 118.0, 88.2, 101.9, 84.3, 52.9, 76.4, 86.2, 8…
## $ Class_glico  <fct> Normal, Alterado, Alterado, Normal, Alterado, Normal, Nor…
## $ TGC          <dbl> 87.84, 84.10, 71.02, 114.00, 162.60, 142.04, 134.50, 93.4…
## $ COL          <int> 235, 186, 196, 172, 192, 243, 103, 143, 188, 154, 168, 16…
## $ HDL          <int> 66, 61, 57, 60, 56, 71, 46, 38, 67, 65, 47, 59, 67, 71, 5…
## $ VLDL         <dbl> 17.568, 16.820, 14.204, 22.800, 32.520, 28.408, 26.900, 1…
## $ LDL          <dbl> 151.432, 108.180, 124.796, 89.200, 103.480, 143.592, 30.1…

No R as medidas-resumos podem ser observadas por várias funções, vamos mostrar algumas delas.

Função “summary”

# Estatística resumo
summary (dados2) # resume todas as variáveis do Banco de dados
##    PROTOCOLO    Sexo        Idade            Escolaridade            Renda   
##  Min.   : 1   F   :45   Min.   : 3.0   Alfabetizado:24    1 a 3 sal     :63  
##  1st Qu.:20   M   :30   1st Qu.:16.0   Fundamental :31    4 a 6 sal     : 3  
##  Median :39   NA's: 2   Median :31.0   Medio       :15    Menos de 1 sal:10  
##  Mean   :39             Mean   :32.3   Superior    : 7    Nao sabe      : 1  
##  3rd Qu.:58             3rd Qu.:44.0                                         
##  Max.   :77             Max.   :88.0                                         
##       IMC               Class_IMC     Glicose         Class_glico
##  Min.   : 0.278   Desnutricao: 4   Min.   : 52.90   Alterado:16  
##  1st Qu.:19.500   Eutrofia   :41   1st Qu.: 73.80   Normal  :61  
##  Median :24.108   Obesidade  : 5   Median : 80.30                
##  Mean   :23.269   Sobrepeso  :27   Mean   : 85.81                
##  3rd Qu.:27.455                    3rd Qu.: 88.70                
##  Max.   :36.389                    Max.   :203.90                
##       TGC              COL             HDL             VLDL       
##  Min.   : 24.29   Min.   : 66.0   Min.   :25.00   Min.   : 4.858  
##  1st Qu.: 61.67   1st Qu.:129.0   1st Qu.:40.00   1st Qu.:12.334  
##  Median : 85.90   Median :152.0   Median :47.00   Median :17.180  
##  Mean   : 93.48   Mean   :157.8   Mean   :48.22   Mean   :18.695  
##  3rd Qu.:116.00   3rd Qu.:186.0   3rd Qu.:57.00   3rd Qu.:23.200  
##  Max.   :203.70   Max.   :247.0   Max.   :71.00   Max.   :40.740  
##       LDL        
##  Min.   : 13.60  
##  1st Qu.: 67.00  
##  Median : 86.31  
##  Mean   : 90.84  
##  3rd Qu.:108.84  
##  Max.   :170.80
summary (dados2$Idade) # resume apenas uma variável específica
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     3.0    16.0    31.0    32.3    44.0    88.0

Combinação das funções by e summary

# Estatísticas da variável Idade por sexo
by (dados2$Idade, dados2$Sexo, summary)
## dados2$Sexo: F
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00   21.00   35.00   35.69   44.00   88.00 
## ------------------------------------------------------------ 
## dados2$Sexo: M
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.25   26.50   26.53   38.00   66.00

Outras estatísticas

# Outras estatísticas
sd(dados2$Idade) # Desvio-padrão
## [1] 20.44509
var(dados2$Idade) # Variância
## [1] 418.0017
IQR(dados2$Idade) # Intervalo Inter-Quartílico
## [1] 28
sd(dados2$Idade)/sqrt(length(dados2$Idade))  # Erro padrão da média
## [1] 2.329934

get_summary_stats

## Estatistica descritiva usando o get_summary_stats do pacote rstatix
library(rstatix)
## 
## Anexando pacote: 'rstatix'
## O seguinte objeto é mascarado por 'package:stats':
## 
##     filter
dados2 %>% group_by(Escolaridade) %>%
  get_summary_stats(IMC, type = "full")
## # A tibble: 4 × 14
##   Escolaridade variable     n    min   max median    q1    q3   iqr   mad  mean
##   <fct>        <fct>    <dbl>  <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Alfabetizado IMC         24 11.6    28.5   18.4  15.3  24.7  9.39  5.00  19.8
## 2 Fundamental  IMC         31  0.278  36.4   24.7  21.5  28.1  6.57  5.05  24.0
## 3 Medio        IMC         15 19.4    33.6   26.7  22.0  27.6  5.59  3.35  25.8
## 4 Superior     IMC          7 21.2    35.7   25.2  24.6  26.8  2.2   2.23  26.4
## # ℹ 3 more variables: sd <dbl>, se <dbl>, ci <dbl>
dados2 %>% group_by(Escolaridade) %>%
  get_summary_stats(IMC, type = "full",
                    show = c("n",
                             "mean", "sd"))
## # A tibble: 4 × 5
##   Escolaridade variable     n  mean    sd
##   <fct>        <fct>    <dbl> <dbl> <dbl>
## 1 Alfabetizado IMC         24  19.8  5.40
## 2 Fundamental  IMC         31  24.0  6.43
## 3 Medio        IMC         15  25.8  3.96
## 4 Superior     IMC          7  26.4  4.49
dados2 %>% group_by(Escolaridade) %>%
  get_summary_stats(IMC, type = "full",
                    show = c("n",
                             "median", "iqr"))
## # A tibble: 4 × 5
##   Escolaridade variable     n median   iqr
##   <fct>        <fct>    <dbl>  <dbl> <dbl>
## 1 Alfabetizado IMC         24   18.4  9.39
## 2 Fundamental  IMC         31   24.7  6.57
## 3 Medio        IMC         15   26.7  5.59
## 4 Superior     IMC          7   25.2  2.2