As estatísticas-resumo se classificam em medidas de posição (média e mediana) e de dispersão (desvio-padrão e intervalo inter-quartílico), que sempre devem ser apresentadas juntas.
Média e Desvio-padrão – são utilizadas para descrever uma variável numérica, e quando estas variáveis NÃO apresentarem outliers ou quando foi aplicado um teste paramétrico.
Mediana e intervalo interquartílico – são utilizadas para descrever uma variável numérica, e quando estas variáveis apresentarem outliers ou quando foi aplicado um teste não-paramétrico.
Para exemplificar estas estatísticas iremos utilizar o banco de dados “base_geral.csv”.
# Carregar pacotes
library (rio) # importar base de dados
library(dplyr) # Manipulação de dados
##
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
##
## filter, lag
## Os seguintes objetos são mascarados por 'package:base':
##
## intersect, setdiff, setequal, union
# Importar base de dados
dados2 <- import("base_geral.csv")
# Inspecionar a estrutura do banco de dados
glimpse(dados2)
## Rows: 77
## Columns: 14
## $ PROTOCOLO <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17…
## $ Sexo <chr> "F", "F", "M", "M", "M", "F", "F", "F", "M", "M", "F", "F…
## $ Idade <int> 44, 20, 28, 32, 34, 54, 39, 42, 6, 10, 26, 69, 37, 30, 21…
## $ Escolaridade <chr> "Medio", "Medio", "Fundamental", "Medio", "Fundamental", …
## $ Renda <chr> "1 a 3 sal", "1 a 3 sal", "1 a 3 sal", "1 a 3 sal", "1 a …
## $ IMC <dbl> 26.370, 26.731, 28.086, 22.119, 31.917, 27.634, 33.556, 0…
## $ Class_IMC <chr> "Sobrepeso", "Sobrepeso", "Sobrepeso", "Eutrofia", "Sobre…
## $ Glicose <dbl> 88.7, 94.1, 118.0, 88.2, 101.9, 84.3, 52.9, 76.4, 86.2, 8…
## $ Class_glico <chr> "Normal", "Alterado", "Alterado", "Normal", "Alterado", "…
## $ TGC <dbl> 87.84, 84.10, 71.02, 114.00, 162.60, 142.04, 134.50, 93.4…
## $ COL <int> 235, 186, 196, 172, 192, 243, 103, 143, 188, 154, 168, 16…
## $ HDL <int> 66, 61, 57, 60, 56, 71, 46, 38, 67, 65, 47, 59, 67, 71, 5…
## $ VLDL <dbl> 17.568, 16.820, 14.204, 22.800, 32.520, 28.408, 26.900, 1…
## $ LDL <dbl> 151.432, 108.180, 124.796, 89.200, 103.480, 143.592, 30.1…
Quando inpecionamos o banco de dados observamos que as variáveis categóricas estão como caracter.Para realizar as estatisticas descritivas é necessário que as variáveis categóricas estejam como factor, portanto, Vamos utilizar o pacote dplyr para converter as variáveis em fator.
## Manipulação dos dados com dplyr
# Convertendo todas as colunas de caracteres para fator usando dplyr
dados2 <- dados2 %>%
mutate(across(where(is.character), as.factor))
glimpse(dados2)
## Rows: 77
## Columns: 14
## $ PROTOCOLO <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17…
## $ Sexo <fct> F, F, M, M, M, F, F, F, M, M, F, F, F, M, F, F, M, M, F, …
## $ Idade <int> 44, 20, 28, 32, 34, 54, 39, 42, 6, 10, 26, 69, 37, 30, 21…
## $ Escolaridade <fct> Medio, Medio, Fundamental, Medio, Fundamental, Alfabetiza…
## $ Renda <fct> 1 a 3 sal, 1 a 3 sal, 1 a 3 sal, 1 a 3 sal, 1 a 3 sal, 1 …
## $ IMC <dbl> 26.370, 26.731, 28.086, 22.119, 31.917, 27.634, 33.556, 0…
## $ Class_IMC <fct> Sobrepeso, Sobrepeso, Sobrepeso, Eutrofia, Sobrepeso, Sob…
## $ Glicose <dbl> 88.7, 94.1, 118.0, 88.2, 101.9, 84.3, 52.9, 76.4, 86.2, 8…
## $ Class_glico <fct> Normal, Alterado, Alterado, Normal, Alterado, Normal, Nor…
## $ TGC <dbl> 87.84, 84.10, 71.02, 114.00, 162.60, 142.04, 134.50, 93.4…
## $ COL <int> 235, 186, 196, 172, 192, 243, 103, 143, 188, 154, 168, 16…
## $ HDL <int> 66, 61, 57, 60, 56, 71, 46, 38, 67, 65, 47, 59, 67, 71, 5…
## $ VLDL <dbl> 17.568, 16.820, 14.204, 22.800, 32.520, 28.408, 26.900, 1…
## $ LDL <dbl> 151.432, 108.180, 124.796, 89.200, 103.480, 143.592, 30.1…
No R as medidas-resumos podem ser observadas por várias funções, vamos mostrar algumas delas.
Função “summary”
# Estatística resumo
summary (dados2) # resume todas as variáveis do Banco de dados
## PROTOCOLO Sexo Idade Escolaridade Renda
## Min. : 1 F :45 Min. : 3.0 Alfabetizado:24 1 a 3 sal :63
## 1st Qu.:20 M :30 1st Qu.:16.0 Fundamental :31 4 a 6 sal : 3
## Median :39 NA's: 2 Median :31.0 Medio :15 Menos de 1 sal:10
## Mean :39 Mean :32.3 Superior : 7 Nao sabe : 1
## 3rd Qu.:58 3rd Qu.:44.0
## Max. :77 Max. :88.0
## IMC Class_IMC Glicose Class_glico
## Min. : 0.278 Desnutricao: 4 Min. : 52.90 Alterado:16
## 1st Qu.:19.500 Eutrofia :41 1st Qu.: 73.80 Normal :61
## Median :24.108 Obesidade : 5 Median : 80.30
## Mean :23.269 Sobrepeso :27 Mean : 85.81
## 3rd Qu.:27.455 3rd Qu.: 88.70
## Max. :36.389 Max. :203.90
## TGC COL HDL VLDL
## Min. : 24.29 Min. : 66.0 Min. :25.00 Min. : 4.858
## 1st Qu.: 61.67 1st Qu.:129.0 1st Qu.:40.00 1st Qu.:12.334
## Median : 85.90 Median :152.0 Median :47.00 Median :17.180
## Mean : 93.48 Mean :157.8 Mean :48.22 Mean :18.695
## 3rd Qu.:116.00 3rd Qu.:186.0 3rd Qu.:57.00 3rd Qu.:23.200
## Max. :203.70 Max. :247.0 Max. :71.00 Max. :40.740
## LDL
## Min. : 13.60
## 1st Qu.: 67.00
## Median : 86.31
## Mean : 90.84
## 3rd Qu.:108.84
## Max. :170.80
summary (dados2$Idade) # resume apenas uma variável específica
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.0 16.0 31.0 32.3 44.0 88.0
Combinação das funções by e summary
# Estatísticas da variável Idade por sexo
by (dados2$Idade, dados2$Sexo, summary)
## dados2$Sexo: F
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.00 21.00 35.00 35.69 44.00 88.00
## ------------------------------------------------------------
## dados2$Sexo: M
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.00 6.25 26.50 26.53 38.00 66.00
Outras estatísticas
# Outras estatísticas
sd(dados2$Idade) # Desvio-padrão
## [1] 20.44509
var(dados2$Idade) # Variância
## [1] 418.0017
IQR(dados2$Idade) # Intervalo Inter-Quartílico
## [1] 28
sd(dados2$Idade)/sqrt(length(dados2$Idade)) # Erro padrão da média
## [1] 2.329934
get_summary_stats
## Estatistica descritiva usando o get_summary_stats do pacote rstatix
library(rstatix)
##
## Anexando pacote: 'rstatix'
## O seguinte objeto é mascarado por 'package:stats':
##
## filter
dados2 %>% group_by(Escolaridade) %>%
get_summary_stats(IMC, type = "full")
## # A tibble: 4 × 14
## Escolaridade variable n min max median q1 q3 iqr mad mean
## <fct> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Alfabetizado IMC 24 11.6 28.5 18.4 15.3 24.7 9.39 5.00 19.8
## 2 Fundamental IMC 31 0.278 36.4 24.7 21.5 28.1 6.57 5.05 24.0
## 3 Medio IMC 15 19.4 33.6 26.7 22.0 27.6 5.59 3.35 25.8
## 4 Superior IMC 7 21.2 35.7 25.2 24.6 26.8 2.2 2.23 26.4
## # ℹ 3 more variables: sd <dbl>, se <dbl>, ci <dbl>
dados2 %>% group_by(Escolaridade) %>%
get_summary_stats(IMC, type = "full",
show = c("n",
"mean", "sd"))
## # A tibble: 4 × 5
## Escolaridade variable n mean sd
## <fct> <fct> <dbl> <dbl> <dbl>
## 1 Alfabetizado IMC 24 19.8 5.40
## 2 Fundamental IMC 31 24.0 6.43
## 3 Medio IMC 15 25.8 3.96
## 4 Superior IMC 7 26.4 4.49
dados2 %>% group_by(Escolaridade) %>%
get_summary_stats(IMC, type = "full",
show = c("n",
"median", "iqr"))
## # A tibble: 4 × 5
## Escolaridade variable n median iqr
## <fct> <fct> <dbl> <dbl> <dbl>
## 1 Alfabetizado IMC 24 18.4 9.39
## 2 Fundamental IMC 31 24.7 6.57
## 3 Medio IMC 15 26.7 5.59
## 4 Superior IMC 7 25.2 2.2