O primeiro passo para realizarmos o cálculo das medidas de tendência central e de dispersão é importar o banco de dados. Para isso, é preciso selecionar a pasta de origem do arquivo em Session -> Set Working Directory -> Choose Directory. Depois, basta digitar o comando para importar o banco de dados, de acordo com o formato do arquivo, criando um objeto.
knitr::opts_chunk$set(echo = TRUE)
dados <- read.csv2("Medidas de Tendência Central e de Dispersão.csv", stringsAsFactors = TRUE, fileEncoding = 'UTF-8')
Para visualizar o banco de dados, basta utilizar a função View(), ou print().
View(dados)
print(dados)
## ID Sexo af_minutos tipo_af Peso Altura IMC class_af
## 1 1 Masculino 151 3 74 1.71 25.30693 Ativo
## 2 2 Masculino 76 2 88 1.90 24.37673 Ativo
## 3 3 Masculino 99 1 68 1.65 24.97704 Inativo
## 4 4 Masculino 28 2 71 1.88 20.08828 Inativo
## 5 5 Masculino 70 2 67 1.60 26.17188 Inativo
## 6 6 Masculino 19 1 69 1.55 28.72008 Inativo
## 7 7 Masculino 33 2 89 1.99 22.47418 Inativo
## 8 8 Masculino 60 3 77 1.80 23.76543 Ativo
## 9 9 Masculino 37 1 73 1.77 23.30109 Inativo
## 10 10 Masculino 134 1 68 1.60 26.56250 Inativo
## 11 11 Feminino 82 1 61 1.54 25.72103 Inativo
## 12 12 Feminino 60 2 85 1.78 26.82742 Inativo
## 13 13 Feminino 28 2 78 1.77 24.89706 Inativo
## 14 14 Feminino 175 1 83 1.80 25.61728 Ativo
## 15 15 Feminino 63 2 65 1.60 25.39062 Inativo
## 16 16 Feminino 37 2 68 1.72 22.98540 Inativo
## 17 17 Feminino 100 2 75 1.66 27.21730 Ativo
## 18 18 Feminino 86 1 89 1.90 24.65374 Inativo
## 19 19 Feminino 40 2 76 1.70 26.29758 Inativo
## 20 20 Feminino 39 1 78 1.72 26.36560 Inativo
Agora, podemos começar a calcular as medidas que tivermos interesse.
Para calcular a média aritmética de qualquer variável quantitativa, basta usar a função mean(). Para o nosso exemplo, vamos calcular a média do IMC. É possível criar um objeto para a média, deixando salvo o valor obtido.
mean(dados$IMC)
## [1] 25.08586
media_imc <- mean(dados$IMC)
media_imc
## [1] 25.08586
Para calcular a média ponderada, basta usar a função weighted.mean(), inserindo a variável de interesse e a variável que representa o peso dessa variável de interesse. Para o nosso exemplo, vamos usar os minutos semanais de atividade física e como peso o tipo de atividade física. Já vamos logo fazer criando um objeto específico.
media_ponderada_af <- weighted.mean(dados$af_minutos, dados$tipo_af)
media_ponderada_af
## [1] 69.82353
Para calcularmos a média aparada, usamos a fórmula mean(), mas inserindo o argumento trim, indicando o percentual a ser aparado em cada extremidade. Se quisermos aparar 5% da amostra, devemos sinalizar 2,5% em forma decimal, que é 0.025. Assim, o R entenderá qie deve aparar 2,5% de cada extremidade, totalizando os 5%. Vamos calcular a média aparada do IMC.
media_aparada_imc <- mean(dados$IMC, trim = 0.025)
media_aparada_imc
## [1] 25.08586
Para calcularmos a mediana, usamos a função median()
mediana_imc <- median(dados$IMC)
mediana_imc
## [1] 25.34878
A moda não apresenta uma função nativa do R. Para isso vamos usar duas funções para encontrarmos o valor.
frequencias <- table(dados$Peso)
frequencias
##
## 61 65 67 68 69 71 73 74 75 76 77 78 83 85 88 89
## 1 1 1 3 1 1 1 1 1 1 1 2 1 1 1 2
moda_peso <- which.max(frequencias)
moda_peso
## 68
## 4
Para calcularmos a amplitude de variação, basta criamos um objeto que realiza a subtração entre o valor máximo e o valor mínimo de uma variável.
amplitude_variacao_peso <- max(dados$Peso) - min(dados$Peso)
amplitude_variacao_peso
## [1] 28
Para calcularmos a amplitude interquartil, basta usarmos a função IQR().
interquartil_peso <- IQR(dados$Peso)
interquartil_peso
## [1] 11.25
Para o cálculo da variância, usamos a função var().
variancia_imc <- var(dados$IMC)
variancia_imc
## [1] 3.681675
Para o desvio padrão, usamos a função sd().
desvio_padrao_imc <- sd(dados$IMC)
desvio_padrao_imc
## [1] 1.918769
Como não há uma função nativa do R que faça o cálculo, precisamos aplicar a fórmula, usando o valor do desvio padrão e o n amostral. O n amostral pode ser obtido pela função length().
n <- length(dados$IMC)
n
## [1] 20
erro_padrao_imc <- desvio_padrao_imc/sqrt(n)
erro_padrao_imc
## [1] 0.4290498
Não existe para o Intervalo de confiança uma função nativa, então precisamos aplicar a fórmula, fazendo uso da média, do erro padrão e do valor tabelado de Z. Como trabalhamos com 95%, o valor tabelado é de 1.96.
limite_inferior_ic_imc <- media_imc - (erro_padrao_imc*1.96)
limite_inferior_ic_imc
## [1] 24.24492
limite_superior_ic_imc <- media_imc + (erro_padrao_imc*1.96)
limite_superior_ic_imc
## [1] 25.9268
Esta é a forma de se calcular as principais medidas de tendência central e de dispersão de variáveis quantitativas, sem precisar instalar qualquer pacote extra. Agora basta aplicar o passo a passo no seu banco de dados e nas suas variáveis de interesse.