Análise de Academias Tradicionais e Crossfit, para os estados de RJ e MG

1 Introdução

Este documento refere-se ao andamento da modelagem estatística utilizando os dados de academia, para abordagens Tradicional e Box/Crossfit, desagregados pelos estados do Rio de Janeiro e Minas Gerais.


2 Leitura dos dados

total <- read_excel("C:/Users/raphael.fernandez/Desktop/Trabalhos/Marcio/data.xlsx",sheet=1)
trad  <- read_excel("C:/Users/raphael.fernandez/Desktop/Trabalhos/Marcio/data.xlsx",sheet=2)
box   <- read_excel("C:/Users/raphael.fernandez/Desktop/Trabalhos/Marcio/data.xlsx",sheet=3)

total = as.data.frame(total)
trad = as.data.frame(trad)
box = as.data.frame(box)

2.1 Transformação das variáveis

2.1.1 Categóricas

total$sexo   <- as.factor(total$sexo )
total$origem <- as.factor(total$origem)
total$civil  <- as.factor(total$civil)
total$forma  <- as.factor(total$forma)

######################################

box$sexo   <- as.factor(box$sexo )
box$origem <- as.factor(box$origem)
box$civil  <- as.factor(box$civil)
box$forma  <- as.factor(box$forma)

######################################

trad$sexo   <- as.factor(trad$sexo )
trad$origem <- as.factor(trad$origem)
trad$civil  <- as.factor(trad$civil)
trad$forma  <- as.factor(trad$forma)

2.1.2 Adicionando níveis

levels(total$sexo)   <- c("Feminino","Masculino")
levels(total$origem) <- c("Rio de Janeiro","Minas Gerais")
levels(total$civil)  <- c("Solteiro","Casado")
levels(total$forma)  <- c("Sozinho","Acompanhado")

######################################

levels(trad$sexo)   <- c("Feminino","Masculino")
levels(trad$origem) <- c("Rio de Janeiro","Minas Gerais")
levels(trad$civil)  <- c("Solteiro","Casado")
levels(trad$forma)  <- c("Sozinho","Acompanhado")

######################################

levels(box$sexo)   <- c("Feminino","Masculino")
levels(box$origem) <- c("Rio de Janeiro","Minas Gerais")
levels(box$civil)  <- c("Solteiro","Casado")
levels(box$forma)  <- c("Sozinho","Acompanhado")


3 Verificações de consistência

Aqui serão realizadas algumas verificações básicas a respeito da consistência da base de dados trabalhadas

3.1 Dados faltantes

falt = rbind(sum(is.na(box)),sum(is.na(trad)),sum(is.na(total)))
rownames(falt) = c("Total","Tradicional","Box")
colnames(falt) = "Dados faltantes"
kable(falt)%>%kable_styling()
Dados faltantes
Total 0
Tradicional 0
Box 0

Não há dados faltantes

3.2 Dimensões corretas

glimpse(total)
## Observations: 604
## Variables: 11
## $ sexo        <fct> Masculino, Masculino, Masculino, Masculino, Femini...
## $ origem      <fct> Rio de Janeiro, Rio de Janeiro, Rio de Janeiro, Ri...
## $ idade       <dbl> 27, 39, 25, 29, 62, 35, 46, 36, 29, 29, 37, 32, 30...
## $ imc         <dbl> 28.75434, 31.14187, 25.05931, 22.14533, 24.34176, ...
## $ civil       <fct> Solteiro, Casado, Solteiro, Solteiro, Solteiro, So...
## $ forma       <fct> Sozinho, Sozinho, Acompanhado, Sozinho, Sozinho, S...
## $ diversao    <dbl> 35, 25, 24, 40, 38, 24, 36, 31, 30, 34, 40, 15, 25...
## $ competencia <dbl> 24, 9, 15, 19, 24, 11, 26, 22, 11, 21, 24, 10, 16,...
## $ aparencia   <dbl> 34, 29, 26, 37, 40, 25, 39, 29, 34, 28, 34, 32, 33...
## $ saude       <dbl> 35, 31, 29, 35, 35, 30, 35, 35, 28, 34, 35, 28, 35...
## $ social      <dbl> 5, 6, 7, 13, 9, 6, 23, 19, 11, 20, 20, 7, 8, 7, 26...
glimpse(trad)
## Observations: 302
## Variables: 11
## $ sexo        <fct> Masculino, Masculino, Masculino, Masculino, Femini...
## $ origem      <fct> Rio de Janeiro, Rio de Janeiro, Rio de Janeiro, Ri...
## $ idade       <dbl> 27, 39, 25, 29, 62, 35, 46, 36, 29, 29, 37, 32, 30...
## $ imc         <dbl> 28.75434, 31.14187, 25.05931, 22.14533, 24.34176, ...
## $ civil       <fct> Solteiro, Casado, Solteiro, Solteiro, Solteiro, So...
## $ forma       <fct> Sozinho, Sozinho, Acompanhado, Sozinho, Sozinho, S...
## $ diversao    <dbl> 35, 25, 24, 40, 38, 24, 36, 31, 30, 34, 40, 15, 25...
## $ competencia <dbl> 24, 9, 15, 19, 24, 11, 26, 22, 11, 21, 24, 10, 16,...
## $ aparencia   <dbl> 34, 29, 26, 37, 40, 25, 39, 29, 34, 28, 34, 32, 33...
## $ saude       <dbl> 35, 31, 29, 35, 35, 30, 35, 35, 28, 34, 35, 28, 35...
## $ social      <dbl> 5, 6, 7, 13, 9, 6, 23, 19, 11, 20, 20, 7, 8, 7, 26...
glimpse(box)
## Observations: 302
## Variables: 11
## $ sexo        <fct> Feminino, Masculino, Feminino, Masculino, Masculin...
## $ origem      <fct> Rio de Janeiro, Rio de Janeiro, Rio de Janeiro, Ri...
## $ idade       <dbl> 22, 42, 22, 24, 31, 24, 35, 27, 29, 37, 32, 25, 26...
## $ imc         <dbl> 20.95727, 29.64951, 25.85937, 21.67211, 29.38776, ...
## $ civil       <fct> Solteiro, Casado, Solteiro, Solteiro, Solteiro, So...
## $ forma       <fct> Sozinho, Acompanhado, Acompanhado, Acompanhado, Ac...
## $ diversao    <dbl> 36, 31, 34, 32, 18, 36, 42, 38, 35, 30, 39, 34, 34...
## $ competencia <dbl> 21, 25, 16, 24, 16, 24, 28, 27, 25, 10, 28, 22, 27...
## $ aparencia   <dbl> 36, 23, 37, 29, 41, 36, 29, 27, 33, 19, 33, 33, 42...
## $ saude       <dbl> 32, 30, 31, 32, 34, 35, 35, 33, 34, 24, 35, 31, 35...
## $ social      <dbl> 13, 11, 15, 16, 10, 12, 20, 14, 14, 7, 16, 19, 19,...

As tabelas box e trad possuem 11 variáveis e 302 observações. A tabela total possue 11 variáveis e 604 observações. As dimensões estão corretas.


4 Academia Tradicional

Agora iremos fazer verificações mais fortes a respeito apenas da acedemia de abordagem tradicional. Ademais, o mesmo processo também será executado para as outras duas abordagem.

4.1 Medidas resumo

kable(table(trad$sexo))%>%kable_styling()
Var1 Freq
Feminino 138
Masculino 164
kable(table(trad$origem))%>%kable_styling()
Var1 Freq
Rio de Janeiro 184
Minas Gerais 118
kable(table(trad$civil))%>%kable_styling()
Var1 Freq
Solteiro 201
Casado 101
kable(table(trad$forma))%>%kable_styling()
Var1 Freq
Sozinho 184
Acompanhado 118

As proporções apontam que não há desbalanceamento dos dados, o que é positivo.

resp1 = rbind(summary(trad$idade),summary(trad$imc))
rownames(resp1) = c("Idade","IMC")
kable(resp1)%>%kable_styling()
Min. 1st Qu. Median Mean 3rd Qu. Max.
Idade 18.00000 24.00000 29.00000 33.10596 39.00000 76.00000
IMC 17.28791 23.14404 25.12337 25.90454 27.77211 48.82812

As variáveis resposta contínua apresentam consistência para as academias tradicionais. Não há menores de idade na amostra e a pessoa mais idosa tem 76 anos, a média encontra-se em torno de 33 anos de idade. Já consierando o IMC, verifica-se que não há usuários classificados como muito abaixo do peso, no entando, o máximo amostral observado foi classificado como Obesidade Mórbida (48,84)

resp = (rbind(summary(trad$diversao),summary(trad$competencia),summary(trad$aparencia),summary(trad$saude),summary(trad$social)))
rownames(resp) = c("Diversão","Competência","Aparência","Saúde","Social");
kable(resp)%>%kable_styling()
Min. 1st Qu. Median Mean 3rd Qu. Max.
Diversão 6 28 34.0 32.36755 38 42
Competência 4 18 22.0 20.85762 25 28
Aparência 9 28 32.0 31.78808 36 42
Saúde 5 31 33.0 32.04636 35 35
Social 4 10 13.5 13.59603 17 28

Aqui estamos interessados em verificar dados que possam estar errados, por exemplo, valores negativos. Como todos estão dentro do mínimo e do máximo, conclui-se que estão corretos.

Rafael Cabral Fernandez

2019-05-27