Análise de Academias Tradicionais e Crossfit, para os estados de RJ e MG
1 Introdução
Este documento refere-se ao andamento da modelagem estatística utilizando os dados de academia, para abordagens Tradicional e Box/Crossfit, desagregados pelos estados do Rio de Janeiro e Minas Gerais.
2 Leitura dos dados
total <- read_excel("C:/Users/raphael.fernandez/Desktop/Trabalhos/Marcio/data.xlsx",sheet=1)
trad <- read_excel("C:/Users/raphael.fernandez/Desktop/Trabalhos/Marcio/data.xlsx",sheet=2)
box <- read_excel("C:/Users/raphael.fernandez/Desktop/Trabalhos/Marcio/data.xlsx",sheet=3)
total = as.data.frame(total)
trad = as.data.frame(trad)
box = as.data.frame(box)2.1 Transformação das variáveis
2.1.1 Categóricas
total$sexo <- as.factor(total$sexo )
total$origem <- as.factor(total$origem)
total$civil <- as.factor(total$civil)
total$forma <- as.factor(total$forma)
######################################
box$sexo <- as.factor(box$sexo )
box$origem <- as.factor(box$origem)
box$civil <- as.factor(box$civil)
box$forma <- as.factor(box$forma)
######################################
trad$sexo <- as.factor(trad$sexo )
trad$origem <- as.factor(trad$origem)
trad$civil <- as.factor(trad$civil)
trad$forma <- as.factor(trad$forma)2.1.2 Adicionando níveis
levels(total$sexo) <- c("Feminino","Masculino")
levels(total$origem) <- c("Rio de Janeiro","Minas Gerais")
levels(total$civil) <- c("Solteiro","Casado")
levels(total$forma) <- c("Sozinho","Acompanhado")
######################################
levels(trad$sexo) <- c("Feminino","Masculino")
levels(trad$origem) <- c("Rio de Janeiro","Minas Gerais")
levels(trad$civil) <- c("Solteiro","Casado")
levels(trad$forma) <- c("Sozinho","Acompanhado")
######################################
levels(box$sexo) <- c("Feminino","Masculino")
levels(box$origem) <- c("Rio de Janeiro","Minas Gerais")
levels(box$civil) <- c("Solteiro","Casado")
levels(box$forma) <- c("Sozinho","Acompanhado")3 Verificações de consistência
Aqui serão realizadas algumas verificações básicas a respeito da consistência da base de dados trabalhadas
3.1 Dados faltantes
falt = rbind(sum(is.na(box)),sum(is.na(trad)),sum(is.na(total)))
rownames(falt) = c("Total","Tradicional","Box")
colnames(falt) = "Dados faltantes"
kable(falt)%>%kable_styling()| Dados faltantes | |
|---|---|
| Total | 0 |
| Tradicional | 0 |
| Box | 0 |
Não há dados faltantes
3.2 Dimensões corretas
glimpse(total)## Observations: 604
## Variables: 11
## $ sexo <fct> Masculino, Masculino, Masculino, Masculino, Femini...
## $ origem <fct> Rio de Janeiro, Rio de Janeiro, Rio de Janeiro, Ri...
## $ idade <dbl> 27, 39, 25, 29, 62, 35, 46, 36, 29, 29, 37, 32, 30...
## $ imc <dbl> 28.75434, 31.14187, 25.05931, 22.14533, 24.34176, ...
## $ civil <fct> Solteiro, Casado, Solteiro, Solteiro, Solteiro, So...
## $ forma <fct> Sozinho, Sozinho, Acompanhado, Sozinho, Sozinho, S...
## $ diversao <dbl> 35, 25, 24, 40, 38, 24, 36, 31, 30, 34, 40, 15, 25...
## $ competencia <dbl> 24, 9, 15, 19, 24, 11, 26, 22, 11, 21, 24, 10, 16,...
## $ aparencia <dbl> 34, 29, 26, 37, 40, 25, 39, 29, 34, 28, 34, 32, 33...
## $ saude <dbl> 35, 31, 29, 35, 35, 30, 35, 35, 28, 34, 35, 28, 35...
## $ social <dbl> 5, 6, 7, 13, 9, 6, 23, 19, 11, 20, 20, 7, 8, 7, 26...
glimpse(trad)## Observations: 302
## Variables: 11
## $ sexo <fct> Masculino, Masculino, Masculino, Masculino, Femini...
## $ origem <fct> Rio de Janeiro, Rio de Janeiro, Rio de Janeiro, Ri...
## $ idade <dbl> 27, 39, 25, 29, 62, 35, 46, 36, 29, 29, 37, 32, 30...
## $ imc <dbl> 28.75434, 31.14187, 25.05931, 22.14533, 24.34176, ...
## $ civil <fct> Solteiro, Casado, Solteiro, Solteiro, Solteiro, So...
## $ forma <fct> Sozinho, Sozinho, Acompanhado, Sozinho, Sozinho, S...
## $ diversao <dbl> 35, 25, 24, 40, 38, 24, 36, 31, 30, 34, 40, 15, 25...
## $ competencia <dbl> 24, 9, 15, 19, 24, 11, 26, 22, 11, 21, 24, 10, 16,...
## $ aparencia <dbl> 34, 29, 26, 37, 40, 25, 39, 29, 34, 28, 34, 32, 33...
## $ saude <dbl> 35, 31, 29, 35, 35, 30, 35, 35, 28, 34, 35, 28, 35...
## $ social <dbl> 5, 6, 7, 13, 9, 6, 23, 19, 11, 20, 20, 7, 8, 7, 26...
glimpse(box)## Observations: 302
## Variables: 11
## $ sexo <fct> Feminino, Masculino, Feminino, Masculino, Masculin...
## $ origem <fct> Rio de Janeiro, Rio de Janeiro, Rio de Janeiro, Ri...
## $ idade <dbl> 22, 42, 22, 24, 31, 24, 35, 27, 29, 37, 32, 25, 26...
## $ imc <dbl> 20.95727, 29.64951, 25.85937, 21.67211, 29.38776, ...
## $ civil <fct> Solteiro, Casado, Solteiro, Solteiro, Solteiro, So...
## $ forma <fct> Sozinho, Acompanhado, Acompanhado, Acompanhado, Ac...
## $ diversao <dbl> 36, 31, 34, 32, 18, 36, 42, 38, 35, 30, 39, 34, 34...
## $ competencia <dbl> 21, 25, 16, 24, 16, 24, 28, 27, 25, 10, 28, 22, 27...
## $ aparencia <dbl> 36, 23, 37, 29, 41, 36, 29, 27, 33, 19, 33, 33, 42...
## $ saude <dbl> 32, 30, 31, 32, 34, 35, 35, 33, 34, 24, 35, 31, 35...
## $ social <dbl> 13, 11, 15, 16, 10, 12, 20, 14, 14, 7, 16, 19, 19,...
As tabelas box e trad possuem 11 variáveis e 302 observações. A tabela total possue 11 variáveis e 604 observações. As dimensões estão corretas.
4 Academia Tradicional
Agora iremos fazer verificações mais fortes a respeito apenas da acedemia de abordagem tradicional. Ademais, o mesmo processo também será executado para as outras duas abordagem.
4.1 Medidas resumo
kable(table(trad$sexo))%>%kable_styling()| Var1 | Freq |
|---|---|
| Feminino | 138 |
| Masculino | 164 |
kable(table(trad$origem))%>%kable_styling()| Var1 | Freq |
|---|---|
| Rio de Janeiro | 184 |
| Minas Gerais | 118 |
kable(table(trad$civil))%>%kable_styling()| Var1 | Freq |
|---|---|
| Solteiro | 201 |
| Casado | 101 |
kable(table(trad$forma))%>%kable_styling()| Var1 | Freq |
|---|---|
| Sozinho | 184 |
| Acompanhado | 118 |
As proporções apontam que não há desbalanceamento dos dados, o que é positivo.
resp1 = rbind(summary(trad$idade),summary(trad$imc))
rownames(resp1) = c("Idade","IMC")
kable(resp1)%>%kable_styling()| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | |
|---|---|---|---|---|---|---|
| Idade | 18.00000 | 24.00000 | 29.00000 | 33.10596 | 39.00000 | 76.00000 |
| IMC | 17.28791 | 23.14404 | 25.12337 | 25.90454 | 27.77211 | 48.82812 |
As variáveis resposta contínua apresentam consistência para as academias tradicionais. Não há menores de idade na amostra e a pessoa mais idosa tem 76 anos, a média encontra-se em torno de 33 anos de idade. Já consierando o IMC, verifica-se que não há usuários classificados como muito abaixo do peso, no entando, o máximo amostral observado foi classificado como Obesidade Mórbida (48,84)
resp = (rbind(summary(trad$diversao),summary(trad$competencia),summary(trad$aparencia),summary(trad$saude),summary(trad$social)))
rownames(resp) = c("Diversão","Competência","Aparência","Saúde","Social");
kable(resp)%>%kable_styling()| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | |
|---|---|---|---|---|---|---|
| Diversão | 6 | 28 | 34.0 | 32.36755 | 38 | 42 |
| Competência | 4 | 18 | 22.0 | 20.85762 | 25 | 28 |
| Aparência | 9 | 28 | 32.0 | 31.78808 | 36 | 42 |
| Saúde | 5 | 31 | 33.0 | 32.04636 | 35 | 35 |
| Social | 4 | 10 | 13.5 | 13.59603 | 17 | 28 |
Aqui estamos interessados em verificar dados que possam estar errados, por exemplo, valores negativos. Como todos estão dentro do mínimo e do máximo, conclui-se que estão corretos.