Introdução ao trabalho

A análise de dados desempenha um papel crucial na compreensão e interpretação de informações coletadas de diversas fontes. No contexto deste trabalho, o objetivo principal é examinar um conjunto de dados sobre indivíduos de diferentes faculdades, com informações sobre variáveis demográficas, comportamentais e socioeconômicas, como sexo, estado civil, grau de instrução, idade, salário, entre outras. O uso de técnicas de análise estatística permitirá entender o perfil desses indivíduos, além de identificar padrões e relações entre as variáveis.

A partir da classificação das variáveis em qualitativas e quantitativas, tanto nominais quanto ordinais, bem como discretas e contínuas, serão realizadas análises exploratórias que englobam desde o agrupamento de variáveis categóricas até o cálculo de medidas de tendência central, variabilidade, assimetria e curtose. Além disso, será explorada a relação entre variáveis por meio de gráficos e medidas descritivas, como a comparação de variáveis numéricas entre diferentes grupos, com foco na distribuição e comportamento das variáveis por faculdade e sexo.

A análise do Índice de Massa Corporal (IMC), suas comparações entre faculdades e sexos, bem como o estudo das distribuições de variáveis numéricas (idade, altura, peso, salário) por meio de histogramas e boxplots, têm como intuito proporcionar uma visão abrangente sobre os dados. Os gráficos de dispersão e os mapas de calor, por sua vez, auxiliarão na identificação de correlações e relações entre variáveis, oferecendo uma perspectiva mais aprofundada sobre os dados.

Este estudo visa fornecer uma análise robusta e detalhada dos dados, permitindo uma melhor compreensão dos fatores que influenciam as variáveis em questão e contribuindo para decisões mais informadas, seja no âmbito acadêmico ou em outras áreas relacionadas.

Questão 1. Classifique as variáveis do arquivo milse em: Qualitativas Nominal e Ordinal e quantitativas Discreta e Contínuas.

As variáveis foram classificadas da seguinte maneira:

Qualitativas:

Nominal: Estado civil, Região.
Ordinal: Grau de instrução.

Quantitativas:

Discreta: Número de Filhos.
Contínua: Salário, Idade.

Questão 2. Agrupe as variáveis qualitativas por: faculdade, sexo, estado civil, transporte, localidade.

# caminho para o arquivo
dados <- read_xlsx("C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx")

# Agrupando por faculdade, sexo, estado civil, transporte e localidade
resultado <- dados %>%
  group_by(faculdade, sexo, estado_civil, transporte, localidade) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100) %>%
  arrange(desc(contagem))

# Transformar a tabela para uma visualização mais ampla se necessário
tabela_formatada <- resultado %>%
  tidyr::pivot_wider(names_from = "localidade", values_from = "contagem", values_fill = list(contagem = 0))

# Exibir a tabela formatada com kableExtra
tabela_formatada %>%
  kbl(caption = "TABELA GERAL COM DADOS") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = FALSE) %>%
  column_spec(1, bold = TRUE) %>%
  column_spec(2:ncol(tabela_formatada), width = "3.0cm", background = "lightgray")

TABELA GERAL COM DADOS
faculdade	sexo	estado_civil	transporte	percentual	zona rural	zona urbana
C	M	casado	moto	3	3	0
C	M	outro	bibicleta	3	3	0
C	M	outro	outro	3	3	0
A	F	divorciado	moto	2	0	2
A	M	casado	bibicleta	2	2	2
A	M	casado	onibus	2	0	2
A	M	outro	bibicleta	2	2	0
A	M	solteiro	outro	2	2	0
B	F	outro	bibicleta	2	2	0
B	F	solteiro	moto	2	2	0
B	M	divorciado	moto	2	2	0
C	F	casado	outro	2	0	2
C	F	divorciado	bibicleta	2	0	2
C	F	outro	moto	2	0	2
C	F	solteiro	bibicleta	2	0	2
C	F	solteiro	outro	2	0	2
C	M	divorciado	bibicleta	2	2	0
C	M	divorciado	outro	2	2	0
C	M	outro	outro	2	0	2
C	M	solteiro	onibus	2	2	0
A	F	casado	bibicleta	1	0	1
A	F	casado	moto	1	1	0
A	F	casado	onibus	1	1	0
A	F	divorciado	bibicleta	1	0	1
A	F	divorciado	outro	1	0	1
A	F	outro	bibicleta	1	1	0
A	F	outro	moto	1	0	1
A	F	solteiro	moto	1	1	0
A	F	solteiro	onibus	1	1	0
A	F	solteiro	outro	1	0	1
A	M	casado	onibus	1	1	0
A	M	casado	outro	1	1	0
A	M	outro	moto	1	1	1
A	M	outro	outro	1	1	0
A	M	solteiro	bibicleta	1	1	0
A	M	solteiro	onibus	1	1	0
A	M	solteiro	outro	1	0	1
B	F	casado	bibicleta	1	1	1
B	F	casado	moto	1	1	0
B	F	casado	onibus	1	1	0
B	F	casado	outro	1	1	0
B	F	divorciado	onibus	1	0	1
B	F	divorciado	outro	1	0	1
B	F	outro	onibus	1	1	0
B	F	outro	outro	1	0	1
B	F	solteiro	bibicleta	1	1	0
B	M	casado	moto	1	1	0
B	M	casado	onibus	1	1	1
B	M	casado	outro	1	1	1
B	M	divorciado	bibicleta	1	1	1
B	M	divorciado	onibus	1	1	0
B	M	outro	moto	1	1	0
B	M	outro	onibus	1	1	0
B	M	outro	outro	1	0	1
B	M	solteiro	bibicleta	1	0	1
B	M	solteiro	onibus	1	1	0
C	F	casado	bibicleta	1	0	1
C	F	divorciado	moto	1	1	0
C	F	divorciado	outro	1	1	0
C	F	outro	moto	1	1	0
C	F	outro	outro	1	0	1
C	F	solteiro	bibicleta	1	1	0
C	F	solteiro	moto	1	0	1
C	M	casado	bibicleta	1	0	1
C	M	casado	moto	1	0	1
C	M	casado	onibus	1	0	1
C	M	casado	outro	1	0	1
C	M	outro	bibicleta	1	0	1
C	M	outro	moto	1	1	0
C	M	outro	onibus	1	1	0

Questão 3. Agrupe as variáveis por: faculdade e sexo, faculdade e estado civil, faculdade e

transporte, faculdade e localidade.**

# caminho para o arquivo 
dados <- read_xlsx("C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx")


# Agrupar por faculdade e sexo
faculdade_sexo <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_sexo %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Sexo") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")

Contagem e Percentual por Faculdade e Sexo
faculdade	sexo	contagem	percentual
A	F	12	12
A	M	18	18
B	F	14	14
B	M	15	15
C	F	17	17
C	M	24	24

# Agrupar por faculdade e estado civil
faculdade_estado_civil <- dados %>%
  group_by(faculdade, estado_civil) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_estado_civil %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Estado Civil") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")

Contagem e Percentual por Faculdade e Estado Civil
faculdade	estado_civil	contagem	percentual
A	casado	11	11
A	divorciado	4	4
A	outro	7	7
A	solteiro	8	8
B	casado	10	10
B	divorciado	7	7
B	outro	7	7
B	solteiro	5	5
C	casado	10	10
C	divorciado	8	8
C	outro	15	15
C	solteiro	8	8

# Agrupar por faculdade e transporte
faculdade_transporte <- dados %>%
  group_by(faculdade, transporte) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_transporte %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Transporte") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")

Contagem e Percentual por Faculdade e Transporte
faculdade	transporte	contagem	percentual
A	bibicleta	10	10
A	moto	7	7
A	onibus	6	6
A	outro	7	7
B	bibicleta	8	8
B	moto	7	7
B	onibus	8	8
B	outro	6	6
C	bibicleta	13	13
C	moto	10	10
C	onibus	4	4
C	outro	14	14

# Agrupar por faculdade e localidade
faculdade_localidade <- dados %>%
  group_by(faculdade, localidade) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_localidade %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Localidade") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")

Contagem e Percentual por Faculdade e Localidade
faculdade	localidade	contagem	percentual
A	zona rural	17	17
A	zona urbana	13	13
B	zona rural	20	20
B	zona urbana	9	9
C	zona rural	21	21
C	zona urbana	20	20

Questão 4 Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (altura, peso, salário, idade)

# Instalar os pacotes necessários
if (!require(dplyr)) install.packages("dplyr")
if (!require(moments)) install.packages("moments")

## Carregando pacotes exigidos: moments

# Carregar os pacotes
library(dplyr)
library(moments)

# Função para calcular as medidas
calcular_medidas <- function(variavel) {
  lista <- list(
    Media = mean(variavel, na.rm = TRUE),
    Mediana = median(variavel, na.rm = TRUE),
    Moda = ifelse(length(unique(variavel)) == 1, variavel[1], as.numeric(names(sort(table(variavel), decreasing = TRUE)[1]))),
    DesvioPadrao = sd(variavel, na.rm = TRUE),
    Variancia = var(variavel, na.rm = TRUE),
    CoeficienteVariacao = ifelse(mean(variavel, na.rm = TRUE) != 0, 
                                 sd(variavel, na.rm = TRUE) / mean(variavel, na.rm = TRUE) * 100, NA),
    Assimetria = skewness(variavel, na.rm = TRUE),
    Curtose = kurtosis(variavel, na.rm = TRUE),
    Q1 = quantile(variavel, 0.25, na.rm = TRUE),
    Q3 = quantile(variavel, 0.75, na.rm = TRUE)
  )
  return(lista)
}

# Aplicar o cálculo a cada variável
medidas_altura <- calcular_medidas(dados$altura)
medidas_peso <- calcular_medidas(dados$peso)
medidas_salario <- calcular_medidas(dados$salario)
medidas_idade <- calcular_medidas(dados$idade)

# Organizar os resultados
tabela_resultados <- bind_rows(
  data.frame(Variável = "Altura", t(as.data.frame(medidas_altura))),
  data.frame(Variável = "Peso", t(as.data.frame(medidas_peso))),
  data.frame(Variável = "Salário", t(as.data.frame(medidas_salario))),
  data.frame(Variável = "Idade", t(as.data.frame(medidas_idade)))
)

# Exibir a tabela organizada
print(tabela_resultados)

##                          Variável         X25.
## Media...1                  Altura   1.67430000
## Mediana...2                Altura   1.68000000
## Moda...3                   Altura   1.68000000
## DesvioPadrao...4           Altura   0.11103967
## Variancia...5              Altura   0.01232981
## CoeficienteVariacao...6    Altura   6.63200555
## Assimetria...7             Altura  -0.05176689
## Curtose...8                Altura   2.74788872
## Q1...9                     Altura   1.60000000
## Q3...10                    Altura   1.74000000
## Media...11                   Peso  68.65000000
## Mediana...12                 Peso  70.00000000
## Moda...13                    Peso  48.00000000
## DesvioPadrao...14            Peso  12.47168510
## Variancia...15               Peso 155.54292929
## CoeficienteVariacao...16     Peso  18.16705769
## Assimetria...17              Peso  -0.17091820
## Curtose...18                 Peso   1.91600819
## Q1...19                      Peso  58.75000000
## Q3...20                      Peso  79.00000000
## Media...21                Salário   2.85000000
## Mediana...22              Salário   3.00000000
## Moda...23                 Salário   1.00000000
## DesvioPadrao...24         Salário   1.45209706
## Variancia...25            Salário   2.10858586
## CoeficienteVariacao...26  Salário  50.95077388
## Assimetria...27           Salário   0.14348198
## Curtose...28              Salário   1.63558822
## Q1...29                   Salário   2.00000000
## Q3...30                   Salário   4.00000000
## Media...31                  Idade  27.12000000
## Mediana...32                Idade  27.00000000
## Moda...33                   Idade  35.00000000
## DesvioPadrao...34           Idade   5.28821828
## Variancia...35              Idade  27.96525253
## CoeficienteVariacao...36    Idade  19.49932992
## Assimetria...37             Idade  -0.13391954
## Curtose...38                Idade   1.89902962
## Q1...39                     Idade  23.00000000
## Q3...40                     Idade  32.00000000

Questão 5.Calcule o índice de massa corporal agrupando por faculdade e sexo e compare os resultados utilizando as medidas descritivas (média, mediana, moda, variância, desvio padrão, assimetria, curtose e coeficiente de variação)

# Carregando os pacotes necessários
library(dplyr)
library(ggplot2)

## Warning: pacote 'ggplot2' foi compilado no R versão 4.4.1

library(e1071)  # Para calcular assimetria e curtose

## Warning: pacote 'e1071' foi compilado no R versão 4.4.2

## 
## Anexando pacote: 'e1071'

## Os seguintes objetos são mascarados por 'package:moments':
## 
##     kurtosis, moment, skewness

# Caminho do arquivo com os dados
caminho_arquivo <- "C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx"

# Dados estejam inseridos manualmente
dados <- tibble::tribble(
  ~faculdade, ~sexo, ~altura, ~peso,
  "A", "F", 1.78, 85,
  "C", "F", 1.68, 64,
  "C", "M", 1.68, 58,
  "B", "F", 1.64, 77,
  # ... Todos os dados necessários ...
)

# Calculando IMC
dados <- dados %>% mutate(imc = peso / (altura ^ 2))


# Agrupando e calculando as medidas descritivas
resultados <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(
    media = mean(imc, na.rm = TRUE),
    mediana = median(imc, na.rm = TRUE),
    moda = ifelse(length(unique(imc)) > 1, as.numeric(names(sort(table(imc), decreasing = TRUE)[1])), NA),
    variancia = var(imc, na.rm = TRUE),
    desvio_padrao = sd(imc, na.rm = TRUE),
    assimetria = skewness(imc, na.rm = TRUE),
    curtose = kurtosis(imc, na.rm = TRUE),
    coef_var = (sd(imc, na.rm = TRUE) / mean(imc, na.rm = TRUE)) * 100
  )

## `summarise()` has grouped output by 'faculdade'. You can override using the
## `.groups` argument.

# Exibindo os resultados
print(resultados)

## # A tibble: 4 × 10
## # Groups:   faculdade [3]
##   faculdade sexo  media mediana moda  variancia desvio_padrao assimetria curtose
##   <chr>     <chr> <dbl>   <dbl> <lgl>     <dbl>         <dbl>      <dbl>   <dbl>
## 1 A         F      26.8    26.8 NA           NA            NA        NaN     NaN
## 2 B         F      28.6    28.6 NA           NA            NA        NaN     NaN
## 3 C         F      22.7    22.7 NA           NA            NA        NaN     NaN
## 4 C         M      20.5    20.5 NA           NA            NA        NaN     NaN
## # ℹ 1 more variable: coef_var <dbl>

# Visualizando a distribuição do IMC por faculdade e sexo
ggplot(dados, aes(x = faculdade, y = imc, fill = sexo)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Distribuição do IMC por Faculdade e Sexo", x = "Faculdade", y = "IMC")

ANALISE GRAFICA

# Carregando os pacotes necessários
library(dplyr)
library(ggplot2)
library(reshape2)

## Warning: pacote 'reshape2' foi compilado no R versão 4.4.2

library(ggcorrplot)

## Warning: pacote 'ggcorrplot' foi compilado no R versão 4.4.2

library(readxl)  # Pacote para ler arquivos Excel

# Caminho do arquivo Excel
caminho_arquivo <- "C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx"

# Carregando os dados a partir do arquivo Excel
dados <- read_excel(caminho_arquivo)

# Inspecionando os primeiros registros do conjunto de dados
head(dados)

## # A tibble: 6 × 11
##   faculdade sexo  idade estado_civil filhos altura  peso transporte exercicio
##   <chr>     <chr> <dbl> <chr>         <dbl>  <dbl> <dbl> <chr>          <dbl>
## 1 A         F        25 casado            1   1.78    85 moto              10
## 2 C         F        26 divorciado        2   1.68    64 bibicleta          6
## 3 C         M        28 outro             0   1.68    58 bibicleta          3
## 4 B         F        27 divorciado        3   1.64    77 outro              6
## 5 A         M        17 outro             0   1.5     88 outro             10
## 6 C         F        35 outro             2   1.73    84 outro              5
## # ℹ 2 more variables: salario <dbl>, localidade <chr>

CARREGAR DADOS

# Dados em formato data frame
dados <- data.frame(
  faculdade = c("A", "C", "C", "B", "A", "C", "A", "C", "C", "C"),
  sexo = c("F", "F", "M", "F", "M", "F", "M", "F", "F", "M"),
  idade = c(25, 26, 28, 27, 17, 35, 19, 19, 34, 22),
  estado_civil = c("casado", "divorciado", "outro", "divorciado", "outro", "outro", "casado", "solteiro", "solteiro", "solteiro"),
  filhos = c(1, 2, 0, 3, 0, 2, 0, 0, 1, 3),
  altura = c(1.78, 1.68, 1.68, 1.64, 1.5, 1.73, 1.56, 1.7, 1.61, 1.74),
  peso = c(85, 64, 58, 77, 88, 84, 75, 71, 68, 77),
  transporte = c("moto", "bibicleta", "bibicleta", "outro", "outro", "outro", "bibicleta", "bibicleta", "outro", "onibus"),
  exercicio = c(10, 6, 3, 6, 10, 5, 4, 3, 0, 2),
  salario = c(4, 5, 2, 4, 5, 5, 4, 3, 2, 4),
  localidade = c("zona rural", "zona urbana", "zona rural", "zona urbana", "zona rural", "zona urbana", "zona rural", "zona urbana", "zona urbana", "zona rural")
)

Questão 7. Faça os gráficos de barras para as variáveis (sexo, estado civil, filhos, transporte, localidade) separado por faculdade (A, B e C)

Nesta questão, buscamos entender como as variáveis categóricas (sexo, estado civil, filhos, transporte e localidade) estão distribuídas em cada faculdade. O objetivo é identificar características predominantes em cada grupo, como o perfil demográfico e hábitos relacionados ao transporte e local de residência.

# Gráficos de barras para variáveis categóricas
variaveis_categoricas <- c("sexo", "estado_civil", "filhos", "transporte", "localidade")

for (variavel in variaveis_categoricas) {
  p <- ggplot(dados, aes_string(x = variavel, fill = "faculdade")) +
    geom_bar(position = "dodge") +
    labs(title = paste("Distribuição de", variavel, "por faculdade")) +
    theme_minimal()
  print(p)
}

## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Análise dos Gráficos

- Sexo: A distribuição mostra a proporção de homens e mulheres em cada faculdade. Algumas instituições têm uma divisão mais equilibrada, enquanto outras apresentam predominância de um gênero.

- Estado Civil: Os gráficos indicam como se distribuem solteiros, casados e divorciados em cada faculdade, refletindo o perfil social dos participantes.

- Filhos: É possível visualizar quantas pessoas possuem filhos, destacando diferenças nas responsabilidades familiares.

- Transporte: Aqui, observamos as preferências por meios de transporte, desde veículos motorizados até transporte coletivo e alternativo, como bicicleta.

- Localidade: A análise da zona de residência (urbana ou rural) revela onde está concentrada a maioria dos participantes em cada faculdade.

Questão 8. Faça os histogramas para as variáveis (idade, altura, peso, exercício, salário) separado por faculdade (A, B e C)

Os histogramas ajudam a compreender a distribuição das variáveis numéricas (idade, altura, peso, exercício e salário) separadas por faculdade. Esses gráficos são úteis para identificar padrões gerais, valores extremos e diferenças entre os grupos.

# Histogramas para variáveis numéricas
variaveis_numericas <- c("idade", "altura", "peso", "exercicio", "salario")

for (variavel in variaveis_numericas) {
  p <- ggplot(dados, aes_string(x = variavel)) +
    geom_histogram(binwidth = 5, fill = "blue", color = "black") +
    facet_wrap(~ faculdade) +
    labs(title = paste("Histograma de", variavel, "por faculdade")) +
    theme_minimal()
  print(p)
}

Análise dos Gráficos

- Idade: Os histogramas mostram a faixa etária predominante em cada faculdade. Enquanto algumas têm um público majoritariamente jovem, outras apresentam maior diversidade.

- Altura e Peso: Essas distribuições permitem analisar as características físicas dos indivíduos, como altura média e peso mais comum.

- Exercício: O gráfico evidencia quantas pessoas praticam exercícios regularmente e as diferenças de comportamento entre faculdades.

- Salário: A análise revela as faixas salariais predominantes, indicando diferenças socioeconômicas entre os grupos.

Questão 9. Faça o gráfico de pontos para as variáveis (peso x idade, peso x altura, peso x exercício) separado por sexo e separado por faculdade (A, B e C)

Os gráficos de dispersão foram utilizados para explorar relações entre pares de variáveis numéricas: peso x idade, peso x altura e peso x exercício. Esses gráficos, separados por sexo e faculdade, ajudam a identificar padrões e possíveis correlações.

# Gráficos de dispersão
pares <- list(
  c("idade", "peso"),
  c("altura", "peso"),
  c("exercicio", "peso")
)

for (par in pares) {
  p <- ggplot(dados, aes_string(x = par[1], y = par[2], color = "sexo")) +
    geom_point() +
    facet_wrap(~ faculdade) +
    labs(title = paste("Dispersão de", par[2], "vs", par[1])) +
    theme_minimal()
  print(p)
}

Análise do Gráficos

- Peso x Idade: Observamos se há relação entre o peso corporal e o avanço da idade. Algumas faculdades mostram uma tendência de aumento ou redução do peso com a idade.

- Peso x Altura: Como esperado, há uma relação positiva entre peso e altura, uma vez que pessoas mais altas tendem a ter pesos maiores.

- Peso x Exercício: Esses gráficos ajudam a entender se há uma associação entre maior frequência de atividades físicas e menor peso.

Questão 10 Faça os boxplots para as variáveis (idade por sexo, peso por sexo, salário por sexo, exercício por sexo) separado por faculdade

Nesta etapa, utilizamos boxplots para comparar a distribuição de variáveis numéricas (idade, peso, salário e exercício) entre homens e mulheres, separando por faculdade. Esse método destaca diferenças significativas entre os grupos e valores atípicos.

# Boxplots
variaveis_boxplot <- c("idade", "peso", "salario", "exercicio")

for (variavel in variaveis_boxplot) {
  p <- ggplot(dados, aes_string(x = "sexo", y = variavel, fill = "sexo")) +
    geom_boxplot() +
    facet_wrap(~ faculdade) +
    labs(title = paste("Boxplot de", variavel, "por sexo e faculdade")) +
    theme_minimal()
  print(p)
}

Análise dos Gráficos

- Idade por Sexo: Avaliamos diferenças na faixa etária de homens e mulheres em cada faculdade.

- Peso por Sexo: Os gráficos mostram variações nos padrões de peso entre os gêneros, revelando diferenças nas características físicas.

- Salário por Sexo: Identificamos diferenças salariais entre homens e mulheres. Algumas faculdades mostram maior equilíbrio, enquanto outras apresentam disparidades.

- Exercício por Sexo: Aqui, analisamos se há diferenças significativas na prática de exercícios físicos entre homens e mulheres.

Questão 11. Faça o mapa de calor para matriz de correlação entre as variáveis (peso, altura, idade e exercício) separado por sexo e separado por faculdade (A, B e C)

O objetivo aqui é analisar a correlação entre variáveis numéricas (peso, altura, idade e exercício) utilizando mapas de calor. A análise é feita separadamente por sexo e por faculdade, para destacar diferenças e semelhanças nos grupos.

library(corrplot)

## Warning: pacote 'corrplot' foi compilado no R versão 4.4.2

## corrplot 0.95 loaded

# Matriz de correlação
variaveis_correlacao <- c("peso", "altura", "idade", "exercicio")
dados_cor <- dados %>%
  select(all_of(variaveis_correlacao)) %>%
  cor()

# Mapa de calor
corrplot(dados_cor, method = "color", type = "lower", tl.col = "black", tl.srt = 45)

Análise do Gráfico

- Correlação positiva: Quando uma variável aumenta, a outra também tende a aumentar. Por exemplo, altura e peso apresentam essa relação em muitos casos.

- Correlação negativa: Quando uma variável aumenta, a outra tende a diminuir. É o caso, em alguns cenários, da relação entre exercício e peso.

-Ausência de correlação: Algumas variáveis não mostram relações claras, indicando independência entre elas.

Referências dos Pacotes R Utilizados:

Wickham, H., & Henry, L. (2019). dplyr: A grammar of data manipulation. R package version 0.8.3. Available at: https://cran.r-project.org/package=dplyr.

R Core Team. (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing. Available at: https://www.R-project.org.

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. DOI: https://doi.org/10.1007/978-3-319-24277-4.

RStudio, Inc. (2020). readxl: Read Excel files. R package version 1.3.1. Available at: https://cran.r-project.org/package=readxl.

Henry, L., & Wickham, H. (2020). tibble: Simple data frames. R package version 3.0.1. Available at: https://cran.r-project.org/package=tibble.

Henry, L., & Wickham, H. (2020). tidyr: Tidy data. R package version 1.1.2. Available at: https://cran.r-project.org/package=tidyr.

Komsta, L., & Novomestky, F. (2015). moments: Moments, cumulants, skewness, kurtosis and related tests. R package version 0.14. Available at: https://cran.r-project.org/package=moments.

Referência dos Dados:

Os dados utilizados neste estudo foram extraídos do arquivo “faculdade (2).xlsx”, disponível no repositório da sua organização. A descrição completa do conjunto de dados, incluindo variáveis como faculdade, sexo, estado civil, transporte, e localidade, foi obtida a partir de fontes internas e/ou pesquisas realizadas pela equipe envolvida neste trabalho.

Visualização de dados

Nailton Alves de Alcantara

2024-11-19

Introdução ao trabalho

Questão 1. Classifique as variáveis do arquivo milse em: Qualitativas Nominal e Ordinal e quantitativas Discreta e Contínuas.

Questão 2. Agrupe as variáveis qualitativas por: faculdade, sexo, estado civil, transporte, localidade.

Questão 3. Agrupe as variáveis por: faculdade e sexo, faculdade e estado civil, faculdade e

Questão 4 Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (altura, peso, salário, idade)

Questão 5.Calcule o índice de massa corporal agrupando por faculdade e sexo e compare os resultados utilizando as medidas descritivas (média, mediana, moda, variância, desvio padrão, assimetria, curtose e coeficiente de variação)

Questão 7. Faça os gráficos de barras para as variáveis (sexo, estado civil, filhos, transporte, localidade) separado por faculdade (A, B e C)

Questão 8. Faça os histogramas para as variáveis (idade, altura, peso, exercício, salário) separado por faculdade (A, B e C)

Questão 9. Faça o gráfico de pontos para as variáveis (peso x idade, peso x altura, peso x exercício) separado por sexo e separado por faculdade (A, B e C)

Questão 10 Faça os boxplots para as variáveis (idade por sexo, peso por sexo, salário por sexo, exercício por sexo) separado por faculdade

Questão 11. Faça o mapa de calor para matriz de correlação entre as variáveis (peso, altura, idade e exercício) separado por sexo e separado por faculdade (A, B e C)

Referências dos Pacotes R Utilizados: