Introdução ao trabalho

A análise de dados desempenha um papel crucial na compreensão e interpretação de informações coletadas de diversas fontes. No contexto deste trabalho, o objetivo principal é examinar um conjunto de dados sobre indivíduos de diferentes faculdades, com informações sobre variáveis demográficas, comportamentais e socioeconômicas, como sexo, estado civil, grau de instrução, idade, salário, entre outras. O uso de técnicas de análise estatística permitirá entender o perfil desses indivíduos, além de identificar padrões e relações entre as variáveis.

A partir da classificação das variáveis em qualitativas e quantitativas, tanto nominais quanto ordinais, bem como discretas e contínuas, serão realizadas análises exploratórias que englobam desde o agrupamento de variáveis categóricas até o cálculo de medidas de tendência central, variabilidade, assimetria e curtose. Além disso, será explorada a relação entre variáveis por meio de gráficos e medidas descritivas, como a comparação de variáveis numéricas entre diferentes grupos, com foco na distribuição e comportamento das variáveis por faculdade e sexo.

A análise do Índice de Massa Corporal (IMC), suas comparações entre faculdades e sexos, bem como o estudo das distribuições de variáveis numéricas (idade, altura, peso, salário) por meio de histogramas e boxplots, têm como intuito proporcionar uma visão abrangente sobre os dados. Os gráficos de dispersão e os mapas de calor, por sua vez, auxiliarão na identificação de correlações e relações entre variáveis, oferecendo uma perspectiva mais aprofundada sobre os dados.

Este estudo visa fornecer uma análise robusta e detalhada dos dados, permitindo uma melhor compreensão dos fatores que influenciam as variáveis em questão e contribuindo para decisões mais informadas, seja no âmbito acadêmico ou em outras áreas relacionadas.

Questão 1. Classifique as variáveis do arquivo milse em: Qualitativas Nominal e Ordinal e quantitativas Discreta e Contínuas.

As variáveis foram classificadas da seguinte maneira:

Qualitativas:

  • Nominal: Estado civil, Região.
  • Ordinal: Grau de instrução.

Quantitativas:

  • Discreta: Número de Filhos.
  • Contínua: Salário, Idade.

Questão 2. Agrupe as variáveis qualitativas por: faculdade, sexo, estado civil, transporte, localidade.

# caminho para o arquivo
dados <- read_xlsx("C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx")

# Agrupando por faculdade, sexo, estado civil, transporte e localidade
resultado <- dados %>%
  group_by(faculdade, sexo, estado_civil, transporte, localidade) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100) %>%
  arrange(desc(contagem))

# Transformar a tabela para uma visualização mais ampla se necessário
tabela_formatada <- resultado %>%
  tidyr::pivot_wider(names_from = "localidade", values_from = "contagem", values_fill = list(contagem = 0))

# Exibir a tabela formatada com kableExtra
tabela_formatada %>%
  kbl(caption = "TABELA GERAL COM DADOS") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = FALSE) %>%
  column_spec(1, bold = TRUE) %>%
  column_spec(2:ncol(tabela_formatada), width = "3.0cm", background = "lightgray")
TABELA GERAL COM DADOS
faculdade sexo estado_civil transporte percentual zona rural zona urbana
C M casado moto 3 3 0
C M outro bibicleta 3 3 0
C M outro outro 3 3 0
A F divorciado moto 2 0 2
A M casado bibicleta 2 2 2
A M casado onibus 2 0 2
A M outro bibicleta 2 2 0
A M solteiro outro 2 2 0
B F outro bibicleta 2 2 0
B F solteiro moto 2 2 0
B M divorciado moto 2 2 0
C F casado outro 2 0 2
C F divorciado bibicleta 2 0 2
C F outro moto 2 0 2
C F solteiro bibicleta 2 0 2
C F solteiro outro 2 0 2
C M divorciado bibicleta 2 2 0
C M divorciado outro 2 2 0
C M outro outro 2 0 2
C M solteiro onibus 2 2 0
A F casado bibicleta 1 0 1
A F casado moto 1 1 0
A F casado onibus 1 1 0
A F divorciado bibicleta 1 0 1
A F divorciado outro 1 0 1
A F outro bibicleta 1 1 0
A F outro moto 1 0 1
A F solteiro moto 1 1 0
A F solteiro onibus 1 1 0
A F solteiro outro 1 0 1
A M casado onibus 1 1 0
A M casado outro 1 1 0
A M outro moto 1 1 1
A M outro outro 1 1 0
A M solteiro bibicleta 1 1 0
A M solteiro onibus 1 1 0
A M solteiro outro 1 0 1
B F casado bibicleta 1 1 1
B F casado moto 1 1 0
B F casado onibus 1 1 0
B F casado outro 1 1 0
B F divorciado onibus 1 0 1
B F divorciado outro 1 0 1
B F outro onibus 1 1 0
B F outro outro 1 0 1
B F solteiro bibicleta 1 1 0
B M casado moto 1 1 0
B M casado onibus 1 1 1
B M casado outro 1 1 1
B M divorciado bibicleta 1 1 1
B M divorciado onibus 1 1 0
B M outro moto 1 1 0
B M outro onibus 1 1 0
B M outro outro 1 0 1
B M solteiro bibicleta 1 0 1
B M solteiro onibus 1 1 0
C F casado bibicleta 1 0 1
C F divorciado moto 1 1 0
C F divorciado outro 1 1 0
C F outro moto 1 1 0
C F outro outro 1 0 1
C F solteiro bibicleta 1 1 0
C F solteiro moto 1 0 1
C M casado bibicleta 1 0 1
C M casado moto 1 0 1
C M casado onibus 1 0 1
C M casado outro 1 0 1
C M outro bibicleta 1 0 1
C M outro moto 1 1 0
C M outro onibus 1 1 0

Questão 3. Agrupe as variáveis por: faculdade e sexo, faculdade e estado civil, faculdade e

transporte, faculdade e localidade.**

# caminho para o arquivo 
dados <- read_xlsx("C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx")


# Agrupar por faculdade e sexo
faculdade_sexo <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_sexo %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Sexo") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")
Contagem e Percentual por Faculdade e Sexo
faculdade sexo contagem percentual
A F 12 12
A M 18 18
B F 14 14
B M 15 15
C F 17 17
C M 24 24
# Agrupar por faculdade e estado civil
faculdade_estado_civil <- dados %>%
  group_by(faculdade, estado_civil) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_estado_civil %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Estado Civil") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")
Contagem e Percentual por Faculdade e Estado Civil
faculdade estado_civil contagem percentual
A casado 11 11
A divorciado 4 4
A outro 7 7
A solteiro 8 8
B casado 10 10
B divorciado 7 7
B outro 7 7
B solteiro 5 5
C casado 10 10
C divorciado 8 8
C outro 15 15
C solteiro 8 8
# Agrupar por faculdade e transporte
faculdade_transporte <- dados %>%
  group_by(faculdade, transporte) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_transporte %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Transporte") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")
Contagem e Percentual por Faculdade e Transporte
faculdade transporte contagem percentual
A bibicleta 10 10
A moto 7 7
A onibus 6 6
A outro 7 7
B bibicleta 8 8
B moto 7 7
B onibus 8 8
B outro 6 6
C bibicleta 13 13
C moto 10 10
C onibus 4 4
C outro 14 14
# Agrupar por faculdade e localidade
faculdade_localidade <- dados %>%
  group_by(faculdade, localidade) %>%
  summarise(contagem = n(), .groups = "drop") %>%
  mutate(percentual = contagem / sum(contagem) * 100)

# Exibir a tabela
faculdade_localidade %>%
  kbl(caption = "Contagem e Percentual por Faculdade e Localidade") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = TRUE) %>%
  column_spec(1:2, width = "3cm") %>%
  column_spec(3, width = "3cm") %>%
  column_spec(4, width = "3cm", background = "lightgray")
Contagem e Percentual por Faculdade e Localidade
faculdade localidade contagem percentual
A zona rural 17 17
A zona urbana 13 13
B zona rural 20 20
B zona urbana 9 9
C zona rural 21 21
C zona urbana 20 20

Questão 4 Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (altura, peso, salário, idade)

# Instalar os pacotes necessários
if (!require(dplyr)) install.packages("dplyr")
if (!require(moments)) install.packages("moments")
## Carregando pacotes exigidos: moments
# Carregar os pacotes
library(dplyr)
library(moments)

# Função para calcular as medidas
calcular_medidas <- function(variavel) {
  lista <- list(
    Media = mean(variavel, na.rm = TRUE),
    Mediana = median(variavel, na.rm = TRUE),
    Moda = ifelse(length(unique(variavel)) == 1, variavel[1], as.numeric(names(sort(table(variavel), decreasing = TRUE)[1]))),
    DesvioPadrao = sd(variavel, na.rm = TRUE),
    Variancia = var(variavel, na.rm = TRUE),
    CoeficienteVariacao = ifelse(mean(variavel, na.rm = TRUE) != 0, 
                                 sd(variavel, na.rm = TRUE) / mean(variavel, na.rm = TRUE) * 100, NA),
    Assimetria = skewness(variavel, na.rm = TRUE),
    Curtose = kurtosis(variavel, na.rm = TRUE),
    Q1 = quantile(variavel, 0.25, na.rm = TRUE),
    Q3 = quantile(variavel, 0.75, na.rm = TRUE)
  )
  return(lista)
}

# Aplicar o cálculo a cada variável
medidas_altura <- calcular_medidas(dados$altura)
medidas_peso <- calcular_medidas(dados$peso)
medidas_salario <- calcular_medidas(dados$salario)
medidas_idade <- calcular_medidas(dados$idade)

# Organizar os resultados
tabela_resultados <- bind_rows(
  data.frame(Variável = "Altura", t(as.data.frame(medidas_altura))),
  data.frame(Variável = "Peso", t(as.data.frame(medidas_peso))),
  data.frame(Variável = "Salário", t(as.data.frame(medidas_salario))),
  data.frame(Variável = "Idade", t(as.data.frame(medidas_idade)))
)

# Exibir a tabela organizada
print(tabela_resultados)
##                          Variável         X25.
## Media...1                  Altura   1.67430000
## Mediana...2                Altura   1.68000000
## Moda...3                   Altura   1.68000000
## DesvioPadrao...4           Altura   0.11103967
## Variancia...5              Altura   0.01232981
## CoeficienteVariacao...6    Altura   6.63200555
## Assimetria...7             Altura  -0.05176689
## Curtose...8                Altura   2.74788872
## Q1...9                     Altura   1.60000000
## Q3...10                    Altura   1.74000000
## Media...11                   Peso  68.65000000
## Mediana...12                 Peso  70.00000000
## Moda...13                    Peso  48.00000000
## DesvioPadrao...14            Peso  12.47168510
## Variancia...15               Peso 155.54292929
## CoeficienteVariacao...16     Peso  18.16705769
## Assimetria...17              Peso  -0.17091820
## Curtose...18                 Peso   1.91600819
## Q1...19                      Peso  58.75000000
## Q3...20                      Peso  79.00000000
## Media...21                Salário   2.85000000
## Mediana...22              Salário   3.00000000
## Moda...23                 Salário   1.00000000
## DesvioPadrao...24         Salário   1.45209706
## Variancia...25            Salário   2.10858586
## CoeficienteVariacao...26  Salário  50.95077388
## Assimetria...27           Salário   0.14348198
## Curtose...28              Salário   1.63558822
## Q1...29                   Salário   2.00000000
## Q3...30                   Salário   4.00000000
## Media...31                  Idade  27.12000000
## Mediana...32                Idade  27.00000000
## Moda...33                   Idade  35.00000000
## DesvioPadrao...34           Idade   5.28821828
## Variancia...35              Idade  27.96525253
## CoeficienteVariacao...36    Idade  19.49932992
## Assimetria...37             Idade  -0.13391954
## Curtose...38                Idade   1.89902962
## Q1...39                     Idade  23.00000000
## Q3...40                     Idade  32.00000000

Questão 5.Calcule o índice de massa corporal agrupando por faculdade e sexo e compare os resultados utilizando as medidas descritivas (média, mediana, moda, variância, desvio padrão, assimetria, curtose e coeficiente de variação)

# Carregando os pacotes necessários
library(dplyr)
library(ggplot2)
## Warning: pacote 'ggplot2' foi compilado no R versão 4.4.1
library(e1071)  # Para calcular assimetria e curtose
## Warning: pacote 'e1071' foi compilado no R versão 4.4.2
## 
## Anexando pacote: 'e1071'
## Os seguintes objetos são mascarados por 'package:moments':
## 
##     kurtosis, moment, skewness
# Caminho do arquivo com os dados
caminho_arquivo <- "C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx"

# Dados estejam inseridos manualmente
dados <- tibble::tribble(
  ~faculdade, ~sexo, ~altura, ~peso,
  "A", "F", 1.78, 85,
  "C", "F", 1.68, 64,
  "C", "M", 1.68, 58,
  "B", "F", 1.64, 77,
  # ... Todos os dados necessários ...
)

# Calculando IMC
dados <- dados %>% mutate(imc = peso / (altura ^ 2))


# Agrupando e calculando as medidas descritivas
resultados <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(
    media = mean(imc, na.rm = TRUE),
    mediana = median(imc, na.rm = TRUE),
    moda = ifelse(length(unique(imc)) > 1, as.numeric(names(sort(table(imc), decreasing = TRUE)[1])), NA),
    variancia = var(imc, na.rm = TRUE),
    desvio_padrao = sd(imc, na.rm = TRUE),
    assimetria = skewness(imc, na.rm = TRUE),
    curtose = kurtosis(imc, na.rm = TRUE),
    coef_var = (sd(imc, na.rm = TRUE) / mean(imc, na.rm = TRUE)) * 100
  )
## `summarise()` has grouped output by 'faculdade'. You can override using the
## `.groups` argument.
# Exibindo os resultados
print(resultados)
## # A tibble: 4 × 10
## # Groups:   faculdade [3]
##   faculdade sexo  media mediana moda  variancia desvio_padrao assimetria curtose
##   <chr>     <chr> <dbl>   <dbl> <lgl>     <dbl>         <dbl>      <dbl>   <dbl>
## 1 A         F      26.8    26.8 NA           NA            NA        NaN     NaN
## 2 B         F      28.6    28.6 NA           NA            NA        NaN     NaN
## 3 C         F      22.7    22.7 NA           NA            NA        NaN     NaN
## 4 C         M      20.5    20.5 NA           NA            NA        NaN     NaN
## # ℹ 1 more variable: coef_var <dbl>
# Visualizando a distribuição do IMC por faculdade e sexo
ggplot(dados, aes(x = faculdade, y = imc, fill = sexo)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Distribuição do IMC por Faculdade e Sexo", x = "Faculdade", y = "IMC")

ANALISE GRAFICA

# Carregando os pacotes necessários
library(dplyr)
library(ggplot2)
library(reshape2)
## Warning: pacote 'reshape2' foi compilado no R versão 4.4.2
library(ggcorrplot)
## Warning: pacote 'ggcorrplot' foi compilado no R versão 4.4.2
library(readxl)  # Pacote para ler arquivos Excel

# Caminho do arquivo Excel
caminho_arquivo <- "C:/Users/Administrator/Documents/A.oseas_machado/faculdade (2).xlsx"

# Carregando os dados a partir do arquivo Excel
dados <- read_excel(caminho_arquivo)

# Inspecionando os primeiros registros do conjunto de dados
head(dados)
## # A tibble: 6 × 11
##   faculdade sexo  idade estado_civil filhos altura  peso transporte exercicio
##   <chr>     <chr> <dbl> <chr>         <dbl>  <dbl> <dbl> <chr>          <dbl>
## 1 A         F        25 casado            1   1.78    85 moto              10
## 2 C         F        26 divorciado        2   1.68    64 bibicleta          6
## 3 C         M        28 outro             0   1.68    58 bibicleta          3
## 4 B         F        27 divorciado        3   1.64    77 outro              6
## 5 A         M        17 outro             0   1.5     88 outro             10
## 6 C         F        35 outro             2   1.73    84 outro              5
## # ℹ 2 more variables: salario <dbl>, localidade <chr>

CARREGAR DADOS

# Dados em formato data frame
dados <- data.frame(
  faculdade = c("A", "C", "C", "B", "A", "C", "A", "C", "C", "C"),
  sexo = c("F", "F", "M", "F", "M", "F", "M", "F", "F", "M"),
  idade = c(25, 26, 28, 27, 17, 35, 19, 19, 34, 22),
  estado_civil = c("casado", "divorciado", "outro", "divorciado", "outro", "outro", "casado", "solteiro", "solteiro", "solteiro"),
  filhos = c(1, 2, 0, 3, 0, 2, 0, 0, 1, 3),
  altura = c(1.78, 1.68, 1.68, 1.64, 1.5, 1.73, 1.56, 1.7, 1.61, 1.74),
  peso = c(85, 64, 58, 77, 88, 84, 75, 71, 68, 77),
  transporte = c("moto", "bibicleta", "bibicleta", "outro", "outro", "outro", "bibicleta", "bibicleta", "outro", "onibus"),
  exercicio = c(10, 6, 3, 6, 10, 5, 4, 3, 0, 2),
  salario = c(4, 5, 2, 4, 5, 5, 4, 3, 2, 4),
  localidade = c("zona rural", "zona urbana", "zona rural", "zona urbana", "zona rural", "zona urbana", "zona rural", "zona urbana", "zona urbana", "zona rural")
)

Questão 7. Faça os gráficos de barras para as variáveis (sexo, estado civil, filhos, transporte, localidade) separado por faculdade (A, B e C)

Nesta questão, buscamos entender como as variáveis categóricas (sexo, estado civil, filhos, transporte e localidade) estão distribuídas em cada faculdade. O objetivo é identificar características predominantes em cada grupo, como o perfil demográfico e hábitos relacionados ao transporte e local de residência.

# Gráficos de barras para variáveis categóricas
variaveis_categoricas <- c("sexo", "estado_civil", "filhos", "transporte", "localidade")

for (variavel in variaveis_categoricas) {
  p <- ggplot(dados, aes_string(x = variavel, fill = "faculdade")) +
    geom_bar(position = "dodge") +
    labs(title = paste("Distribuição de", variavel, "por faculdade")) +
    theme_minimal()
  print(p)
}
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Análise dos Gráficos

- Sexo: A distribuição mostra a proporção de homens e mulheres em cada faculdade. Algumas instituições têm uma divisão mais equilibrada, enquanto outras apresentam predominância de um gênero.

- Estado Civil: Os gráficos indicam como se distribuem solteiros, casados e divorciados em cada faculdade, refletindo o perfil social dos participantes.

- Filhos: É possível visualizar quantas pessoas possuem filhos, destacando diferenças nas responsabilidades familiares.

- Transporte: Aqui, observamos as preferências por meios de transporte, desde veículos motorizados até transporte coletivo e alternativo, como bicicleta.

- Localidade: A análise da zona de residência (urbana ou rural) revela onde está concentrada a maioria dos participantes em cada faculdade.

Questão 8. Faça os histogramas para as variáveis (idade, altura, peso, exercício, salário) separado por faculdade (A, B e C)

Os histogramas ajudam a compreender a distribuição das variáveis numéricas (idade, altura, peso, exercício e salário) separadas por faculdade. Esses gráficos são úteis para identificar padrões gerais, valores extremos e diferenças entre os grupos.

# Histogramas para variáveis numéricas
variaveis_numericas <- c("idade", "altura", "peso", "exercicio", "salario")

for (variavel in variaveis_numericas) {
  p <- ggplot(dados, aes_string(x = variavel)) +
    geom_histogram(binwidth = 5, fill = "blue", color = "black") +
    facet_wrap(~ faculdade) +
    labs(title = paste("Histograma de", variavel, "por faculdade")) +
    theme_minimal()
  print(p)
}

Análise dos Gráficos

- Idade: Os histogramas mostram a faixa etária predominante em cada faculdade. Enquanto algumas têm um público majoritariamente jovem, outras apresentam maior diversidade.

- Altura e Peso: Essas distribuições permitem analisar as características físicas dos indivíduos, como altura média e peso mais comum.

- Exercício: O gráfico evidencia quantas pessoas praticam exercícios regularmente e as diferenças de comportamento entre faculdades.

- Salário: A análise revela as faixas salariais predominantes, indicando diferenças socioeconômicas entre os grupos.

Questão 9. Faça o gráfico de pontos para as variáveis (peso x idade, peso x altura, peso x exercício) separado por sexo e separado por faculdade (A, B e C)

Os gráficos de dispersão foram utilizados para explorar relações entre pares de variáveis numéricas: peso x idade, peso x altura e peso x exercício. Esses gráficos, separados por sexo e faculdade, ajudam a identificar padrões e possíveis correlações.

# Gráficos de dispersão
pares <- list(
  c("idade", "peso"),
  c("altura", "peso"),
  c("exercicio", "peso")
)

for (par in pares) {
  p <- ggplot(dados, aes_string(x = par[1], y = par[2], color = "sexo")) +
    geom_point() +
    facet_wrap(~ faculdade) +
    labs(title = paste("Dispersão de", par[2], "vs", par[1])) +
    theme_minimal()
  print(p)
}

Análise do Gráficos

- Peso x Idade: Observamos se há relação entre o peso corporal e o avanço da idade. Algumas faculdades mostram uma tendência de aumento ou redução do peso com a idade.

- Peso x Altura: Como esperado, há uma relação positiva entre peso e altura, uma vez que pessoas mais altas tendem a ter pesos maiores.

- Peso x Exercício: Esses gráficos ajudam a entender se há uma associação entre maior frequência de atividades físicas e menor peso.

Questão 10 Faça os boxplots para as variáveis (idade por sexo, peso por sexo, salário por sexo, exercício por sexo) separado por faculdade

Nesta etapa, utilizamos boxplots para comparar a distribuição de variáveis numéricas (idade, peso, salário e exercício) entre homens e mulheres, separando por faculdade. Esse método destaca diferenças significativas entre os grupos e valores atípicos.

# Boxplots
variaveis_boxplot <- c("idade", "peso", "salario", "exercicio")

for (variavel in variaveis_boxplot) {
  p <- ggplot(dados, aes_string(x = "sexo", y = variavel, fill = "sexo")) +
    geom_boxplot() +
    facet_wrap(~ faculdade) +
    labs(title = paste("Boxplot de", variavel, "por sexo e faculdade")) +
    theme_minimal()
  print(p)
}

Análise dos Gráficos

- Idade por Sexo: Avaliamos diferenças na faixa etária de homens e mulheres em cada faculdade.

- Peso por Sexo: Os gráficos mostram variações nos padrões de peso entre os gêneros, revelando diferenças nas características físicas.

- Salário por Sexo: Identificamos diferenças salariais entre homens e mulheres. Algumas faculdades mostram maior equilíbrio, enquanto outras apresentam disparidades.

- Exercício por Sexo: Aqui, analisamos se há diferenças significativas na prática de exercícios físicos entre homens e mulheres.

Questão 11. Faça o mapa de calor para matriz de correlação entre as variáveis (peso, altura, idade e exercício) separado por sexo e separado por faculdade (A, B e C)

O objetivo aqui é analisar a correlação entre variáveis numéricas (peso, altura, idade e exercício) utilizando mapas de calor. A análise é feita separadamente por sexo e por faculdade, para destacar diferenças e semelhanças nos grupos.

library(corrplot)
## Warning: pacote 'corrplot' foi compilado no R versão 4.4.2
## corrplot 0.95 loaded
# Matriz de correlação
variaveis_correlacao <- c("peso", "altura", "idade", "exercicio")
dados_cor <- dados %>%
  select(all_of(variaveis_correlacao)) %>%
  cor()

# Mapa de calor
corrplot(dados_cor, method = "color", type = "lower", tl.col = "black", tl.srt = 45)

Análise do Gráfico

- Correlação positiva: Quando uma variável aumenta, a outra também tende a aumentar. Por exemplo, altura e peso apresentam essa relação em muitos casos.

- Correlação negativa: Quando uma variável aumenta, a outra tende a diminuir. É o caso, em alguns cenários, da relação entre exercício e peso.

-Ausência de correlação: Algumas variáveis não mostram relações claras, indicando independência entre elas.

Referências dos Pacotes R Utilizados:

Wickham, H., & Henry, L. (2019). dplyr: A grammar of data manipulation. R package version 0.8.3. Available at: https://cran.r-project.org/package=dplyr.

R Core Team. (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing. Available at: https://www.R-project.org.

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. DOI: https://doi.org/10.1007/978-3-319-24277-4.

RStudio, Inc. (2020). readxl: Read Excel files. R package version 1.3.1. Available at: https://cran.r-project.org/package=readxl.

Henry, L., & Wickham, H. (2020). tibble: Simple data frames. R package version 3.0.1. Available at: https://cran.r-project.org/package=tibble.

Henry, L., & Wickham, H. (2020). tidyr: Tidy data. R package version 1.1.2. Available at: https://cran.r-project.org/package=tidyr.

Komsta, L., & Novomestky, F. (2015). moments: Moments, cumulants, skewness, kurtosis and related tests. R package version 0.14. Available at: https://cran.r-project.org/package=moments.

Referência dos Dados:

Os dados utilizados neste estudo foram extraídos do arquivo “faculdade (2).xlsx”, disponível no repositório da sua organização. A descrição completa do conjunto de dados, incluindo variáveis como faculdade, sexo, estado civil, transporte, e localidade, foi obtida a partir de fontes internas e/ou pesquisas realizadas pela equipe envolvida neste trabalho.