Avaliação da Segunda Unidade - Visualização de Dados do Prof. Oseas Machado Gomes

dados <- read.csv("C:/Users/Administrator/Downloads/TrabalhoOseas/faculdade.csv", sep = ";", dec = ",")

1- Classifique as variáveis do arquivo faculdade em Qualitativas (Nominal e Ordinal) e quantitativas (Discreta e Contínuas).

classificacao <- data.frame(
  Variavel = names(dados),
  Tipo = c(
    "Qualitativa Nominal",  
    "Qualitativa Nominal",  
    "Quantitativa Discreta",
    "Qualitativa Nominal",  
    "Quantitativa Discreta",
    "Quantitativa Contínua", 
    "Quantitativa Contínua", 
    "Qualitativa Nominal", 
    "Quantitativa Discreta", 
    "Quantitativa Discreta", 
    "Qualitativa Nominal"   
  )
)


print(classificacao)

##        Variavel                  Tipo
## 1     faculdade   Qualitativa Nominal
## 2          sexo   Qualitativa Nominal
## 3         idade Quantitativa Discreta
## 4  estado_civil   Qualitativa Nominal
## 5        filhos Quantitativa Discreta
## 6        altura Quantitativa Contínua
## 7          peso Quantitativa Contínua
## 8    transporte   Qualitativa Nominal
## 9     exercicio Quantitativa Discreta
## 10      salario Quantitativa Discreta
## 11   localidade   Qualitativa Nominal

2- Agrupe as variáveis qualitativas por: faculdade, sexo, estado civil, transporte, localidade.

agrupados <- dados %>%
  group_by(faculdade, sexo, estado_civil, transporte, localidade) %>%
  summarise(Contagem = n(), .groups = "drop")


print(agrupados)

## # A tibble: 76 × 6
##    faculdade sexo  estado_civil transporte localidade  Contagem
##    <chr>     <chr> <chr>        <chr>      <chr>          <int>
##  1 A         F     casado       bibicleta  zona urbana        1
##  2 A         F     casado       moto       zona rural         1
##  3 A         F     casado       onibus     zona rural         1
##  4 A         F     divorciado   bibicleta  zona urbana        1
##  5 A         F     divorciado   moto       zona urbana        2
##  6 A         F     divorciado   outro      zona urbana        1
##  7 A         F     outro        bibicleta  zona rural         1
##  8 A         F     outro        moto       zona urbana        1
##  9 A         F     solteiro     moto       zona rural         1
## 10 A         F     solteiro     onibus     zona rural         1
## # ℹ 66 more rows

3- Agrupe as variáveis por: faculdade e sexo, faculdade e estado civil, faculdade e transporte, faculdade e localidade.

agrupado_faculdade_sexo <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(Contagem = n(), .groups = "drop")


agrupado_faculdade_estado_civil <- dados %>%
  group_by(faculdade, estado_civil) %>%
  summarise(Contagem = n(), .groups = "drop")


agrupado_faculdade_transporte <- dados %>%
  group_by(faculdade, transporte) %>%
  summarise(Contagem = n(), .groups = "drop")


agrupado_faculdade_localidade <- dados %>%
  group_by(faculdade, localidade) %>%
  summarise(Contagem = n(), .groups = "drop")


print(agrupado_faculdade_sexo)

## # A tibble: 6 × 3
##   faculdade sexo  Contagem
##   <chr>     <chr>    <int>
## 1 A         F           12
## 2 A         M           18
## 3 B         F           14
## 4 B         M           15
## 5 C         F           17
## 6 C         M           24

print(agrupado_faculdade_estado_civil)

## # A tibble: 12 × 3
##    faculdade estado_civil Contagem
##    <chr>     <chr>           <int>
##  1 A         casado             11
##  2 A         divorciado          4
##  3 A         outro               7
##  4 A         solteiro            8
##  5 B         casado             10
##  6 B         divorciado          7
##  7 B         outro               7
##  8 B         solteiro            5
##  9 C         casado             10
## 10 C         divorciado          8
## 11 C         outro              15
## 12 C         solteiro            8

print(agrupado_faculdade_transporte)

## # A tibble: 12 × 3
##    faculdade transporte Contagem
##    <chr>     <chr>         <int>
##  1 A         bibicleta        10
##  2 A         moto              7
##  3 A         onibus            6
##  4 A         outro             7
##  5 B         bibicleta         8
##  6 B         moto              7
##  7 B         onibus            8
##  8 B         outro             6
##  9 C         bibicleta        13
## 10 C         moto             10
## 11 C         onibus            4
## 12 C         outro            14

print(agrupado_faculdade_localidade)

## # A tibble: 6 × 3
##   faculdade localidade  Contagem
##   <chr>     <chr>          <int>
## 1 A         zona rural        17
## 2 A         zona urbana       13
## 3 B         zona rural        20
## 4 B         zona urbana        9
## 5 C         zona rural        21
## 6 C         zona urbana       20

4- Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (altura, peso, salário, idade)

variaveis_numericas <- dados %>%
  select(altura, peso, salario, idade)


medidas_completas <- tibble(
  Variavel = c("Altura", "Peso", "Salário", "Idade"),
  
 
  Media = c(mean(variaveis_numericas$altura, na.rm = TRUE),
            mean(variaveis_numericas$peso, na.rm = TRUE),
            mean(variaveis_numericas$salario, na.rm = TRUE),
            mean(variaveis_numericas$idade, na.rm = TRUE)),
  
  Mediana = c(median(variaveis_numericas$altura, na.rm = TRUE),
              median(variaveis_numericas$peso, na.rm = TRUE),
              median(variaveis_numericas$salario, na.rm = TRUE),
              median(variaveis_numericas$idade, na.rm = TRUE)),
  
 
  Desvio_Padrao = c(sd(variaveis_numericas$altura, na.rm = TRUE),
                    sd(variaveis_numericas$peso, na.rm = TRUE),
                    sd(variaveis_numericas$salario, na.rm = TRUE),
                    sd(variaveis_numericas$idade, na.rm = TRUE)),
  
  Variancia = c(var(variaveis_numericas$altura, na.rm = TRUE),
                var(variaveis_numericas$peso, na.rm = TRUE),
                var(variaveis_numericas$salario, na.rm = TRUE),
                var(variaveis_numericas$idade, na.rm = TRUE)),
  
 
  Q1 = c(quantile(variaveis_numericas$altura, 0.25, na.rm = TRUE),
         quantile(variaveis_numericas$peso, 0.25, na.rm = TRUE),
         quantile(variaveis_numericas$salario, 0.25, na.rm = TRUE),
         quantile(variaveis_numericas$idade, 0.25, na.rm = TRUE)),
  
  Q3 = c(quantile(variaveis_numericas$altura, 0.75, na.rm = TRUE),
         quantile(variaveis_numericas$peso, 0.75, na.rm = TRUE),
         quantile(variaveis_numericas$salario, 0.75, na.rm = TRUE),
         quantile(variaveis_numericas$idade, 0.75, na.rm = TRUE)),
  
 
  Assimetria = c(skewness(variaveis_numericas$altura, na.rm = TRUE),
                 skewness(variaveis_numericas$peso, na.rm = TRUE),
                 skewness(variaveis_numericas$salario, na.rm = TRUE),
                 skewness(variaveis_numericas$idade, na.rm = TRUE)),
  
  Curtose = c(kurtosis(variaveis_numericas$altura, na.rm = TRUE),
              kurtosis(variaveis_numericas$peso, na.rm = TRUE),
              kurtosis(variaveis_numericas$salario, na.rm = TRUE),
              kurtosis(variaveis_numericas$idade, na.rm = TRUE))
)

## Warning: encountered a tie, and the difference between minimal and 
##                    maximal value is > length('x') * 'tie.limit'
## the distribution could be multimodal
## Warning: encountered a tie, and the difference between minimal and 
##                    maximal value is > length('x') * 'tie.limit'
## the distribution could be multimodal
## Warning: encountered a tie, and the difference between minimal and 
##                    maximal value is > length('x') * 'tie.limit'
## the distribution could be multimodal

print(medidas_completas)

## # A tibble: 4 × 9
##   Variavel Media Mediana Desvio_Padrao Variancia    Q1    Q3 Assimetria Curtose
##   <chr>    <dbl>   <dbl>         <dbl>     <dbl> <dbl> <dbl>      <dbl>   <dbl>
## 1 Altura    1.67    1.68         0.111    0.0123   1.6  1.74    -0.0510  -0.307
## 2 Peso     68.6    70           12.5    156.      58.8 79       -0.168   -1.12 
## 3 Salário   2.85    3            1.45     2.11     2    4        0.141   -1.40 
## 4 Idade    27.1    27            5.29    28.0     23   32       -0.132   -1.14

5- Calcule o índice de massa corporal agrupando por faculdade e sexo e compare os resultados utilizando as medidas descritivas (média, mediana, moda, variância, desvio padrão, assimetria, curtose e coeficiente de variação)

dados <- dados %>%
  drop_na(altura, peso)

dados <- dados %>% mutate(imc = peso / (altura ^ 2))


resultados <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(
    media = mean(imc, na.rm = TRUE),
    mediana = median(imc, na.rm = TRUE),
    moda = ifelse(length(unique(imc)) > 1, as.numeric(names(sort(table(imc), decreasing = TRUE)[1])), NA),
    variancia = var(imc, na.rm = TRUE),
    desvio_padrao = sd(imc, na.rm = TRUE),
    assimetria = skewness(imc, na.rm = TRUE),
    curtose = kurtosis(imc, na.rm = TRUE),
    coef_var = (sd(imc, na.rm = TRUE) / mean(imc, na.rm = TRUE)) * 100
  )

## `summarise()` has grouped output by 'faculdade'. You can override using the
## `.groups` argument.

print(resultados)

## # A tibble: 6 × 10
## # Groups:   faculdade [3]
##   faculdade sexo  media mediana  moda variancia desvio_padrao assimetria curtose
##   <chr>     <chr> <dbl>   <dbl> <dbl>     <dbl>         <dbl>      <dbl>   <dbl>
## 1 A         F      24.4    25.3  12.9      48.5          6.96     0.0856  -0.869
## 2 A         M      27.9    26.4  18.7      38.0          6.16     0.111   -1.38 
## 3 B         F      23.7    24.1  15.3      18.4          4.29    -0.354   -1.05 
## 4 B         M      22.5    22.5  17.2      15.7          3.96     0.340   -1.06 
## 5 C         F      25.1    26.0  16.5      27.0          5.20     0.269   -0.392
## 6 C         M      24.4    25.4  15.3      18.5          4.30    -0.195   -0.386
## # ℹ 1 more variable: coef_var <dbl>

6- Repita as tabelas agrupadas anteriores com cores.

Q1- Classifique as variáveis do arquivo faculdade em Qualitativas (Nominal e Ordinal) e quantitativas (Discreta e Contínuas)

dados <- read.csv("C:/Users/Administrator/Downloads/TrabalhoOseas/faculdade.csv", sep = ";", dec = ",")

classificacao <- data.frame(
  Variavel = names(dados),
  Tipo = c(
    "Qualitativa Nominal",  
    "Qualitativa Nominal",  
    "Quantitativa Discreta",  
    "Qualitativa Nominal",  
    "Quantitativa Discreta",  
    "Quantitativa Contínua",  
    "Quantitativa Contínua",  
    "Qualitativa Nominal",  
    "Quantitativa Discreta",  
    "Quantitativa Discreta",  
    "Qualitativa Nominal"
  )
)


classificacao %>%
  kable(
    format = "html", 
    col.names = c("Variável", "Tipo"), 
    caption = "Classificação das Variáveis do Dataset",
    align = c("l", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE, 
    font_size = 14, 
    position = "center"
  ) %>%
  column_spec(1, bold = TRUE, width = "30%", color = "black", background = "#EAF2F8") %>%
  column_spec(2, width = "70%", color = "black", background = "#D4E6F1") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#2C3E50") %>%
  add_header_above(c(" " = 1, "Classificação das Variáveis" = 1), bold = TRUE, background = "#34495E", color = "white")

Classificação das Variáveis do Dataset
	Classificação das Variáveis
Variável	Tipo
faculdade	Qualitativa Nominal
sexo	Qualitativa Nominal
idade	Quantitativa Discreta
estado_civil	Qualitativa Nominal
filhos	Quantitativa Discreta
altura	Quantitativa Contínua
peso	Quantitativa Contínua
transporte	Qualitativa Nominal
exercicio	Quantitativa Discreta
salario	Quantitativa Discreta
localidade	Qualitativa Nominal

Análise das Variáveis e Classificações

1. Classificação das Variáveis

As variáveis foram classificadas em qualitativas (nominais e ordinais) e quantitativas (discretas e contínuas), o que facilita a aplicação de métodos de análise adequados.

2. Qualitativas

• Nominais: Variáveis como ‘faculdade’ e ‘sexo’ são categóricas sem hierarquia, usadas para identificar e agrupar observações.

3. Quantitativas

• Discretas: ‘Idade’, ‘filhos’ e ‘Exercício’ representam contagens e são adequadas para análises de distribuição.

• Contínuas: ‘Altura’, ‘peso’ e ‘salário’ permitem cálculos como média e desvio padrão, oferecendo detalhes precisos.

Relevância da Classificação:

A classificação inicial orienta as técnicas de análise, permitindo explorar tendências e realizar cálculos estatísticos com precisão para cada tipo de variável.

Q2- Agrupe as variáveis qualitativas por: faculdade, sexo, estado civil, transporte, localidade.

agrupados <- dados %>%
  group_by(faculdade, sexo, estado_civil, transporte, localidade) %>%
  summarise(Contagem = n(), .groups = "drop")


agrupados %>%
  kable(
    format = "html",
    col.names = c("Faculdade", "Sexo", "Estado Civil", "Transporte", "Localidade", "Contagem"),
    caption = "Distribuição dos Dados Agrupados por Variáveis Qualitativas",
    align = c("c", "c", "c", "c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  column_spec(1:5, bold = TRUE, width = "15%", background = "#F7F9F9") %>%
  column_spec(6, width = "10%", bold = TRUE, background = "#D5DBDB") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#34495E") %>%
  add_header_above(c(" " = 5, "Distribuição dos Agrupamentos" = 1), bold = TRUE, background = "#2C3E50", color = "white")

Distribuição dos Dados Agrupados por Variáveis Qualitativas
					Distribuição dos Agrupamentos
Faculdade	Sexo	Estado Civil	Transporte	Localidade	Contagem
A	F	casado	bibicleta	zona urbana	1
A	F	casado	moto	zona rural	1
A	F	casado	onibus	zona rural	1
A	F	divorciado	bibicleta	zona urbana	1
A	F	divorciado	moto	zona urbana	2
A	F	divorciado	outro	zona urbana	1
A	F	outro	bibicleta	zona rural	1
A	F	outro	moto	zona urbana	1
A	F	solteiro	moto	zona rural	1
A	F	solteiro	onibus	zona rural	1
A	F	solteiro	outro	zona urbana	1
A	M	casado	bibicleta	zona rural	2
A	M	casado	bibicleta	zona urbana	2
A	M	casado	onibus	zona rural	1
A	M	casado	onibus	zona urbana	2
A	M	casado	outro	zona rural	1
A	M	outro	bibicleta	zona rural	2
A	M	outro	moto	zona rural	1
A	M	outro	moto	zona urbana	1
A	M	outro	outro	zona rural	1
A	M	solteiro	bibicleta	zona rural	1
A	M	solteiro	onibus	zona rural	1
A	M	solteiro	outro	zona rural	2
A	M	solteiro	outro	zona urbana	1
B	F	casado	bibicleta	zona rural	1
B	F	casado	bibicleta	zona urbana	1
B	F	casado	moto	zona rural	1
B	F	casado	onibus	zona rural	1
B	F	casado	outro	zona rural	1
B	F	divorciado	onibus	zona urbana	1
B	F	divorciado	outro	zona urbana	1
B	F	outro	bibicleta	zona rural	2
B	F	outro	onibus	zona rural	1
B	F	outro	outro	zona urbana	1
B	F	solteiro	bibicleta	zona rural	1
B	F	solteiro	moto	zona rural	2
B	M	casado	moto	zona rural	1
B	M	casado	onibus	zona rural	1
B	M	casado	onibus	zona urbana	1
B	M	casado	outro	zona rural	1
B	M	casado	outro	zona urbana	1
B	M	divorciado	bibicleta	zona rural	1
B	M	divorciado	bibicleta	zona urbana	1
B	M	divorciado	moto	zona rural	2
B	M	divorciado	onibus	zona rural	1
B	M	outro	moto	zona rural	1
B	M	outro	onibus	zona rural	1
B	M	outro	outro	zona urbana	1
B	M	solteiro	bibicleta	zona urbana	1
B	M	solteiro	onibus	zona rural	1
C	F	casado	bibicleta	zona urbana	1
C	F	casado	outro	zona urbana	2
C	F	divorciado	bibicleta	zona urbana	2
C	F	divorciado	moto	zona rural	1
C	F	divorciado	outro	zona rural	1
C	F	outro	moto	zona rural	1
C	F	outro	moto	zona urbana	2
C	F	outro	outro	zona urbana	1
C	F	solteiro	bibicleta	zona rural	1
C	F	solteiro	bibicleta	zona urbana	2
C	F	solteiro	moto	zona urbana	1
C	F	solteiro	outro	zona urbana	2
C	M	casado	bibicleta	zona urbana	1
C	M	casado	moto	zona rural	3
C	M	casado	moto	zona urbana	1
C	M	casado	onibus	zona urbana	1
C	M	casado	outro	zona urbana	1
C	M	divorciado	bibicleta	zona rural	2
C	M	divorciado	outro	zona rural	2
C	M	outro	bibicleta	zona rural	3
C	M	outro	bibicleta	zona urbana	1
C	M	outro	moto	zona rural	1
C	M	outro	onibus	zona rural	1
C	M	outro	outro	zona rural	3
C	M	outro	outro	zona urbana	2
C	M	solteiro	onibus	zona rural	2

Na segunda questão, as variáveis qualitativas foram agrupadas, permitindo uma análise de frequências combinadas entre as categorias. Por exemplo, podemos observar como o uso de transportes varia entre gêneros, localidades ou estados civis, e como isso pode estar relacionado à faculdade frequentada. O agrupamento também possibilita a identificação de padrões específicos, como predominância de certos perfis em determinada faculdade ou localidade, sendo essencial para análises mais detalhadas e estratégicas.

Q3- Agrupe as variáveis por: faculdade e sexo, faculdade e estado civil, faculdade e transporte, faculdade e localidade.

# Agrupamento por faculdade e sexo
agrupado_faculdade_sexo %>%
  kable(
    format = "html",
    col.names = c("Faculdade", "Sexo", "Contagem"),
    caption = "Distribuição por Faculdade e Sexo",
    align = c("c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  column_spec(1:2, bold = TRUE, width = "30%", background = "#F7F9F9") %>%
  column_spec(3, width = "20%", bold = TRUE, background = "#D5DBDB") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#34495E")

Distribuição por Faculdade e Sexo
Faculdade	Sexo	Contagem
A	F	12
A	M	18
B	F	14
B	M	15
C	F	17
C	M	24

# Agrupamento por faculdade e estado civil
agrupado_faculdade_estado_civil %>%
  kable(
    format = "html",
    col.names = c("Faculdade", "Estado Civil", "Contagem"),
    caption = "Distribuição por Faculdade e Estado Civil",
    align = c("c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  column_spec(1:2, bold = TRUE, width = "30%", background = "#F7F9F9") %>%
  column_spec(3, width = "20%", bold = TRUE, background = "#D5DBDB") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#34495E")

Distribuição por Faculdade e Estado Civil
Faculdade	Estado Civil	Contagem
A	casado	11
A	divorciado	4
A	outro	7
A	solteiro	8
B	casado	10
B	divorciado	7
B	outro	7
B	solteiro	5
C	casado	10
C	divorciado	8
C	outro	15
C	solteiro	8

# Agrupamento por faculdade e transporte
agrupado_faculdade_transporte %>%
  kable(
    format = "html",
    col.names = c("Faculdade", "Transporte", "Contagem"),
    caption = "Distribuição por Faculdade e Transporte",
    align = c("c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  column_spec(1:2, bold = TRUE, width = "30%", background = "#F7F9F9") %>%
  column_spec(3, width = "20%", bold = TRUE, background = "#D5DBDB") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#34495E")

Distribuição por Faculdade e Transporte
Faculdade	Transporte	Contagem
A	bibicleta	10
A	moto	7
A	onibus	6
A	outro	7
B	bibicleta	8
B	moto	7
B	onibus	8
B	outro	6
C	bibicleta	13
C	moto	10
C	onibus	4
C	outro	14

# Agrupamento por faculdade e localidade
agrupado_faculdade_localidade %>%
  kable(
    format = "html",
    col.names = c("Faculdade", "Localidade", "Contagem"),
    caption = "Distribuição por Faculdade e Localidade",
    align = c("c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  column_spec(1:2, bold = TRUE, width = "30%", background = "#F7F9F9") %>%
  column_spec(3, width = "20%", bold = TRUE, background = "#D5DBDB") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#34495E")

Distribuição por Faculdade e Localidade
Faculdade	Localidade	Contagem
A	zona rural	17
A	zona urbana	13
B	zona rural	20
B	zona urbana	9
C	zona rural	21
C	zona urbana	20

Na terceira questão as variáveis foram agrupadas para examinar como diferentes categorias se combinam entre si, focando em faculdade e variáveis qualitativas como sexo, estado civil, transporte e localidade. Esse agrupamento permite entender as características predominantes dentro de cada faculdade, como a distribuição de homens e mulheres, a relação entre solteiros e casados, e os tipos de transporte utilizados. Além disso, ao analisar a faculdade e a localidade, é possível identificar se há uma maior concentração de alunos provenientes de áreas urbanas ou rurais, proporcionando uma visão mais clara sobre os perfis e preferências dos estudantes. Essa análise ajuda a tomar decisões mais informadas sobre o público universitário.

Q4- Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (altura, peso, salário, idade).

medidas_completas %>%
  kable(format = "html", 
        col.names = c("Variável", "Média", "Mediana", "Desvio Padrão", "Variância", "Q1", "Q3", "Assimetria", "Curtose"), 
        caption = "Medidas Descritivas das Variáveis Quantitativas", 
        align = c("l", "c", "c", "c", "c", "c", "c", "c", "c")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE, 
    font_size = 14, 
    position = "center"
  ) %>%
  column_spec(1, bold = TRUE, width = "30%", color = "black", background = "#EAF2F8") %>%
  column_spec(2:9, width = "10%", color = "black", background = "#D4E6F1") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#2C3E50") %>%
  add_header_above(c(" " = 1, "Medidas Descritivas" = 8), bold = TRUE, background = "#34495E", color = "white")

Medidas Descritivas das Variáveis Quantitativas
	Medidas Descritivas
Variável	Média	Mediana	Desvio Padrão	Variância	Q1	Q3	Assimetria	Curtose
Altura	1.6743	1.68	0.1110397	0.0123298	1.60	1.74	-0.0509923	-0.3067943
Peso	68.6500	70.00	12.4716851	155.5429293	58.75	79.00	-0.1683608	-1.1221204
Salário	2.8500	3.00	1.4520971	2.1085859	2.00	4.00	0.1413351	-1.3969600
Idade	27.1200	27.00	5.2882183	27.9652525	23.00	32.00	-0.1319158	-1.1387611

Análise das Medidas Descritivas

Medidas de Tendência Central: A média(1,67 m) e a mediana de altura(1.68) , peso (68,65 kg), salário (R$2.850) e idade (27 anos) indicam que os valores estão concentrados próximos do centro, sugerindo uma distribuição relativamente equilibrada.
Variabilidade: As variâncias e desvios padrão mostram que peso (155,54) e idade (27,97) têm maior dispersão dos dados, indicando uma variabilidade maior entre os indivíduos. O salário também mostra alguma dispersão (desvio padrão de 1,45), enquanto a altura apresenta menor variabilidade (0,012), sendo uma característica mais uniforme entre os indivíduos.
Separatrizes: A análise por quartis revela que 50% das alturas estão acima de 1,68 m, e 50% dos pesos estão acima de 70 kg, com tendência semelhante para salário e idade. Esse detalhamento ajuda a entender a distribuição interna dos valores.
Assimetria e Curtose: A assimetria próxima de zero em todas as variáveis sugere que os dados são ligeiramente simétricos. No entanto, as curtoses negativas em todas as variáveis indicam que as distribuições são platicúrticas (achatadas), com menos valores extremos do que uma distribuição normal, especialmente para o peso e o salário.

Essas análises fornecem um panorama detalhado das características centrais, dispersão e forma das distribuições, permitindo insights sobre a homogeneidade e variabilidade dos dados, além de possíveis anomalias e extremos em cada variável.

Q5- Calcule o índice de massa corporal agrupando por faculdade e sexo e compare os resultados utilizando as medidas descritivas (média, mediana, moda, variância, desvio padrão, assimetria, curtose e coeficiente de variação).

dados <- dados %>%
  drop_na(altura, peso) %>%  
  mutate(imc = peso / (altura ^ 2))  


resultados <- dados %>%
  group_by(faculdade, sexo) %>%
  summarise(
    Média = mean(imc, na.rm = TRUE),
    Mediana = median(imc, na.rm = TRUE),
    Moda = ifelse(length(unique(imc)) > 1, 
                  as.numeric(names(sort(table(imc), decreasing = TRUE)[1])), 
                  NA),
    Variância = var(imc, na.rm = TRUE),
    `Desvio Padrão` = sd(imc, na.rm = TRUE),
    Assimetria = skewness(imc, na.rm = TRUE),
    Curtose = kurtosis(imc, na.rm = TRUE),
    `Coeficiente de Variação (%)` = (sd(imc, na.rm = TRUE) / mean(imc, na.rm = TRUE)) * 100,
    .groups = "drop"
  )


resultados %>%
  kable(
    format = "html",
    col.names = c("Faculdade", "Sexo", "Média", "Mediana", "Moda", 
                  "Variância", "Desvio Padrão", "Assimetria", 
                  "Curtose", "Coeficiente de Variação (%)"),
    caption = "Estatísticas de IMC Agrupadas por Sexo e Faculdade",
    align = c("c", "c", "c", "c", "c", "c", "c", "c", "c", "c")
  ) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    font_size = 14,
    position = "center"
  ) %>%
  column_spec(1, bold = TRUE, width = "15%", background = "#F4F6F6") %>%
  column_spec(2, bold = TRUE, width = "10%", background = "#D5DBDB") %>%
  column_spec(3:10, width = "12%", background = "#EAF2F8") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#2C3E50")

Estatísticas de IMC Agrupadas por Sexo e Faculdade
Faculdade	Sexo	Média	Mediana	Moda	Variância	Desvio Padrão	Assimetria	Curtose	Coeficiente de Variação (%)
A	F	24.38805	25.27308	12.86854	48.47464	6.962373	0.0856312	-0.8688850	28.54830
A	M	27.85118	26.39946	18.69978	37.98093	6.162867	0.1114383	-1.3753209	22.12785
B	F	23.69252	24.08922	15.27841	18.41219	4.290943	-0.3541098	-1.0522187	18.11096
B	M	22.46042	22.54658	17.21109	15.66108	3.957408	0.3395887	-1.0555051	17.61948
C	F	25.11613	26.02758	16.51473	27.00579	5.196709	0.2685455	-0.3916472	20.69073
C	M	24.35634	25.44733	15.34694	18.45908	4.296404	-0.1948430	-0.3861804	17.63977

A análise do IMC Médio por Faculdade e Sexo revela variações interessantes tanto entre faculdades quanto entre os sexos:

- Faculdade A:

• Mulheres (F): O IMC médio das mulheres é de 24,39, o que indica que, em média, elas estão na faixa de sobrepeso, de acordo com as categorias do IMC.

• Homens (M): O IMC médio dos homens na faculdade A é de 27,85, o que coloca a maioria deles na categoria de sobrepeso ou obesidade leve.

- Faculdade B:

• Mulheres (F): O IMC médio das mulheres é de 23,69, indicando que elas estão na faixa de peso normal, conforme os critérios de IMC.

• Homens (M): O IMC médio dos homens é de 22,46, o que também os coloca na faixa de peso normal.

- Faculdade C:

• Mulheres (F): O IMC médio das mulheres é de 25,12, o que as coloca na faixa de sobrepeso.

• Homens (M): O IMC médio dos homens é de 24,36, o que indica uma média próxima à faixa de sobrepeso.

Considerações Finais:

• Diferenças entre faculdades e sexos: As mulheres da Faculdade A e C têm IMCs médios mais elevados do que as mulheres da Faculdade B. Os homens da Faculdade A possuem IMCs significativamente mais altos do que os homens nas outras faculdades, destacando-se como os mais propensos a ter sobrepeso ou obesidade.

• Distribuição geral do IMC: A distribuição do IMC é variada, com uma leve assimetria para valores mais baixos, mas com um número considerável de pessoas acima da média, especialmente entre os homens.

7- Faça os gráficos de barras para as variáveis (sexo, estado civil, filhos, transporte, localidade) separado por faculdade (A, B e C)

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = sexo)) +
  geom_bar(fill = "#F8766D") +
  labs(
    title = "Distribuição de Sexo - Faculdade A",
    x = "Sexo",
    y = "Frequência"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Na Faculdade A, temos uma distribuição de 12 mulheres e 18 homens. A diferença na quantidade de homens e mulheres é clara, com um número significativamente maior de homens. Esse desequilíbrio pode refletir a composição de gênero da instituição ou dos cursos frequentados.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = sexo)) +
  geom_bar(fill = "#00BFC4") +
  labs(
    title = "Distribuição de Sexo - Faculdade B",
    x = "Sexo",
    y = "Frequência"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Na Faculdade B, existem 14 mulheres e 15 homens, com uma diferença muito pequena entre os gêneros. A distribuição está praticamente equilibrada, o que pode indicar uma diversidade de gêneros entre os estudantes dessa instituição.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = sexo)) +
  geom_bar(fill = "#C77CFF") +
  labs(
    title = "Distribuição de Sexo - Faculdade C",
    x = "Sexo",
    y = "Frequência"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Na Faculdade C, observamos 17 mulheres e 24 homens. A proporção de homens é mais alta em relação às mulheres, sugerindo uma predominância masculina, o que pode ser um reflexo de características específicas dos cursos ou da faculdade como um todo.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = estado_civil)) +
  geom_bar(fill = "#F8766D") +
  labs(
    title = "Distribuição de Estado Civil - Faculdade A",
    x = "Estado Civil",
    y = "Frequência"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Na Faculdade A, a maior parte dos estudantes é casada (11 casados), seguida por 8 solteiros, 7 com outro tipo de estado civil e 4 divorciados. A presença significativa de casados pode indicar uma faixa etária mais madura ou estável entre os estudantes dessa instituição, com um pequeno número de solteiros.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = estado_civil)) +
  geom_bar(fill = "#00BFC4") +
  labs(
    title = "Distribuição de Estado Civil - Faculdade B",
    x = "Estado Civil",
    y = "Frequência"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

A Faculdade B tem 10 casados, 7 divorciados, 7 com outro tipo de estado civil e 5 solteiros. A distribuição sugere uma proporção considerável de casados, mas também um número relevante de divorciados, o que pode refletir características demográficas ou o perfil de vida dos estudantes dessa instituição.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = estado_civil)) +
  geom_bar(fill = "#C77CFF") +
  labs(
    title = "Distribuição de Estado Civil - Faculdade C",
    x = "Estado Civil",
    y = "Frequência"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Na Faculdade C, a distribuição de estado civil é composta por 10 casados, 8 divorciados, 15 com outro tipo de estado civil e 8 solteiros. A quantidade de pessoas com “outro tipo de estado civil” é expressiva, o que pode indicar uma diversidade de status sociais, enquanto o número de casados e divorciados é moderado.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = filhos)) +
  geom_bar(fill = "#F8766D") +
  labs(
    title = "Distribuição de Filhos - Faculdade A",
    x = "Número de Filhos",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade A, 8 pessoas não têm filhos, 8 têm 1 filho, 9 têm 2 filhos e 5 têm 3 filhos. A maioria dos estudantes tem entre 1 e 2 filhos, indicando que a maior parte da população estudantil tem uma configuração familiar moderada, com poucos estudantes com um número elevado de filhos.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = filhos)) +
  geom_bar(fill = "#00BFC4") +
  labs(
    title = "Distribuição de Filhos - Faculdade B",
    x = "Número de Filhos",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade B, 10 pessoas não têm filhos, 7 têm 1 filho, 6 têm 2 filhos e 6 têm 3 filhos. A maior parte dos estudantes também não tem filhos ou possui apenas 1 filho, refletindo uma média de filhos por estudante relativamente baixa, com uma boa quantidade de estudantes com 2 ou 3 filhos.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = filhos)) +
  geom_bar(fill = "#C77CFF") +
  labs(
    title = "Distribuição de Filhos - Faculdade C",
    x = "Número de Filhos",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade C, 5 pessoas não têm filhos, 10 têm 1 filho, 16 têm 2 filhos e 10 têm 3 filhos. A maior parte dos estudantes tem entre 1 e 2 filhos, com um número considerável de estudantes tendo 3 filhos. Isso pode refletir uma configuração familiar um pouco mais robusta em comparação com outras faculdades.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = transporte)) +
  geom_bar(fill = "#F8766D") +
  labs(
    title = "Distribuição de Transporte - Faculdade A",
    x = "Tipo de Transporte",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade A, 10 pessoas utilizam a bicicleta como meio de transporte, 7 usam moto, 6 utilizam ônibus e 7 optam por outro tipo de transporte. A predominância de bicicletas e motos sugere uma preferência por meios de transporte mais ágeis e pessoais, possivelmente devido à proximidade da faculdade ou estilo de vida dos estudantes.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = transporte)) +
  geom_bar(fill = "#00BFC4") +
  labs(
    title = "Distribuição de Transporte - Faculdade B",
    x = "Tipo de Transporte",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade B, 8 pessoas utilizam bicicleta, 7 moto, 8 ônibus e 6 outros tipos de transporte. A diversidade de meios de transporte é evidente, com um equilíbrio razoável entre bicicleta, moto e ônibus, sugerindo que os estudantes dessa faculdade têm várias opções para se deslocar.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = transporte)) +
  geom_bar(fill = "#C77CFF") +
  labs(
    title = "Distribuição de Transporte - Faculdade C",
    x = "Tipo de Transporte",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade C, 13 pessoas utilizam bicicleta, 10 moto, 4 ônibus e 14 outros tipos de transporte. A preferência por meios de transporte alternativos, como “outros tipos”, pode indicar que a instituição está localizada em uma área com opções de transporte diversificadas ou que a mobilidade dos estudantes é mais personalizada.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = localidade)) +
  geom_bar(fill = "#F8766D") +
  labs(
    title = "Distribuição de Localidade - Faculdade A",
    x = "Localidade",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade A, 17 pessoas moram em zona rural e 13 moram em zona urbana. A maioria dos estudantes vem da zona rural, o que pode refletir um perfil mais interiorano ou uma oferta educacional que atrai esse público em particular.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = localidade)) +
  geom_bar(fill = "#00BFC4") +
  labs(
    title = "Distribuição de Localidade - Faculdade B",
    x = "Localidade",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade B, 20 pessoas moram em zona rural e 9 em zona urbana. A predominância de estudantes da zona rural pode estar relacionada à localização da faculdade ou à atratividade de cursos que atendem mais a esse público.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = localidade)) +
  geom_bar(fill = "#C77CFF") +
  labs(
    title = "Distribuição de Localidade - Faculdade C",
    x = "Localidade",
    y = "Frequência"
  ) +
  theme_minimal()

Na Faculdade C, 21 pessoas moram em zona rural e 20 em zona urbana. A distribuição é quase equilibrada entre zona rural e urbana, o que pode refletir uma faculdade com uma composição de estudantes tanto de áreas urbanas quanto rurais, oferecendo acesso a ambos os grupos.

8- Faça os histogramas para as variáveis (idade, altura, peso, exercício, salário) separado por faculdade (A, B e C)

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = idade)) +
  geom_histogram(binwidth = 1, fill = "#F8766D", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição da Idade - Faculdade A",
    x = "Idade",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados da idade dos alunos da Faculdade A, a seguir temos a análise evidenciada no histograma:

Faculdade A

• Faixa etária predominante em A: A maioria dos indivíduos está na faixa etária de 33 a 35 anos, com 5 pessoas representando essa faixa. Isso sugere que a faixa etária central tende a ser um pouco mais concentrada, com uma leve tendência para essas idades mais avançadas.

• Idades mais raras: As idades de 28, 31 e 32 anos aparecem de forma mais isolada, com apenas 1 pessoa em cada uma dessas faixas. Isso pode indicar que essas idades são menos comuns dentro desse grupo de dados.

ggplot(dados %>% filter(faculdade == "B"), aes(x = idade)) +
  geom_histogram(binwidth = 1, fill = "#00BFC4", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição da Idade - Faculdade B",
    x = "Idade",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados da idade dos alunos da Faculdade B, a seguir temos a análise evidenciada no histograma:

Faculdade B

• Distribuição etária em B: A faixa etária mais frequente em B é de 28 a 30 anos, com 7 pessoas, o que indica uma maior concentração de indivíduos nessa faixa etária. Por outro lado, a faixa de 17 anos apresenta a menor representação, com apenas 1 pessoa.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = idade)) +
  geom_histogram(binwidth = 1, fill = "#C77CFF", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição da Idade - Faculdade C",
    x = "Idade",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados da idade dos alunos da Faculdade C, a seguir temos a análise evidenciada no histograma:

Faculdade C

• Distribuição etária em C: Para a Faculdade C, a maior concentração de idades está entre 34 e 35 anos, com 7 pessoas. Já a faixa de 21 anos apresenta uma quantidade bem reduzida, com apenas 1 indivíduo. Isso sugere que as idades mais altas têm uma maior prevalência nesse grupo, enquanto as mais baixas são muito menos representativas.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = altura)) +
  geom_histogram(binwidth = 0.05, fill = "#F8766D", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição da Altura - Faculdade A",
    x = "Altura",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de altura dos alunos da Faculdade A, a seguir temos a análise evidenciada no histograma:

• Distribuição dos dados: A altura varia de 1,42 m (a menor) a 1,88 m (a maior). Isso indica uma amplitude de 0,46 m, sugerindo uma distribuição relativamente compacta.

• Alturas mais frequentes: As alturas de 1,50 m e 1,57 m são as mais frequentes, aparecendo 3 vezes cada. Isso indica que essas alturas podem estar próximas do valor modal, ou seja, o intervalo de alturas onde há maior concentração de alunos.

• Simetria e dispersão: Aparentemente, os dados não têm uma concentração muito alta em torno de um único valor, sugerindo uma distribuição mais uniforme, mas é importante confirmar isso com a visualização gráfica.

• Tendências populacionais: A maior parte das alturas está na faixa de 1,50 m a 1,70 m, o que pode refletir características antropométricas típicas dessa população específica.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = altura)) +
  geom_histogram(binwidth = 0.05, fill = "#00BFC4", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição da Altura - Faculdade B",
    x = "Altura",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de altura dos alunos da Faculdade B, a seguir temos a análise evidenciada no histograma:

• Distribuição dos dados: As alturas variam de 1,42 m a 1,88 m, apresentando uma amplitude de 0,46 m, semelhante à Faculdade A. Isso sugere uma população com características antropométricas comparáveis.

• Altura mais frequente: A altura de 1,67 m é a mais recorrente, aparecendo 4 vezes, o que indica que este pode ser o valor modal, representando uma concentração maior nessa faixa.

• Simetria e dispersão: Assim como na Faculdade A, os dados parecem razoavelmente dispersos, com várias alturas ocorrendo apenas uma vez. Essa dispersão pode indicar uma distribuição mais equilibrada entre os valores.

• Tendências populacionais: O intervalo com maior concentração parece estar entre 1,65 m e 1,75 m, enquanto os valores mais baixos (1,42 m) e mais altos (1,86 m e 1,88 m) aparecem com menor frequência.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = altura)) +
  geom_histogram(binwidth = 0.05, fill = "#C77CFF", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição da Altura - Faculdade C",
    x = "Altura",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de altura dos alunos da Faculdade C, a seguir temos a análise evidenciada no histograma:

• Distribuição dos dados: As alturas variam de 1,50 m a 1,96 m, com uma amplitude de 0,46 m, semelhante à Faculdade B. A amplitude da distribuição sugere que as características antropométricas dos alunos da Faculdade C são comparáveis àquelas observadas na Faculdade B.

• Altura mais frequente: A altura de 1,68 m é a mais recorrente, aparecendo 4 vezes. Isso indica que 1,68 m é o valor modal, mostrando uma concentração maior de alunos com essa altura. Isso é uma tendência semelhante à observada na Faculdade B, onde também a altura de 1,67 m foi a mais frequente.

• Simetria e dispersão: A distribuição dos dados parece relativamente simétrica, com alturas concentradas entre 1,60 m e 1,75 m, mas também apresenta algumas variações em ambas as extremidades. A dispersão é moderada, com várias alturas ocorrendo apenas uma vez, o que pode indicar uma distribuição equilibrada, mas com algumas variações pontuais.

• Tendências populacionais: O intervalo de alturas com maior concentração parece estar entre 1,60 m e 1,75 m, indicando uma tendência central para essas alturas. Já as alturas mais baixas (1,50 m) e mais altas (1,90 m e 1,96 m) são observadas com menor frequência, o que sugere uma distribuição mais “compacta” para a maioria dos alunos.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = peso)) +
  geom_histogram(binwidth = 5, fill = "#F8766D", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Peso - Faculdade A",
    x = "Peso",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de peso dos alunos da Faculdade A, a seguir temos a análise evidenciada no histograma:

• Faixa de Pesos Mais Frequente: Os pesos entre 76 kg aparecem com maior frequência (4 vezes), indicando que esta é a faixa predominante.

• Pesos Menores: Os pesos mais baixos registrados são 45 kg e 48 kg (aparecem 2 vezes), representando o grupo com menor peso.

• Pesos Maiores: O peso mais alto registrado é 89 kg, aparecendo apenas uma vez, indicando menos alunos com peso elevado.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = peso)) +
  geom_histogram(binwidth = 5, fill = "#00BFC4", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Peso - Faculdade B",
    x = "Peso",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de peso dos alunos da Faculdade B, a seguir temos a análise evidenciada no histograma:

• Faixa de Pesos Mais Frequente: Pesos entre 60 kg aparecem frequentemente (4 vezes), representando a faixa predominante.

• Pesos Menores: O menor peso registrado é 46 kg, enquanto 48 kg aparece 3 vezes.

• Pesos Maiores: O peso mais alto é 90 kg, mas aparece apenas uma vez, indicando raridade.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = peso)) +
  geom_histogram(binwidth = 5, fill = "#C77CFF", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Peso - Faculdade C",
    x = "Peso",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de peso dos alunos da Faculdade C, a seguir temos a análise evidenciada no histograma:

• Faixa de Pesos Mais Frequente: Pesos como 66 kg, 77 kg, e 82 kg aparecem com frequência (3 ou 4 vezes cada), indicando uma maior diversidade nas faixas mais comuns.

• Pesos Menores: Os pesos mais baixos são 47 kg e 50 kg, sendo que 50 kg aparece 3 vezes.

• Pesos Maiores: O peso mais alto é 90 kg, mas novamente aparece apenas uma vez.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = exercicio)) +
  geom_histogram(binwidth = 1, fill = "#F8766D", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Exercício - Faculdade A",
    x = "Exercício(Número de vezes por semana)",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de Exercícios dos alunos da Faculdade A, a seguir temos a análise evidenciada no histograma:

• Faixa de Exercícios Mais Comum: A maioria dos alunos realiza entre 1 e 2 exercícios, o que indica um envolvimento baixo ou moderado com atividades físicas.

• Menor Frequência: O número 0 exercícios aparece algumas vezes, sugerindo que há uma parcela de alunos que não fazem nenhum exercício.

• Maior Frequência: O número 10 exercícios é registrado de forma isolada, mostrando que poucos alunos têm um nível de comprometimento elevado.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = exercicio)) +
  geom_histogram(binwidth = 1, fill = "#00BFC4", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Exercício - Faculdade B",
    x = "Exercício (número de vezes por semana)",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de Exercícios dos alunos da Faculdade B, a seguir temos a análise evidenciada no histograma:

• Faixa de Exercícios Mais Comum: A maioria dos alunos realiza entre 4 e 9 exercícios, sendo o 9 exercícios o número mais frequente, o que indica um engajamento moderado a alto com exercícios.

• Menor Frequência: O número 0 exercícios aparece também algumas vezes, refletindo que alguns alunos não praticam atividade física.

• Maior Frequência: O número 10 exercícios é registrado apemas uma vez, sugerindo que apenas um aluno tem um envolvimento muito alto(pós nove exercícios na semama) com exercícios.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = exercicio)) +
  geom_histogram(binwidth = 1, fill = "#C77CFF", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Exercício - Faculdade C",
    x = "Exercício (número de vezes por semana)",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de Exercícios dos alunos da Faculdade C, a seguir temos a análise evidenciada no histograma:

• Faixa de Exercícios Mais Comum: A maioria dos alunos realiza entre 5 e 9 exercícios, com 9 exercícios sendo o mais frequente, o que mostra um envolvimento considerável com atividades físicas.

• Menor Frequência: O número 0 exercícios é observado algumas vezes, indicando que há alunos que não praticam nenhum exercício.

• Maior Frequência: O número 10 exercícios aparece de forma esporádica, o que sugere que poucos alunos têm um nível muito alto de participação.

# Para Faculdade A
ggplot(dados %>% filter(faculdade == "A"), aes(x = salario)) +
  geom_histogram(binwidth = 1, fill = "#F8766D", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Salário - Faculdade A",
    x = "Salário",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de Salários dos alunos da Faculdade A, a seguir temos a análise evidenciada no histograma:

•Faixa de Salários Mais Comum: O salário mais frequente é 2, que aparece várias vezes, indicando que é o valor predominante entre os alunos da faculdade.

•Salários Mais Baixos: O salário 1 é bastante comum, aparecendo várias vezes, o que indica que há uma boa parte dos alunos recebendo salários mais baixos.

•Salários Mais Altos: O salário 5 é registrado algumas vezes, mas de forma menos recorrente, indicando que poucos alunos possuem salários elevados.

# Para Faculdade B
ggplot(dados %>% filter(faculdade == "B"), aes(x = salario)) +
  geom_histogram(binwidth = 1, fill = "#00BFC4", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Salário - Faculdade B",
    x = "Salário",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de Salários dos alunos da Faculdade B, a seguir temos a análise evidenciada no histograma:

•Faixa de Salários Mais Comum: O salário 4 é o mais frequente, com várias ocorrências, sendo a faixa predominante entre os alunos da faculdade.

•Salários Mais Baixos: O salário 1 também aparece várias vezes, indicando que há uma quantidade significativa de alunos com salários mais baixos.

•Salários Mais Altos: O salário 5 é registrado, mas com menor frequência, refletindo que poucos alunos possuem salários mais altos.

# Para Faculdade C
ggplot(dados %>% filter(faculdade == "C"), aes(x = salario)) +
  geom_histogram(binwidth = 1, fill = "#C77CFF", color = "black", alpha = 0.7) +
  labs(
    title = "Distribuição do Salário - Faculdade C",
    x = "Salário",
    y = "Frequência"
  ) +
  theme_minimal()

Com base nos dados de Salários dos alunos da Faculdade C, a seguir temos a análise evidenciada no histograma:

•Faixa de Salários Mais Comum: O salário 5 aparece com bastante frequência, indicando que a faixa salarial mais alta é a mais comum entre os alunos.

•Salários Mais Baixos: O salário 1 também é registrado diversas vezes, o que mostra que há uma parte dos alunos com salários mais baixos.

•Salários Mais Altos: O salário 4 aparece com certa regularidade, o que sugere uma boa parte dos alunos com uma remuneração razoavelmente alta.

9- Faça o gráfico de pontos para as variáveis (peso x idade, peso x altura, peso x exercício) separado por sexo e separado por faculdade (A, B e C)

ggplot(dados %>% filter(faculdade %in% c("A", "B", "C")), 
       aes(x = idade, y = peso, color = sexo, shape = faculdade)) +
  geom_point(size = 2, alpha = 0.7) +
  labs(
    title = "Peso x Idade - Faculdades A, B e C",
    x = "Idade",
    y = "Peso",
    color = "Sexo",
    shape = "Faculdade"
  ) +
  theme_minimal() +
  scale_color_manual(values = c("F" = "#4CAF50",  
                                "M" = "#FF7043")) +  
  theme(
    legend.position = "bottom",
    legend.title = element_text(size = 10),
    legend.text = element_text(size = 9)
  )

A análise do gráfico “Peso x Idade - Separado por Sexo e Faculdade” mostra que não há uma correlação clara entre peso e idade nas três faculdades (A, B e C). Os pontos estão espalhados, indicando que fatores como atividade física e alimentação têm mais impacto no peso do que a idade.

• Faculdade A: A faixa etária é variada (17-35 anos) com pesos entre 45 e 89 kg. A distribuição de sexo mostra uma leve predominância masculina. Não há um padrão claro de relação entre idade e peso.

• Faculdade B: A faixa de idade é mais concentrada entre 17 e 35 anos, com pesos variando entre 46 e 90 kg. A distribuição de sexo é equilibrada. A relação entre idade e peso também é dispersa.

• Faculdade C: A faixa de idade é similar às demais, com pesos entre 47 e 90 kg. A distribuição de sexo é equilibrada e, novamente, não há uma correlação clara entre idade e peso.

Conclusão: Não há uma forte relação entre idade e peso, e a variação de peso parece ser mais influenciada por fatores como estilo de vida e atividades físicas, com homens apresentando maior variação de peso em comparação com mulheres.

ggplot(dados %>% filter(faculdade %in% c("A", "B", "C")), 
       aes(x = altura, y = peso, color = sexo, shape = faculdade)) +
  geom_point(size = 2, alpha = 0.7) +
  labs(
    title = "Peso x Altura - Faculdades A, B e C",
    x = "Altura",
    y = "Peso",
    color = "Sexo",
    shape = "Faculdade"
  ) +
  theme_minimal() +
  scale_color_manual(values = c("F" = "#1E88E5",  
                                "M" = "#D81B60")) +  
  theme(
    legend.position = "bottom",
    legend.title = element_text(size = 10),
    legend.text = element_text(size = 9)
  )

A análise do gráfico “Peso x Altura - Separado por Sexo e Faculdade” revela algumas observações interessantes sobre a relação entre essas duas variáveis nas faculdades A, B e C:

• Faculdade A: Os dados mostram uma ampla variação de altura (entre 1,42m e 1,87m) e peso (entre 45kg e 89kg), com a maioria dos estudantes sendo do sexo masculino. Há uma distribuição dispersa entre peso e altura, sem um padrão claro, o que indica que, na faculdade A, o peso não segue uma tendência direta com a altura.

• Faculdade B: A faixa de altura está entre 1,42m e 1,88m, e os pesos variam de 46kg a 90kg. A tendência parece ser similar à de faculdade A, com uma dispersão dos dados, indicando que peso e altura não têm uma correlação muito forte entre si. No entanto, observa-se que os homens tendem a ser mais altos e pesados.

• Faculdade C: A altura varia entre 1,51m e 1,95m, e o peso entre 47kg e 90kg. Aqui também, a dispersão entre as variáveis é grande, com poucas tendências claras entre peso e altura. A variação no peso não parece seguir a altura de forma linear, embora exista uma leve tendência de que estudantes mais altos possuam pesos mais elevados, principalmente entre os homens.

Conclusão: A relação entre peso e altura nas três faculdades não apresenta um padrão claro. As variáveis parecem ser influenciadas por outros fatores, como sexo, tipo de atividade física e genética. Apesar de uma leve tendência observada, não há uma forte correlação entre essas duas variáveis.

ggplot(dados %>% filter(faculdade %in% c("A", "B", "C")), 
       aes(x = exercicio, y = peso, color = sexo, shape = faculdade)) +
  geom_point(size = 2, alpha = 0.7) +
  labs(
    title = "Peso x Exercício - Faculdades A, B e C",
    x = "Exercício (dias/semana)",
    y = "Peso",
    color = "Sexo",
    shape = "Faculdade"
  ) +
  theme_minimal() +
  scale_color_manual(values = c("F" = "#FF8C00",  # Laranja forte
                                "M" = "#6A5ACD")) +  # Azul violeta
  theme(
    legend.position = "bottom",
    legend.title = element_text(size = 10),
    legend.text = element_text(size = 9)
  )

A análise do gráfico “Peso x Exercício - Separado por Sexo e Faculdade” revela algumas observações sobre a relação entre peso e a prática de exercícios nas faculdades A, B e C:

• Faculdade A: Os pesos variam de 45kg a 89kg, e o exercício varia de 1 a 10. A maior parte dos dados mostra que estudantes com pesos mais baixos (como 48kg) tendem a praticar menos exercício (valores próximos a 1 ou 2), enquanto estudantes mais pesados (acima de 75kg) praticam mais exercício, com valores de exercício em torno de 5 a 10. No entanto, a relação não é completamente linear, e há variação no padrão de atividade física, especialmente entre as mulheres.

• Faculdade B: Os pesos variam entre 46kg e 90kg, e o exercício varia de 0 a 9. Para os homens, os pesos mais altos estão frequentemente associados a mais exercício (com exceção de alguns casos). Mulheres com pesos mais baixos, como 46kg, tendem a praticar mais exercício, enquanto outras com pesos médios (como 60kg) têm valores de exercício mais baixos. Assim como na faculdade A, há uma variação significativa na prática de exercícios, sem uma correlação direta com o peso.

• Faculdade C: Os pesos variam de 47kg a 90kg, com a prática de exercício variando de 0 a 10. Aqui, também não há uma correlação clara entre peso e exercício. Estudantes com pesos mais altos não estão necessariamente praticando mais exercício. Além disso, em algumas situações, há estudantes com peso médio ou baixo que têm altos níveis de exercício (como 10), indicando que o exercício não está diretamente relacionado ao peso.

Conclusão: A conclusão mais segura seria que menos exercício não é o único fator que leva ao aumento de peso, e a relação entre esses dois aspectos precisa ser mais bem explorada em um estudo com mais variáveis controladas.

10- Faça os boxplots para as variáveis (idade por sexo, peso por sexo, salário por sexo, exercício por sexo) separado por faculdade

boxplot_idade <- ggplot(dados, aes(x = sexo, y = idade, fill = sexo)) +
  geom_boxplot(alpha = 0.7) +
  facet_wrap(~ faculdade) +
  labs(
    title = "Boxplot de Idade por Sexo",
    x = "Sexo",
    y = "Idade"
  ) +
  theme_minimal() +
  scale_fill_manual(values = c("F" = "lightblue", "M" = "salmon"))

boxplot_idade

Faculdade A

• Homens (M): A distribuição das idades dos homens é mais dispersa, com a mediana em torno de 30 anos. A caixa (representando o intervalo interquartil) é relativamente larga, indicando uma variação considerável entre os alunos do sexo masculino.

• Mulheres (F): A mediana das mulheres está em torno de 25 anos, com uma distribuição menos dispersa do que a dos homens. Isso sugere que as idades das mulheres na Faculdade A são mais concentradas, com menos variação.

• Outliers: Tanto para homens quanto para mulheres, vemos alguns outliers na parte superior, com idades significativamente mais altas, especialmente para os homens.

Faculdade B

• Homens (M): A distribuição dos homens é semelhante à da Faculdade A, com uma mediana em torno de 30 anos e uma dispersão considerável.

• Mulheres (F): A mediana das mulheres também gira em torno de 25 a 27 anos, indicando uma faixa etária mais jovem para o sexo feminino em comparação aos homens na mesma faculdade.

• Outliers: Assim como na Faculdade A, há algumas idades mais altas entre os homens, sugerindo que há algumas pessoas mais velhas no curso, mas em menor quantidade entre as mulheres.

Faculdade C

• Homens (M): A distribuição dos homens é mais centrada, com a mediana perto dos 25 a 30 anos e uma dispersão um pouco maior do que as mulheres da mesma faculdade. Não há tantos outliers, o que indica uma distribuição mais uniforme de idades entre os homens.

• Mulheres (F): As mulheres da Faculdade C têm uma mediana um pouco mais alta (aproximadamente 30 anos) e uma dispersão um pouco maior do que na Faculdade A e B. Isso pode indicar que as mulheres desta faculdade possuem idades mais variadas.

• Outliers: Assim como nas outras faculdades, há outliers nas idades mais altas para ambos os sexos, mas com menor incidência que nas Faculdades A e B.

Comparação Entre as Faculdades

• As Faculdades A e B apresentam uma diferença maior na distribuição das idades entre os sexos, com os homens geralmente mais velhos e mais dispersos em relação às mulheres.

• Faculdade C tem uma distribuição mais uniforme de idades, com menor dispersão nos homens e maior nas mulheres.

• Em todas as faculdades, as idades dos homens tendem a ser mais dispersas, enquanto as mulheres têm distribuições mais concentradas.

Conclusão

• Diferenças de idade: A análise mostra que há diferenças significativas nas idades médias entre os sexos dentro das faculdades, com os homens sendo, em geral, mais velhos e com uma maior variação etária.

• Faculdade A e B: São faculdades com maior variação de idade entre os alunos, especialmente no sexo masculino.

• Faculdade C: Apresenta uma distribuição de idades mais equilibrada entre os sexos, sem grandes disparidades.

• Impacto dos Outliers: A presença de outliers sugere que, além da faixa etária típica, existem pessoas significativamente mais velhas que merecem atenção, pois podem impactar as análises de idade média e outras métricas.

boxplot_peso <- ggplot(dados, aes(x = sexo, y = peso, fill = sexo)) +
  geom_boxplot(alpha = 0.7) +
  facet_wrap(~ faculdade) +
  labs(
    title = "Boxplot de Peso por Sexo",
    x = "Sexo",
    y = "Peso"
  ) +
  theme_minimal() +
  scale_fill_manual(values = c("F" = "#4CAF50",  
                               "M" = "#FF7043"))

boxplot_peso

Faculdade A:

• Homens (M): A distribuição de peso entre os homens da faculdade A é relativamente dispersa, com a maioria variando entre 70 e 90 kg. No entanto, existem alguns outliers na parte inferior da distribuição, com alguns homens pesando abaixo de 60 kg.

• Mulheres (F): As mulheres têm uma distribuição mais concentrada entre 50 e 80 kg. No entanto, há algumas mulheres com pesos bem abaixo da maioria (outliers), com pesos na faixa de 40-50 kg. A mediana do peso dos homens parece ser um pouco mais alta que a das mulheres, sugerindo que, em média, os homens dessa faculdade tendem a ser mais pesados.

Faculdade B:

• Homens (M): A distribuição de pesos entre os homens da faculdade B é mais ampla, com uma variação significativa entre 46 e 90 kg. O peso médio dos homens está mais disperso e há uma presença considerável de outliers mais pesados (acima de 80 kg).

• Mulheres (F): As mulheres da faculdade B têm uma distribuição de peso mais compacta, com a maior parte dos dados variando entre 50 e 75 kg. No entanto, como os homens, as mulheres também possuem outliers (com pesos abaixo de 50 kg e acima de 80 kg). A mediana do peso das mulheres tende a ser um pouco menor que a dos homens, refletindo um padrão de peso mais concentrado nas mulheres.

Faculdade C:

• Homens (M): A distribuição de pesos dos homens na faculdade C tem uma variação significativa entre 47 e 90 kg, com uma distribuição bastante dispersa e alguns outliers pesados.

• Mulheres (F): As mulheres têm uma distribuição mais próxima das medianas entre 50 e 75 kg, mas com a presença de outliers pesados. Um destaque é a presença de várias mulheres com peso acima de 80 kg, o que é menos comum nas outras faculdades.

Nesta faculdade, a mediana dos homens é muito próxima à das mulheres, mas a presença de outliers em ambos os sexos pode afetar a análise mais detalhada.

Correlação entre Peso e Sexo:

Nas três faculdades, o sexo tem um efeito claro sobre a distribuição de peso, com os homens geralmente pesando mais do que as mulheres. No entanto, os outliers em ambas as categorias de sexo (homens e mulheres) mostram que há uma grande diversidade dentro de cada grupo, e as distribuições não são tão simples quanto a comparação entre as medianas.

Em resumo, embora o sexo influencie o peso, a grande dispersão e os outliers em ambas as categorias revelam que outros fatores, como dieta, estilo de vida e genética, também podem desempenhar um papel importante nas diferenças de peso dentro de cada faculdade.

boxplot_salario <- ggplot(dados, aes(x = sexo, y = salario, fill = sexo)) +
  geom_boxplot(alpha = 0.7) +
  facet_wrap(~ faculdade) +
  labs(
    title = "Boxplot de Salário por Sexo",
    x = "Sexo",
    y = "Salário"
  ) +
  theme_minimal() +
  scale_fill_manual(values = c("F" =  "#1E88E5",  
                               "M" = "#D81B60"))

boxplot_salario

Faculdade A:

• Homens (M): O salário dos homens varia entre 1 e 5, com a maioria recebendo entre 2 e 5. Há uma distribuição relativamente uniforme, com uma leve concentração em torno do salário 2-4.

• Mulheres (F): O salário das mulheres varia entre 1 e 5, mas a maioria recebe entre 1 e 2. A distribuição das mulheres parece mais concentrada nas faixas salariais mais baixas (1-2).

Observação: Existe uma diferença clara entre os salários médios entre homens e mulheres, com homens ganhando mais em média do que as mulheres na faculdade A.

Faculdade B:

• Homens (M): Os salários dos homens variam entre 1 e 5, com a maioria dos salários na faixa de 1-4. A distribuição de salários é um pouco mais dispersa do que nas outras faculdades, com várias ocorrências de salários 1 e 4.

• Mulheres (F): As mulheres na faculdade B possuem uma distribuição de salários similar à dos homens, com a maioria recebendo entre 1 e 4. No entanto, há uma leve concentração em torno do salário 1 e 2.

Observação: As distribuições salariais entre os homens e mulheres são bastante semelhantes, mas ainda assim os homens têm uma leve vantagem salarial.

Faculdade C:

• Homens (M): O salário dos homens na faculdade C varia de 1 a 5, com uma leve concentração em torno dos salários 1 e 4. Porém, a maioria dos salários está concentrada nas faixas de 3 a 5.

• Mulheres (F): As mulheres têm uma distribuição mais concentrada nas faixas de salário 1 a 3, com um pico significativo em 1. Alguns salários mais elevados (3-5) também aparecem, mas são menos frequentes.

Observação: Em geral, a distribuição entre homens e mulheres é similar, com uma leve vantagem salarial para os homens, mas os salários mais baixos (1) predominam entre as mulheres.

boxplot_exercicio <- ggplot(dados, aes(x = sexo, y = exercicio, fill = sexo)) +
  geom_boxplot(alpha = 0.7) +
  facet_wrap(~ faculdade) +
  labs(
    title = "Boxplot de exercicio por Sexo",
    x = "Sexo",
    y = "exercicio"
  ) +
  theme_minimal() +
  scale_fill_manual(values = c("F" = "#FF8C00", "M" = "#6A5ACD"))

boxplot_exercicio

Faculdade A:

• Homens (M): Os homens apresentam uma distribuição variada de exercícios, com a maioria dos valores concentrados entre 2 e 10. A maior frequência é encontrada na faixa de 5 a 10.

• Mulheres (F): As mulheres têm uma distribuição concentrada na faixa de 1 a 10, com uma leve predominância nas faixas de 1 a 3, mas com exercícios igualmente distribuídos entre 4 e 10.

Observação: A média de exercícios dos homens tende a ser mais alta que a das mulheres, com a maior parte dos homens praticando mais exercícios (valores mais altos entre 5 e 10), enquanto as mulheres têm uma distribuição mais equilibrada com faixas mais baixas de atividades.

Faculdade B:

• Homens (M): A distribuição dos exercícios dos homens na faculdade B tem um pico de atividade em torno dos valores 4, 9 e 10, com um número considerável de homens realizando 0 ou 1 exercício. A faixa de exercícios mais frequente é entre 4 e 9.

• Mulheres (F): As mulheres têm uma distribuição mais concentrada na faixa de 0 a 4, com algumas mulheres realizando mais exercícios (principalmente entre 7 e 9).

Observação: Existe uma variação significativa na prática de exercícios entre os sexos. Homens tendem a fazer mais exercícios em geral, especialmente com valores mais altos, enquanto as mulheres têm uma maior concentração em valores baixos.

Faculdade C:

• Homens (M): A distribuição de exercícios dos homens na faculdade C é muito ampla, com os valores variando de 0 a 10. A maior concentração está na faixa de 5 a 9, com uma frequência significativa de 10 e 7.

• Mulheres (F): As mulheres possuem uma distribuição de exercícios que também abrange a faixa de 0 a 10, mas com um maior número de valores baixos (0, 1 e 2). A prática de exercícios entre as mulheres parece ser mais dispersa, com algumas realizando atividades de alta intensidade (valores entre 7 e 10).

Observação: Apesar de algumas mulheres realizarem mais exercícios (7-10), homens parecem praticar mais exercícios de forma geral na faculdade C, especialmente nas faixas mais altas (7-10).

11- Faça o mapa de calor para matriz de correlação entre as variáveis (peso, altura, idade e exercício) separado por sexo e separado por faculdade (A, B e C)

dados_fa <- dados %>%
  filter(sexo == "F" & faculdade == "A")


cor_matrix_fa <- cor(dados_fa %>% select(peso, altura, idade, exercicio), use = "complete.obs")


corrplot(cor_matrix_fa, 
         method = "color", 
         col = colorRampPalette(c("blue", "white", "red"))(200),
         title = "Matriz de Correlação - Sexo: F - Faculdade: A", 
         mar = c(0, 0, 2, 0))

Faculdade A – Feminino

Observações:

Peso e Altura (-0,22): Correlação negativa fraca. Mulheres mais altas tendem a ter pesos mais baixos, o que pode refletir características individuais ou hábitos relacionados à saúde.

Peso e Idade (0,24): Correlação positiva moderada. Mulheres mais velhas tendem a apresentar pesos ligeiramente mais altos, o que pode estar relacionado a mudanças metabólicas ou de estilo de vida.

Peso e Exercício (0,49): Correlação positiva moderada e mais forte que nos homens. Mulheres que praticam mais exercícios apresentam pesos mais altos, o que pode ser associado ao ganho de massa muscular ou hábitos de vida saudáveis.

Altura e Idade (0,16): Correlação positiva fraca. Idades maiores estão ligeiramente associadas a maior altura, mas sem grande significância.

Altura e Exercício (0,0085): Correlação nula. A altura não influencia os níveis de exercício nas mulheres.

Idade e Exercício (-0,26): Correlação negativa moderada. Mulheres mais velhas tendem a praticar menos exercícios, o que pode estar relacionado a limitações físicas ou mudanças nas prioridades ao longo da vida.

dados_ma <- dados %>%
  filter(sexo == "M" & faculdade == "A")


cor_matrix_ma <- cor(dados_ma %>% select(peso, altura, idade, exercicio), use = "complete.obs")


corrplot(cor_matrix_ma, 
         method = "color", 
         col = colorRampPalette(c("blue", "white", "red"))(200),
         title = "Matriz de Correlação - Sexo: M - Faculdade: A", 
         mar = c(0, 0, 2, 0))

Faculdade A – Masculino

Observações:

Peso e Altura (-0,019): Correlação praticamente nula. O peso não tem nenhuma relação significativa com a altura para os homens.

Peso e Idade (-0,068): Correlação levemente negativa e insignificante. Isso sugere que a idade não influencia diretamente o peso nos homens.

Peso e Exercício (0,25): Correlação positiva moderada. Homens que praticam mais exercícios tendem a ter pesos mais altos, possivelmente devido ao aumento de massa muscular ou estilo de vida ativo.

Altura e Idade (-8,5e-05): Correlação praticamente zero. Não há relação relevante entre altura e idade nos homens.

Altura e Exercício (0,11): Correlação muito fraca e positiva. A altura não tem impacto significativo sobre o nível de exercício praticado.

Idade e Exercício (0,0017): Correlação nula. A idade não tem qualquer relação significativa com a prática de exercícios.

dados_fb <- dados %>%
  filter(sexo == "F" & faculdade == "B")


cor_matrix_fb <- cor(dados_fb %>% select(peso, altura, idade, exercicio), use = "complete.obs")


corrplot(cor_matrix_fb, 
         method = "color", 
         col = colorRampPalette(c("blue", "white", "red"))(200),
         title = "Matriz de Correlação - Sexo: F - Faculdade: B", 
         mar = c(0, 0, 2, 0))

Faculdade B – Feminino

Observações:

Peso e Altura (0,35): Correlação moderada positiva. Mulheres mais altas tendem a ter pesos maiores, mas a relação é ligeiramente mais fraca que nos homens.

Peso e Idade (-0,09): Correlação negativa fraca. Mulheres mais velhas tendem a pesar um pouco menos, possivelmente devido a mudanças metabólicas.

Peso e Exercício (0,49): Correlação positiva moderada. Mulheres que praticam mais exercícios têm maior peso, sugerindo influência de ganho de massa muscular.

Altura e Idade (-0,2): Correlação negativa fraca. Mulheres mais velhas tendem a ser ligeiramente mais baixas, possivelmente devido à redução de altura com a idade.

Altura e Exercício (-0,052): Correlação negativa muito fraca. Altura e exercício não apresentam uma relação significativa.

Idade e Exercício (-0,22): Correlação negativa moderada. Mulheres mais velhas tendem a praticar menos exercícios.

dados_mb <- dados %>%
  filter(sexo == "M" & faculdade == "B")


cor_matrix_mb <- cor(dados_mb %>% select(peso, altura, idade, exercicio), use = "complete.obs")


corrplot(cor_matrix_mb, 
         method = "color", 
         col = colorRampPalette(c("blue", "white", "red"))(200),
         title = "Matriz de Correlação - Sexo: M - Faculdade: B", 
         mar = c(0, 0, 2, 0))

Faculdade B – Masculino

Observações:

Peso e Altura (0,41): Correlação moderada positiva. Homens mais altos tendem a ter pesos maiores, alinhado com padrões típicos.

Peso e Idade (0,18): Correlação positiva fraca. Idade tem um pequeno impacto sobre o peso, com uma tendência leve de ganho de peso em homens mais velhos.

Peso e Exercício (-0,69): Correlação negativa forte. Homens que praticam mais exercícios tendem a pesar menos, sugerindo que o exercício tem um papel importante no controle de peso masculino.

Altura e Idade (0,37): Correlação positiva moderada. Homens mais velhos tendem a ser mais altos, o que pode refletir tendências de crescimento em gerações mais jovens. Altura e Exercício (0,034): Correlação insignificante. A altura não está associada ao nível de exercício.

Idade e Exercício (0,16): Correlação positiva fraca. Homens mais velhos têm uma ligeira tendência a praticar mais exercícios.

dados_fc <- dados %>%
  filter(sexo == "F" & faculdade == "C")


cor_matrix_fc <- cor(dados_fc %>% select(peso, altura, idade, exercicio), use = "complete.obs")


corrplot(cor_matrix_fc, 
         method = "color", 
         col = colorRampPalette(c("blue", "white", "red"))(200),
         title = "Matriz de Correlação - Sexo: F - Faculdade: C", 
         mar = c(0, 0, 2, 0))

Faculdade C - Feminino:

Observações:

Peso e Altura (0,027): Correlação muito fraca positiva. Peso e altura praticamente não têm relação entre as mulheres.

Peso e Idade (0,38): Correlação moderada positiva. Mulheres mais velhas tendem a pesar mais, possivelmente devido a mudanças metabólicas.

Peso e Exercício (0,12): Correlação fraca positiva. Mulheres com pesos maiores tendem a praticar levemente mais exercício, mas a relação é fraca.

Altura e Idade (-0,29): Correlação fraca negativa. Mulheres mais velhas tendem a ser levemente mais baixas.

Altura e Exercício (0,15): Correlação fraca positiva. Mulheres mais altas têm uma tendência a praticar mais exercícios.

Idade e Exercício (-0,18): Correlação fraca negativa. Mulheres mais velhas praticam levemente menos exercícios.

dados_mc <- dados %>%
  filter(sexo == "M" & faculdade == "C")


cor_matrix_mc <- cor(dados_mc %>% select(peso, altura, idade, exercicio), use = "complete.obs")


corrplot(cor_matrix_mc, 
         method = "color", 
         col = colorRampPalette(c("blue", "white", "red"))(200),
         title = "Matriz de Correlação - Sexo: M - Faculdade: C", 
         mar = c(0, 0, 2, 0))

Faculdade C – Masculino

Observações:

Peso e Altura (0,25): Correlação moderada positiva. Homens mais altos tendem a pesar mais, seguindo um padrão esperado.

Peso e Idade (-0,3): Correlação negativa fraca. Homens mais velhos tendem a pesar um pouco menos.

Peso e Exercício (0,0036): Correlação nula. O peso masculino não parece ser influenciado pelo nível de exercício.

Altura e Idade (-0,47): Correlação moderada negativa. Homens mais velhos tendem a ser mais baixos, refletindo o declínio de altura com a idade.

Altura e Exercício (0,069): Correlação fraca positiva. Homens mais altos têm uma leve tendência a praticar mais exercícios.

Idade e Exercício (-0,17): Correlação fraca negativa. Homens mais velhos praticam um pouco menos exercícios.