Introdução ao Relatório

As informações do arquivo foram organizadas em grupos com base nas suas características. As variáveis qualitativas nominais, como Faculdade, Sexo, Estado Civil, Transporte e Localidade, representam categorias sem uma ordem específica. As qualitativas ordinais, como Exercício e Salário, têm uma ordem ou hierarquia entre os valores. As variáveis quantitativas discretas, como Idade e Filhos, são contadas em números inteiros, enquanto as quantitativas contínuas, como Altura e Peso, podem ter qualquer valor dentro de um intervalo. Essa organização ajuda a fazer análises estatísticas de forma mais clara e correta.

# Carregamento dos dados
library(dplyr)
library(readxl)

# Carregar o arquivo Excel
dados <- read_excel("C:/Users/rafae/OneDrive/Documentos/faculdade.xlsx")

Questão 1 - Classificação das variáveis do arquivo faculdade em Qualitativas e Quantitativas

As variáveis do arquivo foram organizadas em categorias de acordo com suas características. As variáveis qualitativas nominais, como Faculdade, Sexo, Estado Civil, Transporte e Localidade, são categóricas e não possuem uma ordem natural. Já as qualitativas ordinais, como Exercício e Salário, apresentam uma hierarquia ou ordem entre os valores. As variáveis quantitativas discretas, como Idade e Filhos, assumem valores inteiros e contáveis, enquanto as quantitativas contínuas, como Altura e Peso, podem assumir qualquer valor dentro de um intervalo contínuo. Essa classificação é essencial para direcionar as análises estatísticas de forma adequada e precisa.

Questão 2 - Agrupe as variáveis qualitativas por: faculdade, sexo, estado civil, transporte, localidade.

agrupamento_faculdade <- dados %>%
  group_by(Faculdade) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por faculdade
library(knitr)
kable(agrupamento_faculdade, caption = "Agrupamento por Faculdade")

Agrupamento por Faculdade
Faculdade	Quantidade
A	30
B	29
C	41

# Agrupamento por sexo
agrupamento_sexo <- dados %>%
  group_by(Sexo) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por sexo
kable(agrupamento_sexo, caption = "Agrupamento por Sexo")

Agrupamento por Sexo
Sexo	Quantidade
Feminino	43
Masculino	57

# Agrupamento por estado civil
agrupamento_estado_civil <- dados %>%
  group_by(Estado_Civil) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por estado civil
kable(agrupamento_estado_civil, caption = "Agrupamento por Estado Civil")

Agrupamento por Estado Civil
Estado_Civil	Quantidade
Casado	31
Divorciado	19
Outro	29
Solteiro	21

# Agrupamento por transporte
agrupamento_transporte <- dados %>%
  group_by(Transporte) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por transporte
kable(agrupamento_transporte, caption = "Agrupamento por Transporte")

Agrupamento por Transporte
Transporte	Quantidade
Bicicleta	31
Moto	24
Outro	27
Ônibus	18

# Agrupamento por localidade
agrupamento_localidade <- dados %>%
  group_by(Localidade) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por localidade
kable(agrupamento_localidade, caption = "Agrupamento por Localidade")

Agrupamento por Localidade
Localidade	Quantidade
Zona Rural	58
Zona Urbana	42

Questão 3 - Agrupe as variáveis por: faculdade e sexo, faculdade e estado civil, faculdade e transporte, faculdade e localidade.

Agrupamento por Faculdade e Sexo
Faculdade	Sexo	Quantidade
A	Feminino	12
A	Masculino	18
B	Feminino	14
B	Masculino	15
C	Feminino	17
C	Masculino	24

Agrupamento por Faculdade e Estado Civil
Faculdade	Estado_Civil	Quantidade
A	Casado	11
A	Divorciado	4
A	Outro	7
A	Solteiro	8
B	Casado	10
B	Divorciado	7
B	Outro	7
B	Solteiro	5
C	Casado	10
C	Divorciado	8
C	Outro	15
C	Solteiro	8

Agrupamento por Faculdade e Transporte
Faculdade	Transporte	Quantidade
A	Bicicleta	10
A	Moto	7
A	Outro	7
A	Ônibus	6
B	Bicicleta	8
B	Moto	7
B	Outro	6
B	Ônibus	8
C	Bicicleta	13
C	Moto	10
C	Outro	14
C	Ônibus	4

Agrupamento por Faculdade e Localidade
Faculdade	Localidade	Quantidade
A	Zona Rural	17
A	Zona Urbana	13
B	Zona Rural	20
B	Zona Urbana	9
C	Zona Rural	21
C	Zona Urbana	20

Questão 4 - Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (altura, peso, salário, idade).

# Carregar os pacotes necessários
library(dplyr)
library(moments) # Para assimetria e curtose

# Função para calcular as medidas estatísticas
calcular_medidas <- function(variavel) {
  lista_medidas <- list(
    Media = mean(variavel, na.rm = TRUE),
    Mediana = median(variavel, na.rm = TRUE),
    Moda = as.numeric(names(sort(table(variavel), decreasing = TRUE)[1])),
    Variancia = var(variavel, na.rm = TRUE),
    Desvio_Padrao = sd(variavel, na.rm = TRUE),
    Amplitude = max(variavel, na.rm = TRUE) - min(variavel, na.rm = TRUE),
    Assimetria = skewness(variavel, na.rm = TRUE),
    Curtose = kurtosis(variavel, na.rm = TRUE),
    Percentis = quantile(variavel, probs = c(0.25, 0.5, 0.75), na.rm = TRUE)
  )
  return(lista_medidas)
}

# Calcular medidas para Altura, Peso, Salário e Idade
medidas_altura <- calcular_medidas(dados$Altura)
medidas_peso <- calcular_medidas(dados$Peso)
medidas_salario <- calcular_medidas(dados$Salario)
medidas_idade <- calcular_medidas(dados$Idade)

# Criar um data frame com os resultados arredondados para 2 casas decimais
resultados <- data.frame(
  Variável = c("Altura", "Peso", "Salário", "Idade"),
  Média = round(c(medidas_altura$Media, medidas_peso$Media, medidas_salario$Media, medidas_idade$Media), 2),
  Mediana = round(c(medidas_altura$Mediana, medidas_peso$Mediana, medidas_salario$Mediana, medidas_idade$Mediana), 2),
  Moda = round(c(medidas_altura$Moda, medidas_peso$Moda, medidas_salario$Moda, medidas_idade$Moda), 2),
  Variância = round(c(medidas_altura$Variancia, medidas_peso$Variancia, medidas_salario$Variancia, medidas_idade$Variancia), 2),
  `Desvio Padrão` = round(c(medidas_altura$Desvio_Padrao, medidas_peso$Desvio_Padrao, medidas_salario$Desvio_Padrao, medidas_idade$Desvio_Padrao), 2),
  Amplitude = round(c(medidas_altura$Amplitude, medidas_peso$Amplitude, medidas_salario$Amplitude, medidas_idade$Amplitude), 2),
  Assimetria = round(c(medidas_altura$Assimetria, medidas_peso$Assimetria, medidas_salario$Assimetria, medidas_idade$Assimetria), 2),
  Curtose = round(c(medidas_altura$Curtose, medidas_peso$Curtose, medidas_salario$Curtose, medidas_idade$Curtose), 2),
  `Percentual 25%` = round(c(medidas_altura$Percentis[1], medidas_peso$Percentis[1], medidas_salario$Percentis[1], medidas_idade$Percentis[1]), 2),
  `Percentual 50%` = round(c(medidas_altura$Percentis[2], medidas_peso$Percentis[2], medidas_salario$Percentis[2], medidas_idade$Percentis[2]), 2),
  `Percentual 75%` = round(c(medidas_altura$Percentis[3], medidas_peso$Percentis[3], medidas_salario$Percentis[3], medidas_idade$Percentis[3]), 2)
)

# Exibir a tabela com as medidas
library(knitr)
kable(resultados, caption = "Medidas Descritivas das Variáveis")

Medidas Descritivas das Variáveis
Variável	Média	Mediana	Moda	Variância	Desvio.Padrão	Amplitude	Assimetria	Curtose	Percentual.25.	Percentual.50.	Percentual.75.
Altura	1.67	1.68	1.42	0.01	0.11	0.53	-0.04	2.74	1.60	1.68	1.74
Peso	68.65	70.00	48.00	155.54	12.47	45.00	-0.17	1.92	58.75	70.00	79.00
Salário	2.85	3.00	1.00	2.11	1.45	4.00	0.14	1.64	2.00	3.00	4.00
Idade	27.12	27.00	35.00	27.97	5.29	18.00	-0.13	1.90	23.00	27.00	32.00

A análise das Medidas Descritivas das Variáveis traz informações importantes sobre Altura, Peso, Salário e Idade, baseadas nas médias, dispersão e distribuição dos dados. A seguir, os principais pontos:

1 - Média e Mediana:

A média e a mediana são bem próximas para todas as variáveis, indicando distribuições equilibradas. Por exemplo, a altura tem uma média de 1.67m e uma mediana de 1.68m.
A moda mostra os valores mais comuns. No caso do salário, a moda é 1.00, o que sugere que muitas pessoas ganham um salário mais baixo.

2 - Dispersão e Variação:

O desvio padrão e a variância indicam a dispersão dos dados. O peso tem a maior variação (desvio padrão de 12.47 e variância de 155.54), enquanto a altura é a variável mais estável (desvio padrão de 0.11 e variância de 0.01).
A amplitude (diferença entre o valor máximo e o mínimo) destaca o peso como a variável com maior variação (45 kg), enquanto a altura tem a menor (0.53m).

3 - Assimetria e Curtose:

A assimetria de todas as variáveis é próxima de zero, indicando que as distribuições são bem equilibradas. Pequenas variações, como -0.17 para o peso, sugerem uma leve inclinação à esquerda.
A curtose maior que 1 para todas as variáveis mostra distribuições leptocúrticas, ou seja, mais concentradas em torno da média e com caudas mais finas.

4 - Distribuição Percentil:

Os percentis mostram como os dados estão distribuídos em quartis: - Para a altura, 25% das pessoas têm altura de até 1.60m, 50% têm até 1.68m, e 75% têm até 1.74m. - No peso, 75% dos valores estão abaixo de 79 kg, sugerindo que pesos mais altos são menos comuns.

Questão 5 - Calcule o índice de massa corporal agrupando por faculdade e sexo e compare os resultados utilizando as medidas descritivas (média, mediana, moda, variância, desvio padrão, assimetria, curtose e coeficiente de variação).

# Calcular o Índice de Massa Corporal (IMC)
dados <- dados %>%
  mutate(IMC = Peso / (Altura^2))

# Agrupamento por Faculdade e Sexo, e cálculo das medidas descritivas
resultado_imc <- dados %>%
  group_by(Faculdade, Sexo) %>%
  summarise(
    Media = mean(IMC, na.rm = TRUE),
    Mediana = median(IMC, na.rm = TRUE),
    Moda = as.numeric(names(sort(table(IMC), decreasing = TRUE)[1])),
    Variancia = var(IMC, na.rm = TRUE),
    Desvio_Padrao = sd(IMC, na.rm = TRUE),
    Assimetria = e1071::skewness(IMC, na.rm = TRUE),
    Curtose = e1071::kurtosis(IMC, na.rm = TRUE),
    Coeficiente_Variacao = (sd(IMC, na.rm = TRUE) / mean(IMC, na.rm = TRUE)) * 100
  )

# Limitar os resultados a duas casas decimais
resultado_imc <- resultado_imc %>%
  mutate(across(where(is.numeric), ~ round(., 2)))

# Exibir a tabela
library(knitr)
kable(resultado_imc, caption = "Medidas Descritivas do IMC Agrupadas por Faculdade e Sexo")

Medidas Descritivas do IMC Agrupadas por Faculdade e Sexo
Faculdade	Sexo	Media	Mediana	Moda	Variancia	Desvio_Padrao	Assimetria	Curtose	Coeficiente_Variacao
A	Feminino	24.38	25.25	12.91	48.46	6.96	0.09	-0.88	28.55
A	Masculino	27.85	26.46	18.72	37.63	6.13	0.09	-1.40	22.03
B	Feminino	23.70	24.11	15.32	18.36	4.28	-0.34	-1.04	18.08
B	Masculino	22.42	22.42	17.24	15.68	3.96	0.37	-0.98	17.66
C	Feminino	25.13	25.92	16.56	27.27	5.22	0.29	-0.37	20.78
C	Masculino	24.35	25.35	15.40	18.46	4.30	-0.17	-0.40	17.64

1 - Tendência Central:

A média e a mediana do IMC nos diferentes grupos são bastante próximas, mostrando distribuições bem equilibradas.
Os homens da faculdade A apresentam o IMC médio mais alto (27.85), enquanto os homens da faculdade B têm o mais baixo (22.42).
A moda varia significativamente entre os grupos, com as mulheres da faculdade A tendo o menor valor (12.91) e os homens da faculdade A o maior (18.72).

2 - Dispersão e Variabilidade:

O desvio padrão e a variância indicam que o IMC é mais disperso entre as mulheres da faculdade A (variância de 48.46, desvio padrão de 6.96) e menos entre os homens da faculdade B (variância de 15.68, desvio padrão de 3.96).
O coeficiente de variação (CV) é maior para as mulheres da faculdade A (28.55%) e menor para os homens da faculdade B (17.66%), destacando que o IMC varia mais no primeiro grupo.

3 - Assimetria:

Grande parte dos grupos apresenta uma assimetria próxima de zero, indicando distribuições quase simétricas.
Os homens da faculdade B apresentam uma assimetria positiva leve (0.37), enquanto as mulheres da faculdade B mostram uma assimetria negativa (-0.34).

4 - Curtose:

Com valores negativos de curtose em todos os grupos, as distribuições são consideradas platicúrticas, com menos concentração em torno da média e caudas mais suaves.

Comparações Gerais:

Os homens da faculdade A são aqueles com os IMCs mais altos em relação aos demais grupos, sugerindo maior proporção de massa corporal em relação à altura.
As mulheres da faculdade A têm a maior variabilidade no IMC, o que pode refletir maior diversidade entre elas.
Em geral, os homens apresentam um coeficiente de variação mais baixo em comparação às mulheres, indicando maior consistência nos valores do IMC dentro de cada faculdade.

Questão 6 - Tabelas Agrupadas com Cores

# Carregar o pacote necessário
library(kableExtra)

# Função para criar uma tabela com cores
tabela_colorida <- function(df, titulo) {
  df %>%
    kable(caption = titulo, align = "c") %>%
    kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                  full_width = TRUE) %>%
    row_spec(0, bold = TRUE, background = "#FFB6C1") # Cabeçalho com cor diferenciada
   
}

# 1. Agrupamento por Faculdade e Sexo
agrupamento_faculdade_sexo <- dados %>%
  group_by(Faculdade, Sexo) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_sexo, "Agrupamento por Faculdade e Sexo")

Agrupamento por Faculdade e Sexo
Faculdade	Sexo	Quantidade
A	Feminino	12
A	Masculino	18
B	Feminino	14
B	Masculino	15
C	Feminino	17
C	Masculino	24

A distribuição por instituição revela uma maior presença masculina, com destaque para a faculdade C, que conta com o maior número de participantes (41 pessoas).
A faculdade A tem a menor quantidade de indivíduos (30 pessoas) e apresenta a maior disparidade entre os sexos.
Por outro lado, a faculdade B se destaca por ser a mais equilibrada, com uma divisão quase igualitária entre homens e mulheres.

# 2. Agrupamento por Faculdade e Estado Civil
agrupamento_faculdade_estado_civil <- dados %>%
  group_by(Faculdade, Estado_Civil) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_estado_civil, "Agrupamento por Faculdade e Estado Civil")

Agrupamento por Faculdade e Estado Civil
Faculdade	Estado_Civil	Quantidade
A	Casado	11
A	Divorciado	4
A	Outro	7
A	Solteiro	8
B	Casado	10
B	Divorciado	7
B	Outro	7
B	Solteiro	5
C	Casado	10
C	Divorciado	8
C	Outro	15
C	Solteiro	8

A análise do estado civil apresenta variações entre as instituições. Na faculdade A, a maioria das pessoas é casada (11), enquanto o grupo de divorciados é o menor (4). Na faculdade B, há uma distribuição mais equilibrada entre as categorias, com o número de solteiros sendo o menor (5). Já na faculdade C, a opção “Outro” se destaca como a mais comum (15), seguida pelos casados (10) e divorciados (8).

# 3. Agrupamento por Faculdade e Transporte
agrupamento_faculdade_transporte <- dados %>%
  group_by(Faculdade, Transporte) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_transporte, "Agrupamento por Faculdade e Transporte")

Agrupamento por Faculdade e Transporte
Faculdade	Transporte	Quantidade
A	Bicicleta	10
A	Moto	7
A	Outro	7
A	Ônibus	6
B	Bicicleta	8
B	Moto	7
B	Outro	6
B	Ônibus	8
C	Bicicleta	13
C	Moto	10
C	Outro	14
C	Ônibus	4

Na análise dos meios de transporte, observa-se que na faculdade A, a bicicleta é o transporte mais popular (10), seguida pela moto e pela categoria outro (7 cada). Na faculdade B, os meios de transporte estão mais equilibrados, com bicicleta e ônibus sendo os mais comuns (8 cada). Já na faculdade C, o transporte classificado como outro é o mais escolhido (14), seguido de perto pela bicicleta (13), enquanto o ônibus é o menos utilizado (4).

# 4. Agrupamento por Faculdade e Localidade
agrupamento_faculdade_localidade <- dados %>%
  group_by(Faculdade, Localidade) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_localidade, "Agrupamento por Faculdade e Localidade")

Agrupamento por Faculdade e Localidade
Faculdade	Localidade	Quantidade
A	Zona Rural	17
A	Zona Urbana	13
B	Zona Rural	20
B	Zona Urbana	9
C	Zona Rural	21
C	Zona Urbana	20

A análise da localidade revela que, na faculdade A, a zona rural é a mais frequente, com um total de 17 pessoas, enquanto na zona urbana o número é menor, com 13 participantes. Já na faculdade B, a zona rural também se destaca com 20 pessoas, enquanto a zona urbana é a menos representada, com apenas 9 indivíduos. Por outro lado, na faculdade C, os números são bem próximos, com 21 pessoas na zona rural e 20 na zona urbana, indicando uma distribuição quase equilibrada entre as duas áreas.

Questão 7 - Faça os gráficos de barras para as variáveis (sexo, estado civil, filhos, transporte, localidade) separado por faculdade.

# Carregar o pacote necessário
library(ggplot2)
library(dplyr)

# 1. Sexo
grafico_sexo <- ggplot(dados, aes(x = Sexo, fill = Sexo)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Sexo", x = "Sexo", y = "Contagem") +
  theme_minimal() +
  scale_fill_manual(values = c("#FFB6C1", "#87CEFA")) # Rosa claro e azul claro

# 2. Estado Civil
grafico_estado_civil <- ggplot(dados, aes(x = Estado_Civil, fill = Estado_Civil)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Estado Civil", x = "Estado Civil", y = "Contagem") +
  theme_minimal() +
  scale_fill_manual(values = c("#FFCC99", "#B0E57C", "#D1A7D2", "#FFED87")) # Tons suaves

# 3. Filhos
grafico_filhos <- ggplot(dados, aes(x = as.factor(Filhos), fill = as.factor(Filhos))) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Filhos", x = "Quantidade de Filhos", y = "Contagem") +
  theme_minimal() +
  scale_fill_brewer(palette = "Pastel1") # Paleta de cores pastéis

# 4. Transporte
grafico_transporte <- ggplot(dados, aes(x = Transporte, fill = Transporte)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Transporte", x = "Transporte", y = "Contagem") +
  theme_minimal() +
  scale_fill_manual(values = c("#FFCCCB", "#D3F8E2", "#ADD8E6", "#D8BFD8", "#E0FFFF")) # Tons suaves

# 5. Localidade
grafico_localidade <- ggplot(dados, aes(x = Localidade, fill = Localidade)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Localidade", x = "Localidade", y = "Contagem") +
  theme_minimal() +
  scale_fill_brewer(palette = "Pastel2") # Paleta de cores pastéis

print(grafico_sexo)

O gráfico de barras mostra que os homens predominam nas três faculdades, especialmente na faculdade C, onde a diferença entre os sexos é maior. Esse padrão sugere que, nos grupos analisados, há mais homens do que mulheres, o que pode refletir características específicas das áreas de estudo ou influências sociais e culturais.

print(grafico_estado_civil)

O gráfico de barras mostra a distribuição do estado civil nas faculdades. Os casados são predominantes em todas, enquanto os divorciados e a categoria “outro” variam mais entre os grupos. A proporção de solteiros é menor em algumas faculdades, o que pode refletir diferenças de faixa etária ou contextos sociais específicos.

print(grafico_filhos)

O gráfico de barras mostra que, nas faculdades A e C, a maioria tem 2 filhos, indicando uma população em estágios mais avançados da vida familiar. Na faculdade B, a maior parte não tem filhos, sugerindo uma população mais jovem. Na faculdade A, o grupo sem filhos é menor que o de 2 filhos e empata com o de 1 filho, indicando uma distribuição equilibrada entre essas categorias.

print(grafico_transporte)

O gráfico de barras mostra as diferenças no uso de transporte nas faculdades. Na A, a bicicleta é a mais usada, talvez pela proximidade ou preferência por meios econômicos. Na B, bicicleta e ônibus têm uso equilibrado. Na C, o uso de bicicleta e “Outro” se destaca, enquanto o ônibus é menos utilizado. Essas variações podem refletir diferenças geográficas e socioeconômicas dos estudantes.

print(grafico_localidade)

O gráfico de barras mostra a distribuição de estudantes por localidade nas faculdades. Na A, a zona rural é mais representada, indicando que a maioria dos alunos vem de áreas afastadas. Na B, a zona rural é ainda mais predominante. Na C, a distribuição é quase igual entre zona rural e urbana, mostrando maior diversidade geográfica.

Questão 8 - Faça os histogramas para as variáveis (idade, altura, peso, exercício, salário) separado por faculdade.

# Carregar a biblioteca necessária
library(ggplot2)

# 1. Idade
grafico_idade <- ggplot(dados, aes(x = Idade, fill = Faculdade)) +
  geom_histogram(binwidth = 1, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Idade", x = "Idade", y = "Frequência") +
  theme_minimal()

# 2. Altura
grafico_altura <- ggplot(dados, aes(x = Altura, fill = Faculdade)) +
  geom_histogram(binwidth = 0.2, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Altura", x = "Altura (cm)", y = "Frequência") +
  theme_minimal()
# 3. Peso
grafico_peso <- ggplot(dados, aes(x = Peso, fill = Faculdade)) +
  geom_histogram(binwidth = 5, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Peso", x = "Peso (kg)", y = "Frequência") +
  theme_minimal()

# 4. Exercício
grafico_exercicio <- ggplot(dados, aes(x = Exercicio, fill = Faculdade)) +
  geom_histogram(binwidth = 1, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Exercício", x = "Exercício (freqüência)", y = "Frequência") +
  theme_minimal()

# 5. Salário
grafico_salario <- ggplot(dados, aes(x = factor(Salario), fill = Faculdade)) +  # Usando 'factor' para tratar como variável discreta
  geom_bar(alpha = 0.7, position = "dodge") +  # Usando geom_bar para contagem de salários
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição de Salário", x = "Salário (R$)", y = "Frequência") +
  theme_minimal() +
  theme(legend.position = "bottom")

print(grafico_idade)

O histograma de idade mostra que a maioria dos estudantes tem 27 anos, com a maioria concentrada entre 23 e 32 anos. A distribuição é relativamente uniforme, sem grandes variações para faixas etárias muito jovens ou mais velhas, indicando um perfil etário homogêneo nas faculdades.

print(grafico_altura)

O histograma de altura mostra que a maioria dos estudantes tem entre 1.60m e 1.75m de altura, com uma distribuição concentrada nessa faixa. A distribuição é equilibrada, sem picos significativos em alturas muito extremas.

print(grafico_peso)

O histograma de peso mostra que a maioria dos estudantes pesa entre 60kg e 80kg, com uma distribuição simétrica e dispersão moderada. Embora a maioria tenha peso médio, há variação, com alguns pesando menos de 60kg ou mais de 80kg.

print(grafico_exercicio)

O gráfico de exercício físico mostra que a maioria dos estudantes pratica atividades físicas, com destaque para a prática regular nas faculdades A e C. Na faculdade B, a distribuição entre praticantes e não praticantes é mais equilibrada, indicando variações na frequência e intensidade dos exercícios entre as faculdades.

print(grafico_salario)

O gráfico de salários mostra que, na faculdade A, a maioria dos estudantes recebe até 2 salários mínimos, enquanto na faculdade B, a distribuição é mais equilibrada entre 2 a 3 salários. Já na faculdade C, os alunos tendem a ganhar entre 3 a 4 salários, sugerindo uma faixa salarial mais alta. Apesar da concentração em faixas salariais baixas, a variação salarial é visível em todas as faculdades.

Questão 9 - Faça o gráfico de pontos para as variáveis (peso x idade, peso x altura, peso x exercício) separado por sexo e separado por faculdade.

# Carregar as bibliotecas necessárias
library(ggplot2)
library(dplyr)

# Gráfico de pontos: Peso x Idade separado por Sexo e Faculdade
ggplot(dados, aes(x = Idade, y = Peso, color = Sexo)) +
  geom_point() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso x Idade",
       x = "Idade",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de dispersão entre peso e idade revela que o peso tende a aumentar até uma certa idade, depois estabiliza ou diminui. Também é possível identificar padrões e outliers, como pessoas com peso muito diferente da média para sua faixa etária. Isso ajuda a entender a relação entre as duas variáveis e a identificar tendências ou comportamentos específicos.

# Gráfico de pontos: Peso x Altura separado por Sexo e Faculdade
ggplot(dados, aes(x = Altura, y = Peso, color = Sexo)) +
  geom_point() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso x Altura",
       x = "Altura",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de dispersão entre peso e altura destaca a relação entre essas duas variáveis. Em geral, pessoas mais altas tendem a ter um peso maior, o que é esperado devido à maior massa corporal associada à estatura elevada. No entanto, também há valores atípicos que não seguem essa tendência. Esse gráfico permite identificar padrões de correlação entre peso e altura, além de variações fora do comum.

# Gráfico de pontos: Peso x Exercicio separado por Sexo e Faculdade
ggplot(dados, aes(x = Exercicio, y = Peso, color = Sexo)) +
  geom_point() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso x Exercicio",
       x = "Exercicio",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de dispersão entre peso e exercício indica uma possível relação entre a prática de atividades físicas e o peso corporal. Em geral, observa-se que indivíduos que praticam exercícios regularmente tendem a apresentar um peso mais estável, sugerindo benefícios da atividade física para a manutenção do peso. No entanto, há variações significativas, mostrando que o exercício não é o único fator que influencia o peso, com algumas pessoas fora desse padrão.

Questão 10 - Faça os boxplots para as variáveis (idade por sexo, peso por sexo, salário por sexo, exercício por sexo) separado por faculdade.

# Carregar as bibliotecas necessárias
library(ggplot2)
library(dplyr)

# Boxplot: Idade por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Idade, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Idade por Sexo",
       x = "Sexo",
       y = "Idade") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de boxplot de idade por sexo mostra como as idades estão distribuídas entre homens e mulheres. As medianas de idade são próximas para ambos os grupos, mas os homens apresentam uma maior variação, evidenciada pelo intervalo interquartil ligeiramente mais amplo. Além disso, há alguns valores fora do padrão esperado em ambos os sexos, indicando idades que se distanciam da maioria. Esse gráfico destaca as diferenças na dispersão das idades entre os grupos analisados.

# Boxplot: Peso por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Peso, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso por Sexo",
       x = "Sexo",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de peso por sexo mostra que, em geral, os homens possuem pesos médios maiores do que as mulheres, como indicado pela mediana de cada grupo. A variação nos pesos é mais evidente entre os homens, que apresentam uma dispersão maior e alguns valores fora do padrão comum com pesos mais altos. Já para as mulheres, os pesos são mais concentrados em torno da mediana, com menos casos extremos. Essas diferenças podem refletir características biológicas ou variações na composição corporal entre os sexos.

# Boxplot: Salário por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Salario, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Salário por Sexo",
       x = "Sexo",
       y = "Salário") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de salário por sexo destaca como os salários se distribuem entre homens e mulheres nas faculdades. Observa-se que os homens geralmente apresentam médias salariais superiores às das mulheres. Além disso, a faixa salarial masculina é mais ampla, indicando maior dispersão, enquanto os salários das mulheres são mais concentrados em torno de valores intermediários, com menos extremos. Esses dados podem sugerir diferenças relacionadas a áreas de atuação, cargos ocupados ou outras variáveis que influenciam a remuneração.

# Boxplot: Exercício por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Exercicio, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Exercício por Sexo",
       x = "Sexo",
       y = "Exercício") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de exercício por sexo analisa os hábitos de atividade física entre homens e mulheres. A prática de exercícios é bem equilibrada entre os dois grupos, com diferenças pouco expressivas na frequência. Tanto homens quanto mulheres apresentam níveis comparáveis de participação em atividades físicas, sugerindo que o exercício é amplamente praticado de forma semelhante entre os sexos. Esses dados apontam para um comportamento homogêneo em relação à prática de exercícios físicos dentro da amostra estudada.

Questão 11 - Faça o mapa de calor para matriz de correlação entre as variáveis (peso, altura, idade e exercício) separado por sexo e separado por faculdade.

# Carregar as bibliotecas necessárias
library(ggplot2)
library(dplyr)
library(corrplot)
library(tidyr)

# Filtrar os dados por sexo e faculdade, calcular a matriz de correlação e criar o mapa de calor

# Função para criar o mapa de calor para uma faculdade e sexo específico
criar_mapa_calor <- function(dados, sexo, faculdade) {
  # Filtrar dados por sexo e faculdade
  dados_filtrados <- dados %>%
    filter(Sexo == sexo & Faculdade == faculdade) %>%
    select(Peso, Altura, Idade, Exercicio)  # Selecionar as variáveis de interesse
  
  # Calcular a matriz de correlação
  mat_cor <- cor(dados_filtrados, use = "complete.obs")
  
  # Criar o mapa de calor
  corrplot(mat_cor, 
           method = "color", 
           col = colorRampPalette(c("blue", "white", "red"))(200), 
           title = paste("Correlação entre Variáveis -", sexo, " - Faculdade", faculdade),
           tl.col = "black", 
           tl.cex = 1, 
           cl.cex = 1, 
           mar = c(0, 0, 2, 0))
}

# Criar mapas de calor separados por sexo e faculdade
# Para o sexo Masculino e faculdade A
criar_mapa_calor(dados, "Masculino", "A")

O mapa de calor referente ao sexo masculino na faculdade A explora as relações entre Idade, Peso e Altura. As cores no gráfico representam a Altura, variando em intensidade conforme as combinações dessas variáveis. A análise mostra que a Altura se concentra em faixas etárias intermediárias, enquanto o Peso apresenta uma tendência de aumento proporcional à Altura. Esse tipo de visualização facilita a identificação de padrões claros no grupo masculino da faculdade A, destacando agrupamentos e valores discrepantes, além de apontar interações significativas entre as variáveis analisadas.

# Para o sexo Masculino e faculdade B
criar_mapa_calor(dados, "Masculino", "B")

O mapa de calor para o sexo masculino na faculdade B exibe a distribuição das variáveis Idade, Peso e Altura. As cores no gráfico representam a intensidade da Altura, permitindo observar como ela varia conforme as faixas de Idade e Peso. A análise mostra que a Altura está mais concentrada em algumas faixas etárias, com o Peso tendendo a aumentar à medida que a Idade cresce. Esse gráfico ajuda a identificar padrões e tendências relacionadas ao crescimento físico no grupo masculino da faculdade B, além de evidenciar correlações entre as variáveis e permitir a visualização de agrupamentos ou valores discrepantes.

# Para o sexo Masculino e faculdade C
criar_mapa_calor(dados, "Masculino", "C")

O mapa de calor para os homens da faculdade C apresenta a distribuição das variáveis Idade, Peso e Altura. As cores indicam a intensidade da Altura, permitindo visualizar como ela varia em relação às faixas de Idade e Peso. A análise revela que, para os homens dessa faculdade, a Altura tende a ser mais uniforme, sem grandes variações entre as faixas etárias. Em contrapartida, o Peso apresenta um aumento gradual conforme a Idade avança. Este mapa é uma ferramenta útil para identificar padrões no crescimento físico e variações nas características dos indivíduos.

# Para o sexo Feminino e faculdade A
criar_mapa_calor(dados, "Feminino", "A")

O mapa de calor para o sexo feminino na faculdade A mostra como as variáveis Idade, Peso e Altura estão inter-relacionadas. A intensidade das cores reflete a Altura, evidenciando como ela varia conforme as diferentes faixas de Idade e Peso. A análise indica que as mulheres mais jovens da faculdade A tendem a apresentar Altura e Peso mais baixos, enquanto as mulheres de idade mais avançada apresentam uma maior diversidade em ambas as variáveis. Esse gráfico oferece uma visão clara sobre como a Idade afeta o Peso e a Altura no grupo feminino, destacando possíveis tendências e variações entre as diferentes faixas etárias.

# Para o sexo Feminino e faculdade B
criar_mapa_calor(dados, "Feminino", "B")

O mapa de calor para o sexo feminino na faculdade B revela a distribuição das variáveis Idade, Peso e Altura. As cores indicam a intensidade da Altura, mostrando como ela se altera conforme as faixas de Idade e Peso. A análise demonstra que, nas mulheres da faculdade B, a maior parte está concentrada em faixas etárias médias, onde a Altura é mais comum. O Peso tende a aumentar conforme a Idade, especialmente entre as mulheres de idade intermediária. Esse padrão sugere que o crescimento do Peso está fortemente ligado ao aumento da Idade. O gráfico ajuda a identificar essas relações e variações ao longo das diferentes faixas etárias.

# Para o sexo Feminino e faculdade C
criar_mapa_calor(dados, "Feminino", "C")

O mapa de calor para o sexo feminino na faculdade C mostra a relação entre Idade, Peso e Altura. As cores indicam a intensidade de cada variável dentro das diferentes faixas de Idade e Peso. Para as mulheres da faculdade C, observa-se uma maior concentração de indivíduos com Altura média e Peso variado, com as faixas etárias mais jovens tendendo a ter um Peso um pouco mais baixo. No entanto, há um aumento de Peso nas faixas etárias mais avançadas, com uma distribuição relativamente uniforme de Altura ao longo das idades. O mapa de calor evidencia que, na faculdade C, o aumento de Idade está associado a uma maior variabilidade no Peso, mas sem grandes variações na Altura.

Relatório Visualização de Dados

Marilia Clara da Silva Ferreira - CD01 - Manhã

2024-11-19