Introdução

Este relatório apresenta uma análise detalhada dos dados coletados em um estudo realizado na Universidade Estadual da Paraíba (UEPB). O objetivo principal é explorar diferentes aspectos relacionados às características dos indivíduos, como distribuição por sexo, estado civil, transporte utilizado, localidade, além de indicadores como Índice de Massa Corporal (IMC) e variáveis socioeconômicas.
A análise foi conduzida por meio de técnicas estatísticas descritivas e representações gráficas, com destaque para tabelas organizadas e estilizadas que facilitam a interpretação dos resultados. Além disso, medidas de tendência central, dispersão, assimetria e curtose foram calculadas para variáveis contínuas e discretas, possibilitando uma visão abrangente sobre os dados.
Este documento se destina a proporcionar insights relevantes sobre os padrões e tendências observados, além de servir como material de apoio para futuras tomadas de decisão e estudos acadêmicos.

# Carregamento dos dados
library(dplyr)
library(readxl)

# Carregar o arquivo Excel
dados <- read_excel("C:/Users/rafae/OneDrive/Documentos/faculdade.xlsx")

Questão 1 - Classificação das Variáveis

As variáveis do arquivo foram organizadas em categorias de acordo com suas características. As variáveis qualitativas nominais, como Faculdade, Sexo, Estado Civil, Transporte e Localidade, são categóricas e não possuem uma ordem natural. Já as qualitativas ordinais, como Exercício e Salário, apresentam uma hierarquia ou ordem entre os valores. As variáveis quantitativas discretas, como Idade e Filhos, assumem valores inteiros e contáveis, enquanto as quantitativas contínuas, como Altura e Peso, podem assumir qualquer valor dentro de um intervalo contínuo. Essa classificação é essencial para direcionar as análises estatísticas de forma adequada e precisa.

Questão 2 - Agrupamento por Faculdade

agrupamento_faculdade <- dados %>%
  group_by(Faculdade) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por faculdade
library(knitr)
kable(agrupamento_faculdade, caption = "Agrupamento por Faculdade")

Agrupamento por Faculdade
Faculdade	Quantidade
A	30
B	29
C	41

# Agrupamento por sexo
agrupamento_sexo <- dados %>%
  group_by(Sexo) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por sexo
kable(agrupamento_sexo, caption = "Agrupamento por Sexo")

Agrupamento por Sexo
Sexo	Quantidade
Feminino	43
Masculino	57

# Agrupamento por estado civil
agrupamento_estado_civil <- dados %>%
  group_by(Estado_Civil) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por estado civil
kable(agrupamento_estado_civil, caption = "Agrupamento por Estado Civil")

Agrupamento por Estado Civil
Estado_Civil	Quantidade
Casado	31
Divorciado	19
Outro	29
Solteiro	21

# Agrupamento por transporte
agrupamento_transporte <- dados %>%
  group_by(Transporte) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por transporte
kable(agrupamento_transporte, caption = "Agrupamento por Transporte")

Agrupamento por Transporte
Transporte	Quantidade
Bicicleta	31
Moto	24
Outro	27
Ônibus	18

# Agrupamento por localidade
agrupamento_localidade <- dados %>%
  group_by(Localidade) %>%
  summarise(Quantidade = n())

# Exibir a tabela de agrupamento por localidade
kable(agrupamento_localidade, caption = "Agrupamento por Localidade")

Agrupamento por Localidade
Localidade	Quantidade
Zona Rural	58
Zona Urbana	42

Questão 3 - Agrupamento de Variáveis

Agrupamento por Faculdade e Sexo
Faculdade	Sexo	Quantidade
A	Feminino	12
A	Masculino	18
B	Feminino	14
B	Masculino	15
C	Feminino	17
C	Masculino	24

Agrupamento por Faculdade e Estado Civil
Faculdade	Estado_Civil	Quantidade
A	Casado	11
A	Divorciado	4
A	Outro	7
A	Solteiro	8
B	Casado	10
B	Divorciado	7
B	Outro	7
B	Solteiro	5
C	Casado	10
C	Divorciado	8
C	Outro	15
C	Solteiro	8

Agrupamento por Faculdade e Transporte
Faculdade	Transporte	Quantidade
A	Bicicleta	10
A	Moto	7
A	Outro	7
A	Ônibus	6
B	Bicicleta	8
B	Moto	7
B	Outro	6
B	Ônibus	8
C	Bicicleta	13
C	Moto	10
C	Outro	14
C	Ônibus	4

Agrupamento por Faculdade e Localidade
Faculdade	Localidade	Quantidade
A	Zona Rural	17
A	Zona Urbana	13
B	Zona Rural	20
B	Zona Urbana	9
C	Zona Rural	21
C	Zona Urbana	20

Questão 4 - Medidas Estatísticas

# Carregar os pacotes necessários
library(dplyr)
library(moments) # Para assimetria e curtose

# Função para calcular as medidas estatísticas
calcular_medidas <- function(variavel) {
  lista_medidas <- list(
    Media = mean(variavel, na.rm = TRUE),
    Mediana = median(variavel, na.rm = TRUE),
    Moda = as.numeric(names(sort(table(variavel), decreasing = TRUE)[1])),
    Variancia = var(variavel, na.rm = TRUE),
    Desvio_Padrao = sd(variavel, na.rm = TRUE),
    Amplitude = max(variavel, na.rm = TRUE) - min(variavel, na.rm = TRUE),
    Assimetria = skewness(variavel, na.rm = TRUE),
    Curtose = kurtosis(variavel, na.rm = TRUE),
    Percentis = quantile(variavel, probs = c(0.25, 0.5, 0.75), na.rm = TRUE)
  )
  return(lista_medidas)
}

# Calcular medidas para Altura, Peso, Salário e Idade
medidas_altura <- calcular_medidas(dados$Altura)
medidas_peso <- calcular_medidas(dados$Peso)
medidas_salario <- calcular_medidas(dados$Salario)
medidas_idade <- calcular_medidas(dados$Idade)

# Criar um data frame com os resultados arredondados para 2 casas decimais
resultados <- data.frame(
  Variável = c("Altura", "Peso", "Salário", "Idade"),
  Média = round(c(medidas_altura$Media, medidas_peso$Media, medidas_salario$Media, medidas_idade$Media), 2),
  Mediana = round(c(medidas_altura$Mediana, medidas_peso$Mediana, medidas_salario$Mediana, medidas_idade$Mediana), 2),
  Moda = round(c(medidas_altura$Moda, medidas_peso$Moda, medidas_salario$Moda, medidas_idade$Moda), 2),
  Variância = round(c(medidas_altura$Variancia, medidas_peso$Variancia, medidas_salario$Variancia, medidas_idade$Variancia), 2),
  `Desvio Padrão` = round(c(medidas_altura$Desvio_Padrao, medidas_peso$Desvio_Padrao, medidas_salario$Desvio_Padrao, medidas_idade$Desvio_Padrao), 2),
  Amplitude = round(c(medidas_altura$Amplitude, medidas_peso$Amplitude, medidas_salario$Amplitude, medidas_idade$Amplitude), 2),
  Assimetria = round(c(medidas_altura$Assimetria, medidas_peso$Assimetria, medidas_salario$Assimetria, medidas_idade$Assimetria), 2),
  Curtose = round(c(medidas_altura$Curtose, medidas_peso$Curtose, medidas_salario$Curtose, medidas_idade$Curtose), 2),
  `Percentual 25%` = round(c(medidas_altura$Percentis[1], medidas_peso$Percentis[1], medidas_salario$Percentis[1], medidas_idade$Percentis[1]), 2),
  `Percentual 50%` = round(c(medidas_altura$Percentis[2], medidas_peso$Percentis[2], medidas_salario$Percentis[2], medidas_idade$Percentis[2]), 2),
  `Percentual 75%` = round(c(medidas_altura$Percentis[3], medidas_peso$Percentis[3], medidas_salario$Percentis[3], medidas_idade$Percentis[3]), 2)
)

# Exibir a tabela com as medidas
library(knitr)
kable(resultados, caption = "Medidas Descritivas das Variáveis")

Medidas Descritivas das Variáveis
Variável	Média	Mediana	Moda	Variância	Desvio.Padrão	Amplitude	Assimetria	Curtose	Percentual.25.	Percentual.50.	Percentual.75.
Altura	1.67	1.68	1.42	0.01	0.11	0.53	-0.04	2.74	1.60	1.68	1.74
Peso	68.65	70.00	48.00	155.54	12.47	45.00	-0.17	1.92	58.75	70.00	79.00
Salário	2.85	3.00	1.00	2.11	1.45	4.00	0.14	1.64	2.00	3.00	4.00
Idade	27.12	27.00	35.00	27.97	5.29	18.00	-0.13	1.90	23.00	27.00	32.00

A análise da tabela das Medidas Descritivas das Variáveis apresenta informações relevantes sobre os atributos Altura, Peso, Salário e Idade, com base em suas medidas de tendência central, dispersão e distribuição. A seguir, os principais destaques:

1 - Tendência Central:

A média e a mediana são muito próximas para todas as variáveis, indicando que os dados possuem distribuições relativamente simétricas. Por exemplo, a altura tem uma média de 1.67m e uma mediana de 1.68m.
A moda, por sua vez, indica os valores mais frequentes. Por exemplo, a moda para o salário é 1.00, o que pode indicar um grande número de pessoas em uma faixa salarial mais baixa.

2 - Dispersão e Variabilidade:

O desvio padrão e a variância mostram a dispersão dos dados. O peso apresenta a maior variabilidade (desvio padrão de 12.47 e variância de 155.54), enquanto a altura é a variável menos dispersa (desvio padrão de 0.11 e variância de 0.01).
A amplitude (diferença entre os valores máximo e mínimo) destaca o peso como a variável com maior variação (45 kg), enquanto a altura apresenta a menor (0.53m).

3 - Assimetria e Curtose:

A assimetria de todas as variáveis é próxima de zero, indicando que suas distribuições são aproximadamente simétricas. Pequenas variações como -0.17 para o peso sugerem leve inclinação à esquerda.
A curtose maior que 1 para todas as variáveis indica distribuições leptocúrticas, ou seja, mais concentradas em torno da média com caudas mais finas.

4 - Separatrizes:

Os percentis mostram a distribuição dos dados em quartis:
Para a altura, 25% das pessoas têm altura menor ou igual a 1.60m, 50% menor ou igual a 1.68m, e 75% menor ou igual a 1.74m.
No peso, 75% dos valores estão abaixo de 79 kg, sugerindo que pesos maiores são casos menos frequentes.

Questão 5 - Indice de Massa Corporal com Tabela

# Calcular o Índice de Massa Corporal (IMC)
dados <- dados %>%
  mutate(IMC = Peso / (Altura^2))

# Agrupamento por Faculdade e Sexo, e cálculo das medidas descritivas
resultado_imc <- dados %>%
  group_by(Faculdade, Sexo) %>%
  summarise(
    Media = mean(IMC, na.rm = TRUE),
    Mediana = median(IMC, na.rm = TRUE),
    Moda = as.numeric(names(sort(table(IMC), decreasing = TRUE)[1])),
    Variancia = var(IMC, na.rm = TRUE),
    Desvio_Padrao = sd(IMC, na.rm = TRUE),
    Assimetria = e1071::skewness(IMC, na.rm = TRUE),
    Curtose = e1071::kurtosis(IMC, na.rm = TRUE),
    Coeficiente_Variacao = (sd(IMC, na.rm = TRUE) / mean(IMC, na.rm = TRUE)) * 100
  )

# Limitar os resultados a duas casas decimais
resultado_imc <- resultado_imc %>%
  mutate(across(where(is.numeric), ~ round(., 2)))

# Exibir a tabela
library(knitr)
kable(resultado_imc, caption = "Medidas Descritivas do IMC Agrupadas por Faculdade e Sexo")

Medidas Descritivas do IMC Agrupadas por Faculdade e Sexo
Faculdade	Sexo	Media	Mediana	Moda	Variancia	Desvio_Padrao	Assimetria	Curtose	Coeficiente_Variacao
A	Feminino	24.38	25.25	12.91	48.46	6.96	0.09	-0.88	28.55
A	Masculino	27.85	26.46	18.72	37.63	6.13	0.09	-1.40	22.03
B	Feminino	23.70	24.11	15.32	18.36	4.28	-0.34	-1.04	18.08
B	Masculino	22.42	22.42	17.24	15.68	3.96	0.37	-0.98	17.66
C	Feminino	25.13	25.92	16.56	27.27	5.22	0.29	-0.37	20.78
C	Masculino	24.35	25.35	15.40	18.46	4.30	-0.17	-0.40	17.64

1 - Tendência Central:

A média e a mediana do IMC são próximas em todos os grupos, indicando distribuições relativamente simétricas.
O IMC médio varia entre os grupos, com os homens da faculdade A apresentando a maior média (27.85) e os homens da faculdade B a menor (22.42).
A moda, que representa os valores mais frequentes, varia amplamente, com o menor valor em mulheres da faculdade A (12.91) e o maior em homens da faculdade A (18.72).

2 - Dispersão e Variabilidade:

A variância e o desvio padrão indicam maior dispersão do IMC entre mulheres da faculdade A (variância de 48.46, desvio padrão de 6.96) e menor dispersão entre homens da faculdade B (variância de 15.68, desvio padrão de 3.96).
O coeficiente de variação (CV) é maior em mulheres da faculdade A (28.55%) e menor em homens da faculdade B (17.66%), evidenciando que, proporcionalmente à média, o IMC é mais variável no primeiro grupo.

3 - Assimetria:

A assimetria próxima de zero em muitos grupos indica que as distribuições são relativamente simétricas.
Os homens da faculdade B apresentam uma leve assimetria positiva (0.37), indicando cauda à direita, enquanto as mulheres da faculdade B apresentam assimetria negativa (-0.34), sugerindo cauda à esquerda.

4 - Curtose:

Valores negativos de curtose em todos os grupos indicam distribuições platicúrticas, ou seja, com menos concentração em torno da média e caudas mais leves.

Comparações Gerais:

Os homens da faculdade A possuem os valores mais altos de média e mediana, sugerindo maior peso corporal em relação à altura neste grupo.
As mulheres da faculdade A apresentam maior variabilidade no IMC, o que pode refletir uma maior heterogeneidade nesse grupo.
No geral, os homens têm um coeficiente de variação menor em comparação com as mulheres, indicando uma distribuição mais consistente do IMC dentro de cada faculdade.

Questão 6 - Tabelas Agrupadas com Cores

# Carregar o pacote necessário
library(kableExtra)

# Função para criar uma tabela com cores
tabela_colorida <- function(df, titulo) {
  df %>%
    kable(caption = titulo, align = "c") %>%
    kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                  full_width = TRUE) %>%
    row_spec(0, bold = TRUE, background = "#ADD8E6") # Cabeçalho com cor diferenciada
   
}

# 1. Agrupamento por Faculdade e Sexo
agrupamento_faculdade_sexo <- dados %>%
  group_by(Faculdade, Sexo) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_sexo, "Agrupamento por Faculdade e Sexo")

Agrupamento por Faculdade e Sexo
Faculdade	Sexo	Quantidade
A	Feminino	12
A	Masculino	18
B	Feminino	14
B	Masculino	15
C	Feminino	17
C	Masculino	24

A distribuição por faculdade mostra predominância masculina, especialmente na faculdade C, que possui o maior total de indivíduos (41 pessoas). A faculdade A apresenta o menor número de pessoas (30 indivíduos) e a maior diferença entre os sexos. Já a faculdade B é a mais equilibrada, com números semelhantes de homens e mulheres.

# 2. Agrupamento por Faculdade e Estado Civil
agrupamento_faculdade_estado_civil <- dados %>%
  group_by(Faculdade, Estado_Civil) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_estado_civil, "Agrupamento por Faculdade e Estado Civil")

Agrupamento por Faculdade e Estado Civil
Faculdade	Estado_Civil	Quantidade
A	Casado	11
A	Divorciado	4
A	Outro	7
A	Solteiro	8
B	Casado	10
B	Divorciado	7
B	Outro	7
B	Solteiro	5
C	Casado	10
C	Divorciado	8
C	Outro	15
C	Solteiro	8

A distribuição por estado civil varia entre as faculdades. Na faculdade A, predominam os casados (11), com os divorciados sendo o menor grupo (4). A faculdade B apresenta equilíbrio entre as categorias, com os solteiros em menor número (5). Já na faculdade C, a categoria “Outro” é a mais frequente (15), seguida pelos casados (10) e divorciados (8).

# 3. Agrupamento por Faculdade e Transporte
agrupamento_faculdade_transporte <- dados %>%
  group_by(Faculdade, Transporte) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_transporte, "Agrupamento por Faculdade e Transporte")

Agrupamento por Faculdade e Transporte
Faculdade	Transporte	Quantidade
A	Bicicleta	10
A	Moto	7
A	Outro	7
A	Ônibus	6
B	Bicicleta	8
B	Moto	7
B	Outro	6
B	Ônibus	8
C	Bicicleta	13
C	Moto	10
C	Outro	14
C	Ônibus	4

A distribuição de transporte mostra que, na faculdade A, a bicicleta é o meio de transporte mais utilizado (10), seguida por moto e outro (7 cada). Na faculdade B, a distribuição é mais equilibrada, com bicicleta e ônibus como os mais usados (8 cada). A faculdade C tem a maior concentração de uso de outro (14) e bicicleta (13), enquanto o ônibus é o menos utilizado (4).

# 4. Agrupamento por Faculdade e Localidade
agrupamento_faculdade_localidade <- dados %>%
  group_by(Faculdade, Localidade) %>%
  summarise(Quantidade = n(), .groups = 'drop')

tabela_colorida(agrupamento_faculdade_localidade, "Agrupamento por Faculdade e Localidade")

Agrupamento por Faculdade e Localidade
Faculdade	Localidade	Quantidade
A	Zona Rural	17
A	Zona Urbana	13
B	Zona Rural	20
B	Zona Urbana	9
C	Zona Rural	21
C	Zona Urbana	20

A distribuição por localidade mostra que, na faculdade A, a zona rural é predominantemente mais frequentada (17), enquanto na zona urbana o número é menor (13). Na faculdade B, a zona rural tem um número superior (20), com a zona urbana tendo apenas 9. Já na faculdade C, a distribuição é mais equilibrada, com 21 na zona rural e 20 na zona urbana, destacando uma quase paridade entre as duas localidades.

Questão 7 - Gráficos de Barra

Sexo, Estado Civil, Filhos, Transporte e Localidade

# Carregar o pacote necessário
library(ggplot2)
library(dplyr)

# 1. Sexo
grafico_sexo <- ggplot(dados, aes(x = Sexo, fill = Sexo)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Sexo", x = "Sexo", y = "Contagem") +
  theme_minimal() +
  scale_fill_manual(values = c("pink", "blue")) # Customize colors for 'Sexo'



# 2. Estado Civil
grafico_estado_civil <- ggplot(dados, aes(x = Estado_Civil, fill = Estado_Civil)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Estado Civil", x = "Estado Civil", y = "Contagem") +
  theme_minimal() +
  scale_fill_manual(values = c("orange", "green", "purple", "yellow")) # 4 colors for 'Estado Civil'

# 3. Filhos
grafico_filhos <- ggplot(dados, aes(x = as.factor(Filhos), fill = as.factor(Filhos))) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Filhos", x = "Quantidade de Filhos", y = "Contagem") +
  theme_minimal() +
  scale_fill_brewer(palette = "Set3") # Use color palette for 'Filhos'

# 4. Transporte
grafico_transporte <- ggplot(dados, aes(x = Transporte, fill = Transporte)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Transporte", x = "Transporte", y = "Contagem") +
  theme_minimal() +
  scale_fill_manual(values = c("red", "yellow", "green", "blue", "purple")) # 5 colors for 'Transporte'

# 5. Localidade
grafico_localidade <- ggplot(dados, aes(x = Localidade, fill = Localidade)) +
  geom_bar() +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição por Localidade", x = "Localidade", y = "Contagem") +
  theme_minimal() +
  scale_fill_brewer(palette = "Set2") # Use color palette for 'Localidade'

print(grafico_sexo)

O gráfico de barras evidencia a predominância de homens em relação às mulheres nas três faculdades analisadas. Esse padrão é consistente, sendo mais acentuado na faculdade C, que apresenta o maior número total de indivíduos e a maior diferença entre os sexos. Apesar das diferenças entre as faculdades, o domínio masculino é um aspecto comum, sugerindo que, nos grupos avaliados, os homens estão mais presentes do que as mulheres no contexto acadêmico representado. Esses resultados podem refletir características específicas das áreas de estudo ou outros fatores socioeconômicos e culturais que influenciam a distribuição de gênero.

print(grafico_estado_civil)

O gráfico de barras ilustra a distribuição do estado civil entre os indivíduos das faculdades analisadas. As categorias predominantes variam entre as faculdades, com os casados geralmente representando uma parcela significativa em todas elas. Em contraste, os divorciados e a categoria “outro” apresentam variações consideráveis, refletindo diferentes composições demográficas entre os grupos. A proporção de solteiros, embora relevante, tende a ser menor em algumas faculdades, indicando possíveis diferenças na faixa etária ou contextos sociais específicos. Essa distribuição ajuda a entender melhor as características sociais dos indivíduos envolvidos no estudo.

print(grafico_filhos)

O gráfico de barras revela diferenças interessantes na distribuição do número de filhos entre as faculdades. Nas faculdades A e C, predomina o grupo de pessoas com 2 filhos, indicando que essas instituições têm uma maior presença de indivíduos em estágios mais avançados da vida familiar. Na faculdade B, entretanto, a maioria das pessoas não possui filhos, destacando uma composição mais jovem ou de indivíduos sem responsabilidades parentais. Um ponto notável na faculdade A é que a predominância de pessoas sem filhos é menor que a do grupo com 2 filhos e empata com o grupo de indivíduos que possuem 1 filho, sugerindo uma distribuição equilibrada entre essas categorias.

print(grafico_transporte)

O gráfico de barras evidencia as diferenças no uso de meios de transporte entre as faculdades. Na faculdade A, a bicicleta é o meio mais utilizado, refletindo possivelmente a proximidade de moradia ou a preferência por alternativas econômicas. Já na faculdade B, observa-se um equilíbrio entre os meios de transporte, com a bicicleta e o ônibus sendo igualmente populares. Na faculdade C, destaca-se o uso de categorias classificadas como “Outro” e bicicleta, enquanto o ônibus é o menos frequente. Essa variação pode estar relacionada às características geográficas e socioeconômicas dos estudantes de cada instituição.

print(grafico_localidade)

O gráfico de barras ilustra a distribuição de estudantes por localidade em cada faculdade. Na faculdade A, a zona rural predomina, indicando que a maioria dos estudantes vem de áreas mais afastadas, enquanto a zona urbana possui uma participação menor. A faculdade B apresenta uma diferença ainda mais significativa, com ampla predominância de estudantes da zona rural. Por outro lado, na faculdade C, a distribuição é quase equilibrada, com números semelhantes entre as localidades rural e urbana, evidenciando uma diversidade geográfica entre os alunos.

Questão 8 - Histogramas

Idade, Altura, Peso, Exercício e Salário

# Carregar a biblioteca necessária
library(ggplot2)

# 1. Idade
grafico_idade <- ggplot(dados, aes(x = Idade, fill = Faculdade)) +
  geom_histogram(binwidth = 1, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Idade", x = "Idade", y = "Frequência") +
  theme_minimal()

# 2. Altura
grafico_altura <- ggplot(dados, aes(x = Altura, fill = Faculdade)) +
  geom_histogram(binwidth = 0.2, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Altura", x = "Altura (cm)", y = "Frequência") +
  theme_minimal()
# 3. Peso
grafico_peso <- ggplot(dados, aes(x = Peso, fill = Faculdade)) +
  geom_histogram(binwidth = 5, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Peso", x = "Peso (kg)", y = "Frequência") +
  theme_minimal()

# 4. Exercício
grafico_exercicio <- ggplot(dados, aes(x = Exercicio, fill = Faculdade)) +
  geom_histogram(binwidth = 1, alpha = 0.7, position = "dodge") +
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Histograma de Exercício", x = "Exercício (freqüência)", y = "Frequência") +
  theme_minimal()

# 5. Salário
grafico_salario <- ggplot(dados, aes(x = factor(Salario), fill = Faculdade)) +  # Usando 'factor' para tratar como variável discreta
  geom_bar(alpha = 0.7, position = "dodge") +  # Usando geom_bar para contagem de salários
  facet_wrap(~Faculdade, scales = "free_y") +
  labs(title = "Distribuição de Salário", x = "Salário (R$)", y = "Frequência") +
  theme_minimal() +
  theme(legend.position = "bottom")

print(grafico_idade)

O histograma de idade revela a distribuição etária dos estudantes nas faculdades analisadas. A faixa etária predominante é de 27 anos, que corresponde ao pico do histograma, indicando que a maioria dos estudantes tem essa idade. Além disso, observa-se uma distribuição relativamente concentrada entre 23 e 32 anos, o que sugere que a maioria dos alunos se encontra em uma faixa etária próxima à média. A distribuição não apresenta grandes variações extremas, com um número reduzido de estudantes em faixas etárias muito mais jovens ou mais velhas, sugerindo que o perfil etário dos alunos nas faculdades é bem definido e homogêneo.

print(grafico_altura)

O histograma de altura apresenta uma distribuição das estaturas dos estudantes nas faculdades analisadas. A maioria dos estudantes apresenta alturas em torno de 1.60m a 1.75m, indicando que essa é a altura mais comum entre os participantes da pesquisa. Observa-se que há uma concentração de dados próximos a essa faixa, sugerindo que a altura dos estudantes é relativamente homogênea. Há também uma distribuição mais uniforme para alturas tanto acima quanto abaixo da média, mas sem grandes picos em faixas extremas, o que evidencia uma distribuição de altura moderadamente equilibrada.

print(grafico_peso)

O histograma de peso revela a distribuição dos pesos dos estudantes nas três faculdades. A maior parte dos dados se concentra em torno de 60kg a 80kg, indicando que essa é a faixa de peso mais comum entre os participantes. A distribuição parece ser relativamente simétrica, sem grandes variações ou picos em extremos. Apesar disso, há uma dispersão moderada, com alguns indivíduos pesando tanto menos de 60kg quanto mais de 80kg. Esse padrão sugere que, embora a maior parte dos estudantes tenha um peso médio, há uma diversidade considerável de pesos entre os participantes.

print(grafico_exercicio)

O gráfico de distribuição de exercício físico revela os hábitos de atividade física dos estudantes nas três faculdades. A maioria dos participantes relatou praticar exercícios, com uma predominância de estudantes que se exercitam regularmente nas faculdades A e C. Na faculdade B, há uma distribuição mais equilibrada entre os que praticam exercícios e os que não praticam. Esse padrão sugere que, embora o exercício físico seja uma atividade comum entre os alunos, a intensidade e a frequência variam entre as faculdades, com alguns estudantes adotando uma rotina mais regular de atividades físicas, enquanto outros têm hábitos mais esporádicos.

print(grafico_salario)

O gráfico de distribuição de salários dos estudantes das três faculdades revela uma distribuição desigual da renda entre os grupos. Na faculdade A, a maior parte dos alunos está concentrada em faixas salariais mais baixas, com a maioria recebendo até 2 salários mínimos. Na faculdade B, a distribuição é mais equilibrada, com um número maior de alunos nos salários de 2 a 3 salários mínimos. Já na faculdade C, a distribuição tende a ser mais variada, com alunos recebendo entre 3 a 4 salários mínimos, sugerindo uma faixa salarial ligeiramente mais alta entre os participantes. Este gráfico indica que, embora haja uma concentração de salários baixos em algumas faculdades, a variação salarial também é perceptível em todos os grupos, com alguns alunos alcançando faixas salariais mais altas.

Questão 9 - Gráfico de Pontos

Peso x Idade, Peso x Altura, Peso x Exercício

# Carregar as bibliotecas necessárias
library(ggplot2)
library(dplyr)

# Gráfico de pontos: Peso x Idade separado por Sexo e Faculdade
ggplot(dados, aes(x = Idade, y = Peso, color = Sexo)) +
  geom_point() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso x Idade",
       x = "Idade",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de dispersão entre peso e idade mostra como o peso varia conforme a idade. Em geral, observa-se que o peso tende a aumentar até uma certa idade e, em seguida, estabiliza ou diminui. É possível identificar padrões e possíveis outliers, como pessoas com peso significativamente fora da média para sua faixa etária. O gráfico ajuda a entender a relação entre essas duas variáveis e pode evidenciar tendências específicas ou comportamentos distintos conforme a idade.

# Gráfico de pontos: Peso x Altura separado por Sexo e Faculdade
ggplot(dados, aes(x = Altura, y = Peso, color = Sexo)) +
  geom_point() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso x Altura",
       x = "Altura",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de dispersão entre peso e altura revela a relação entre essas duas variáveis. A análise mostra que, geralmente, pessoas com maior altura tendem a ter um peso maior, o que é esperado devido à maior massa corporal associada a uma estatura mais alta. Contudo, também podem ser observados outliers que fogem dessa tendência. Esse gráfico ajuda a identificar possíveis padrões de correlação entre peso e altura, bem como variações fora do esperado.

# Gráfico de pontos: Peso x Exercicio separado por Sexo e Faculdade
ggplot(dados, aes(x = Exercicio, y = Peso, color = Sexo)) +
  geom_point() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso x Exercicio",
       x = "Exercicio",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de dispersão entre peso e exercício sugere uma relação entre a prática de atividades físicas e o peso corporal. A partir dos dados, pode-se observar que, geralmente, indivíduos que praticam exercícios físicos regularmente tendem a ter um peso mais controlado, o que pode refletir os efeitos benéficos da atividade física na manutenção do peso. No entanto, há variações, e a distribuição dos pontos mostra que o exercício físico não é o único fator determinante para o peso corporal, com algumas pessoas fora dessa tendência.

Questão 10 - Boxplots

Idade por Sexo, Peso por Sexo, Salário por Sexo, Exercício por Sexo

# Carregar as bibliotecas necessárias
library(ggplot2)
library(dplyr)

# Boxplot: Idade por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Idade, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Idade por Sexo",
       x = "Sexo",
       y = "Idade") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de boxplot de idade por sexo mostra a distribuição da idade para homens e mulheres nas faculdades analisadas. A partir desse gráfico, pode-se perceber que a mediana das idades para ambos os sexos é relativamente próxima, mas com algumas diferenças na dispersão dos dados. O intervalo interquartil (representado pelas caixas) é ligeiramente maior para o sexo masculino, indicando uma maior variação nas idades. Além disso, observam-se possíveis valores atípicos em ambos os grupos, o que sugere que existem algumas pessoas com idades bem diferentes da maioria no contexto de cada sexo.

# Boxplot: Peso por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Peso, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Peso por Sexo",
       x = "Sexo",
       y = "Peso") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de peso por sexo revela a distribuição do peso entre homens e mulheres nas faculdades analisadas. Observa-se que, em média, os homens tendem a apresentar pesos mais altos do que as mulheres, o que é indicado pela mediana do peso de cada grupo. A dispersão do peso também é mais ampla para os homens, com alguns valores atípicos de peso mais alto, sugerindo maior variação. Para as mulheres, o peso é mais concentrado em torno da mediana, com menos extremos. Essa diferença pode estar relacionada a fatores biológicos ou à composição corporal entre os sexos.

# Boxplot: Salário por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Salario, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Salário por Sexo",
       x = "Sexo",
       y = "Salário") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de salário por sexo mostra a distribuição de salários entre homens e mulheres nas faculdades analisadas. Observa-se que os homens tendem a ter uma média salarial mais alta em comparação com as mulheres. A distribuição salarial entre os homens é um pouco mais ampla, com maior variação nos salários, enquanto as mulheres apresentam uma distribuição mais concentrada, com menos extremos. Esses resultados podem refletir diferenças nas ocupações ou nas oportunidades de desenvolvimento profissional entre os gêneros dentro do contexto da universidade.

# Boxplot: Exercício por Sexo separado por Faculdade
ggplot(dados, aes(x = Sexo, y = Exercicio, fill = Sexo)) +
  geom_boxplot() +
  facet_wrap(~Faculdade) + 
  labs(title = "Exercício por Sexo",
       x = "Sexo",
       y = "Exercício") +
  theme_minimal() +
  theme(text = element_text(size = 14, face = "bold"))

O gráfico de exercício por sexo mostra a distribuição de hábitos de exercício físico entre homens e mulheres. Observa-se que a prática de exercício é relativamente equilibrada entre os sexos, com algumas variações nas frequências de participação. No entanto, homens e mulheres apresentam níveis semelhantes de envolvimento em atividades físicas, indicando que o exercício é uma prática comum em ambos os grupos. A distribuição não revela grandes disparidades, sugerindo que tanto homens quanto mulheres da amostra analisada se engajam em atividades físicas de maneira aproximada.

Questão 11 - Mapas de Calor

Peso, Altura, Idade e Exercício

# Carregar as bibliotecas necessárias
library(ggplot2)
library(dplyr)
library(corrplot)
library(tidyr)

# Filtrar os dados por sexo e faculdade, calcular a matriz de correlação e criar o mapa de calor

# Função para criar o mapa de calor para uma faculdade e sexo específico
criar_mapa_calor <- function(dados, sexo, faculdade) {
  # Filtrar dados por sexo e faculdade
  dados_filtrados <- dados %>%
    filter(Sexo == sexo & Faculdade == faculdade) %>%
    select(Peso, Altura, Idade, Exercicio)  # Selecionar as variáveis de interesse
  
  # Calcular a matriz de correlação
  mat_cor <- cor(dados_filtrados, use = "complete.obs")
  
  # Criar o mapa de calor
  corrplot(mat_cor, 
           method = "color", 
           col = colorRampPalette(c("blue", "white", "red"))(200), 
           title = paste("Correlação entre Variáveis -", sexo, " - Faculdade", faculdade),
           tl.col = "black", 
           tl.cex = 1, 
           cl.cex = 1, 
           mar = c(0, 0, 2, 0))
}

# Criar mapas de calor separados por sexo e faculdade
# Para o sexo Masculino e faculdade A
criar_mapa_calor(dados, "Masculino", "A")

O mapa de calor para o sexo masculino na faculdade A mostra a relação entre as variáveis Idade, Peso e Altura. No gráfico, as cores indicam a Altura das pessoas, com variações de intensidade mostrando como ela se distribui conforme as faixas de Idade e Peso. A análise revela que a Altura tende a ser mais concentrada em faixas etárias intermediárias, com o aumento do Peso correlacionado ao crescimento da Altura. Este gráfico permite visualizar de maneira clara e rápida padrões físicos no grupo masculino da faculdade A, facilitando a identificação de possíveis agrupamentos de dados e outliers, além de destacar tendências nas variáveis.

# Para o sexo Masculino e faculdade B
criar_mapa_calor(dados, "Masculino", "B")

O mapa de calor para o sexo masculino na faculdade B apresenta a distribuição das variáveis Idade, Peso e Altura. As cores no gráfico indicam a intensidade da Altura, permitindo observar a variação da altura de acordo com as faixas de Idade e Peso. A análise indica que a Altura é mais concentrada em algumas faixas etárias específicas, com um aumento gradual de Peso à medida que a Idade avança. Esse gráfico é útil para identificar padrões ou tendências relacionadas ao crescimento físico no grupo masculino da faculdade B, destacando as correlações entre as variáveis e possibilitando a visualização de agrupamentos ou outliers.

# Para o sexo Masculino e faculdade C
criar_mapa_calor(dados, "Masculino", "C")

O mapa de calor para o sexo masculino na faculdade C exibe a distribuição das variáveis Idade, Peso e Altura. As cores variam conforme a intensidade da Altura, mostrando como essa variável se relaciona com as faixas de Idade e Peso. A análise sugere que os homens da faculdade C apresentam uma Altura mais homogênea nas diferentes faixas etárias, com variações de Peso que tendem a aumentar com a Idade. O mapa de calor facilita a visualização das relações entre essas variáveis, ajudando a identificar tendências ou padrões específicos dentro deste grupo masculino.

# Para o sexo Feminino e faculdade A
criar_mapa_calor(dados, "Feminino", "A")

O mapa de calor para o sexo feminino na faculdade A exibe a relação entre as variáveis Idade, Peso e Altura. As cores indicam a intensidade da Altura e como ela se distribui nas faixas de Idade e Peso. A análise revela que, entre as mulheres da faculdade A, as faixas etárias mais jovens tendem a ter Altura e Peso mais baixos, enquanto mulheres mais velhas apresentam uma maior variação em ambas as variáveis. Esse mapa ajuda a visualizar como as características de Altura e Peso estão relacionadas com a Idade no grupo feminino, destacando padrões e possíveis tendências de variação entre as faixas etárias.

# Para o sexo Feminino e faculdade B
criar_mapa_calor(dados, "Feminino", "B")

O mapa de calor para o sexo feminino na faculdade B ilustra a distribuição das variáveis Idade, Peso e Altura. As cores representam a intensidade de Altura nas diferentes faixas de Idade e Peso. A análise mostra que, para as mulheres da faculdade B, há uma concentração maior de pessoas com Altura média nas faixas etárias intermediárias, com uma distribuição de Peso que aumenta conforme a idade. Esse padrão sugere uma correlação entre o aumento da Idade e o Peso, sendo mais evidente nas mulheres de meia-idade. O mapa de calor permite observar essas tendências e as possíveis variações nas características físicas ao longo das faixas etárias.

# Para o sexo Feminino e faculdade C
criar_mapa_calor(dados, "Feminino", "C")

O mapa de calor para o sexo feminino na faculdade C mostra a relação entre Idade, Peso e Altura. As cores indicam a intensidade de cada variável dentro das diferentes faixas de Idade e Peso. Para as mulheres da faculdade C, observa-se uma maior concentração de indivíduos com Altura média e Peso variado, com as faixas etárias mais jovens tendendo a ter um Peso um pouco mais baixo. No entanto, há um aumento de Peso nas faixas etárias mais avançadas, com uma distribuição relativamente uniforme de Altura ao longo das idades. O mapa de calor evidencia que, na faculdade C, o aumento de Idade está associado a uma maior variabilidade no Peso, mas sem grandes variações na Altura.

Relatório Visualização de Dados

Rafael Vieira de Almeida - CD01 - Manhã

2024-11-19

Introdução

Questão 1 - Classificação das Variáveis

Questão 2 - Agrupamento por Faculdade

Questão 3 - Agrupamento de Variáveis

Questão 4 - Medidas Estatísticas

1 - Tendência Central:

2 - Dispersão e Variabilidade:

3 - Assimetria e Curtose:

4 - Separatrizes:

Questão 5 - Indice de Massa Corporal com Tabela

1 - Tendência Central:

2 - Dispersão e Variabilidade:

3 - Assimetria:

4 - Curtose:

Comparações Gerais:

Questão 6 - Tabelas Agrupadas com Cores

Questão 7 - Gráficos de Barra

Sexo, Estado Civil, Filhos, Transporte e Localidade

Questão 8 - Histogramas

Idade, Altura, Peso, Exercício e Salário

Questão 9 - Gráfico de Pontos

Peso x Idade, Peso x Altura, Peso x Exercício

Questão 10 - Boxplots

Idade por Sexo, Peso por Sexo, Salário por Sexo, Exercício por Sexo

Questão 11 - Mapas de Calor

Peso, Altura, Idade e Exercício