VISUALIZAÇÃO DE DADOS
PROFESSOR: OSEAS MACHADO GOMES

Nailton Alves de Alcantara

2024-09-26

Questão 1: Classifique as variáveis do arquivo milse em Qualitativas (Nominal e Ordinal) e quantitativas (Discreta e Contínuas).

As variáveis foram classificadas da seguinte maneira:

Qualitativas:

-Nominal: Estado civil, Região. -Ordinal: Grau de instrução.

Quantitativas:

-Discreta: Número de Filhos. -Contínua: Salário, Idade.

Questão 2: Agrupe as variáveis qualitativas por: estado civil, grau de instrução e região.

Nesta questão, realizamos a análise de dados de uma empresa, agrupando as variáveis qualitativas de estado civil, grau de instrução e região, com o objetivo de entender a distribuição de funcionários em cada uma dessas categorias. Para tal, utilizamos uma tabela de dados que contém informações sobre os funcionários, como estado civil, nível de escolaridade, região de atuação, e mais.

Passo a Passo da Análise

Leitura dos Dados: O primeiro passo foi a leitura de um arquivo Excel contendo as informações dos funcionários. Utilizando a função read_excel, carregamos os dados, e em seguida, renomeamos as colunas para remover possíveis acentos e espaços, facilitando o manuseio do dataframe.

Agrupamento das Variáveis: Utilizando as funções do pacote dplyr, agrupamos os dados por estado civil, grau de instrução, e região. Para cada combinação dessas variáveis, calculamos o número de funcionários pertencentes a cada grupo. Este agrupamento permitiu visualizar a quantidade de funcionários distribuídos entre diferentes estados civis (como casado ou solteiro), níveis de escolaridade (fundamental, médio, superior) e regiões (capital, interior, e outros).

Exibição dos Resultados: Os resultados foram organizados em uma tabela, onde cada linha representa uma combinação de estado civil, grau de instrução, e região, com a respectiva quantidade de funcionários em cada grupo. Além disso, utilizamos a função kable_styling para apresentar a tabela de forma clara e visualmente atraente, utilizando opções como “striped” (linhas alternadas), “hover” (realce ao passar o cursor) e “condensed” (layout mais compacto).

# Definir o caminho do arquivo
file_path <- "C:/Users/Administrator/Documents/A.oseas_machado/milse (2).xlsx"  # Substitua por seu caminho

# Leitura do arquivo Excel
df <- read_excel(file_path)

# Renomeando as colunas para remover acentos e espaços
colnames(df) <- c("Funcionario", "Estado_civil", "Instrucao", "Numero_de_Filhos", "Salario", "Idade", "Regiao")

# Agrupamento
aggregate_func <- df %>%
  group_by(Estado_civil, Instrucao, Regiao) %>%
  summarise(Quantidade = n()) %>%
  arrange(Estado_civil, Instrucao)

## `summarise()` has grouped output by 'Estado_civil', 'Instrucao'. You can
## override using the `.groups` argument.

# Melhorar a tabela com kableExtra
aggregate_func %>%
  kbl(caption = "") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))


Estado_civil	Instrucao	Regiao	Quantidade
casado	fundamental	capital	2
casado	fundamental	interior	1
casado	fundamental	outro	2
casado	medio	capital	4
casado	medio	interior	6
casado	medio	outro	2
casado	superior	capital	1
casado	superior	interior	1
casado	superior	outro	1
solteiro	fundamental	capital	2
solteiro	fundamental	interior	2
solteiro	fundamental	outro	3
solteiro	medio	capital	1
solteiro	medio	interior	1
solteiro	medio	outro	4
solteiro	superior	capital	1
solteiro	superior	interior	1
solteiro	superior	outro	1

Interpretação dos Resultados da tabela acima

Ao observarmos os dados agrupados, podemos notar algumas tendências:

Funcionários Casados: A maior parte dos funcionários casados possui nível médio de escolaridade e estão distribuídos principalmente no interior, com uma menor concentração nas capitais e em outras regiões. Há também um número significativo de funcionários com ensino fundamental distribuídos em várias regiões.

Funcionários Solteiros: Entre os solteiros, observa-se uma distribuição relativamente equilibrada entre ensino fundamental e médio. Um ponto interessante é a maior concentração de funcionários solteiros com ensino fundamental nas regiões mais afastadas (como “outro”).

Essas informações podem ser valiosas para a empresa ao planejar políticas internas, ações de treinamento, ou entender o perfil dos funcionários em diferentes locais. O agrupamento por região e escolaridade também pode ajudar a empresa a identificar a necessidade de capacitação ou alocação de recursos de forma mais eficiente.

Questão 3: Agrupe as variáveis por: estado civil e grau de instrução, estado civil e região.

A tabela “Agrupamento por Estado Civil e Grau de Instrução” apresenta a distribuição dos funcionários de uma empresa de acordo com duas variáveis qualitativas: estado civil e grau de instrução. O objetivo deste agrupamento é analisar a quantidade de funcionários casados e solteiros em diferentes níveis de escolaridade (fundamental, médio, e superior), fornecendo uma visão clara da estrutura de qualificação dos colaboradores.

aggregate_func2 <- df %>%
  group_by(Estado_civil, Instrucao) %>%
  summarise(Quantidade = n()) %>%
  arrange(Estado_civil)

## `summarise()` has grouped output by 'Estado_civil'. You can override using the
## `.groups` argument.

aggregate_func2 %>%
  kbl(caption = "") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))


Estado_civil	Instrucao	Quantidade
casado	fundamental	5
casado	medio	12
casado	superior	3
solteiro	fundamental	7
solteiro	medio	6
solteiro	superior	3

Interpretação dos Dados

Funcionários Casados:

Ensino Fundamental: Há 5 funcionários casados com este nível de escolaridade.

Ensino Médio: A maior parte dos funcionários casados, um total de 12, possui o ensino médio completo, representando o grupo predominante.

Ensino Superior: Apenas 3 funcionários casados possuem ensino superior, o que sugere que há uma menor qualificação acadêmica dentro deste grupo.

Funcionários Solteiros:

Ensino Fundamental: Entre os solteiros, 7 possuem ensino fundamental, sendo o maior grupo entre os solteiros.

Ensino Médio: O número de solteiros com ensino médio é um pouco menor, totalizando 6 funcionários.

Ensino Superior: Similar aos casados, apenas 3 solteiros possuem ensino superior, indicando uma baixa proporção de profissionais altamente qualificados também neste grupo.

Análise Geral

De maneira geral, a maior parte dos funcionários está concentrada no nível de escolaridade médio, tanto para os casados quanto para os solteiros. O número de funcionários com ensino superior é relativamente baixo em ambos os grupos, sugerindo que a empresa possui uma força de trabalho majoritariamente com níveis de escolaridade básico e intermediário. Esses dados podem ser utilizados para direcionar iniciativas de capacitação, promovendo a melhoria da qualificação dos funcionários e, consequentemente, o aumento da produtividade e desenvolvimento profissional interno.

Questão 4: Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose

das variáveis (salário e idade)

A tabela “Medidas Estatísticas de Salário e Idade” apresenta uma análise detalhada das variáveis salário e idade dos funcionários da empresa, destacando as principais medidas de tendência central, variabilidade, assimetria e curtose. Essa análise estatística é importante para compreender a distribuição dos dados e identificar padrões relevantes sobre os colaboradores.

library(e1071)

## Warning: pacote 'e1071' foi compilado no R versão 4.4.1

# Função para calcular estatísticas
# Função para calcular estatísticas
calc_estatisticas <- function(var){
  stats <- c(
    Média = mean(var, na.rm = TRUE),
    Mediana = median(var, na.rm = TRUE),
    Desvio_Padrão = sd(var, na.rm = TRUE),
    Variância = var(var, na.rm = TRUE),
    Assimetria = skewness(var, na.rm = TRUE),
    Curtose = kurtosis(var, na.rm = TRUE),
    Mínimo = min(var, na.rm = TRUE),
    Máximo = max(var, na.rm = TRUE),
    Q1 = quantile(var, 0.25, na.rm = TRUE),
    Q3 = quantile(var, 0.75, na.rm = TRUE)
  )
  return(stats)
}

# Cálculo das medidas para Salário e Idade
salario_stats <- calc_estatisticas(df$Salario)
idade_stats <- calc_estatisticas(df$Idade)

# Exibir estatísticas em uma tabela
estatisticas_df <- data.frame(Métrica = names(salario_stats), Salário = salario_stats, Idade = idade_stats)

estatisticas_df %>%
  kbl(caption = "Medidas Estatísticas de Salário e Idade") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))

Medidas Estatísticas de Salário e Idade
	Métrica	Salário	Idade
Média	Média	11.1222222	34.5833333
Mediana	Mediana	10.1650000	34.5000000
Desvio_Padrão	Desvio_Padrão	4.5874575	6.7374221
Variância	Variância	21.0447663	45.3928571
Assimetria	Assimetria	0.5997938	-0.0616225
Curtose	Curtose	-0.3291263	-0.7619338
Mínimo	Mínimo	4.0000000	20.0000000
Máximo	Máximo	23.3000000	48.0000000
Q1.25%	Q1.25%	7.5525000	30.0000000
Q3.75%	Q3.75%	14.0600000	40.0000000

Interpretação das Medidas Estatísticas

1. Tendência Central:

Média:A média salarial dos funcionários é R$ 11.122,22, enquanto a média de idade é de 34,58 anos. Esses valores indicam os “centros” da distribuição, ou seja, os valores em torno dos quais os dados tendem a se concentrar.

Mediana: A mediana do salário (R$ 10.165) e da idade (34,5 anos) são próximas à média, sugerindo que as distribuições não são altamente enviesadas, pois a mediana é o ponto que divide os dados ao meio.

2. Variabilidade:

Desvio Padrão: O desvio padrão do salário é de R$ 4.587,45, indicando que os salários variam consideravelmente em torno da média. Já o desvio padrão da idade é menor (6,74 anos), o que sugere que a faixa etária dos funcionários é mais concentrada.

Variância: A variância, que é o quadrado do desvio padrão, reflete a dispersão dos valores em relação à média. A variância do salário é 21,04, e da idade é 45,39.

3. Separatrizes:

(1º Quartil): O primeiro quartil (Q1) indica que 25% dos funcionários recebem salários abaixo de R$ 7.552,50 e têm idade inferior a 30 anos.

(3º Quartil): O terceiro quartil (Q3) mostra que 75% dos funcionários recebem até R$ 14.060 de salário, enquanto 75% têm idade até 40 anos.

4. Assimetria:

A assimetria do salário é positiva (0,599), indicando que a distribuição salarial tem uma cauda mais longa à direita, ou seja, há alguns salários mais altos que puxam a média para cima. Em contraste, a assimetria da idade é próxima de zero (-0,061), sugerindo uma distribuição bastante simétrica.

5. Curtose: A curtose do salário (-0,329) e da idade (-0,761) são negativas, indicando que ambas as distribuições são platicúrticas, ou seja, são mais achatadas do que uma distribuição normal, o que sugere uma menor concentração de valores em torno da média.

6. Valores Extremos:

Mínimo e Máximo: O salário mínimo entre os funcionários é de R$ 4.000,00, e o máximo é R$ 23.300,00, enquanto a idade varia de 20 a 48 anos.

Análise Geral

A análise mostra uma distribuição salarial com leve assimetria positiva e uma variabilidade significativa, sugerindo que há uma faixa salarial diversa na empresa, com alguns funcionários recebendo salários substancialmente maiores. A idade dos funcionários, por outro lado, está mais concentrada em torno da média de 34,5 anos, com uma distribuição bastante simétrica.