---
title: "milse"
author: "Maria Eduarda de Souza Fontes"
date: "2024-09-30"
output: html_document
UNIVERSIDADE ESTADUAL DA PARAÍBA
Curso de tecnologia em ciência de dados
Disciplina: Visualização de dados
Professor: Oseas Machado Gomes

Avaliação da primeira unidade
---

1. Classifique as variáveis do arquivo milse em Qualitativas (Nominal e Ordinal) e quantitativas (Discreta e Contínuas)

Identificamos as variáveis qualitativas e quantitativas. As qualitativas incluem categorias como estado civil e grau de instrução, enquanto as quantitativas são variáveis como número de filhos, salário e idade.

# Qualitativas (Nominais e Ordinais)
qualitativas_nominais <- c("estadocivil", "regiao")
qualitativas_ordinais <- c("Instrucao")

# Quantitativas (Discretas e Contínuas)
quantitativas_discretas <- c("numerofilhos", "idade")
quantitativas_continuas <- c("salario")

2. Agrupe as variáveis qualitativas por: estado civil, grau de instrução e região.

Agrupamos as variáveis qualitativas individualmente: estado civil, grau de instrução e região. Isso nos permite ver quantas pessoas estão em cada categoria.

# Agrupamento das variáveis qualitativas
agrup_estado_civil <- table(dados$estadocivil)
agrup_instrucao <- table(dados$Instrucao)
agrup_regiao <- table(dados$regiao)

3. Agrupe as variáveis por: estado civil e grau de instrução, estado civil e região.

Realizamos agrupamentos combinados, como estado civil com grau de instrução e estado civil com região, para entender a distribuição dessas combinações.

# Agrupamentos múltiplos
agrup_civil_instrucao <- table(dados$estadocivil, dados$Instrucao)
agrup_civil_regiao <- table(dados$estadocivil, dados$regiao)

4. Calcule as medidas de tendência central, separatrizes, variabilidade, assimetria e curtose das variáveis (salário e idade).

Calculamos as principais medidas de tendência central (média, mediana), dispersão (variância, desvio padrão), assimetria e curtose para as variáveis salário e idade. Isso nos dá uma visão mais detalhada da distribuição desses dados.

# Medidas de tendência central e dispersão para salário e idade
summary_salario <- summary(dados$salario)
summary_idade <- summary(dados$idade)

# Cálculo de variância, desvio padrão, coeficiente de variação, assimetria e curtose
var_salario <- var(dados$salario)
var_idade <- var(dados$idade)

sd_salario <- sd(dados$salario)
sd_idade <- sd(dados$idade)

cv_salario <- (sd_salario / mean(dados$salario)) * 100
cv_idade <- (sd_idade / mean(dados$idade)) * 100

skewness_salario <- skewness(dados$salario)
skewness_idade <- skewness(dados$idade)

kurtosis_salario <- kurtosis(dados$salario)
kurtosis_idade <- kurtosis(dados$idade)

5. Faça toda as tabelas de frequências dos itens anteriores.

Geramos tabelas de frequência para as variáveis qualitativas, como estado civil, grau de instrução e região. Isso nos ajuda a entender a proporção de cada categoria em relação ao todo.

# Tabelas de frequência
freq_estado_civil <- prop.table(agrup_estado_civil) * 100
freq_instrucao <- prop.table(agrup_instrucao) * 100
freq_regiao <- prop.table(agrup_regiao) * 100

6. Faça os gráficos para as variáveis estado civil, grau de instrução, número de filhos e região.

Criamos gráficos para visualizar as distribuições das variáveis qualitativas (estado civil, grau de instrução, número de filhos e região). Gráficos de barras mostram o número de ocorrências em cada categoria, enquanto gráficos de setores (pizza) exibem a proporção de cada categoria em relação ao total.

# Estado civil
barplot(agrup_estado_civil, main="Estado Civil", col="blue")

pie(agrup_estado_civil, main="Estado Civil")

Os gráficos mostram que há mais pessoas casadas do que solteiras no conjunto de dados. Visualmente, isso é evidenciado tanto pela barra maior para “casado” no gráfico de barras quanto pela maior fatia correspondente no gráfico de pizza, indicando que a categoria “casado” é predominante.

# Grau de instrução
barplot(agrup_instrucao, main="Grau de Instrução", col="blue")

pie(agrup_instrucao, main="Grau de Instrução")

Os gráficos mostram que a maioria das pessoas possui nível de instrução médio, seguido pelo fundamental, com a menor proporção de pessoas tendo ensino superior. Isso evidencia uma concentração maior no nível médio de instrução em relação aos outros graus educacionais.

# Número de filhos
barplot(table(dados$numerodefilhos), main="Número de Filhos", col="blue")

O gráfico mostra que a maioria das pessoas tem 2 filhos, seguido por aquelas que têm 1 ou 3 filhos. Um número significativo de pessoas também não tem filhos (0 filhos), enquanto o número de pessoas com 5 filhos é o menor representado no gráfico. Isso indica que a maior parte do grupo analisado tem entre 0 e 3 filhos, com destaque para aqueles que têm 2 filhos.

# Região
barplot(agrup_regiao, main="Região", col="blue")

pie(agrup_regiao, main="Região")

Os gráficos mostram uma distribuição equilibrada entre as três regiões (capital, interior e outro). Embora haja pequenas variações, as categorias estão representadas de forma relativamente semelhante, indicando que o número de pessoas em cada região é quase igual no conjunto de dados analisado.

O que podemos concluir no geral ?

Neste trabalho, classificamos as variáveis em qualitativas e quantitativas, agrupamos e analisamos as variáveis qualitativas (estado civil, grau de instrução e região), além de calcularmos medidas descritivas como média, variância, assimetria e curtose para variáveis quantitativas como salário e idade.

Geramos gráficos de barras e de setores para visualizar as distribuições de diferentes categorias. A análise dos gráficos mostrou que:

A maioria das pessoas é casada.
O nível de instrução predominante é o ensino médio.
A maioria das pessoas tem 2 filhos.
A distribuição regional é bastante equilibrada entre as categorias capital, interior e outras regiões.

Esses resultados fornecem uma visão clara da composição do grupo de dados, destacando padrões e tendências relacionadas ao estado civil, educação, número de filhos e região de residência.