df <- read.csv("/home/joaolaf/Documentos/DadosCiaMB.csv",header = TRUE,sep = ";",dec = ",")
df
## Civil Instrucao Filhos salario idade procedencia
## 1 solteiro f NA 4.00 26.25 interior
## 2 casado f 1 4.56 32.83 capital
## 3 casado f 2 5.25 36.42 capital
## 4 solteiro m NA 5.73 20.83 outra
## 5 solteiro f NA 6.26 40.58 outra
## 6 casado f 0 6.66 28.00 interior
## 7 solteiro f NA 6.86 41.00 interior
## 8 solteiro f NA 7.39 43.33 capital
## 9 casado m 1 7.59 34.83 capital
## 10 solteiro m NA 7.44 23.50 outra
## 11 casado m 2 8.12 33.50 interior
## 12 solteiro f NA 8.46 27.92 capital
## 13 solteiro m NA 8.74 37.42 outra
## 14 casado f 3 8.95 44.17 outra
## 15 casado m 0 9.13 30.42 interior
## 16 solteiro m NA 9.35 38.67 outra
## 17 casado m 1 9.77 31.58 capital
## 18 casado f 2 9.80 39.58 outra
## 19 solteiro s NA 10.53 25.67 interior
## 20 solteiro m NA 10.76 37.33 interior
## 21 casado m 1 11.06 30.75 outra
## 22 solteiro m NA 11.59 34.17 capital
## 23 solteiro f NA 12.00 41.00 outra
## 24 casado s 0 12.79 26.08 outra
## 25 casado m 2 13.23 32.42 interior
## 26 casado m 2 13.60 35.00 outra
## 27 solteiro f NA 13.85 46.58 outra
## 28 casado m 0 14.69 29.67 interior
## 29 casado m 5 14.71 40.50 interior
## 30 casado m 2 15.99 35.83 capital
## 31 solteiro s NA 16.22 31.42 outra
## 32 casado m 1 16.61 36.33 interior
## 33 casado s 3 17.26 43.58 capital
## 34 solteiro s NA 18.75 33.58 capital
## 35 casado m 2 19.40 48.92 capital
## 36 casado s 3 23.30 42.17 interior
plot(df$Instrucao,col = "red")
plot(df$procedencia,col = "red")
barplot(table(df$Filhos),col = "red")
hist(df$salario, col = "red", main = "histograma do salario")
hist(df$idade, col = "red", main = "Histograma da idade")
mean(df$salario)
## [1] 11.12222
mean(df$Filhos, na = TRUE)
## [1] 1.65
mean(df$idade)
## [1] 35.05083
var(df$salario)
## [1] 21.04477
var(df$Filhos, na = TRUE)
## [1] 1.607895
var(df$idade)
## [1] 44.95764
boxplot(df$salario, col = "blue")
Existe um salário que se afasta muito da mediana, ou seja, pode ser considerado um OUTLIE (uma medida mentirosa) que pode acabar dificultando a análise dos dados
table <- table(df$Instrucao,df$procedencia)
cor(table)
## capital interior outra
## capital 1.0000000 0.8660254 0.9958706
## interior 0.8660254 1.0000000 0.8170572
## outra 0.9958706 0.8170572 1.0000000
Como podemos ver por essa table,as correlações entre as variáveis estão sempre próximas a 1. Isso quer dizer que a relação entre essas variáveis é extremamente forte.
plot(df$salario, df$idade, main = "Disperção entre idade e salario",xlab = "salario",ylab = "idade")
A correlação linear vai nos fornecer o grau de relacionamento linear entre as duas variáveis estudadas:
cor(df$salario,df$idade)
## [1] 0.365186
E, como mostra o gráfico, a relação linear entre eles é fraca, visto que a cor = 0.36 e que o gráfico se encontra totalmente dispesso.
boxplot(df$salario~df$Instrucao)
Nessa análise, vemos que a mediana dos 3 tipos de instrução (fundamental, médio e superior) são bem diferentes. Isso nos indica que o salário tem uma alta relação com o grau de instrução do indivíduo