A Base de Dados

A base de dados é constituída por funcionários de empresas dos EUA, no ano de 2023 para os cargos de Analista de Dados, Cientista de Dados e Engenheiro de Dados.

Questão 1

  1. Calssifique as 4 variáveis da base de dados.

  2. Considere a seguinte Tabela de dupla entrada com a distribuição conjunta das frequências das variáveis job_title e type:

Tabela de dupla entrada
Data Analyst Data Engineer Data Scientist total
presencial 182 324 226 732
remoto 112 163 128 403
total 294 487 354 1135
  1. Para as tabelas abaixo indique qual delas é a tabela com frequências relativas pelo total, por linhas e por colunas.
Tabela 1
Data Analyst Data Engineer Data Scientist total
presencial 0.2486339 0.4426230 0.3087432 1
remoto 0.2779156 0.4044665 0.3176179 1
total 0.2590308 0.4290749 0.3118943 1
Tabela 2
Data Analyst Data Engineer Data Scientist total
presencial 0.1603524 0.2854626 0.1991189 0.6449339
remoto 0.0986784 0.1436123 0.1127753 0.3550661
total 0.2590308 0.4290749 0.3118943 1.0000000
Tabela 3
Data Analyst Data Engineer Data Scientist total
presencial 0.6190476 0.6652977 0.6384181 0.6449339
remoto 0.3809524 0.3347023 0.3615819 0.3550661
total 1.0000000 1.0000000 1.0000000 1.0000000
  1. Se um dos trabalhadores deste estudo fosse selecionado ao acaso, qual a probabilidade dele ser um Cientista de Dados que trabalha presencial?

  2. Se um dos trabalhadores deste estudo fosse selecionado ao acaso e fosse informado que o seu trabalho é remoto, qual a probabilidade dele ser um Cientista de Dados?

  3. Qual a proporção dos Cientista de Dados que trabalham de forma remota?

  4. O gráfico de barras empilhadas para estas duas variáveis está apresentado a seguir. Qual informação você consegue tirar do gráfico?

  1. Escolha a medida adequada para calcular a associação entre estas duas variáveis, faça as contas e interprete o resultado.

Questão 2

Considere agora as variáveis years_exp e salary_in_usd.

  1. Veja o gráfico de dispersão destas variáveis e faça as interpretações possíveis.

  1. Com as informações a seguir, calcule a medida adequada para mensurar a associação entre estas duas variáveis.
x = base_2023_$years_exp
y = base_2023_$salary_in_usd
length(x)
## [1] 1135
sum(x)
## [1] 10670
sum(y)
## [1] 165228938
sum(x*y)
## [1] 1783266530
sum(x^2)
## [1] 126912
sum(y^2)
## [1] 2.771858e+13

Questão 3

Considere agora as variáveis salary_in_usd e type.

  1. Veja o boxplot da variável salário separado pelas categorias da variável tipo.

  1. A partir da tabela abaixo calcule a medida de associação adequada para decidir o quanto associadas as variáveis salário e tipo são.
Medidas referente à variável Salário separada por grupos
n Min. 1st Qu. Median Mean 3rd Qu. Max. sd var
remoto 403 42533 98875 142000 146875 183250 310000 60439 3652910042
presencial 732 37558 106800 140000 144861 175000 385000 54806 3003644406
total 1135 37558 105750 140000 145576 179988 385000 56851 3232087854

Fórmulas

\[ \chi^2 = \sum_{i=1}^s \sum_{j=1}^r \dfrac{(n_{i,j} - n_{i,j}^\star)^2}{n_{i,j}^\star} \qquad C = \sqrt{\dfrac{\chi^2}{\chi^2 + n} } \qquad C^\star = \sqrt{\dfrac{\chi^2}{\chi^2 + n} }\sqrt{\dfrac{k}{k - 1} }\\ \]

\[ var(X) = \dfrac{\sum_{i=1}^n x_i^2}{n} - \left(\dfrac{\sum_{i=1}^n x_i}{n}\right)^2 \qquad sd(X) = \sqrt{var(X)} \\ \]

\[ cov(X,Y) = \left(\dfrac{\sum_{i=1}^n x_i \ y_i}{n} \right) - \ \bar{x} \ \bar{y} \qquad cor(X,Y) = \dfrac{cov(X,Y)}{sd(X)sd(Y)} \\ \]

\[ \overline{var(X)} = \dfrac{\sum_{i=1}^s n_i var_i(X)}{n} \qquad R^2 = 1 - \dfrac{\overline{var}(Y)}{var(Y)}\\ \]