A base de dados é constituída por funcionários de empresas dos EUA, no ano de 2023 para os cargos de Analista de Dados, Cientista de Dados e Engenheiro de Dados.
job_title
: O cargo ocupado durante o ano.salaryinusd
: O salário em dólares americanos
(USD).type
: Se o trabalhoador é 100% remoto ou 100%
presencial.years_exp
: anos de experiência.Calssifique as 4 variáveis da base de dados.
Considere a seguinte Tabela de dupla entrada com a distribuição
conjunta das frequências das variáveis job_title
e
type
:
Data Analyst | Data Engineer | Data Scientist | total | |
---|---|---|---|---|
presencial | 182 | 324 | 226 | 732 |
remoto | 112 | 163 | 128 | 403 |
total | 294 | 487 | 354 | 1135 |
Data Analyst | Data Engineer | Data Scientist | total | |
---|---|---|---|---|
presencial | 0.2486339 | 0.4426230 | 0.3087432 | 1 |
remoto | 0.2779156 | 0.4044665 | 0.3176179 | 1 |
total | 0.2590308 | 0.4290749 | 0.3118943 | 1 |
Data Analyst | Data Engineer | Data Scientist | total | |
---|---|---|---|---|
presencial | 0.1603524 | 0.2854626 | 0.1991189 | 0.6449339 |
remoto | 0.0986784 | 0.1436123 | 0.1127753 | 0.3550661 |
total | 0.2590308 | 0.4290749 | 0.3118943 | 1.0000000 |
Data Analyst | Data Engineer | Data Scientist | total | |
---|---|---|---|---|
presencial | 0.6190476 | 0.6652977 | 0.6384181 | 0.6449339 |
remoto | 0.3809524 | 0.3347023 | 0.3615819 | 0.3550661 |
total | 1.0000000 | 1.0000000 | 1.0000000 | 1.0000000 |
Se um dos trabalhadores deste estudo fosse selecionado ao acaso, qual a probabilidade dele ser um Cientista de Dados que trabalha presencial?
Se um dos trabalhadores deste estudo fosse selecionado ao acaso e fosse informado que o seu trabalho é remoto, qual a probabilidade dele ser um Cientista de Dados?
Qual a proporção dos Cientista de Dados que trabalham de forma remota?
O gráfico de barras empilhadas para estas duas variáveis está apresentado a seguir. Qual informação você consegue tirar do gráfico?
Considere agora as variáveis years_exp
e
salary_in_usd
.
x = base_2023_$years_exp
y = base_2023_$salary_in_usd
length(x)
## [1] 1135
sum(x)
## [1] 10670
sum(y)
## [1] 165228938
sum(x*y)
## [1] 1783266530
sum(x^2)
## [1] 126912
sum(y^2)
## [1] 2.771858e+13
Considere agora as variáveis salary_in_usd
e
type
.
n | Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | sd | var | |
---|---|---|---|---|---|---|---|---|---|
remoto | 403 | 42533 | 98875 | 142000 | 146875 | 183250 | 310000 | 60439 | 3652910042 |
presencial | 732 | 37558 | 106800 | 140000 | 144861 | 175000 | 385000 | 54806 | 3003644406 |
total | 1135 | 37558 | 105750 | 140000 | 145576 | 179988 | 385000 | 56851 | 3232087854 |
\[ \chi^2 = \sum_{i=1}^s \sum_{j=1}^r \dfrac{(n_{i,j} - n_{i,j}^\star)^2}{n_{i,j}^\star} \qquad C = \sqrt{\dfrac{\chi^2}{\chi^2 + n} } \qquad C^\star = \sqrt{\dfrac{\chi^2}{\chi^2 + n} }\sqrt{\dfrac{k}{k - 1} }\\ \]
\[ var(X) = \dfrac{\sum_{i=1}^n x_i^2}{n} - \left(\dfrac{\sum_{i=1}^n x_i}{n}\right)^2 \qquad sd(X) = \sqrt{var(X)} \\ \]
\[ cov(X,Y) = \left(\dfrac{\sum_{i=1}^n x_i \ y_i}{n} \right) - \ \bar{x} \ \bar{y} \qquad cor(X,Y) = \dfrac{cov(X,Y)}{sd(X)sd(Y)} \\ \]
\[ \overline{var(X)} = \dfrac{\sum_{i=1}^s n_i var_i(X)}{n} \qquad R^2 = 1 - \dfrac{\overline{var}(Y)}{var(Y)}\\ \]